Legogpt cria designs de Lego usando a IA e entradas de texto – ferramenta agora disponível gratuitamente para o público

Uma equipe de pesquisa da Carnegie Mellon University construiu um modelo de IA chamado LEGOGPT que gera projetos válidos de LEGO a partir de entradas de texto. De acordo com o trabalho de pesquisa da equipe publicado no Github, eles treinaram “um modelo de idioma grande autoregressivo para prever o próximo tijolo a adicionar através da previsão do próximo token”, mas o principal caminho é que o AI LLM cria designs de Lego do zero.
A IA foi treinada em um conjunto de dados com mais de 47.000 estruturas LEGO que constroem mais de 28.000 objetos 3D exclusivos, incluindo estantes, mesas, cadeiras, carros, navios, guitarras e muito mais. Isso foi usado para treinar o modelo de IA, permitindo criar designs exclusivos e originais apenas a partir de entradas de texto.
A ferramenta está disponível gratuitamente no GitHub e você pode emparelhá -lo com um modelo de visão computacional ou IA de processamento de imagem. Por exemplo, você pode tirar uma foto dos seus tijolos de Lego disponíveis e deixar a IA oferecer uma infinidade de opções exclusivas para construir com o que você já tem.
A equipe adicionou uma verificação de validade e uma reversão consciente da física durante a inferência autoregressiva, garantindo que a saída final seja sempre válida (ou seja, sem tijolos sobrepostos) e estável (ou seja, sem tijolos flutuantes). Além disso, a produção final de Legogpt pode ser construída por humanos e robôs.
Foi assim que a equipe criou o conjunto de dados – StableText2Lego – usado para treinar o LEGOGPT: uma entrada de prompt de texto é primeiro convertida em uma malha de shapeNetCore. Isso é então conectado a uma grade de 20 x 20 x 20 voxel da qual o layout inicial de tijolos LEGO é determinado.
Esse layout é então variado, mantendo a forma geral e, em seguida, os designs instáveis são filtrados a partir da saída final. Os que restam são renderizados em 24 pontos de vista diferentes e, em seguida, o GPT-4O é usado para gerar descrições para a saída final.
É assim que cria um novo design através do texto: o LEGOGPT converte o texto em um design de Lego, que é convertido em tokens de texto ordenados de baixo para cima. As instruções são criadas para emparelhar os tijolos de Lego estruturados com anotações explicando o design, para que a IA compreenda as relações entre o prompt de texto e os tijolos físicos.
A partir daí, o Legogpt prevê o próximo tijolo necessário para construir o design usando um modelo autoregressivo. Isso significa que ele verificará a validade de um tijolo em cada etapa, verificando se estiver bem formatada, existe na biblioteca e não se sobrepõe aos tijolos existentes. Isso continuará até que o design seja concluído, após o que sua estabilidade é testada.
Se a IA determinar que a saída é instável, ele voltará ao último estado estável e continuará gerando a partir desse ponto. Depois de obter uma saída final estável, o design será concluído.
Se você quiser jogar com a IA, a equipe lançou seu conjunto de dados, código e modelos, facilitando a liberação do trabalho da equipe. Um desenvolvimento que podemos ver é se alguém converter isso em um aplicativo de AI para download com uma biblioteca de tijolos personalizáveis.
Seguir Hardware de Tom no Google News Para obter nossas notícias, análises e análises atualizadas em seus feeds. Certifique -se de clicar no botão Siga.