A Apple acaba de mostrar que é possível reconstruir um objeto tridimensional completo a partir de uma única imagem, e fazer isso de um jeito que engana o olho. O modelo de inteligência artificial desenvolvido pelos pesquisadores da empresa consegue não só recriar a forma do objeto, mas também manter reflexos, brilhos e outros efeitos de luz consistentes quando você muda o ângulo de visão. É como pegar uma foto comum e transformá-la em algo que você pode girar e examinar de todos os lados, sem perder o realismo.
Notícias e promoções imperdíveisDiretamente no seu WhatsAppO projeto, batizado de LiTo (Surface Light Field Tokenization), foi detalhado em um estudo técnico publicado pela equipe de pesquisa da Apple. Diferente de métodos anteriores, que exigiam várias fotos do mesmo objeto capturadas de ângulos diferentes, o LiTo consegue fazer tudo isso com apenas uma imagem de entrada.
Como funciona o espaço latente na prática
Para entender o que a Apple fez, é preciso voltar um passo e falar de um conceito que virou peça-chave na inteligência artificial moderna: o espaço latente. Embora o termo soe técnico, a ideia por trás dele é relativamente simples.
Espaço latente, ou “embedding space”, é o nome dado ao processo de transformar informações, sejam elas palavras, imagens ou objetos tridimensionais, em representações numéricas organizadas em um espaço multidimensional. Isso permite que o computador calcule distâncias entre conceitos e estime probabilidades de forma muito mais rápida e eficiente.
Um exemplo clássico ajuda a visualizar: se você pegar a representação matemática da palavra “rei”, subtrair a de “homem” e somar a de “mulher”, o resultado vai apontar para a região do espaço onde está a palavra “rainha”. Parece mágica, mas é matemática aplicada a grandes volumes de dados.
Embora os exemplos mais conhecidos envolvam texto, o mesmo princípio pode ser aplicado a imagens, sons e até objetos tridimensionais, que é exatamente o que a Apple fez com o LiTo.
O que o LiTo faz de diferente
A maioria dos modelos de reconstrução 3D se concentra em uma de duas coisas: ou reconstrói a geometria do objeto (sua forma), ou prevê como ele deveria aparecer sob luz difusa, sem levar em conta efeitos visuais mais complexos. O problema é que isso deixa de fora detalhes importantes, como reflexos especulares e o efeito Fresnel, aquele brilho que aparece nas bordas de objetos metálicos ou molhados, dependendo do ângulo.
O LiTo, segundo os pesquisadores, resolve isso ao criar uma representação tridimensional que captura tanto a geometria quanto a aparência dependente do ângulo de visão. Como eles explicam no estudo: “Nossa abordagem aproveita o fato de que imagens RGB-profundidade fornecem amostras de um campo de luz de superfície. Ao codificar subamostras aleatórias desse campo em um conjunto compacto de vetores latentes, nosso modelo aprende a representar geometria e aparência dentro de um espaço latente 3D unificado.”
Na prática, isso significa que o modelo não apenas reconstrói o objeto, mas também reproduz como a luz interage com ele de forma realista, mesmo quando você muda o ponto de vista.
Como o modelo foi treinado
Para ensinar o LiTo a fazer isso, os pesquisadores da Apple usaram milhares de objetos renderizados a partir de 150 ângulos de visão diferentes e sob três condições de iluminação. Em vez de alimentar o modelo com todas essas informações de uma vez, o sistema selecionou aleatoriamente pequenos subconjuntos desses dados e os comprimiu em uma representação latente.
Depois, um decodificador foi treinado para reconstruir o objeto completo e sua aparência sob diferentes ângulos e condições de luz, usando apenas esse subconjunto comprimido. Com o tempo, o modelo aprendeu a capturar tanto a forma do objeto quanto como sua aparência muda conforme o ângulo de visão.
Uma vez concluído esse treinamento, os pesquisadores criaram um segundo modelo que pega uma única imagem de um objeto e prevê a representação latente correspondente. O decodificador, então, reconstrói o objeto 3D completo, incluindo os efeitos de luz que variam com o ângulo.
Comparação com outros modelos
A Apple publicou comparações lado a lado entre o LiTo e um modelo chamado TRELLIS, que também faz reconstrução 3D. Nas demonstrações disponíveis na página oficial do projeto, é possível ver que o LiTo mantém reflexos e brilhos de forma muito mais consistente quando o objeto é girado, enquanto o TRELLIS tende a perder esses detalhes ou apresentá-los de forma inconsistente.
A página do projeto também oferece comparações interativas, onde é possível girar os modelos reconstruídos e ver como cada sistema lida com a iluminação e os reflexos em tempo real.
O que isso significa para o futuro
Embora o estudo da Apple seja acadêmico e não tenha sido anunciado como parte de um produto comercial, a tecnologia tem aplicações práticas evidentes. Reconstrução 3D realista a partir de uma única foto pode ser útil em realidade aumentada, design de produtos, jogos e até comércio eletrônico, onde consumidores poderiam visualizar itens de forma muito mais fiel antes de comprar.
Por enquanto, o LiTo é uma demonstração de que é possível capturar não apenas a forma de um objeto, mas também a complexidade de como a luz interage com ele, tudo isso a partir de uma única imagem. E, considerando o histórico da Apple em transformar pesquisa acadêmica em produtos reais, não seria surpresa ver essa tecnologia aparecer em algum dispositivo ou serviço da empresa nos próximos anos.