
OpenAI anuncia o revolucionário DALL-E 3 para geração de imagens por IA
A OpenAI, líder em inteligência artificial, acaba de fazer um anúncio surpreendente: o lançamento do DALL-E 3, a mais nova versão de seu revolucionário sistema de geração de imagens por IA.
Este lançamento é extremamente significativo por três motivos principais:
1. Demonstração de força da OpenAI
Primeiro, mostra que a OpenAI tem recursos mais do que suficientes para desafiar gigantes como o Google em modelos de linguagem, ao mesmo tempo em que desenvolve tecnologias impressionantes de geração de imagens.
2. Novo salto na qualidade da geração de imagens
Na comparação abaixo, vê-se na esquerda uma imagem gerada com o DallE-2 e, na direita, a imagem gerada com o DallE-3, com o mesmo prompt.
Uma pintura a óleo expressiva de um jogador de basquete enterrando a bola, retratada como uma explosão de uma nebulosa.
Em segundo lugar, representa outro grande avanço no estado da arte da geração de imagens por IA. Ainda não se sabe se a qualidade supera sistemas como o Midjourney, mas certamente demonstra uma capacidade bruta muito superior dos modelos da OpenAI – ou seja, o que eles podem fazer em qualquer nível de qualidade.
3. Engenharia de prompts resolvida
E em terceiro, caso a descrição da OpenAI seja precisa, o desafio da engenharia de prompts para esse tipo de IA foi finalmente resolvido. Isso é uma revolução para a criação de arte por IA.
O que o DALL-E 3 pode fazer
De acordo com a OpenAI, o DALL-E 3 entende muito mais nuances e detalhes do que versões anteriores, permitindo traduzir ideias em imagens excepcionalmente precisas.
Isso resolve um dos principais gargalos desse tipo de tecnologia: a dificuldade de criar prompts que convertam com fidelidade uma cena mental em uma imagem para o modelo IA. O DALL-E 3 parece ter finalmente quebrado essa barreira.
Por exemplo, o modelo pode agora representar com precisão uma cena com objetos específicos seguindo relações definidas no prompt. Nem o Midjourney nem o Stable Diffusion conseguem fazer isso atualmente – personagens e objetos isolados são fáceis, mas cenas complexas com múltiplos elementos interagindo continuam sendo um desafio.
Aqui está um exemplo retirado do blog da OpenAI de como o DallE-3 é fiel ao prompt:
DALL-E 3 integrado ao ChatGPT
O DALL-E 3 é construído nativamente sobre o ChatGPT, o que permite usar o ChatGPT como parceiro criativo para gerar e refinar prompts. Basta pedir ao ChatGPT o que deseja ver, de uma frase simples a um parágrafo detalhado.
Quando solicitado com uma ideia, o ChatGPT automaticamente gera prompts personalizados e detalhados para o DALL-E 3, dando vida àquela ideia. Se gostar de uma imagem mas não estiver perfeita, é possível pedir ao ChatGPT para fazer ajustes com poucas palavras.
Outras capacidades do DALL-E 3
Além da precisão inédita em cenas complexas, o DALL-E 3 também resolve problemas como texto em imagens e mãos com número errado de dedos.
O modelo estará disponível em outubro para usuários selecionados, com previsão de lançamento geral depois. Como no DALL-E 2, imagens geradas são de propriedade do criador.
A OpenAI também deu passos para proteger artistas vivos, o que ajuda a encontrar um equilíbrio com a comunidade criativa. O modelo se recusará a copiar estilos individuais, e artistas poderão optar por não ter trabalhos usados no treinamento.
Exemplos de imagens geradas no Dall-E3:
Uma animação 2D de uma banda de música folclórica composta por folhas de outono antropomórficas, cada uma tocando instrumentos tradicionais de bluegrass, em meio a um cenário de floresta rústica pontilhado com a luz suave de uma lua de colheita.
Uma vasta paisagem feita inteiramente de diversos tipos de carnes se estende diante do espectador. Colinas tenras e suculentas de rosbife, árvores de coxas de frango, rios de bacon e pedras de presunto criam uma cena surreal, mas apetitosa. O céu é adornado com um sol de pepperoni e nuvens de salame.
Uma mulher de meia-idade de ascendência asiática, com cabelos escuros mesclados de prateado, aparece fraturada e estilhaçada, intrincadamente embutida em um mar de porcelana quebrada. A porcelana reluz com padrões de tinta respingada em uma mistura harmoniosa de tons brilhantes e foscos de azuis, verdes, laranjas e vermelhos, capturando sua dança em uma justaposição surreal de movimento e imobilidade. Seu tom de pele, uma tonalidade clara como a da porcelana, acrescenta uma qualidade quase mística à sua forma.
Uma ilustração de um coração humano feito de vidro translúcido, posicionado sobre um pedestal em meio a um mar tempestuoso. Raios de sol atravessam as nuvens, iluminando o coração e revelando um pequeno universo dentro dele. A frase “Encontre o universo dentro de você” está gravada em letras negrito no horizonte.
Conclusão
O lançamento surpresa do DALL-E 3 representa uma evolução monumental na geração de imagens por IA, com capacidades antes inimagináveis. Mostra a força da OpenAI e democratiza a criatividade visual. Porém, também levanta questões éticas complexas que precisam ser discutidas conforme essa tecnologia avança. De qualquer forma, é um marco na corrida da IA generativa que promete revolucionar a relação humana com a criatividade e a arte.