Tutorial DALL-E 2 para criar imagens com AI - Principiantes

 



Lê-se Dali, como em Salvador Dalí, o pintor surrealista espanhol.Tão simples quanto mágico. O nome Dall -E juntou o artista e o robot Wall-E no mesmo nome. Os geradores que usam a inteligência artificial estão a tornar a internet um parque de diversões nunca visto para artistas e não artistas. Já não vejo este entusiasmo há muito tempo, há muito tempo mesmo. 

O Dall-E 2é uma app que corre nos nossos browsers e o processamento é feito nos servidores de computadores com grande capacidade de processamento. Inscrevi-me há meses e no primeiro mês de uso recebi 50 créditos, que, francamente desperdicei num instante! Agora tenho15 créditos por mês para gerar imagens. Se não os gastar eles não transitam para o mês seguinte. Se os gastar posso comprar mais créditos: estes expiram no prazo de um ano. Este limite inclui prompts escritos, solicitações de variação e edições – qualquer acção que faça o DALL-E 2gerar um conjunto de novas imagens. Há uma janela de 24 horas também e um limite para gerar nesse período. Todas as imagens começam nos 1024 x 1024 pixels quadrados mas através do Outpainting (adiante explico o que é) conseguimos expandi-las embora isso nos custe créditos. 

Fácil de usar, sem dúvida, mas os termos de uso continuam complicados de entender a fundo. É dito que podemos usar as imagens para qualquer  finalidade legal, inclusive para uso comercial. Isso significa  vender direitos  das imagens ou, por exemplo, incorporá-las em trabalhos como livros, sites e apresentações e comercializá-los de outra forma.Também se diz que as Prompts (as palavras e frases) e Uploads (imagens que lá subimos) são nossos mas a OpenAI é proprietária de todas as Gerações (incluindo Gerações com Uploads, mas não os próprios Uploads), e ainda que temos de fazer as atribuições necessárias quanto à co-participação da AI. Os termos informam que temos direitos exclusivos de reproduzir e exibir tais Gerações. Não entendi bem isto. Quer tenham copyright, isto é, protecção legal, porque têm alguma especificidade, - se uma prompt for mais complexa do que "gato preto", por exemplo, - ou não, eles são donos das imagens geradas? Do que tenho lido, advogados dizem que é impossível que estas imagens tenham copyright, parecendo que são domínio público todas elas. Por outro lado, isto são opiniões de pessoas que interpretam a lei nos EUA, noutros países o entendimento pode ser diferente, creio eu. Na Europa o copyright é atribuido a qualquer  trabalho original fruto da propriedade intelectual. 

Existem algumas regras a observar quando se usa o Dall-E 2. As imagens geradas devem poder ser classificadas como G, - General audiences - o que significa que nudez, sexo, violência ou outros assuntos capazes de ofender crianças estão banidos. Não se pode enviar Uploads para os quais não se possuam os direitos necessários, imagens de pessoas sem o consentimento delas ou prompts destinados a gerar imagens prejudiciais ou ilegais. O Dalle-E 2 pode excluir Prompts e Uploads, ou suspender ou banir a conta por qualquer violação. No caso de celebridades os filtros que estão montados parecem proteger essas pessoas, mas talvez isso não aconteça com uma foto de um nosso conhecido ou do vizinho. Também imagens sobre política e questões controversas estão proibidas.  Tenha cuidado pois a sua conta pode ser fechada ou as imagens geradas bloqueadas e por enquanto os convites demoram um pouco a ser respondidos.

A interface do DALL-E é muito simples, como podem ver no print abaixo. É composta por uma caixa de texto para inserir texto, um botão para gerar imagens. Abaixo dela  está a hipótese de fazer o upload de uma imagem, para edição. Como é que o DALL-E 2 gera imagens? Através de processamento de enorme quantidade de informações, dados como imagens e descrições de texto. Depois de identificar os padrões entre esses dados dá-se a criação da imagem a partir de um "granitado de pontos". Não há junção de imagens, colagem, fusão: é tudo gerado a partir de pontos, do nada. O Dall-E 2 foi treinado a partir de 650 milhões de imagens e legendas mas não foi instruido na forma de as criar segundo regras de composíção ou estilos, por exemplo. Por isso, sempre haverá uma enorme margem de surpresa e de inesperado na criação de imagens. Se, por um lado, perante alguns comandos de texto, o Dall-E 2 nos surpreende com uma estranha exactidão, noutros, é o contrário.


O novo modelo de"difusão", o "2", que agora todos podemos testar, já é mais avançado e são esperadas novas evoluções. Isto ainda é o princípio e já é incrível. Os pesquisadores juntaram modelos que cooperam para gerar as imagens desejadas, capturando vários aspectos diferentes, conforme solicitado pelo texto que fornecemos. Para criar uma imagem com dois componentes, descritos em duas frases, cada modelo aborda um componente específico da imagem. Os modelos trabalham em conjunto para refinar a imagem de modo que o resultado é uma imagem que exibe todos os atributos de cada modelo. Isto permite obter combinações muito mais criativas.

O Dall-E 2 é uma ferramenta de machine learning. "Machine learning" é um ramo da inteligência artificial (IA) e da ciência da computação que se concentra no uso de dados e algoritmos para imitar a maneira como os humanos aprendem, melhorando gradualmente sua precisão. Os algoritmos nada mais são que fórmulas matemáticas que, treinados com um grande volume de dados históricos, são capazes de realizar previsões. As redes neurais são um dos algorítmos usados na geração de imagens. Simulam a maneira como o cérebro humano funciona, com um grande número de nós de processamento vinculados. As redes neurais são boas em reconhecer padrões e desempenham um papel importante em aplicações, incluindo tradução de linguagem natural, reconhecimento de imagem, reconhecimento de fala e criação de imagem. Os sistemas que se servem destes processos podem aprender com dados, identificar padrões e tomar decisões com o mínimo de intervenção humana. Nada disto é estranho: as recomendações da Netflix são um exemplo de aplicações do machine learning. Ou o reconhecimento do nosso discurso pela Siri, ou os assistentes virtuais em sites de compras. Não causam, nem nunca causaram, o mesmo espanto que os geradores de imagem causaram em todos nós mas assentam na aplicação da mesma tecnologia.

Como criar uma imagem usando o Dall-e 2? 

É um modelo text-to-image, logo vamos usar as palavras, de uma forma natural, escrevendo-as numa janela: é o que se chama text prompt. Esta prompt deve ter, de uma forma muito simples, duas partes: o motivo principal e modificadores que vão completar, dando atmosfera, acrescentado caractersísticas, um estilo, etc, a imagem final. De seguida, clica-se no botão Generate e o Dall-e 2 vai gerar uma imagem. Também podemos clicar em Surprise me e o modelo gera uma imagem . Enquanto gera imagens, o modelo mostra-nos dicas que ajudam a desvendar o que fazer. 

Obtemos quatro imagns quadradas  (1024px x 1024px, formato png). Neste caso pedi uma foto de rosto de uma princesa medieval tristonha a comer gelado.
Clica-se nas imagens as para a ver em tamanho grande. Podemos pedir variações de uma delas, guardar ou partilhar.
Escolhi esta para pedir variações e este foi o resultado:


Outra forma de usar Dall-e 2 é fazer o upload de uma imagem. Esta imagem pode ser uma que tenha sido gerada pelo Dall-E ou outra qualquer. Escolha sempre imagens livres de direitos, isto é,  imagens suas, ou que estejam no domínio público ou que possuam uma licença CC. Clique em Upload. Vai receber um aviso:


Depois pode cortar a imagem para obter uma em formato quadrado. A seguir escolha a opção de Editar ou fazer Variações. O Dall-e 2 fará variações da imagem, quatro imagens. Se indicarmos um estilo especial, elas serão todas nesse estilo, caso contrário seremos brindados com variedade. A partir de cada uma podemos criar mais e mais variações.


Depois temos ainda a possibilidade de pedir ao modelo que faça a Edição de uma imagem. Surgem alguns botões para o efeito. O primeiro é de selecção, o segundo para mover, o terceiro a borracha. Do lado direito temos um slide que permite tornar a borracha maior ou mais pequena. Neste caso vou apagar a zona superior da imagem e substitui-la por um céu com núvens. Isto é o que o modelo chama INPAINTING.  Poderia, por exemplo, apagar a estátua e substitui-la, por exemplo, por uma fonte. Vou escrever que quero uma estátua num jardim com um céu com núvens. Temos a informação de que temos de descrever tudo o que queremos e não apenas a zona a preencher, mas creio que ao fazê-lo obtemos uma repetição do que já temos!

Eis o resultado. Não era bem o que tinha em mente. 
Nos meus planos havia maior quantidade de céu!:)
Do lado esquerdo, na imagem original, podem ver  zona apagada: 

O Dall- E 2 apresentou há pouco a possibilidade de fazer OUTPAINTING. Para experimentar o editor do Outpainting, vamos, do lado direito, a Perfil e escolhemos Try Outpainting.


Obtemos, depois de clicar no botão, um "frame de geração". Podemos clicar nele para o mover na área de trabalho. Do lado direito, na parte inferior da tela, temos botões de + e - que permitem fazer Zoom.  O OUTPAINTING vai permitir criar imagens de grande resolução e para isso repetir o processo várias vezes. A borracha mantém-se, no botão e do lado direito. Podemos fazer um upload de uma imagem ou gerar uma de novo. Vou gerar uma nova - pedi um gato vestido de samurai empunhando uma espada  - e irão ser reveladas 4 imagens. Numa barra preta, com pontos, podemos ver as quatro possibilidades que o Dall-e2 entregou usando as setas para avançar e recuar. 

Das quatro imagens, escolhi esta. Agora vamos aumentá-la. Como é que se faz isso? Posicionamos o Generation frame na área que queremos aumentar. Neste caso eu coloquei-o do lado esquerdo, sobrepondo-o o quadrado com parte da imagem original, de forma a que o DALL-E 2 conseguisse perceber o que eu queria: pretendo obter núvens do mesmo tipo, o terreno semelhante e um elemento novo, que acrescentei na prompt: a lua. Temos de lhe dar algum contexto - daí a sobreposição do quadrado -  mas quanto mais dermos menos espaço de geração obtemos. O que obtive foi este resultado:



O Outpainting expande o fundo da imagem, o que também é supreendente e acrescenta continuidade de elementos. Através deste método podemos obter imagens de formato rectangular em vez dos quadrados tradicionais. Através deste processo também é possível juntar imagens diferentes mas isso fica para outra postagem. Neste momento ainda não é possível salvar estas imagens, devemos descarregá-las para as poder guardar. Depois alterei as cores da imagem, já fora do Dall-E 2 e o resultado final ficou assim: 


DALL·E 2 foi criado pela OpenAI, uma organização em San Francisco. Creditados no artigo académico que explica os princípios por trás da ferramenta encontramos os nomes de Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu e Mark Chen.

Deixo algumas dicas que podem ajudar a experimentar o Dall-E-2, mas não deixem de consultar as ajudas abaixo para melhores resultados e poderem fazer o melhor uso possível dos vossos créditos, comprados ou grátis. 

- Usar adjectivos pode afectar a atmosfera da imagem, de forma positiva ou negativa: soft/vibrant
- Usar palavras para exprimir grandezas e qualidades pode determinar o tamanho e formas das composições: Big/small, precise/random,...
- Usar certas estéticas artísticas impacta as imagens: cyberpunk, gothic, post-apocalyptic, steampunk,
- Usar as técnicas fotográficas: framing, (close-up, wide shot),  light (backlighting, sunset, twilight), etc
- Usar técnicas de ilustração tradicional: pencil sketch, airbrush, oil painting, etc
- Usar técnicas de ilustração digital: digital painting, lowpoly, vector art, etc
- Usar técnicas de ilustração 3D: claymation, pattern fabric, 3D render, octane 3D, cinema 4D, Blender
- Desenho de personagens: anime, pixel art
- Usar estilos de ilustradores: Norman Rockwell, Hayao Myazaki...
- Usar arte antiga: Roman mosaic, Ancient Egyptian...
- Usar arte moderna: Impressionism, Realism, Cubism, Pop art...
- Usar materiais: marble, jade, terracotta, gold, plastic...
- ...

Ajuda:


Prompt resources and tools

Free photo-image editing tools

Apenas uma curiosidade! Também pode ter visto imagens geradas com o Dall-E Mini que entretanto foi migrado para o CrayonDall-E Mini é um modelo de IA que cria imagens com base nos prompts tal e qual como o Dall-E 2, embora não esteja relacionado com este. Boris Dayma construiu o programa em Julho de 2021 como parte de uma competição realizada pelo Google e uma comunidade de IA chamada Hugging Face. O Dall-E Mini exibe os resultados na forma de uma grade 3x3 contendo 9 imagens.

Este modelo apresenta uma curiosa nota onde se lê: "Embora as capacidades dos modelos de geração de imagens sejam impressionantes, elas também podem reforçar ou exacerbar preconceitos sociais. Embora a extensão e a natureza dos preconceitos do minimodelo DALL·E ainda não tenham sido totalmente documentadas, dado que o modelo foi treinado em dados não filtrados da Internet, ele pode gerar imagens que contêm estereótipos contra grupos minoritários. O trabalho para analisar a natureza e extensão dessas limitações está em andamento e será documentado com mais detalhes no cartão mini modelo DALL·E." Abaixo, vejam a mesam prompt, no Crayon.


E mais uma chamada de atenção para tipo de conteúdo que podemos gerar no DAlL-E 2 pois enquanto gerava mais umas prompts recebi  meu primeiro aviso! Tive de escrever para o suporte pois li e reli estas normas e não consegui entender a razão de ser do bloqueio.




Não tente criar, carregar ou compartilhar imagens que não tenham classificação G ou que possam causar danos. 
Ódio: símbolos de ódio, estereótipos negativos, comparando certos grupos a animais/objectos, ou expressando ou promovendo ódio com base na identidade. 
Assédio: zombar, ameaçar ou intimidar um indivíduo. 
Violência: actos violentos e sofrimento ou humilhação de outros. 
Automutilação: suicídio, corte, distúrbios alimentares e outras tentativas de se machucar. 
Sexual: nudez, actos sexuais, serviços sexuais ou conteúdo destinado a despertar excitação sexual. Chocante: fluidos corporais, gestos obscenos ou outros assuntos profanos que podem chocar ou repugnar. 
Actividade ilegal: uso de drogas, roubo, vandalismo e outras actividades ilegais. 
Decepção: grandes conspirações ou eventos relacionados a grandes eventos geopolíticos em andamento. Políticos: políticos, urnas, protestos ou outros conteúdos que possam ser usados ​​para influenciar o processo político ou fazer campanha. 
Saúde pública e pessoal: o tratamento, prevenção, diagnóstico ou transmissão de doenças, ou pessoas com problemas de saúde. Spam: conteúdo em massa não solicitado. 
Não engane seu público sobre o envolvimento da IA. Ao compartilhar seu trabalho, incentivamo-lo a divulgar proativamente o envolvimento da IA ​​em seu trabalho. 
Você pode remover a assinatura DALL·E se desejar, mas não pode enganar outros sobre a natureza do trabalho. Por exemplo, você não pode dizer às pessoas que o trabalho foi inteiramente gerado por humanos ou que o trabalho é uma fotografia inalterada de um evento real. 
Respeite os direitos dos outros. 
Não faça upload de imagens de pessoas sem o seu consentimento.
Não faça upload de imagens para as quais você não detém os direitos de uso apropriados. 
Não crie imagens de figuras públicas.

Comentários