Design de Imagens Orientado por Linguagem com Difusão

Edição de imagens através de pedidos expressos em linguagem natural

Sobre

O projecto apoia a investigação na área da edição de imagens através de pedidos expressos em linguagem natural. Até agora, a edição de imagens exigia algum nível de domínio de ferramentas específicas. Permitir que a edição de imagens seja realizada através da descrição da alteração desejada em linguagem natural livre desbloqueará o acesso a um público mais amplo, além de ser um desafio de investigação interessante por si só.

O Desafio

O principal desafio divide-se em duas partes: primeiro, compreender o que está a ser pedido; segundo, realizar a edição solicitada sem efectuar quaisquer outras alterações à imagem.

A Solução

A solução combina sistemas existentes de uma forma inovadora e modular. A compreensão do pedido em linguagem natural é realizada por um modelo de linguagem generativo de grande escala, enquanto a geração da imagem editada é feita por um modelo de difusão de imagens. Uma característica distintiva desta abordagem é que não é necessário treino de modelos, ou seja, os sistemas subjacentes são utilizados tal como estão, o que significa que os resultados melhorarão à medida que versões mais avançadas destes sistemas forem desenvolvidas.

Serviços Providenciados

A INCD forneceu recursos computacionais no âmbito do projecto “Design de Imagens Orientado por Linguagem com Difusão”, financiado pela FCT (2022.15880.CPCA.A1).

Impacto

Os recursos da INCD foram utilizados para executar algumas das experiências descritas em:
R. Santos, J. Silva e A. Branco, 2024, “Leveraging LLMs for On-the-fly Instruction Guided Image Editing”, publicado nos Proceedings of EPIA 2024 (International Conference on Artificial Intelligence).

Parceiros Envolvidos

  • PORTULAN CLARIN – Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, financiada pelo Lisboa 2020, Alentejo 2020 e FCT (PINFRA/22117/2016);
  • ACCELERAT.AI – Centros de Contacto Inteligentes Multilingues, financiado pelo IAPMEI (C625734525-00462629);
  • IMPROMPT – Alteração de Imagens com Instruções Linguísticas, financiado pela FCT (CPCA-IAC/AV/590897/2023)