BabelPeixe – Usando IA em prol da acessibilidade (e do SEO) – Agência 30

Acessibilidade é um negócio sério, mas mesmo com IA, a triste realidade é que quem enxerga e ouve muito bem acaba negligenciando essa parte. E com isso, negligenciamos pessoas, o que é chato.

Empresa japonesa usa IA para traduzir mangás e sofre as consequências
Trump anuncia Projeto Stargate – maior investimento da história em IA

A imagem mostra um jovem com cabelos escuros curtos, vestindo uma camiseta preta. Ele está olhando para o lado com uma expressão séria no rosto. Na frente dele, há uma criatura colorida de peixe com um corpo e barbatanas cor de arco-íris. A criatura parece ser um peixe de combate siameses. O fundo está borrado, mas parece ser uma área urbana com edifícios e luzes. O humor geral da imagem é sombrio e misterioso.

Um Babel Fish, segundo o Grok (Crédito: Grok)

Muitos anos atrás, no tempo em que a Internet era essencialmente texto, eu freqüentava uma mailing list sobre submarinos. Um dia postei umas imagens. Recebi email de um dos membros (epa!) mais ativos. Ele pediu desculpa pelo incômodo, explicou que era cego e ficou curioso, pediu para que eu descrevesse as fotos.

De lá para cá a situação piorou. A internet se tornou muito mais multimídia. São vídeos, podcasts, GIFs animados, memes, gemidões (ok, aí ser surdo é vantagem).

As ferramentas de acessibilidade também melhoraram, claro. Leitores de tela são bem melhores do que antigamente, e ferramentas como GPT Vision são um presente dos deuses para os cegos. Tradutores estão cada vez mais precisos, mas é sempre algo ativo por parte da pessoa com a deficiência, mas ao menos as ferramentas com IA estão bem poderosas.

Nós, produtores de conteúdo, temos meios de facilitar a vida desse povo, mas a maioria não liga, seja por negligência, seja por preguiça mesmo. Um bom exemplo são as imagens, constantes em todos os blogs e sites, mas raramente com tags ALT, descrevendo-as.

Eu admito e reconheço que não incluo descrições além das legendas, e confesso que é por pura preguiça. É chato demais descrever uma imagem que para nós videntes (esse é o termo, sério) é óbvio. Só que com a tecnologia, isso pode mudar.

Vencendo a preguiça, resolvi criar o BabelPeixe, uma ferramenta usando IA para criar descrições detalhadas de imagens.

A base é o Florence2, um modelo de visão da Microsoft excelente para interpretar imagens e trabalhar em cima delas.

Como framework, prefiro trabalhar com o ComfyUI, que usa nodes. A curva de aprendizado é bem chatinha, mas a flexibilidade compensa.

Objetivo: Ter uma aplicação sempre de prontidão em uma janela do navegador, onde uma imagem é inserida, e com um comando uma descrição detalhada, em português, é gerada.

A imagem é uma captura de tela de uma tela de computador com a foto de uma pessoa deitada em uma cadeira suspensa. A pessoa está vestindo uma camisa listrada em preto e branco e calça preta e está descansando a cabeça no apoio de braço da cadeira. Eles estão deitados de bruços com os braços esticados para os lados. A cadeira é feita de um material de vime de tecido e possui um encosto e apoios de braços curvos.No lado esquerdo da tela, há um painel com várias opções para o usuário escolher. No lado direito, existem dois botões - "Adicionar imagem" e "editar imagem". O botão "Editar" é destacado, indicando que o usuário está no processo de adicionar uma nova imagem à imagem. Há também um menu suspenso no canto superior direito da imagem com opções para adicionar a imagem, editar a imagem e editá-la.

BabelPeixe – Workflow (Crédito: Carlos Cardoso)

O workflow é trivial; um node carrega o modelo. Mesmo o mais simples, florence-2-base é mais que suficiente. No caso o node cuida de baixar o modelo, caso seja a primeira vez que ele esteja sendo utilizado.

Esse node alimenta o Florence2Run, com um node que carrega a imagem. Esse node aceita drag-and drop.

O node que executa o modelo tem o campo task, onde escolhemos o tipo de legenda (caption) que queremos gerar. O max_new_tokens é -aproximadamente- quantas palavras terá a descrição.

Há vários pontos de saída, nos interessa o caption. Anexe-o a um node ShowText, jogue uma imagem no campo correspondente, mande executar, em alguns segundos você tem sua legenda.

Exceto que… ela veio em inglês. Pois é, Florence não é multilingual. Como resolver isso?

Fácil: Com o node Deep Translator.

Ele recebe um texto como entrada, e acessa vários serviços online. No caso selecionei o tradutor do Google mesmo. Puxei o fluxo da saída caption para a entrada do node, selecionei a linguagem de saída para português, e criei um campo ShowText para receber a tradução.

Funcionou perfeitamente.

A imagem mostra dois jovens, Robert Pattinson e Kristen Stewart, sentados em um banco em um parque ou jardim. Ambos estão usando jaquetas pretas e parecem estar envolvidas em uma conversa. Robert está no lado esquerdo da imagem, com as mãos apertadas na frente dele. Kristen está sentada ao lado dele, com as mãos descansando em seu colo. No fundo, há um homem vestindo um casaco preto e óculos de sol, que parece ser um personagem da saga de Twilight. O céu está nublado e há árvores ao fundo.

Eu adoro essa imagem. (Crédito: Reprodução Internet)

Na imagem acima ele reconheceu até os atores, criando a descrição:

“A imagem mostra dois jovens, Robert Pattinson e Kristen Stewart, sentados em um banco em um parque ou jardim. Ambos estão usando jaquetas pretas e parecem estar envolvidas em uma conversa. Robert está no lado esquerdo da imagem, com as mãos apertadas na frente dele. Kristen está sentada ao lado dele, com as mãos descansando em seu colo. No fundo, há um homem vestindo um casaco preto e óculos de sol, que parece ser um personagem da saga de Twilight. O céu está nublado e há árvores ao fundo.”

No total levei alguns minutos para criar esse workflow, foi algo totalmente trivial que irá melhorar bastante a acessibilidade de meus textos e twits, e no melhor espírito Open Source, ele está disponível aqui no meu GitHub.

Ainda não escrevi instruções detalhadas, mas os principais nodes do ComfyUI utilizados são:

Florence2 – node ComfyUI
Comfyui-Translator
ComfyUI-Custom Scripts

Instale o Comfy, baixe o workflow, e comece a brincar, ficará surpreso com a capacidade dessas IAs.

Ah sim, para que não me acusem de ser 100% altruísta, o Google recompensa com melhor posicionamento sites que usam tags ALT em suas imagens.

BabelPeixe – Usando IA em prol da acessibilidade (e do SEO)

BabelPeixe – Usando IA em prol da acessibilidade (e do SEO)

Newsletter

Obrigado

Posts recentes