Acessibilidade é um negócio sério, mas mesmo com IA, a triste realidade é que quem enxerga e ouve muito bem acaba negligenciando essa parte. E com isso, negligenciamos pessoas, o que é chato.
- Empresa japonesa usa IA para traduzir mangás e sofre as consequências
- Trump anuncia Projeto Stargate – maior investimento da história em IA

Um Babel Fish, segundo o Grok (Crédito: Grok)
Muitos anos atrás, no tempo em que a Internet era essencialmente texto, eu freqüentava uma mailing list sobre submarinos. Um dia postei umas imagens. Recebi email de um dos membros (epa!) mais ativos. Ele pediu desculpa pelo incômodo, explicou que era cego e ficou curioso, pediu para que eu descrevesse as fotos.
De lá para cá a situação piorou. A internet se tornou muito mais multimídia. São vídeos, podcasts, GIFs animados, memes, gemidões (ok, aí ser surdo é vantagem).
As ferramentas de acessibilidade também melhoraram, claro. Leitores de tela são bem melhores do que antigamente, e ferramentas como GPT Vision são um presente dos deuses para os cegos. Tradutores estão cada vez mais precisos, mas é sempre algo ativo por parte da pessoa com a deficiência, mas ao menos as ferramentas com IA estão bem poderosas.
Nós, produtores de conteúdo, temos meios de facilitar a vida desse povo, mas a maioria não liga, seja por negligência, seja por preguiça mesmo. Um bom exemplo são as imagens, constantes em todos os blogs e sites, mas raramente com tags ALT, descrevendo-as.
Eu admito e reconheço que não incluo descrições além das legendas, e confesso que é por pura preguiça. É chato demais descrever uma imagem que para nós videntes (esse é o termo, sério) é óbvio. Só que com a tecnologia, isso pode mudar.
Vencendo a preguiça, resolvi criar o BabelPeixe, uma ferramenta usando IA para criar descrições detalhadas de imagens.
A base é o Florence2, um modelo de visão da Microsoft excelente para interpretar imagens e trabalhar em cima delas.
Como framework, prefiro trabalhar com o ComfyUI, que usa nodes. A curva de aprendizado é bem chatinha, mas a flexibilidade compensa.
Objetivo: Ter uma aplicação sempre de prontidão em uma janela do navegador, onde uma imagem é inserida, e com um comando uma descrição detalhada, em português, é gerada.

BabelPeixe – Workflow (Crédito: Carlos Cardoso)
O workflow é trivial; um node carrega o modelo. Mesmo o mais simples, florence-2-base é mais que suficiente. No caso o node cuida de baixar o modelo, caso seja a primeira vez que ele esteja sendo utilizado.
Esse node alimenta o Florence2Run, com um node que carrega a imagem. Esse node aceita drag-and drop.
O node que executa o modelo tem o campo task, onde escolhemos o tipo de legenda (caption) que queremos gerar. O max_new_tokens é -aproximadamente- quantas palavras terá a descrição.
Há vários pontos de saída, nos interessa o caption. Anexe-o a um node ShowText, jogue uma imagem no campo correspondente, mande executar, em alguns segundos você tem sua legenda.
Exceto que… ela veio em inglês. Pois é, Florence não é multilingual. Como resolver isso?
Fácil: Com o node Deep Translator.
Ele recebe um texto como entrada, e acessa vários serviços online. No caso selecionei o tradutor do Google mesmo. Puxei o fluxo da saída caption para a entrada do node, selecionei a linguagem de saída para português, e criei um campo ShowText para receber a tradução.
Funcionou perfeitamente.

Eu adoro essa imagem. (Crédito: Reprodução Internet)
Na imagem acima ele reconheceu até os atores, criando a descrição:
“A imagem mostra dois jovens, Robert Pattinson e Kristen Stewart, sentados em um banco em um parque ou jardim. Ambos estão usando jaquetas pretas e parecem estar envolvidas em uma conversa. Robert está no lado esquerdo da imagem, com as mãos apertadas na frente dele. Kristen está sentada ao lado dele, com as mãos descansando em seu colo. No fundo, há um homem vestindo um casaco preto e óculos de sol, que parece ser um personagem da saga de Twilight. O céu está nublado e há árvores ao fundo.”
No total levei alguns minutos para criar esse workflow, foi algo totalmente trivial que irá melhorar bastante a acessibilidade de meus textos e twits, e no melhor espírito Open Source, ele está disponível aqui no meu GitHub.
Ainda não escrevi instruções detalhadas, mas os principais nodes do ComfyUI utilizados são:
- Florence2 – node ComfyUI
- Comfyui-Translator
- ComfyUI-Custom Scripts
Instale o Comfy, baixe o workflow, e comece a brincar, ficará surpreso com a capacidade dessas IAs.
Ah sim, para que não me acusem de ser 100% altruísta, o Google recompensa com melhor posicionamento sites que usam tags ALT em suas imagens.
BabelPeixe – Usando IA em prol da acessibilidade (e do SEO)