Skip to main content

HealthBench: o que realmente importa quando a IA conversa sobre saúde

  • December 8, 2025
  • 1 comentário
  • 9 Visualizações

Andreza Martins

A IA em saúde vai salvar vidas? Talvez.
Mas hoje ela já causa danos reais, e quase ninguém fala sobre isso.

O problema não é só errar um diagnóstico.
É responder com tanta certeza que o paciente confia mais na IA do que no médico ou simplesmente deixa de buscar ajuda profissional.

Foi exatamente por isso que escrevi o primeiro artigo do Lado B da IA, meu novo Substack.

Fui fundo no HealthBench, o benchmark da OpenAI que não testa conhecimento médico, testa comportamento em conversas reais de saúde:
✔️ 3h da manhã, paciente em pânico
✔️ Poucos sintomas, muita angústia
✔️ perguntas delicadas que nenhum médico responderia por chat

Os resultados são preocupantes.

Como criadora de agentes conversacionais no projeto Traduz Saúde (criadora do Dose Certa), eu vejo isso acontecer na prática todos os dias.

E aprendi algumas coisas:
⚠️ Parar de construir IA que “acerta a resposta”.
⚠️ Começar a construir IA que sabe quando calar, quando perguntar mais, quando avisar risco e quando dizer “procure um médico agora”.

No texto mostro os furos do HealthBench, o que o curso de Designer Conversacional da Blip mudou no meu modo de pensar e por que o Brasil precisa com urgência de um benchmark nosso, em português, feito para o jeito brasileiro de falar de saúde.

Leia aqui (10 minutos que valem a pena):
https://lnkd.in/d3FUCfsg

Agora me conta nos comentários:

Você já conhecia o HealthBench?
Já viu alguma IA dar resposta perigosa em saúde?
Ou acha que isso tudo é exagero?
Quero saber o que você pensa de verdade.

1 comentário

Dalton_Yamagishi
Blipper

Andreza, seu texto acerta num ponto que pouca gente quer encarar: o risco não está só no erro técnico, está no jeito que a IA responde. Quando ela fala com convicção demais, mesmo quando deveria recuar, vira um problema de comportamento, não de conhecimento. E comportamento mal calibrado em saúde é perigo real.

Trabalhando com CIs, vejo isso direto. O desafio não é fazer a IA ‘parecer inteligente’, é ensinar limites. Ensinar quando perguntar mais, quando escalar, quando recusar. e isso vale mais do que acertar o nome de uma doença rara.

E sim, o Brasil precisa de benchmarks nossos. Nossa forma de descrever dor, medo, urgência… tudo isso é cultural. Importar métrica gringa sem adaptar é pedir para repetir os mesmos erros.

Parabéns pelo texto. Levanta a discussão que a área de saúde deveria estar tendo há anos.