IA na saúde brasileira: LLMs superam o Revalida, aponta estudo publicado no BMJ

A inteligência artificial seria aprovada no Revalida? Segundo um estudo publicado pela Voa Health em parceria com a Universidade Federal do Paraná (UFPR), a resposta é sim!

O artigo, publicado em fevereiro de 2025 no periódico internacional BMJ Health & Care Informatics, do British Medical Journal, apresenta a primeira análise sistemática do desempenho de 31 modelos de linguagem (LLMs) em questões do Exame Nacional de Revalidação de Diplomas Médicos (Revalida), em português.

O Revalida como ferramenta de validação

Reconhecido por seu rigor técnico e abrangência, o Revalida exige domínio do conhecimento biomédico, protocolos clínicos, diretrizes do SUS e terminologia médica em português. Por isso, foi adotado como base para testar a capacidade dos LLMs de operar em um cenário clínico brasileiro.

O estudo avaliou os modelos com 110 questões objetivas das edições de 2020, 2022 e 2023. O desempenho foi comparado à nota de corte oficial do exame: 67% de acertos.

Resultados: 10 modelos aprovados

Os achados foram expressivos: 10 dos 31 LLMs avaliados no estudo superaram a nota de corte, com destaque para os modelos GPT-4o (OpenAI) e Claude Opus (Anthropic), que ultrapassaram 80% de acertos.

Esses resultados sugerem que os LLMs mais avançados já conseguem aplicar conhecimento clínico com alta consistência em português, abrindo caminho para seu uso como ferramentas de apoio na educação médica e triagem de informações clínicas.

Testar IA em português: por que é crucial?

Modelos de IA são majoritariamente treinados em inglês, o que compromete sua aplicabilidade em contextos de língua portuguesa. Este estudo contribui para preencher essa lacuna, demonstrando ser possível obter bons resultados sem comprometer a segurança ou a adequação linguística.

O uso de uma prova como o Revalida garante relevância científica e contextual, ampliando a confiabilidade desses sistemas no suporte à decisão clínica.

Limitações e aplicações emergentes

Apesar do bom desempenho, os LLMs não compreendem medicina no sentido humano do termo — operam por associação estatística. Isso, no entanto, não inviabiliza seu uso: define com precisão onde e como aplicá-los com responsabilidade.

Áreas promissoras de aplicação incluem:

Educação médica: geração de resumos, explicações didáticas e simulados.
Acesso à informação clínica: respostas rápidas baseadas em guidelines.
Automação de documentos: padronização de relatórios e prescrições.

Com validações adequadas e supervisão profissional, os LLMs funcionam como extensões do raciocínio clínico — ampliando capacidades, não substituindo médicos.

Implicações para o futuro da medicina no Brasil

Em um país com desigualdades regionais, a IA validada e treinada em português pode democratizar o acesso ao conhecimento, apoiar o cuidado primário e contribuir para a equidade em saúde.

A Voa convida médicos, pesquisadores e desenvolvedores a explorarem os resultados completos da pesquisa.

Acesse o estudo:
Benchmarking open-source large language models on Portuguese Revalida multiple-choice questions: https://informatics.bmj.com/content/32/1/e101195

em Publicações científicas

Faça login para deixar um comentário