Estudo recente: IA supera médicos em testes de raciocínio médico com registos de urgência

Tiago Nuno Ribeiro Carvalho • June 22, 2026 16:01

Um estudo recente mostrou que um sistema de IA conseguiu superar médicos numa ampla bateria de testes de raciocínio clínico, incluindo casos complexos de serviço de urgência retirados de registos reais.

Este resultado leva a IA médica para lá do sucesso em exames e aproxima-a da questão mais exigente: se pode ser avaliada com segurança em contexto hospitalar.

IA lida bem com registos desorganizados

Em 76 episódios do serviço de urgência, o modelo teve de trabalhar com notas dispersas, lacunas de informação e decisões tomadas numa fase em que o diagnóstico ainda não estava confirmado.

Arjun K. Manrai é professor assistente e investiga dados médicos na Harvard Medical School (HMS).

Ao confrontar os registos do serviço de urgência com as respostas dos médicos, o Professor Manrai identificou em que pontos o sistema de IA conseguia vantagem.

Essa vantagem manteve-se mesmo antes de os doentes chegarem à fase mais “limpa” e estruturada da admissão hospitalar.

A incerteza inicial - e não casos de manual bem polidos - tornou-se o ponto de maior pressão, deixando o achado difícil de ignorar.

IA supera médicos nas fases iniciais

Na triagem - a primeira etapa de classificação na urgência - o modelo indicou um diagnóstico exacto ou muito próximo em 67.1% dos casos.

Depois de um médico de urgência recolher informação adicional, a taxa subiu para 72.4%, atingindo 81.6% no momento da admissão.

Também os médicos assistentes, que supervisionam os cuidados ao doente, melhoraram à medida que surgiam mais dados, mas os seus resultados iniciais continuaram abaixo dos valores da IA.

Essa diferença fez com que os primeiros minutos de atendimento se tornassem a parte mais reveladora desta comparação.

Os exames antigos já não servem

Desde 1959, casos escritos de diagnóstico têm sido usados por médicos e cientistas de computação para criar referências de avaliação da IA médica, isto é, testes-padrão para comparar sistemas.

Com o tempo, porém, as pontuações em testes de escolha múltipla começaram a perder utilidade, à medida que os modelos mais recentes se aproximavam do topo desses exames antigos.

“Costumávamos avaliar modelos com testes de escolha múltipla; agora eles estão sistematicamente a pontuar perto de 100 por cento e já não conseguimos acompanhar o progresso porque já estamos no tecto”, afirmou o Dr. Peter G. Brodeur, um dos autores principais do estudo.

As pontuações quase perfeitas levaram a equipa a verificar se o desempenho se mantinha quando os registos clínicos reais continuavam desorganizados.

IA sugere diagnósticos e próximos passos

As pontuações foram obtidas com um grande modelo de linguagem - software treinado para gerar texto a partir de padrões em conjuntos de dados massivos.

O sistema pertencia à série o1 da OpenAI, uma família de modelos testada em raciocínio médico passo a passo.

Em vez de seleccionar apenas uma opção, o modelo apresentou diagnósticos prováveis e recomendou qual deveria ser o próximo passo nos cuidados.

Esta tarefa mais ampla aproximou o teste do trabalho diário de um médico, embora continuasse limitada ao que está escrito.

Registos de saúde reais são confusos

Os registos do Beth Israel Deaconess Medical Center (BIDMC), um hospital universitário de Boston, não foram “limpos” antes de serem disponibilizados ao modelo.

Os registos clínicos electrónicos reais - ficheiros digitais com detalhes do cuidado ao doente - costumam misturar notas antigas, entradas repetidas e pistas em falta.

“Não fizemos qualquer pré-processamento dos dados”, disse o Dr. Adam Rodman, investigador clínico no BIDMC.

Entradas confusas são importantes porque pequenas omissões podem alterar qual o diagnóstico que parece suficientemente urgente para ser investigado primeiro.

Como um diagnóstico por IA pode acrescentar riscos

Mesmo quando o diagnóstico principal está correcto, a recomendação pode desviar o cuidado se o sistema pedir exames adicionais desnecessários.

Exames extra - como imagiologia, análises ao sangue ou procedimentos - podem gerar falsos alarmes, atrasos, custos e risco físico.

“Um modelo pode acertar no diagnóstico principal mas também sugerir testes desnecessários que podem expor um doente a danos”, afirmou Brodeur.

Por isso, a segurança depende do conjunto completo de recomendações - e não apenas do primeiro nome na lista de diagnósticos.

Os médicos continuam a ver mais

A prática clínica depende de muito mais do que texto, e este teste não avaliou tudo aquilo que os médicos observam.

Tonalidade de voz, esforço respiratório, postura, imagens, preocupações da família e alterações à cabeceira podem orientar decisões antes de as notas reflectirem a situação.

Os modelos fundacionais actuais - sistemas de IA de uso geral treinados para múltiplas tarefas - ainda têm mais dificuldade quando as pistas decisivas estão no som e nas imagens.

Esse limite impede que o resultado seja usado como argumento para substituir clínicos junto do doente.

IA comparada directamente com médicos

A comparação com pessoas reforçou o trabalho da equipa, porque o modelo não foi avaliado apenas face a software mais antigo.

Centenas de médicos forneceram referências de comparação em desafios de casos, planos de abordagem, estimativas de probabilidade e segundas opiniões em contexto de urgência.

No teste com registos reais do BIDMC, os avaliadores estavam cegos, isto é, não sabiam se um diagnóstico vinha de um humano ou do modelo.

Este desenho reduziu o risco de favoritismo, mas não conseguiu demonstrar se a ferramenta melhora os cuidados a doentes em tempo real.

O futuro da IA na medicina

Pontuações fortes em referências de avaliação criam agora um problema prático para hospitais, reguladores, programadores e doentes, que precisam de evidência.

Ensaios clínicos prospectivos poderiam medir se a assistência por IA altera os resultados dos doentes durante consultas e episódios reais.

“Testámos o modelo de IA contra praticamente todas as referências, e ele eclipsou tanto os modelos anteriores como as nossas linhas de base de médicos”, disse Manrai.

Um desempenho deste nível torna necessário avaliar como o sistema se comporta na prática, onde atrasos, excesso de exames, sinais perdidos e falsa confiança podem influenciar o desfecho.

A mensagem para a medicina não é que as máquinas substituem os médicos, mas que segundas opiniões baseadas em texto poderão em breve tornar-se ferramentas passíveis de testes rigorosos.

Para uma utilização segura, médicos, engenheiros e doentes terão de ponderar, em simultâneo, exactidão, dano, rapidez, custo e confiança.