O primeiro relatório ARISE sobre IA clínica e as lições transferíveis para qualquer indústria sobre desempenho real vs. percebido.
Existem hoje mais de 1.250 ferramentas de IA aprovadas pela FDA americana. Dois terços dos médicos nos Estados Unidos já utilizam modelos de linguagem no trabalho clínico. A pergunta não é mais "a IA consegue fazer isso?". A pergunta agora é "quão bem ela faz, a que custo, e para quem?".
Em janeiro de 2026, pesquisadores de Stanford e Harvard publicaram o primeiro relatório ARISE (AI Report on Innovation, Safety, and Evaluation), o levantamento mais abrangente já feito sobre o desempenho real da IA em ambiente clínico. O documento não é sobre promessas. É sobre evidências.
E as lições que emergem dele não são apenas para o setor de saúde. São para qualquer indústria que está investindo em IA e precisa separar o que funciona do que apenas parece funcionar.
O estudo mais robusto do relatório é o PRAIM, conduzido na Alemanha. Os números: 463.094 mulheres examinadas, 119 radiologistas participantes, em condições reais de prática clínica. Não é um estudo de laboratório. É o maior teste de IA em mamografia já realizado no mundo.
O modelo testado funciona como rede de segurança. O radiologista faz a leitura normalmente. A IA analisa a mesma imagem de forma independente. Quando há discordância, um segundo radiologista é chamado para desempatar.
O ponto mais importante: os radiologistas menos experientes foram os que mais se beneficiaram, com um ganho de 26.4% na detecção. A IA funcionou como um equalizador de competência.
A implicação para qualquer indústria é direta: IA não precisa substituir o profissional experiente. Precisa elevar o piso de desempenho. Em auditoria, em análise financeira, em due diligence, em controle de qualidade, o modelo é o mesmo: IA como segunda opinião, não como substituta.
O relatório ARISE inclui o benchmark NOHARM, que testou 31 modelos de linguagem contra 100 casos clínicos reais. Os resultados são um alerta para qualquer indústria que está delegando decisões a modelos de linguagem.
Mesmo os melhores modelos cometeram entre 12 e 15 erros graves a cada 100 casos. Erros que, em ambiente clínico, poderiam resultar em danos sérios ao paciente.
O problema mais perigoso não é que os modelos erram. É como eles erram. Diante de ambiguidade clínica, os modelos não sinalizam incerteza. Eles se comprometem firmemente com a resposta errada, com o mesmo tom de confiança que usam para respostas corretas.
E os dados mostram que profissionais seguem recomendações incorretas quando apresentadas com confiança pelo modelo. Isso não é um problema de tecnologia. É um problema de design de interação humano-máquina.
Para qualquer indústria: o risco principal da IA não é o erro. É o erro confiante. Modelos que não sinalizam incerteza induzem humanos a aceitar respostas erradas sem questionamento.
O relatório identifica a IA voltada diretamente ao paciente como a categoria de crescimento mais rápido, mas também a de evidência mais limitada. Chatbots de saúde, aplicativos de triagem, ferramentas de autodiagnóstico.
O problema: a maioria dessas ferramentas mede engajamento, não resultados. Número de interações, tempo de uso, satisfação do usuário. Mas não medem se o paciente tomou a decisão certa, se o diagnóstico estava correto, se o encaminhamento foi adequado.
A lição transferível é clara: em qualquer indústria, medir atividade não é medir resultado. Uma ferramenta de IA para vendas que gera mais propostas não está necessariamente gerando mais receita. Uma ferramenta de IA para RH que acelera triagem de currículos não está necessariamente melhorando a qualidade das contratações.
O relatório ARISE é sobre medicina. Mas as cinco lições que emergem dele se aplicam a qualquer setor que está investindo em IA:
O AI Act da União Europeia entra em vigor em agosto de 2026. O Colorado AI Act, a primeira legislação estadual abrangente de IA nos Estados Unidos, entra em vigor em junho de 2026. Em ambos os casos, sistemas de IA que afetam decisões sobre pessoas precisarão demonstrar explicabilidade, monitoramento de viés e rastreabilidade.
Para empresas que operam globalmente, a mensagem é clara: a capacidade de demonstrar que sua IA funciona, como funciona e para quem funciona não é mais diferencial. É requisito.
O relatório ARISE não é pessimista sobre IA. É exigente. E essa exigência é exatamente o que qualquer indústria precisa para separar investimentos que geram retorno de investimentos que geram apresentações de PowerPoint.
A era de "vamos implementar IA e ver o que acontece" acabou. O que vem agora é avaliação rigorosa, implementação com supervisão, e métricas que meçam o que importa.
Para quem dirige uma empresa, a tradução é direta: mova-se com convicção, mas mova-se com evidência. A IA que funciona já está gerando valor real. A IA que apenas parece funcionar está gerando custo com aparência de inovação.
O relatório ARISE mostra como distinguir uma da outra.