Los modelos de IA buscan atajos que podrían conducir a errores en el diagnóstico de COVID-19



La inteligencia artificial promete ser una herramienta poderosa para mejorar la velocidad y precisión de la toma de decisiones médicas para mejorar los resultados de los pacientes. Desde el diagnóstico de enfermedades hasta la personalización del tratamiento y la predicción de complicaciones de la cirugía, la IA podría convertirse en una parte integral de la atención del paciente en el futuro, como lo son hoy las pruebas de diagnóstico por imágenes y de laboratorio.

Pero como descubrieron los investigadores de la Universidad de Washington, los modelos de IA, como los humanos, tienden a buscar atajos. En el caso de la detección de enfermedades asistida por IA, estos atajos podrían dar lugar a errores de diagnóstico si se implementan en entornos clínicos.

En un nuevo artículo publicado el 31 de mayo en Inteligencia de la máquina de la naturaleza, Los investigadores de la UW examinaron varios modelos presentados recientemente como herramientas potenciales para detectar con precisión COVID-19 a partir de una radiografía de tórax, también conocida como radiografía de tórax. El equipo descubrió que, en lugar de aprender una patología médica genuina, estos modelos se basan en el aprendizaje de atajos para establecer asociaciones falsas entre factores médicamente irrelevantes y el estado de la enfermedad. Aquí, los modelos ignoraron los indicadores clínicamente significativos y, en cambio, se basaron en características como los marcadores de texto o la posición del paciente que eran específicas de cada conjunto de datos para predecir si alguien tenía COVID-19.

“Un médico generalmente esperaría que un hallazgo de COVID-19 en una radiografía se basara en patrones específicos en la imagen que reflejan los procesos de la enfermedad”, dijo el coautor principal Alex DeGrave, quien está cursando su doctorado en Paul G. Allen School of Computer Science & Engineering y un título en medicina como parte del Programa de Capacitación para Científicos Médicos de la UW. “Pero en lugar de depender de esos patrones, un sistema que utilice el aprendizaje de atajos podría, por ejemplo, juzgar que alguien es anciano y así inferir que es más probable que tenga la enfermedad porque es más común en pacientes mayores. El atajo no es incorrecto per se, pero la asociación es inesperada y no transparente. Y eso podría conducir a un diagnóstico inadecuado “.

El aprendizaje de atajos es menos sólido que la patología médica genuina y generalmente significa que el modelo no se generalizará bien fuera del entorno original, dijo el equipo.

“Un modelo que se basa en atajos a menudo solo funcionará en el hospital en el que se desarrolló, por lo que cuando se lleva el sistema a un nuevo hospital, falla, y esa falla puede indicar a los médicos un diagnóstico y un tratamiento incorrectos”. Dijo DeGrave.

Combine esa falta de robustez con la opacidad típica de la toma de decisiones de la IA, y una herramienta de este tipo podría pasar de ser un posible salvavidas a un pasivo.

La falta de transparencia es uno de los factores que llevó al equipo a centrarse en técnicas de IA explicables para la medicina y la ciencia. La mayoría de la IA se considera una “caja negra”: el modelo se entrena en conjuntos de datos masivos y arroja predicciones sin que nadie sepa con precisión cómo se obtuvo el modelo con un resultado determinado. Con una inteligencia artificial explicable, los investigadores y los profesionales pueden comprender, en detalle, cómo varias entradas y sus pesos contribuyeron a la salida de un modelo.

El equipo utilizó estas mismas técnicas para evaluar la confiabilidad de los modelos recientemente promocionados por parecer que identifican con precisión los casos de COVID-19 a partir de radiografías de tórax. A pesar de una serie de artículos publicados que anuncian los resultados, los investigadores sospecharon que algo más podría haber estado sucediendo dentro de la caja negra que llevó a las predicciones de los modelos.

Específicamente, el equipo razonó que estos modelos serían propensos a una condición conocida como “confusión del peor de los casos”, debido a la falta de datos de entrenamiento disponibles para una enfermedad tan nueva. Este escenario aumentó la probabilidad de que los modelos se basen en atajos en lugar de aprender la patología subyacente de la enfermedad a partir de los datos de entrenamiento.

“La confusión en el peor de los casos es lo que permite que un sistema de inteligencia artificial aprenda a reconocer conjuntos de datos en lugar de aprender cualquier patología de la enfermedad verdadera”, dijo el coautor principal Joseph Janizek, quien también es estudiante de doctorado en la Escuela Allen y obtiene un título médico en la UW. “Es lo que sucede cuando todos los casos positivos de COVID-19 provienen de un solo conjunto de datos, mientras que todos los casos negativos están en otro. Y aunque los investigadores han ideado técnicas para mitigar asociaciones como esta en los casos en que esas asociaciones son menos graves, estas técnicas no funcionan en situaciones en las que existe una asociación perfecta entre un resultado como el estado de COVID-19 y un factor como la fuente de datos “.

El equipo entrenó múltiples redes neuronales convolucionales profundas en imágenes de rayos X de un conjunto de datos que replicaba el enfoque utilizado en los artículos publicados. Primero, probaron el rendimiento de cada modelo en un conjunto interno de imágenes de ese conjunto de datos inicial que se había ocultado de los datos de entrenamiento. Luego, los investigadores probaron qué tan bien se desempeñaron los modelos en un segundo conjunto de datos externo destinado a representar nuevos sistemas hospitalarios.

Si bien los modelos mantuvieron su alto rendimiento cuando se probaron en imágenes del conjunto de datos interno, su precisión se redujo a la mitad en el segundo conjunto. Los investigadores se refirieron a esto como una “brecha de generalización” y lo citaron como una fuerte evidencia de que los factores de confusión eran responsables del éxito predictivo de los modelos en el conjunto de datos inicial.

Luego, el equipo aplicó técnicas de inteligencia artificial explicables, incluidas redes generativas de confrontación y mapas de prominencia, para identificar qué características de la imagen eran más importantes para determinar las predicciones de los modelos.

Los investigadores entrenaron los modelos en un segundo conjunto de datos, que contenía casos de COVID-19 positivos y negativos extraídos de fuentes similares y, por lo tanto, se presume que es menos propenso a generar confusión. Pero incluso esos modelos exhibieron una caída correspondiente en el rendimiento cuando se probaron con datos externos.

Estos resultados cambian la sabiduría convencional de que la confusión plantea un problema menor cuando los conjuntos de datos se derivan de fuentes similares. También revelan hasta qué punto los sistemas de IA médica de alto rendimiento podrían aprovechar los atajos indeseables en lugar de las señales deseadas.

Mi equipo y yo seguimos siendo optimistas sobre la viabilidad clínica de la IA para las imágenes médicas. Creo que eventualmente tendremos formas confiables de evitar que la IA aprenda atajos, pero llevará un poco más de trabajo llegar allí. En el futuro, la IA explicable será una herramienta esencial para garantizar que estos modelos se puedan usar de manera segura y efectiva para aumentar la toma de decisiones médicas y lograr mejores resultados para los pacientes “.

Su-In Lee, autor principal, profesor de la Escuela Allen

A pesar de las preocupaciones planteadas por los hallazgos del equipo, es poco probable que los modelos que estudió el equipo se hayan implementado ampliamente en el entorno clínico, dijo DeGrave. Si bien hay evidencia de que al menos uno de los modelos defectuosos, COVID-Net, se implementó en varios hospitales, no está claro si se usó con fines clínicos o únicamente para investigación.

“No se dispone de información completa sobre dónde y cómo se han implementado estos modelos, pero es seguro asumir que el uso clínico de estos modelos es raro o inexistente”, dijo DeGrave. “La mayoría de las veces, los proveedores de atención médica diagnostican COVID-19 mediante una prueba de laboratorio, PCR, en lugar de depender de radiografías de tórax. Y los hospitales son reacios a la responsabilidad, por lo que es aún menos probable que dependan de un sistema de IA relativamente no probado”.

Los investigadores que buscan aplicar la inteligencia artificial a la detección de enfermedades deberán renovar su enfoque antes de que tales modelos puedan usarse para tomar decisiones de tratamiento reales para los pacientes, dijo Janizek.

“Nuestros hallazgos apuntan a la importancia de aplicar técnicas de inteligencia artificial explicables para auditar rigurosamente los sistemas de inteligencia artificial médica”, dijo Janizek. “Si miras un puñado de rayos X, el sistema de inteligencia artificial puede parecer que se comporta bien. Los problemas solo se aclaran una vez que miras muchas imágenes. Hasta que tengamos métodos para auditar de manera más eficiente estos sistemas usando un tamaño de muestra mayor, un más La aplicación sistemática de IA explicable podría ayudar a los investigadores a evitar algunos de los errores que identificamos con los modelos COVID-19 “.

Este grupo ya ha demostrado el valor de la IA explicable para una variedad de aplicaciones médicas más allá de las imágenes. Estos incluyen herramientas para evaluar los factores de riesgo del paciente para las complicaciones durante la cirugía y dirigirse a las terapias contra el cáncer según el perfil molecular de un individuo.

Este artículo es uno de los dos estudios de este grupo que aparecen en la edición actual de Inteligencia de la máquina de la naturaleza. Lee también es la autora principal y correspondiente del segundo artículo, “Mejora del rendimiento de los modelos de aprendizaje profundo con atribuciones axiomáticas previas y gradientes esperados”, para lo cual se asoció con Janizek, su colega MD-Ph.D. estudiante Gabriel Erion, Ph.D. el estudiante Pascal Sturmfels y el profesor afiliado Scott Lundberg de Microsoft Research.

Fuente:

Referencia de la revista:

DeGrave, AJ, et al. (2021) AI para detección radiográfica de COVID-19 selecciona atajos sobre la señal. Nature Machine Intelligence. doi.org/10.1038/s42256-021-00338-7.

.



Source link