«Un caso práctico de su uso en lesiones de piel»
Por Gabriel Garib, Data Scientist en Notus
El cáncer de piel y su detección
Quizás no lo sabías, pero un tercio de los casos de cáncer diagnosticados en el mundo se trata de cáncer de piel [1]. Esto ocurre a pesar de que la mayoría de los registros de cáncer no están obligados a reportar diagnósticos de cáncer de piel [16]. En Estados Unidos por ejemplo, el cáncer de piel es la forma más común de cáncer [9]. Mientras tanto, en Chile, esta enfermedad es el tercer diagnóstico más común, y se estima que uno de cada diez chilenos padecerá cáncer de piel en algún momento de su vida [15].
Una herramienta muy útil para detectarlos son los modelos de aprendizaje multimodal. Estos son métodos que permiten combinar y procesar diferentes tipos de datos, como imágenes, texto y audio, para obtener un entendimiento más completo del problema a tratar. En lugar de analizar cada tipo de dato por separado, estos métodos utilizan modelos de aprendizaje de máquina para procesar cada modalidad y luego fusionar esa información para obtener un resultado más enriquecedor [2].
Estos permiten que las máquinas puedan aprender y tomar decisiones considerando múltiples fuentes de información al mismo tiempo [11]. Al combinar datos de diferentes modalidades, se pueden capturar relaciones más complejas y contextos más ricos en los datos, lo que puede llevar a un mejor rendimiento en diversas tareas, como clasificación, detección de objetos y generación de texto a partir de imágenes [2].
Caso Práctico: Uso de Datos de Pacientes en Clasificación Automática de Lesiones de la Piel
En los últimos años, ha habido avances notables en la clasificación automática de lesiones cutáneas a partir de imágenes. Los modelos actuales de clasificación automática de lesiones cutáneas han alcanzado una precisión a nivel de especialistas [5], e incluso en algunos casos han superado al dermatólogo promedio [8].
Sin embargo, el análisis de las imágenes solas ha alcanzado cierto límite. Por esto, el uso de metadatos para la clasificación automática de lesiones cutáneas se ha convertido en un tema de interés. Los metadatos se refieren a la información del paciente que no está contenida en la imagen de la lesión, por ejemplo, la edad del paciente, el género, la parte del cuerpo donde se encuentra la lesión, el diámetro de la lesión, etc. La motivación detrás de esta idea es que es posible encontrar información relevante en este tipo de datos que no necesariamente está contenida en la imagen de la lesión.
¿Cómo lo hicimos?
Con este fin, nos propusimos a entrenar modelos para la clasificación de lesiones usando 3 tipos de input: solamente metadatos, solamente imágenes, y finalmente, imágenes y metadatos combinados usando 3 tipos de modelos de fusión.
Para realizar esto, usamos el conjunto de datos la base de datos PADUFES20 [12]. Este conjunto de datos está compuesto por 2298 imágenes de lesiones cutáneas con varios metadatos del paciente asociados. Por ejemplo: edad, género, ubicación de la lesión en el cuerpo, antecedentes familiares, exposición a pesticidas, etc.
Este conjunto de datos tiene 6 clases distintas de lesiones. A excepción de nevo melanocítico, todas corresponden a tipos de cáncer. Estas clases son:
⋆ Queratosis actínica (ACK)
⋆ Carcinoma de células basales (BCC)
⋆ Melanoma (MEL)
⋆ Nevo melanocítico (NEV)
⋆ Carcinoma de células escamosas (SCC)
⋆ Queratosis seborreica (SEK)
Para evaluar el desempeño de los modelos, nos enfocamos en el balanced accuracy o la exactitud balanceada (BACC). Esta es una métrica de desempeño usada en problemas de clasificación para medir el rendimiento de un modelo en problemas entrenados en conjuntos de datos con clases desequilibradas, como es el caso del conjunto que estamos usando para este ejercicio.
Sólo Metadatos
Usando sólo la información contenida en los metadatos, entrenamos 4 modelos de clasificación basados en Gradient Boosting [7]: Gradient Boosting clásico, XGBoost, LightGBM, y CatBoost.
(a) Nevo Melanocítico (benigno) (b) Melanoma (maligno)
Shap Values del modelo CatBoost entrenado usando sólo metadatos. Notamos que a menor edad del paciente es mayor la incidencia de nevo melanocítico que es un tipo de lesión benigno.
Sólo Imágenes
Usando sólo las imágenes de las lesiones entrenamos 17 modelos de clasificación basados en aprendizaje profundo.
Architecture | Model | Parameters ×106 | Features |
EffNet | EffNetb0 | 4,0 | 1280 |
EffNetb1 | 6,5 | 1280 | |
EffNetb2 | 7,7 | 1408 | |
EffNetb3 | 10,7 | 1536 | |
EffNetb4 | 17,6 | 1792 | |
EffNetb5 | 28,4 | 2048 | |
ResNet | ResNet18 | 11,2 | 512 |
ResNet34 | 21,3 | 512 | |
ResNet50 | 23,5 | 2048 | |
ResNet101 | 42,5 | 2048 | |
ResNet152 | 58,2 | 2048 | |
ResNeXt | ResNeXt50 | 23,0 | 2048 |
ResNeXt101 | 44,5 | 2048 | |
Vgg | Vgg11 | 128,8 | 4096 |
Vgg13 | 129,0 | 4096 | |
Vgg16 | 134,3 | 4096 | |
Vit | Vit-b-32 | 88,2 | 768 |
Imágenes y Metadatos Combinados
Ahora, nos propusimos ver cómo se desempeñan los modelos entrenados usando la combinación de la información de las imágenes y de los metadatos. Para la fusión de información, consideramos 3 métodos distintos: Concatenation, MetaNet, y MetaBlock.
Los resultados del caso práctico sobre Aprendizaje Multimodal
Los resultados de los experimentos que describimos los podemos encontrar resumidos en la siguiente tabla. Notamos que la exactitud balanceada (BACC) de los experimentos que sólo usaron imágenes y de los que sólo usaron metadatos son similares. Sin embargo, podemos ver que los experimentos que usaron alguna combinación de las dos modalidades de información (imágenes y metadatos) presentan un desempeño significativamente mejor que el desempeño de los modelos entrenados sólo con imágenes, y los modelos entrenados sólo con metadatos.
Fusion Model Recall | PADUFES2BACC | 0AUC | |
Image Only | 0,6608 | 0,5295 | 0,8798 |
Metadata Only | 0,7185 | 0,5395 | 0,9001 |
Concatenation | 0,7263 | 0,6337 | 0,9185 |
MetaNet | 0,6975 | 0,5843 | 0,8968 |
MetaBlock | 0,7401 | 0,5962 | 0,9225 |
Mean | 0,7087 | 0,5766 | 0,9035 |
Modelos de aprendizaje multimodal y sus aplicaciones
En este blog presentamos un resumen de tan sólo un caso práctico en el que un modelo de aprendizaje multimodal presenta oportunidades reales para mejorar los resultados que se obtendrían usando cada modalidad por separado. Si quisiéramos ir más lejos, estos modelos pueden ser usados de forma efectiva en un gran número de escenarios, incluyendo:
- Reconocimiento de Emociones: Los modelos multimodales pueden combinar datos de voz, lenguaje corporal y texto para reconocer y comprender las emociones de las personas en situaciones como análisis de sentimientos en redes sociales o detección de emociones en interacciones humanas [10].
- Medicina y Salud: En medicina, los modelos multimodales pueden combinar datos de imágenes médicas, informes clínicos y datos de sensores para ayudar en el diagnóstico de enfermedades y la toma de decisiones clínicas [6].
- Interacción Humano-Computadora: Los modelos multimodales se utilizan en interfaces de usuario para interpretar comandos y respuestas en múltiples modalidades, como voz, gestos y toques, para mejorar la interacción entre humanos y computadoras [13].
- Análisis de Medios Sociales: Para analizar y comprender mejor las tendencias y opiniones en las redes sociales, los modelos multimodales pueden combinar texto, imágenes y videos para extraer información más completa y precisa [3].
- Traducción automática: Los modelos multimodales pueden mejorar la traducción automática de contenido multimedia al considerar no solo el texto sino también las imágenes [17].
- Detección de Fraudes: En el sector financiero, los modelos multimodales pueden combinar información de transacciones, historial de cuentas y otros datos para detectar patrones de fraude más precisos [4].
- Educación: En entornos educativos, los modelos multimodales pueden ayudar a personalizar la experiencia de aprendizaje al considerar diversos datos, como el rendimiento en pruebas, el comportamiento del estudiante y las preferencias de aprendizaje [14].
Estas son solo algunas de las muchas aplicaciones en las que los modelos de aprendizaje multimodal pueden desempeñar un papel importante al aprovechar la información de múltiples modalidades para obtener una comprensión más profunda y completa de los datos. En Notus utilizamos esta y muchas otras herramientas de Machine Learning para solucionar problemas complejos en diversos contextos industriales, estando en la vanguardia de la investigación, ya sea en la clasificación de imágenes o en casos de implementar inteligencia artificial en procesos complejos. ¿Quieres saber un poco más de lo qué hacemos y cómo podemos ayudar a tu empresa en sus decisiones complejas? Conversemos.
Referencias
- Radiation: Ultraviolet (uv) radiation and skin cancer.
- Tadas Baltrušaitis, Chaitanya Ahuja, and Louis-Philippe Morency. Multimodal machine lear- ning: A survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 41(2):423–443, 2018.
- Shih-Fu Chang, Winston Hsu, Alex C. Liu, Tiberio Uricchio, Maria Eskevich, Manuel Ca- rrasco Benitez, Wen-Huang Cheng, Jyh-Shing Wei, and Hsin-Chang Yang. Multimedia data processing for large-scale social networks. In Proceedings of the IEEE, volume 107, pages 1565– 1583, 2019.
- Xiao Ding, Yue Zhang, Shuai Ding, and Yike Guo. Deep learning for event-driven stock predic- tion. Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 219–228, 2015.
- Andre Esteva, Brett Kuprel, Roberto A Novoa, Justin Ko, Susan M Swetter, Helen M Blau, and Sebastian Thrun. Dermatologist-level classification of skin cancer with deep neural networks. nature, 542(7639):115–118, 2017.
- David Dagan Feng and Wynne Hsu. Multimodal deep learning for healthcare applications.
Annual Review of Biomedical Data Science, 4:293–320, 2021.
- Jerome H Friedman. Greedy function approximation: a gradient boosting machine. Annals of statistics, pages 1189–1232, 2001.
- Holger A Haenssle, Christine Fink, Roland Schneiderbauer, Ferdinand Toberer, Timo Buhl, An- dreas Blum, A Kalloo, A Ben Hadj Hassen, Luc Thomas, A Enk, et al. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic me- lanoma recognition in comparison to 58 dermatologists. Annals of oncology, 29(8):1836–1842, 2018.
- Miguel A Linares, Alan Zakaria, and Parminder Nizran. Skin cancer. Primary care: Clinics in office practice, 42(4):645–659, 2015.
- Bing Liu. Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, 5(1):1–167, 2012.
- Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y Ng. Multimodal deep learning. In Proceedings of the 28th international conference on machine learning (ICML-11), pages 689–696, 2011.
- Andre GC Pacheco, Gustavo R Lima, Amanda S Salomão, Breno Krohling, Igor P Biral, Gabriel G de Angelo, Fábio CR Alves Jr, José GM Esgario, Alana C Simora, Pedro BC Castro, et al. Pad-ufes-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. Data in brief, 32:106221, 2020.
- Vladimir I. Pavlovic, Rakesh Sharma, and Thomas S. Huang. Visual interpretation of hand gestures for human-computer interaction: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7):677–695, 1997.
- Mar Pérez-Sanagustín, María Soledad Ramírez-Montoya, and Davinia Hernández-Leo. A review and comparison of learning analytics dashboards for higher education. IEEE Transactions on Learning Technologies, 10(3):342–353, 2017.
- Natalia Sabatini-Ugarte, Montserrat Molgó, and Gustavo Vial. Melanoma en chile¿ cuál es nuestra realidad? Revista Médica Clínica Las Condes, 29(4):468–476, 2018.
- Rebecca L Siegel, Kimberly D Miller, and Ahmedin Jemal. Cancer statistics, 2019. CA: a cancer journal for clinicians, 69(1):7–34, 2019.
- Lucia Specia, Trevor Cohn, and Rada Mihalcea. A shared task on multimodal machine trans- lation and cross-lingual image description. Lecture Notes in Computer Science, 9617:18–64, 201