Por Pedro Halçartégaray
Probablemente sabes que el día de ayer se realizó una de las elecciones más importantes de la historia en Chile, en la cuál la ciudadanía chilena optó por la opción de rechazar, con un 61,8%, la nueva propuesta de constitución presentada por una asamblea constituyente. Sin embargo, en las semanas previas, muchas cuentas de Twitter comenzaron a difundir “modelos matemáticos” que predecían un amplio triunfo de la opción “Apruebo”. Estos utilizaban como input interacciones en redes sociales, análisis de búsquedas en buscadores como Google Trends y otros componentes asociados a la presencia de palabras o conceptos en Internet, entregando predicciones con un supuesto error menor a un 5%. Pero, los resultados del plebiscito dijeron otra cosa.
“Machine Learning”, “Cadenas de Markov”, “Random Forest” son algunos de los términos que se usaron, intentando darle un aire sofisticado a modelos que tenían grandes errores de diseño. En este artículo te contamos cuáles fueron los principales problemas de estos modelos (y de la mayoría de los modelos de Machine Learning mal implementados).
El error de utilizar interacciones online para determinar preferencias
Uno de los modelos que observamos utilizaba como variable de predicción las interacciones en redes sociales, buscando en publicaciones los términos “Apruebo” y “Rechazo” y cuantificando la importancia relativa de cada uno (10 “Apruebos” de 100 búsquedas del algoritmo pesaban lo mismo que 100 “Apruebos” de 1000 búsquedas). Esto presenta varios problemas. El primero, es que no necesariamente escribir el término en una publicación implica una preferencia. Basta con buscar el término en redes sociales para encontrar múltiples ejemplos:
El segundo, y más importante, es que el utilizar las interacciones en redes sociales como aproximación de las preferencias implica el supuesto que los que no escriben por redes sociales mantienen las mismas preferencias. Es decir, se asume que quienes utilizan Twitter son un grupo representativo del resto de la población.
Pero, ¿Quiénes usan esta red social? Los usuarios de Twitter tienen una distribución de edad muy distinta a la del votante chileno. Como podemos ver en las siguientes imágenes, existe gran cantidad de la población chilena (50+) que sólo está representada en un 17.1% en esta red social.
El tercer problema de realizar este análisis es que considera interacciones totales y no interacciones por usuario. Es decir, puede ocurrir que un usuario escriba mucho más seguido que otro y que este afecte al algoritmo de mayor manera. Por ejemplo, uno de los 12 tipos de usuario en Twitter es el llamado “Usuario Merodeador”, quién representa a casi el 40% de los usuarios de esta plataforma. Estos perfiles son los que consumen noticias o información, pero realmente no publican al respecto.
El problema del sesgo en los datos en los modelos del plebiscito
Una de las debilidades que tienen los modelos de Machine Learning tiene que ver con la excesiva confianza que se tiene en ellos y con el desconocimiento sobre los datos que se le proporcionan. Un modelo de Machine Learning reproduce la información que existe en sus datos de entrenamiento. Es decir, si esos datos poseen un sesgo, este sesgo se va a replicar en la predicción, generando un error inminente, que no será detectado por el coeficiente de ajuste del modelo.
Sesgo en los modelos para predecir el plebiscito
El tema del sesgo en los modelos de Machine Learning da para un artículo en solitario, pero básicamente es uno de los temas que más preocupan a los investigadores del área. Sobre todo debido a la rápida aplicación de modelos de Machine Learning en todo ámbito, desde la segmentación de clientes hasta la determinación de condenas judiciales. Por ejemplo, el público notó que Dall-E, una inteligencia artificial capaz de crear imágenes a partir de frases escritas, creaba representaciones sesgadas con los datos disponibles en internet. Al buscar “Una foto de un CEO” la IA mostraba muchas más imágenes de hombres blancos con rasgos estadounidense que de mujeres y/o personas de otras nacionalidades y culturas. Debido a esto el equipo de desarrolladores realizó una mitigación que arregla un poco este problema, sin embargo, el producto no fue pensado de esta forma en un principio.
En el caso práctico de los modelos utilizados para el plebiscito, existió un sesgo importante al utilizar como predictor las interacciones en redes sociales, sobre todo cuando las encuestas mostraban un comportamiento tan distinto entre diferentes edades. Por ejemplo, la encuesta “Pulso Ciudadano”, en su última entrega, mostraba una ventaja de 8 puntos hacia el “Apruebo” entre los jóvenes entre 18 a 30, mientras que, mostraba un triunfo del “Rechazo” de más de 15 puntos en los mayores de 40. Esto, sumado al uso de redes sociales concentrado en menores de 35, debería haber sido una advertencia importante para los desarrolladores que construyeron estos modelos.
Volver a lo fundamental
Para hacer modelos de pronóstico, sobre todo para predecir un plesbicito, es importantísimo tener claridad sobre los fundamentos, sobre todo, los estadísticos y dedicar el tiempo suficiente a entender la información que traen los datos. Es muy fácil caer en replicar sesgos de origen o confiar en la capacidad predictiva que tiene el modelo. Trabajar con modelos implica tener que aceptar la existencia de errores. Sin embargo, en este caso los errores fueron principalmente metodológicos.
Las falencias en las predicciones siempre han existido, recuerda que muchos pensaban que el mundo se iba a acabar el año 2012, sin embargo acá seguimos. Lo importante es conocer los fundamentos y los supuestos implícitos de las metodologías que estamos utilizando, además de compartir solo información confiable en internet.