Modelo O1 de OpenAI

Modelo O1 de OpenAI: ¿Seguirán escalando los LLM?

Por Pablo Senosiain, socio de Notus

“No puedo creer que aún tenga que decir esto, pero los LLM OBVIAMENTE son capaces de razonar. ¡Literalmente puedes ver cómo razonan usando lenguaje, frente a tus propios ojos!”

Dice el tweet de un usuario en la red social. Mientras otro usuario le responde:

“No puedo creer que aún tenga que decir esto, pero los LIBROS OBVIAMENTE son capaces de razonar. ¡Literalmente puedes ver cómo razonan usando lenguaje, frente a tus propios ojos!”

La respuesta sarcástica del segundo usuario es en realidad más profunda de lo que parece, y tiene relación con una interesante discusión y reflexión que se está dando en el mundo científico y tecnológico: ¿Son capaces de razonar los LLM? El tema ha tomado especial relevancia este último mes, luego de que OpenAI lanzara su último modelo, que se promociona con la “capacidad de pensar y razonar”. Aunque la pregunta más general en realidad es ¿Seguirán escalando y adquiriendo nuevas capacidades los LLM en la medida que sigan creciendo?

I ❤️ LLMs

Hay dos discusiones distintas respecto a los LLM. La primera tiene que ver con el valor que poseen los modelos hoy en día, con sus usos, sus funcionalidades actuales, y también sus limitaciones. La segunda se refiere a cómo se proyectan los modelos hacia el futuro, cómo seguirán escalando en el tiempo, cómo van a crecer en capacidades y de qué forma van a continuar cambiando el futuro de la humanidad.

Esta columna no pretende entrar en la primera discusión, porque el valor de los LLM y su impacto en los últimos años es difícil de cuestionar. Han revolucionado diversos aspectos de la actividad humana, demostrando una utilidad extraordinaria. Ayudan a generar contenido, desde textos hasta imágenes y audios, y permiten la transcripción, el resumen y el análisis de grandes volúmenes de datos, haciendo la información masiva más accesible. Sirven también como asistentes digitales que facilitan tareas cotidianas como la corrección ortográfica, la redacción de correos y la creación de todo tipo de borradores. De hecho, han encontrado un especial nicho en la atención de clientes, simulando conversaciones naturales con personas de que buscan apoyo técnico o comercial con sus productos y servicios.

Respecto a la segunda discusión no hay un consenso claro. Este último año muchos optimistas han especulado que, en 1, 2 o quizás 3 años más tendremos una IA general (o AGI) mientras que otros señalan que aún faltan 10, 20 o quizás 50 años más. En su último lanzamiento, OpenAI asegura que O1 Preview tiene la capacidad de “pensar y razonar”, es decir, un avance significativo respecto a GPT4 y GPT4o, y que O1 tendrá una capacidad aún superior. De ser así, la curva de mejora de los modelos se mantendría en alza, lo que empujaría el optimismo de inversionistas, investigadores y desarrolladores.

Sin embargo, hace solo una semana Ilya Sutskever, cofundador y ex científico jefe de OpenAI, mencionó que el método de «escalar el preentrenamiento» —es decir, aumentar la cantidad de datos y la potencia computacional para entrenar modelos— ha llegado a un punto de estancamiento. Según Sutskever, este estancamiento sugiere que ya no se están viendo los avances significativos en la calidad del modelo a pesar del aumento masivo en recursos. ¿Quién tiene la razón?

El objetivo de esta columna es reflexionar un poco acerca de la capacidad emergente de “pensar y razonar” de O1, y ojalá entregar algunas nociones que puedan servir para tener una opinión crítica y aterrizada de lo hay y de lo que falta para la siguiente revolución de la IA.

¿Libros que razonan?

Todos estaríamos de acuerdo con que un libro no sabe razonar por sí mismo, por más que al leerlo, nos encontremos con párrafos que desarrollan una idea compleja, o que contienen la resolución de un problema difícil. Todos sabemos que es el autor del libro quien usa su inteligencia para escribir, y lo que leemos es el resultado de su razonamiento.

Pero ¿qué pasaría si tuviéramos un libro que tiene potencialmente infinitas páginas de texto, y que puede escribirse a sí mismo, en función de lo que le preguntamos? Seguiríamos frente a un libro, pero cuando lo leemos e interactuamos con él, ya no estamos frente a un texto fijo, y tampoco tenemos claro quién es el autor. ¿Cuál es la fuente de esta inteligencia que vemos en el texto?

Para ilustrar mejor, un problema similar se puede presentar en una conversación entre dos personas, por ejemplo, en una entrevista de trabajo. El entrevistador debe evaluar a un candidato a través de una conversación, por medio de preguntas y desafíos. Sin embargo, mientras el candidato responde, el entrevistador no puede saber si lo que está escuchando es el resultado de un proceso de razonamiento, o si es una respuesta memorizada (ej. el candidato se memorizó las respuestas a las preguntas más comunes). Obviamente un buen entrevistador podría realizar preguntas de seguimiento y evaluar correctamente al candidato, pero si disponemos de solo 1 o 2 preguntas, realmente no podríamos saber.

El problema de base en ambos ejemplos es que es muy difícil diferenciar Habilidad con Inteligencia. Podríamos decir que una habilidad es el resultado de un proceso de inteligencia. Sin embargo, mostrar habilidades, en cualquier tipo de tarea no es sinónimo de inteligencia. Siempre será posible mostrar habilidad en cualquier tarea, pero esto no asegura que exista razonamiento o inteligencia por detrás.

En el caso de los LLM, es común atribuir inteligencia a un programa que aprende comportamientos y habilidades, sin embargo, esto es un error. Estamos confundiendo el output del proceso con el proceso mismo.

La Inteligencia es un proceso

Una de las corrientes de pensamiento que intenta explicar el fenómeno de la inteligencia humana considera que la complejidad y variabilidad en cualquier dominio del conocimiento es el resultado de la repetición, composición y transformación de un pequeño número de “núcleos de estructura” o bits de información. Es decir, cualquier situación nueva o problema novedoso se compone de bits de información comunes, ordenados de una forma particular.

En este sentido, la inteligencia es la habilidad de explorar la experiencia disponible (o memoria) para identificar bits de información que son reutilizables. Luego, se usan esos bits para construir abstracciones, como programas, patrones y representaciones. Usar la inteligencia es construir abstracciones y combinarlas para resolver problemas en un contexto novedoso y desconocido (situaciones nuevas).

Personas más inteligentes tienen mayor sensibilidad a las similitudes y patrones, y pueden extraer abstracciones a un menor costo, y usarlas para encontrar el mayor sentido posible a nuevos contextos y futuras experiencias.

A través de este proceso, es posible desarrollar habilidades y comportamientos, que pueden resultar útiles para un contexto ya conocido (ej. tareas repetitivas). En este contexto es que funcionan los LLM. La pregunta es ¿cómo aprenden estas habilidades?

Nuevo modelo O1

Hay consenso entre muchos expertos en IA en que los LLM aún no pueden razonar ni planificar de la forma que lo hacen los humanos. Cuando vemos que parecen razonar, es porque simplemente memorizan trayectorias de razonamiento que estuvieron presentes en la data de entrenamiento. Cuando los modelos crecen (de GPT3 a GPT4, luego a GPT4o y recientemente a O1), crece la información de entrenamiento y también los proceso de RLHF (reinforcement learning with human feedback), esto es, el proceso de retroalimentación humana hacia el modelo, que le indica cómo debe responder y comportarse ante determinadas preguntas o situaciones.

Pongamos un ejemplo. Digamos que GPT3 no puede resolver un cierto tipo de problema matemático. Sin embargo, una persona astuta sabe que este tipo de problema requiere del uso del concepto de simetría para ser resuelto. El modelo de OpenAI (GPT3) no tiene cómo saberlo aún, porque no vio este tipo de problemas en la data de entrenamiento (no dispone de esta trayectoria de razonamiento). Sin embargo, cuando un humano le da una pista al modelo y le dice la respuesta, esta información puede ser almacenada y utilizada por la empresa para futuros modelos (a menos que pagues una mensualidad). Esto se repite para miles o millones de problemas y situaciones. Luego, cuando todos nos asombramos con la capacidad del siguiente modelo (GPT4), es porque los “huecos del queso suizo” se fueron llenando, y las trayectorias de razonamiento conocidas por el modelo ahora abordan muchos más casos y problemas.

Reinforcement learning with human feedback o aprendizaje por refuerzo con feedback humano

Si bien no hay publicaciones científicas que expliquen cómo fue entrenado el nuevo modelo O1, algunos expertos apuntan a que se utilizaron procesos de RLHF para enseñarle a los modelos qué trayectorias de razonamiento utilizar ante miles de problemas o situaciones distintas. Se cree que la receta del entrenamiento sigue la siguiente forma:

  1. Se presentan miles de problemas distintos al modelo.
  2. Para cada problema, se le pide al modelo que genere múltiples cadenas de pensamiento (Chains of Thought, o CoT) con propuestas de cómo resolver el problema. Se usan “temperaturas” cercanas a 1, de forma que el modelo funcione de forma creativa. Esto genera delirios y fantasías, y de vez en cuando, trayectorias de razonamiento acertadas.
  3. A través de feedback humano (RLHF), se seleccionan las CoT que apuntan a una respuesta correcta en la resolución del problema.
  4. El modelo se vuelve a entrenar, usando el feedback humano. El nuevo modelo es capaz de generar las CoT con mayor probabilidad de éxito para cada problema de un usuario.

Con esto, se crea una especie de diccionario gigante de «programas», que funciona como una base de datos estructurada. Esta base de datos contiene soluciones y patrones que el modelo puede reutilizar para resolver problemas similares en el futuro, permitiendo que la respuesta sea rápida y coherente. Usando la base de datos, a partir de un problema puedo hacer una búsqueda y aplicar la receta adecuada. Finalmente, el «pensamiento» del modelo O1 no es un razonamiento en sí, sino más bien un proceso sofisticado de búsqueda en la memoria. Es el desarrollo de un CoT, afinado y seleccionado por medio de feedback humano.

François Chollet, autor de varios bestsellers de Data Science y creador de la biblioteca de IA Keras, estima que hay «probablemente unas 20,000 personas empleadas a tiempo completo solo en crear datos anotados para entrenar modelos de lenguaje de gran escala». Es decir, sin el trabajo humano, el modelo no es capaz de desarrollar sus propias habilidades ni enfrentarse a situaciones nuevas.

Reflexión final

Este momento en la historia de los LLM es quizás el más indicado para entender este concepto de “inteligencia”, ya que es probable que en el corto plazo la diferencia entre habilidad e inteligencia se volverá cada vez más indistinguible, a medida que las brechas se reduzcan, y los “huecos del queso suizo” se terminen por llenar. Mientras no cambie la arquitectura base de los LLM, no debemos perder de vista que la «inteligencia» que vemos en los LLM es en realidad el resultado de habilidades acumuladas, guiadas y seleccionadas por humanos, y no un proceso genuino de razonamiento.

Esto no hace menos útiles a los LLM al día de hoy, pero es fundamental tener en cuenta sus limitaciones para evitar expectativas irreales y entender cómo podemos aprovecharlos mejor en nuestros proyectos y negocios.