El último 10%
La regla 90/10. Tesla, LLMs, ChatGPT y otras IAs generativas ante el desafío de cumplir lo que prometen.
¿Cuántas veces os ha pasado que, cuando ya creíais que estabáis al final de una iniciativa o proyecto, cuando tan sólo teníais que recorrer la última milla, esta os ha costado casi tanto como todo el camino recorrido hasta el momento? ¡Enhorabuena, habéis descubierto la regla 90/10!
De acuerdo con la Wikipedia, la regla la describió en términos humorísticos un ingeniero de los míticos Bell Labs, Tom Cargill.
El primer 90% del código se lleva el primer 90% del tiempo de desarrollo. El 10% restante, se lleva el otro 90%.
Si sumamos los porcentajes, es fácil ver que suman 180%, lo que es una alusión bastante acertada del sobrecoste típico que nos encontramos en la mayoría de desarrollos de software.
Hay ocasiones, en problemas especialmente complejos dónde ese último 10% puede llevar décadas. Un ejemplo reciente lo encontramos en el desarrollo del telescopio James Webb por la NASA. Inicialmente planeado para lanzarse a órbita en 2010, este sólo llegó al espacio una década después.
Hoy quiero ahondar en otros dos problemas complejos que, en mi opinión, también se están enfrentando al problema del último 10%.
Tesla y la conducción autónoma
Un ejemplo paradigmático de la regla 90/10 la encontramos en Tesla, Elon Musk, y sus promesas de entregar su modo de conducción autónoma, denominado Full Self Driving (FSD).
Tesla lleva trabajando más de una década para conseguirlo. En 2016 incluso comenzó la preventa del sistema, que sólo entró en Beta en Octubre de 2020. Y en Beta sigue.
Musk lleva, al menos desde 2014, vendiendo el FSD. La primera referencia la encontramos en esta entrevista en la CNN en la que Musk afirma que un Tesla sería capaz de conducir el 90% en piloto automático al año siguiente.
Justo la semana pasada, en Noviembre de 2023, dos fans de Tesla salieron a la carretera dispuestos a demostrar que el modo de conducción autónoma de Tesla era mejor que el de Waymo, compañía participada por Google, que opera una flota de taxis autónomos en San Francisco.
Lo que pasó a continuación os sorprenderá. Recomiendo encarecidamente ver el vídeo resumen de 3 minutos.
Para los que hayáis visto el vídeo, no es exagerado decir que el coche intenta matarlos al menos tres veces (los que no lo hayáis visto estoy seguro de que váis a hacerlo ahora). Hay un momento especialmente gracioso en el que se bajan del vehículo para revisar que las cámaras estén limpias 😅.
Lo que enfrenta Tesla no es más que el último 10%. Han conseguido el primer 90%. El 10% restante, el que hace que sea un sistema 100% seguro y confiable en carretera, no me extrañaría que les pudiera llevar alguna que otra década.
Por cierto, esto no es un ataque de un hater a Tesla. Hablo con conocimiento de causa. Tengo uno y estoy encantado con él. Pero no le confiaría la vida de mi familia al FSD y, de hecho, me parece hasta peligroso que pueda ser legal en su situación actual.
IAs generativas y LLMs ante su último 10%
Cuando pienso en el último 10% de Tesla, no puedo evitar pensar en los Large Language Models (LLMs) y otras IAs generativas.
ChatGPT, la aplicación práctica de referencia de un LLM, es espectacular, y sólo él ha sido probablemente responsable de aumentar mi productividad un 200% al escribir esta newsletter. Me atrevo a decir que soy un heavy user.
Eso quizás me hace más consciente de sus limitaciones. En mi caso particular, utilizo ChatGPT como un asistente personal al que le pido tareas tediosas que cualquier becario podría realizar: resumir, estructurar, revisar, limpiar, ordenar… pero cómo casi cualquier asistente, necesita de supervisión constante.
Es similar al FSD de Tesla. Puedes cederle el control en autopistas y con buenas condiciones climatológicas, pero, a poco que se complique la situación, más te vale no separar las manos del volante.
Los retos de los LLMs
¿Cuál es el último 10% de los LLMs? ¿Qué es lo que tiene que pasar, por ejemplo, para que podamos delegar en ellos decisiones complejas con total seguridad? A mí juicio, estos son algunos de los desafíos que todavía debemos superar.
Alucinaciones
Sin duda uno de los retos de los LLMs es el problema de las alucinaciones. Los LLMs, al final del día, son modelos probabilísticos que unen letras y palabras que suelen ir juntas según su base de entrenamiento. Pero no son capaces de razonar. No son capaces de discernir si lo que están diciendo es verdadero o falso.
Esto hace que puedan sufrir lo que coloquialmente se llaman alucinaciones, que no son más que respuestas inventadas que no tienen nada que ver con la realidad.
¿Dejarías la toma de decisiones de cualquier sistema crítico en tu empresa a una entidad capaz de mentir sin siquiera saber que lo está haciendo? Me cuesta creerlo.
Los LLMs no son deterministas
Derivado también de que nos encontramos ante modelos probabilístico, los LLMs no son deterministas. Esto quiere decir que, para una misma entrada de datos, para una misma pregunta, te puede dar respuestas distintas.
Imagina que acudes a un médico con un cuadro de síntomas concreto, y este te da tratamientos parecidos, pero ligeramente distintos según la hora del día. Probablemente, no te daría mucha confianza. Esta es la situación actual de los LLMs.
Sesgos
Los LLMs están sesgados por los datos que se hayan usado para entrenarlos. Por ejemplo, si utilizamos datos culturales occidentales, estarán sesgados hacia la visión occidental del mundo. Si usamos datos del otro lado del planeta, probablemente encontremos sesgos en la dirección opuesta.
Los sesgos son un poderoso impedimento a la hora de desplegar agentes autónomos en el mundo real sin supervisión. Por ejemplo, si dejáramos a un LLM decidir sobre la concesión de hipotecas, es posible que encontráramos que el sistema pudiera discriminar en función de la raza o grupo social según el conjunto de datos con los que se hubiera entrenado.
Carencia de conocimientos especializados
Quién haya usado ChatGPT o similares, habrá observado que es una herramienta sensacional para cualquier tema de carácter general, del que se disponga de muchísima información pública. Es absolutamente sensacional resumiendo información de la que abunda en Internet.
Sin embargo, las preguntas que verdaderamente importan, las que tiene valor responder porque poca gente las ha documentado en Internet, las especializadas, se le hace muy cuesta arriba. Un buen ejemplo es pedir a ChatGPT ayuda a programar cualquier aplicación de la que es fácil encontrar referencias en Internet. Te puede dar el manual paso a paso perfectamente detallado.
Yo intenté lo mismo para hacer una sencilla aplicación de gestión de dispositivos de audio en Mac en Objective C y casi tiro el ordenador por la ventana.
¿El segundo invierno de la IA?
Pese a estos y otros retos a los que se enfrentan los LLMs, también hay razones para el optimismo. Y es que podríamos argumentar que en realidad la IA ya ha pasado su particular infierno en el recorrido hacia ese último 10%.
Sólo los más viejos del lugar lo recuerdan, pero la Inteligencia Artificial ya ha pasado por varios vía crucis a lo largo de casi cinco décadas desde que en los años 70 viviera su primer boom. A esta época se la conoce como el invierno IA. Citando a la Wikipedia:
El término apareció por primera vez en 1984 como el tema central de un debate público en la conferencia anual de la AAAI. Es una reacción en cadena que comienza con el pesimismo de la comunidad de IA, seguido por el pesimismo en la prensa, seguido de un severo recorte en la financiación, seguido por el final de la investigación seria. En la conferencia, Roger Schank y Marvin Minsky-dos de los principales investigadores de la IA que habían sobrevivido el "invierno" de la década de 1970, advirtieron a la comunidad de negocios que el entusiasmo por la IA había crecido de forma descontrolada en la década de 1980 y que, sin duda, la decepción ciertamente seguiría. Tres años más tarde, la industria de la IA mil millones de dólares comenzó a derrumbarse.
Quizás lo que estamos viendo ahora sea el resultado de haber caminado ese último 10%. Desde luego, las aplicaciones que día a día aparecen en texto, imagen, vídeo y audio parecen realmente espectaculares.
Ahora bien, centrándome específicamente en el texto, que es de la que soy usuario intensivo y creo que puedo opinar, reconozco que todavía le falta un trecho para poder confiarle ciégamente tareas complejas sin supervisión.
¿Cuánto tardaremos en cerrar este último gap? La verdad es que no lo sé, pero a veces debo reconocer que esbozo una sonrisilla cuando leo en una pestaña de mi navegador que la AGI está a la vuelta de la esquina, mientras ChatGPT se lía respondiendo una pregunta aparentemente sencilla en la siguiente.
Sea como sea estaremos aquí para contarlo.
Una última cosa. Manfred está buscando Product Managers para Mercadona Tech en Valencia, Como los primeros son buena gente, y los segundos son un equipo de producto que conozco de cerca y no puedo dejar de recomendar, no me cuesta nada (tampoco me pagan nada, esto no es un patrocinio) dejaros aquí el enlace a la oferta.
Eso sí, si finalmente surge el amor y os acabáis incorporando, os dejo amablemente que me invitéis a una cerveza a orillas del Turia 🍻.