Para ser totalmente justos, deberíamos comparar la tasa de error de un humano o de la cadena de humanos. Ese 1% incluso con su bola se nieve puede llegar a ser más óptimo que los errores humanos acumulados. Además esto abre la puerta a sistemas de QA de limpieza de alucinaciones, disminuyendo el efecto compuesto. Creo que estamos muy cerca de que las máquinas tomen decisiones importantes, con los peligros que entraña.
El problema es que el error no es binario. Es decir, no es "hay un error" - "no hay un error".
El error humano, suele "al menos estar relacionado" con lo que realmente quería decirse. Por lo que la postcorrección es más viable y sencilla.
Por otro lado, la automatización de QA para evaluación de resultados de IA tiene una fuerte dependencia de los tiempos de resultados esperados. Hay muchas expectativas en arquitecturas multiagénticas (o similar) pero no se debate que solamente son viables si el caso de uso acepta tiempos de respuesta largos, es decir, si la persona "vuelve" al cabo de "un rato" (dependerá de cada caso, 10 minutos, 1 hora, días después...) a ver el resultado.
Comparto tu artículo, Simón. Me gustó, gracias.
Para ser totalmente justos, deberíamos comparar la tasa de error de un humano o de la cadena de humanos. Ese 1% incluso con su bola se nieve puede llegar a ser más óptimo que los errores humanos acumulados. Además esto abre la puerta a sistemas de QA de limpieza de alucinaciones, disminuyendo el efecto compuesto. Creo que estamos muy cerca de que las máquinas tomen decisiones importantes, con los peligros que entraña.
Llegaremos, seguro. No estamos ahí, imho.
Y espero que, como pone en la diapo de IBM, no dejemos nunca las decisiones importantes en manos de las máquinas 😅.
El problema es que el error no es binario. Es decir, no es "hay un error" - "no hay un error".
El error humano, suele "al menos estar relacionado" con lo que realmente quería decirse. Por lo que la postcorrección es más viable y sencilla.
Por otro lado, la automatización de QA para evaluación de resultados de IA tiene una fuerte dependencia de los tiempos de resultados esperados. Hay muchas expectativas en arquitecturas multiagénticas (o similar) pero no se debate que solamente son viables si el caso de uso acepta tiempos de respuesta largos, es decir, si la persona "vuelve" al cabo de "un rato" (dependerá de cada caso, 10 minutos, 1 hora, días después...) a ver el resultado.
Tomando nota del concepto Human un the loop, es algo que siempre debemos considerar en cualquier procesos ejecutado por una IA. Gran aporte Simón.