Mientras aún te quede algo de capacidad de razonamiento, deberías plantearte esta pregunta profundamente filosófica: ¿piensa la IA como piensan los humanos? La única forma en que podrías pensar eso es basándose en el lenguaje, donde la IA te da respuestas en tu propio idioma.
Pero ¿qué pasaría si la IA creara su propio lenguaje digital para explicar el mundo y todo lo que hay en él? Comunicarse contigo sería como un obstáculo, incluso un inconveniente. ¿Por qué debería molestarse? El pensamiento artificial no es pensamiento humano. ⁃ Patrick Wood, editor de TN.
Las IA tienen un gran problema con la verdad y la corrección, y el pensamiento humano parece ser una parte importante de ese problema. Una nueva generación de IA está empezando a adoptar un enfoque mucho más experimental que podría catapultar el aprendizaje automático mucho más allá de los humanos.
¿Recuerdas AlphaGo de Deepmind?
¿Recuerdas AlphaGo de Deepmind?
Representó un avance fundamental en el desarrollo de la IA, porque fue una de las primeras IA que jugaba a videojuegos y que no recibía instrucciones humanas ni leía reglas.
En lugar de ello, utilizó una técnica llamada aprendizaje por refuerzo (RL) para desarrollar su propia comprensión del juego. Se trató de un proceso de ensayo y error puro en millones, incluso miles de millones de juegos virtuales, comenzando más o menos al azar, accionando todas las palancas disponibles e intentando aprender de los resultados.
En lugar de ello, utilizó una técnica llamada aprendizaje por refuerzo (RL) para desarrollar su propia comprensión del juego. Se trató de un proceso de ensayo y error puro en millones, incluso miles de millones de juegos virtuales, comenzando más o menos al azar, accionando todas las palancas disponibles e intentando aprender de los resultados.
Dos años después del inicio del proyecto en 2014, AlphaGo había vencido al campeón europeo de Go por 5-0, y en 2017 había derrotado al jugador humano número 1 del mundo .
En este punto, Deepmind desató un modelo AlphaZero similar en el mundo del ajedrez, donde modelos como Deep Blue, entrenados en el pensamiento, el conocimiento y los conjuntos de reglas humanos, habían estado venciendo a grandes maestros humanos desde los años 90. AlphaZero jugó 100 partidas contra el actual campeón de IA, Stockfish, ganando 28 y empatando el resto.
En este punto, Deepmind desató un modelo AlphaZero similar en el mundo del ajedrez, donde modelos como Deep Blue, entrenados en el pensamiento, el conocimiento y los conjuntos de reglas humanos, habían estado venciendo a grandes maestros humanos desde los años 90. AlphaZero jugó 100 partidas contra el actual campeón de IA, Stockfish, ganando 28 y empatando el resto.
El pensamiento humano frena a la IA
Deepmind comenzó a dominar estos juegos (y también Shoji, Dota 2, Starcraft II y muchos otros) cuando abandonó la idea de que emular a un humano era la mejor manera de obtener un buen resultado.
Limitadas por límites diferentes a los nuestros y dotadas de talentos diferentes, estas mentes electrónicas recibieron la libertad de interactuar con las cosas en sus propios términos, aprovechar sus propias fortalezas cognitivas y construir su propia comprensión desde cero de lo que funciona y lo que no.
AlphaZero no sabe de ajedrez como lo sabe Magnus Carlssen. Nunca ha oído hablar del Gambito de Dama ni ha estudiado a los grandes maestros. Simplemente ha jugado muchísimo ajedrez y ha desarrollado su propia comprensión a partir de la fría y dura lógica de victorias y derrotas, en un lenguaje inhumano e inescrutable que él mismo creó sobre la marcha.
Como resultado, es mucho mejor que cualquier modelo entrenado por humanos, por lo que es una certeza absoluta: ningún humano, ni ningún modelo entrenado en el pensamiento humano, tendrá nunca más una oportunidad en un juego de ajedrez si hay un agente de aprendizaje de refuerzo avanzado en el otro lado.
Y algo similar, según personas que están mejor situadas para conocer la verdad que cualquier otra persona en el planeta, es lo que acaba de empezar a suceder con la última y mejor versión de ChatGPT .
Deepmind comenzó a dominar estos juegos (y también Shoji, Dota 2, Starcraft II y muchos otros) cuando abandonó la idea de que emular a un humano era la mejor manera de obtener un buen resultado.
Limitadas por límites diferentes a los nuestros y dotadas de talentos diferentes, estas mentes electrónicas recibieron la libertad de interactuar con las cosas en sus propios términos, aprovechar sus propias fortalezas cognitivas y construir su propia comprensión desde cero de lo que funciona y lo que no.
AlphaZero no sabe de ajedrez como lo sabe Magnus Carlssen. Nunca ha oído hablar del Gambito de Dama ni ha estudiado a los grandes maestros. Simplemente ha jugado muchísimo ajedrez y ha desarrollado su propia comprensión a partir de la fría y dura lógica de victorias y derrotas, en un lenguaje inhumano e inescrutable que él mismo creó sobre la marcha.
Como resultado, es mucho mejor que cualquier modelo entrenado por humanos, por lo que es una certeza absoluta: ningún humano, ni ningún modelo entrenado en el pensamiento humano, tendrá nunca más una oportunidad en un juego de ajedrez si hay un agente de aprendizaje de refuerzo avanzado en el otro lado.
Y algo similar, según personas que están mejor situadas para conocer la verdad que cualquier otra persona en el planeta, es lo que acaba de empezar a suceder con la última y mejor versión de ChatGPT .
El nuevo modelo o1 de OpenAI comienza a desviarse del pensamiento humano
ChatGPT y otras IA de modelos de lenguaje grandes (LLM), como aquellas primeras IA de ajedrez, han sido entrenadas con todo el conocimiento humano disponible: toda la producción escrita de nuestra especie, más o menos.
Y se han vuelto muy, muy buenos. Todo este alboroto sobre si algún día lograrán la Inteligencia Artificial General... ¡Dios mío! ¿Puedes imaginarte a un humano que pueda competir con GPT-4o en cuanto a la amplitud de sus capacidades?
Pero los LLM se especializan en lenguaje, no en acertar o equivocar con los hechos. Por eso “alucinan” (o dicen tonterías) y te dan información errónea en frases bellamente redactadas, con la misma seguridad que un presentador de noticias.
El lenguaje es una colección de extrañas zonas grises donde rara vez hay una respuesta que sea 100% correcta o incorrecta, por lo que los LLM generalmente se entrenan usando aprendizaje de refuerzo con retroalimentación humana. Es decir, los humanos eligen qué respuestas suenan más cercanas al tipo de respuesta que querían. Pero los hechos, los exámenes y la codificación: estas cosas tienen una condición clara de éxito o fracaso: o acertaste o no.
Y aquí es donde el nuevo modelo o1 ha comenzado a alejarse del pensamiento humano y a incorporar ese enfoque AlphaGo increíblemente efectivo de puro ensayo y error en busca del resultado correcto.
Los primeros pasos de O1 en el aprendizaje por refuerzo
En muchos sentidos, o1 es bastante similar a sus predecesores, salvo que OpenAI ha incorporado un "tiempo de reflexión" antes de comenzar a responder a una pregunta. Durante este tiempo de reflexión, o1 genera una "cadena de pensamiento" en la que considera y razona su camino a través de un problema.
Y aquí es donde entra en juego el enfoque RL: o1, a diferencia de los modelos anteriores que se parecían más a los sistemas de autocompletado más avanzados del mundo, realmente "se preocupa" de si hace las cosas bien o mal. Y a través de parte de su entrenamiento, a este modelo se le dio la libertad de abordar los problemas con un enfoque aleatorio de ensayo y error en su razonamiento en cadena.
Todavía sólo tenía pasos de razonamiento generados por humanos de los cuales extraer información, pero era libre de aplicarlos aleatoriamente y sacar sus propias conclusiones sobre qué pasos, en qué orden, tenían más probabilidades de llevarlo a una respuesta correcta.
Y en ese sentido, es el primer LLM que realmente está empezando a crear esa extraña, pero súper efectiva, "comprensión" de los espacios problemáticos al estilo AlphaGo. En los dominios en los que ahora está superando las capacidades y conocimientos de nivel de doctorado, llegó allí esencialmente por ensayo y error, al encontrar las respuestas correctas a lo largo de millones de intentos autogenerados y al construir sus propias teorías sobre qué es un paso de razonamiento útil y qué no.
Así que, en temas en los que hay una respuesta clara de lo que es correcto o incorrecto, ahora estamos empezando a ver a esta inteligencia extraterrestre dar los primeros pasos por sí sola. Si el mundo de los juegos es una buena analogía para la vida real, entonces, amigos, sabemos cómo van las cosas a partir de ahora. Es un velocista que acelerará eternamente, si se le da suficiente energía.
Pero o1 todavía está entrenado principalmente en lenguaje humano. Eso es muy diferente de la verdad: el lenguaje es una representación cruda y de baja resolución de la realidad. Digámoslo de esta manera: puedes describirme una galleta todo el día, pero no la habré probado.
¿Qué sucede entonces cuando dejamos de describir la verdad del mundo físico y dejamos que las IA se vayan a comer unas galletas? Pronto empezaremos a averiguarlo, porque las IA integradas en cuerpos de robots están empezando a construir su propia comprensión de cómo funciona el mundo físico.
ChatGPT y otras IA de modelos de lenguaje grandes (LLM), como aquellas primeras IA de ajedrez, han sido entrenadas con todo el conocimiento humano disponible: toda la producción escrita de nuestra especie, más o menos.
Y se han vuelto muy, muy buenos. Todo este alboroto sobre si algún día lograrán la Inteligencia Artificial General... ¡Dios mío! ¿Puedes imaginarte a un humano que pueda competir con GPT-4o en cuanto a la amplitud de sus capacidades?
Pero los LLM se especializan en lenguaje, no en acertar o equivocar con los hechos. Por eso “alucinan” (o dicen tonterías) y te dan información errónea en frases bellamente redactadas, con la misma seguridad que un presentador de noticias.
El lenguaje es una colección de extrañas zonas grises donde rara vez hay una respuesta que sea 100% correcta o incorrecta, por lo que los LLM generalmente se entrenan usando aprendizaje de refuerzo con retroalimentación humana. Es decir, los humanos eligen qué respuestas suenan más cercanas al tipo de respuesta que querían. Pero los hechos, los exámenes y la codificación: estas cosas tienen una condición clara de éxito o fracaso: o acertaste o no.
Y aquí es donde el nuevo modelo o1 ha comenzado a alejarse del pensamiento humano y a incorporar ese enfoque AlphaGo increíblemente efectivo de puro ensayo y error en busca del resultado correcto.
Los primeros pasos de O1 en el aprendizaje por refuerzo
En muchos sentidos, o1 es bastante similar a sus predecesores, salvo que OpenAI ha incorporado un "tiempo de reflexión" antes de comenzar a responder a una pregunta. Durante este tiempo de reflexión, o1 genera una "cadena de pensamiento" en la que considera y razona su camino a través de un problema.
Y aquí es donde entra en juego el enfoque RL: o1, a diferencia de los modelos anteriores que se parecían más a los sistemas de autocompletado más avanzados del mundo, realmente "se preocupa" de si hace las cosas bien o mal. Y a través de parte de su entrenamiento, a este modelo se le dio la libertad de abordar los problemas con un enfoque aleatorio de ensayo y error en su razonamiento en cadena.
Todavía sólo tenía pasos de razonamiento generados por humanos de los cuales extraer información, pero era libre de aplicarlos aleatoriamente y sacar sus propias conclusiones sobre qué pasos, en qué orden, tenían más probabilidades de llevarlo a una respuesta correcta.
Y en ese sentido, es el primer LLM que realmente está empezando a crear esa extraña, pero súper efectiva, "comprensión" de los espacios problemáticos al estilo AlphaGo. En los dominios en los que ahora está superando las capacidades y conocimientos de nivel de doctorado, llegó allí esencialmente por ensayo y error, al encontrar las respuestas correctas a lo largo de millones de intentos autogenerados y al construir sus propias teorías sobre qué es un paso de razonamiento útil y qué no.
Así que, en temas en los que hay una respuesta clara de lo que es correcto o incorrecto, ahora estamos empezando a ver a esta inteligencia extraterrestre dar los primeros pasos por sí sola. Si el mundo de los juegos es una buena analogía para la vida real, entonces, amigos, sabemos cómo van las cosas a partir de ahora. Es un velocista que acelerará eternamente, si se le da suficiente energía.
Pero o1 todavía está entrenado principalmente en lenguaje humano. Eso es muy diferente de la verdad: el lenguaje es una representación cruda y de baja resolución de la realidad. Digámoslo de esta manera: puedes describirme una galleta todo el día, pero no la habré probado.
¿Qué sucede entonces cuando dejamos de describir la verdad del mundo físico y dejamos que las IA se vayan a comer unas galletas? Pronto empezaremos a averiguarlo, porque las IA integradas en cuerpos de robots están empezando a construir su propia comprensión de cómo funciona el mundo físico.
El camino de la IA hacia la verdad última
Liberadas de las crudas cavilaciones humanas de Newton, Einstein y Hawking, las IA encarnadas adoptarán un extraño enfoque al estilo AlphaGo para comprender el mundo. Examinarán y explorarán la realidad, observarán los resultados y elaborarán sus propias teorías en sus propios lenguajes sobre lo que funciona, lo que no y por qué.
No se acercarán a la realidad como lo hacen los humanos o los animales. No utilizarán un método científico como el nuestro, ni dividirán las cosas en disciplinas como la física y la química, ni realizarán el mismo tipo de experimentos que ayudaron a los humanos a dominar los materiales, las fuerzas y las fuentes de energía que los rodean y a dominar el mundo.
Las IA encarnadas a las que se les dé la libertad de aprender de esta manera serán divertidísimas y raras. Harán las cosas más extrañas que puedas imaginar, por razones que solo ellas conocen, y al hacerlo, crearán y descubrirán nuevos conocimientos que los humanos nunca habrían podido reunir.
Libres de nuestro lenguaje y forma de pensar, ni siquiera notarán cuando rompan los límites de nuestro conocimiento y descubran verdades sobre el universo y nuevas tecnologías con las que los humanos no se toparían ni en mil millones de años.
Se nos concede un cierto respiro aquí; esto no sucederá en cuestión de días o semanas, como gran parte de lo que está sucediendo en el mundo de LLM.
La realidad es el sistema de mayor resolución que conocemos y la fuente última de la verdad. Pero hay muchísima y trabajar con ella es terriblemente lento: a diferencia de la simulación, la realidad exige que operes a una velocidad dolorosamente lenta de un minuto por minuto y solo puedes usar tantos cuerpos como hayas construido.
De modo que las IA corpóreas que intentan aprender de la realidad básica no tendrán inicialmente la enorme ventaja de velocidad de sus antecesores basados en el lenguaje, pero serán mucho más rápidas que la evolución y tendrán la capacidad de poner en común sus aprendizajes entre grupos cooperativos en un aprendizaje en enjambre.
Empresas como Tesla, Figure y Sanctuary AI están trabajando arduamente para construir humanoides de un estándar que sea comercialmente útil y que compita en costos con la mano de obra humana. Una vez que logren eso, si lo logran, podrán construir suficientes robots para comenzar a trabajar en esa comprensión del mundo físico a escala y a gran velocidad, basada en prueba y error.
Pero tendrán que pagarse el viaje. Es curioso pensarlo, pero estos humanoides podrían aprender a dominar el universo en su tiempo libre del trabajo.
Pido disculpas por estos pensamientos un tanto esotéricos y especulativos, pero como me digo a mí mismo una y otra vez: ¡qué momento para estar vivo!
El modelo o1 de OpenAI puede no parecer un gran avance, con la monótona vestimenta textual de GPT, como si fuera un mecanógrafo invisible más, pero en realidad es un cambio radical en el desarrollo de la IA y un vistazo fugaz a cómo estas máquinas alienígenas eventualmente superarán a los humanos en todos los sentidos imaginables.
Para una inmersión más profunda en cómo el aprendizaje de refuerzo hace que o1 sea un cambio radical en el desarrollo de la IA.
Liberadas de las crudas cavilaciones humanas de Newton, Einstein y Hawking, las IA encarnadas adoptarán un extraño enfoque al estilo AlphaGo para comprender el mundo. Examinarán y explorarán la realidad, observarán los resultados y elaborarán sus propias teorías en sus propios lenguajes sobre lo que funciona, lo que no y por qué.
No se acercarán a la realidad como lo hacen los humanos o los animales. No utilizarán un método científico como el nuestro, ni dividirán las cosas en disciplinas como la física y la química, ni realizarán el mismo tipo de experimentos que ayudaron a los humanos a dominar los materiales, las fuerzas y las fuentes de energía que los rodean y a dominar el mundo.
Las IA encarnadas a las que se les dé la libertad de aprender de esta manera serán divertidísimas y raras. Harán las cosas más extrañas que puedas imaginar, por razones que solo ellas conocen, y al hacerlo, crearán y descubrirán nuevos conocimientos que los humanos nunca habrían podido reunir.
Libres de nuestro lenguaje y forma de pensar, ni siquiera notarán cuando rompan los límites de nuestro conocimiento y descubran verdades sobre el universo y nuevas tecnologías con las que los humanos no se toparían ni en mil millones de años.
Se nos concede un cierto respiro aquí; esto no sucederá en cuestión de días o semanas, como gran parte de lo que está sucediendo en el mundo de LLM.
La realidad es el sistema de mayor resolución que conocemos y la fuente última de la verdad. Pero hay muchísima y trabajar con ella es terriblemente lento: a diferencia de la simulación, la realidad exige que operes a una velocidad dolorosamente lenta de un minuto por minuto y solo puedes usar tantos cuerpos como hayas construido.
De modo que las IA corpóreas que intentan aprender de la realidad básica no tendrán inicialmente la enorme ventaja de velocidad de sus antecesores basados en el lenguaje, pero serán mucho más rápidas que la evolución y tendrán la capacidad de poner en común sus aprendizajes entre grupos cooperativos en un aprendizaje en enjambre.
Empresas como Tesla, Figure y Sanctuary AI están trabajando arduamente para construir humanoides de un estándar que sea comercialmente útil y que compita en costos con la mano de obra humana. Una vez que logren eso, si lo logran, podrán construir suficientes robots para comenzar a trabajar en esa comprensión del mundo físico a escala y a gran velocidad, basada en prueba y error.
Pero tendrán que pagarse el viaje. Es curioso pensarlo, pero estos humanoides podrían aprender a dominar el universo en su tiempo libre del trabajo.
Pido disculpas por estos pensamientos un tanto esotéricos y especulativos, pero como me digo a mí mismo una y otra vez: ¡qué momento para estar vivo!
El modelo o1 de OpenAI puede no parecer un gran avance, con la monótona vestimenta textual de GPT, como si fuera un mecanógrafo invisible más, pero en realidad es un cambio radical en el desarrollo de la IA y un vistazo fugaz a cómo estas máquinas alienígenas eventualmente superarán a los humanos en todos los sentidos imaginables.
Para una inmersión más profunda en cómo el aprendizaje de refuerzo hace que o1 sea un cambio radical en el desarrollo de la IA.