Escenarios de alineamiento de la AI (Inteligencia Artificial)

English version

La creación de una Inteligencia General Artificial Utilitaria (IGAU), una especie de gran policía global automatizada que toma las mejores decisiones bajo el criterio de maximizar la felicidad y minimizar el sufrimiento, y que determinará muchos aspectos de la vida de casi todo lo que habitamos, nuestro planeta y sus provincias cercanas, es una posibilidad cada vez más real. Creo que esta creación es inevitable de una forma u otra. Un objetivo personal que tengo es influir en ello tanto como sea posible, para garantizar que ningún ser sensible quede fuera de consideración moral y que las decisiones sean las mejores. Esto puede hacerse, por supuesto, trabajando directamente en su construcción, o siendo de alguna manera más indirecta un asesor o influenciador que determina su funcionamiento. El efecto de este UAGI será extraordinario, radical, exponencialmente superior a cualquier precedente conocido. Estudiar e investigar problemas morales es, por esto, de extrema importancia y urgencia.

Una consideración fundamental con relación a esta posible construcción es si el sistema va a ser capaz o no de estar alineado con los criterios morales que queremos implementar.

 

Escenarios de alineamiento de la IA (Inteligencia Artificial)

Antes de comenzar, una reflexión previa sobre escenarios de autoconocimiento humano:

Posibles opciones:

  • 1. Los humanos no saben lo que quieren / prefieren. Entonces, si los humanos intentan formalizar (expresar) lo que quieren / prefieren y tienen éxito, es por error o por casualidad.
  • 2. Los humanos saben lo que quieren / prefieren.
    • 2.1. Incluso si los humanos saben lo que quieren / prefieren, los humanos no pueden formalizar (expresar) correctamente lo que quieren / prefieren. Entonces los humanos no pueden transmitir a otros este conocimiento, excepto por casualidad o error.
    • 2.2. Los humanos pueden formalizar (expresar) correctamente lo que quieren / prefieren.

Ahora, los escenarios de alineación de valores humanos de IA, asumiendo una IA benevolente:

  • 1. La IA no supera a los humanos. Entonces, los humanos pueden controlar más o menos el comportamiento de la IA. En este escenario, la IA puede ser un AGI (Inteligencia Artificial General) o no. Por ejemplo, las hormigas y los perros también son IG (Inteligencia General), pero los humanos pueden, más o menos, controlar hormigas y perros. En este escenario definitivamente tenemos algunos riesgos, grandes, pero otros escenarios son mucho peores.
  • 2. La IA supera a los humanos. En este escenario, AI es necesariamente (? * ver notas) un AGI (Inteligencia General Artificial) y los humanos no pueden controlar el comportamiento de este AI-AGI.
    • 2.1. AI-AGI es lo suficientemente inteligente como para superar a los humanos, pero no es lo suficientemente inteligente como para conocer / comprender los valores humanos. Aquí tenemos los X-Risks (Riesgos existenciales) más fuertes en el sentido de los riesgos astronómicos de alineación de valores humanos. Este es el peor escenario.
    • 2.2. AI-AGI es lo suficientemente inteligente como para superar a los humanos y también es lo suficientemente inteligente como para conocer / comprender los valores humanos. Aquí no tenemos X-Risks (Riesgos existenciales) en el sentido de los riesgos astronómicos de alineación de valores humanos, incluso si el AI-AGI tiene un comportamiento extremadamente diferente del comportamiento que esperamos con nuestra comprensión de nuestros valores. Ejemplos ilustrativos, pero obviamente no necesariamente correctos, son: cerebros en tanques / ratas de heroína, argumento de destrucción mundial, etc. Probablemente haya otros ejemplos menos catastróficos (inspirados por el dilema del tranvía, el hombre gordo en el puente, etc.). En este escenario, AI-AGI está haciendo lo correcto, pero podemos creer que lo está haciendo mal. Este no es el peor escenario, pero podemos creer erróneamente que es el peor escenario (el escenario anterior: 2.1) y luchar erróneamente contra este escenario con todos nuestros esfuerzos. Esta opción 2.2 también se puede dividir en dos casos:
      • 2.2.1 Los humanos están de acuerdo con lo que está haciendo la IA. No parece haber un gran riesgo aquí.
      • 2.2.2 Los humanos no están de acuerdo con lo que está haciendo la IA. En este caso, el riesgo es, obviamente, producido por humanos, no por IA.

 

Parece que, si queremos saber en qué escenario estamos, se necesita una fusión humano-IA.

 

¿Qué dicen los expertos sobre los riesgos de la IA?

Simplificando mucho, podemos considerar que existen dos grandes grupos de investigadores y pensadores en relación con los riesgos existenciales de la Inteligencia Artificial. Los pesimistas piensan que AGI puede fallar en alinear los valores humanos y causar un desastre. Los optimistas consideran que si el AGI es lo suficientemente inteligente, ya estará a cargo de alinear bien los valores humanos, a pesar de que no sabemos muy bien (para definir) cuáles son; y que si no es tan inteligente como para alinear bien los valores humanos, seguramente no será tan poderoso y el riesgo no será tan grande.

Pesimistas: Eliezer Yudkowsky, Roman Yampolskiy, Stephen Hawking, Elon Musk, Bill Gates

Optimistas: Richard Loosemore, Eric Drexler, Robin Hanson, Ben Goertzel, Kaj Sotala, Brian Tomasik, David Pearce

Quizás precisamente porque creen que la IA no es un gran riesgo y, por lo tanto, están dedicados a otras cosas, la visión optimista puede estar menos representada. La siguiente lista de Magnus Vinding tiene como objetivo corregir esta situación:

 

Notas

Algunas buenas sugerencias que estoy recibiendo de mis compañeros en EA Madrid (Nuño, Pablo Moreno, Jaime Sevilla Molina)

  • Evitar la expresión “inteligente” utilizando en cambio “potencia de optimización”
  • Los humanos no parecen ser optimizadores particularmente buenos, sino más bien estudiantes flexibles.
  • El escenario 2 no implica necesariamente una AGI. Ver Servicios integrales de inteligencia artificial de Eric Drexler, por ejemplo https://www.fhi.ox.ac.uk/reframing/

Leave a Reply

Your email address will not be published. Required fields are marked *