toopazo

¿Antes de inteligencia artificial debemos crear vida artificial?

Muchísimo y con muy justa razón se ha escrito sobre la revolución industrial que comenzó hacia 1700 en Inglaterra, y que se expandió luego al resto del mundo como un reguero de pólvora. Tan profundo y transformador ha sido todo este periodo que es difícil exagerar su impacto en la historia humana. Tan sólo la revolución del Neolitico (el paso de la vida nómada a sedentaria gracias a la agricultura y ganadería) se le puede comparar. Pero el impacto de la segunda es mucho más acentuado que la primera si consideramos su velocidad: un par de cientos de años en vez de un par de miles. Y para dar de muestra un botón, consideremos la vida de mi bis-abuela Maria Otilia Alfaro. Ella nació hacia fines de 1800 en Vicuña, un pueblo enclavado en medio de un valle agrícola rodeado de cerros semi-desérticos en el norte de Chile. Durante su infancia vio llegar a La Serena (capital de su provincia) la luz eléctrica que reemplazaba a los faroles de gas que servían de alumbrado público; escuchó hasta en los lugares más alejados del valle, la transmisión instantánea de las ondas de radio portadores de noticias de la capital; tomó pequeñas pastillas blancas que aliviaban su dolor de cabeza, las cuales habían sido fabricadas en masa por la naciente industria farmacéutica internacional; vio a través de una pantalla de televisión y sin necesidad de ir al estado, como se jugaba el mundial de fútbol de 1962; recibió en su casa a una caja metálica de generosas proporciones y ruidoso proceder que lavaba su ropa sin esfuerzo; fue testigo de la conquista del aire por parte de los aviones de la Compañía de Aviación Sudamericana entre Santiago y Valparaíso; y hasta vivió lo suficiente como para escuchar el código Morse que transmitió el Sputnik en 1957 y presenciar la llegada del hombre a la Luna abordo del Apollo 11 en 1969. La vida completa de esa mujer fue una sucesión de maravillas tecnológicas sin precedentes. Sin ninguna dificultad entendería mi bis-abuela la idea de que el desarrollo tecnológico permite la acumulación de conocimiento y herramientas que hacen más fácil el desarrollo de nueva tecnología, y que este proceso es auto-sustentado y hasta auto-acelerado. Es decir, un ejemplo de manual de un proceso con retroalimentación positiva.

Dentro de las áreas de la matemática, la teoría de sistemas dinámicos formalizó el estudio cuantitativo de como una o más variables de entrada, afectan el estado de un sistema o proceso. Un grupo especial de procesos son aquellos que poseen retroalimentación positiva. En su forma más básica, estos sistemas tienen una tasa de crecimiento proporcional al tamaño de la variable de estado. En nuestro caso hablamos de tecnología como variable a medir, pero bien podríamos hablar de la presión dentro de un neumático, o la carga eléctrica de un capacitor. Todos estos sistemas tienen un comportamiento exponencial, donde la tasa de crecimiento no es constante, sino que crece conforme pasa el tiempo, hasta literalmente, salirse de control. A pesar de lo idealizado de este modelo, la evidencia de los últimos 300 años bien parece respaldar la idea del crecimiento tecnológico acelerado. El poder de este modelo retroalimentado debe entenderse de manera similar al modelo de dos líneas cruzadas de oferta y demanda, que aún así, logra explicar a grandes rasgos las complejísimas interacciones económicas entre cientos de individuos y organizaciones de distintos países, lenguas y culturas.

Razones para creer

Personas como Raymond Kurzweil (experto en IA y famoso divulgador tecnológico) son firmes defensores de este modelo de crecimiento exponencial, el cual él en particular llama LOAR - Law Of Accelerating Returns. La principal evidencia con que argumenta su tesis es el crecimiento en la cantidad de operaciones matemáticas por segundo que realizan los computadores. Es decir, el número de operaciones (sumas, multiplicaciones y operaciones lógicas) por segundo ha crecido de manera exponencial. Sus cálculos más sólidos se inician en 1945 con la tecnología electro-mecánica de relés y tubos de vacío del ENIAC, el primer computador programable. El segundo grupo de datos parte en 1954 con TRADIC, el primer computador programable basado en transistores. Y continúa hasta nuestros días, con la gran familia de modelos basados en circuitos integrados a gran escala hechos por medio de foto-litografía sobre placas de silicio (chips, procesadores portátiles, dispositivos móviles de todo tipo, etcétera). No es difícil imaginar que los siguientes puntos de su gráfico tecnológico exponencial serán las tarjetas de aceleración de NVIDIA (GPU) y los computadores cuánticos experimentales de IBM o Google. Manteniendo a flote todas estas tecnologías a la famosa Ley de Moore. Un segundo argumento citado por Kurzweil para respaldar el crecimiento exponencial de la tecnología, más allá del mundo de la informática, es el costo de secuenciar el genoma de un ser humano. Este costo a sufrido una caída exponencial desde el año 2000 hasta nuestros días. Es términos absolutos, pasó de un costo de aproximadamente 100 millones por genoma a menos de mil dólares en 20 años.

Pero la sensación de aumento en la velocidad no solo ha venido por el lado de los fierros (hardware), sino que también por el tipo de algoritmos con los que resolvemos problemas. En el año 2012 un nuevo modelo de inteligencia artificial llamado AlexNet ganó con amplio margen la competencia de clasificación ImageNet (distinguir entre un auto, una mascota, un lápiz, etcétera). La novedad de este algoritmo fue incorporar muchos más parámetros al modelo de redes neuronales usado para clasificar las imágenes de la competencia. El mayor tiempo y costo de entrenamiento se veía más que compensado por el gran aumento en resultados. A partir de esa fecha los modelos de inteligencia artificial no han parado de crecer hasta contener miles de millones de parámetros. De hecho, se estima que Chat GPT-4 contiene del orden de 2 billones de parámetros (\(2\cdot 10^{9}\)) los que fueron entrenados a lo largo de varios meses y a un coste de varios millones de dólares. Interesantemente, el número de parámetros en un modelo de lenguaje como chat GPT no es tan distinto al total de neuronas presentes en nuestro cerebro. El aumento de tamaño en los modelos de redes neuronales ha requerido un aumento igual de dramático en la cantidad de datos, tiempo y energía, necesarios para entrenarlos. Pero más allá del trabajo extra requerido, el éxito de AlexNet fue la demostración final que consagró a las redes neuronales como la principal tecnología informática de nuestros tiempos. También las consagró como un algoritmo con real capacidad transformadora. Desde esa fecha, las grandes compañías de tecnología, universidades y centros tecnológicos no han parado de invertir en esta área, desde como hacer GPUs más grandes y mejores, hasta teoremas matemáticos de alto nivel para entender mejor los límites y leyes de las redes neuronales. Pero inevitablemente, junto con toda esta fase de enamoramiento han venido también las consiguientes promesas de exponencialidad, transformación del conocimiento y del mercado del trabajo. Los directores más conocidos como Sundar Pichai de Google, Sam Altman de Open AI o Mustafa Suleyman de Microsoft AI, aseguran en mayor o menor grado, que debemos prepararnos, pues estamos a décadas de lograr una inteligencia artificial general (comparable a la de un ser humano) y que debemos replantear aspectos centrales de nuestra sociedad, desde la educación hasta los sistemas de gobierno.

En el centro del pensamiento de Kurzweil, y de muchos otros que opinan como él, está la idea de que diferentes disciplinas como la química, la biología, la medicina, la ciencia de materiales, la ingeniería, la física, etcétera, pueden emular el crecimiento exponencial de la computación a través de la digitalización y procesamiento de sus conocimientos. La idea subyacente consta de los siguientes pasos. Primero es necesario recopilar y digitalizar todo el conocimiento de un área X de interés (producción de vinos, síntesis de proteínas hepáticas, manofactura de alas de avión, etc). Todos los libros, artículos científicos, revistas especializadas, planos, dibujos y esquemas, todas las tablas de experimentos, etc. Como segundo paso se iniciaría la etapa de procesamiento de la información usando el poder de grandes modelos de IA y mega centros de computación en la nube. Aquí es donde se analizarían a velocidades inconmensurables, millones de asociaciones de patrones, interpolado y extrapolado de datos, y se someterían a prueba toda clase de hipótesis y verificaciones que los especialistas humanos de cada área tardarían décadas de esfuerzo en lograr. Finalmente el tercer paso consta de la extracción, a modo de precioso aceite de oliva, de conocimiento oculto en los datos, y por tanto nuevo para la comunidad especializada. Es decir, una verdadera generación de conocimiento. Ese conocimiento será usado para diseñar y llevar a cabo una nueva ronda de experimentos (con ayuda de la IA como asistente de laboratorio) para generar nuevos datos que permitan iniciar el ciclo nuevamente.

Esta perspectiva, es profundamente reduccionista, en el sentido de que traspasa y aplana todo el conocimiento científico humano a un ciclo iterativo de: datos, inferencia y respuesta. Dicho en términos aún más directos, esto podría resumirse como: pásame todo lo que sepas de tumores al cerebro, todos los libros de referencia, todas las resonancias magnéticas alguna vez hechas, todas las fichas clínicas de pacientes, todos los experimentos fisiológicos y muestras médicas, digitaliza todo y el algoritmo de inferencias se encargará de decirnos aquello que ignorábamos, pero que estaba oculto en los datos. Este nuevo conocimiento sería luego devuelto a la dimensión física para ser convertido en nuevos tratamientos médicos, nuevos procedimientos quirúrgicos, nuevos experimentos, nuevos aparatos de interfaz cerebral, etc. Estos nuevos avances generarán a su vez, la nueva serie de datos que alimentarán al algoritmo de inferencias. No por nada muchos han descrito a los algoritmos de inteligencia artificial, y en particular a las redes neuronales de aprendizaje profundo, como un verdadero oráculo tecnológico. De hecho, la RAE define al oráculo como la respuesta que una deidad daba a una consulta, a través de un intermediario y en un lugar sagrado.

Pero a pesar de su aparente simplicidad e irrespetuoso reduccionismo, esta estrategia de total confianza en el masticar de los datos cuenta con ejemplos muy exitosos de aplicación. En 2020, el modelo de inteligencia artificial Alpha Fold, de Google demostró una gran capacidad para predecir la estructura geométrica de una base de datos de proteínas con forma conocida. La forma que una proteína adopta luego de ser sintetizada, define de manera crítica la función biológica que desempeña. Su estabilidad, sus propiedades químicas, los receptores a los que se acoplará, y un largo etcétera. Es por esto que su uso no ha pasado desapercibido para la comunidad científica. Alpha Fold ha sido (y está siendo) usada de manera amplia como mecanismo para reducir el gigantismo espacio de búsqueda que de otro modo sería muy difícil de abarcar. Existen más de 100 mil proteínas en el cuerpo humano, cada una formada por miles de aminoácidos. A modo de ejemplo, la proteína Colágeno Alpha-1 del tipo II es encontrada principalmente en el tejido cartilaginoso del cuerpo humano. Es descrita como esencial para dotar de resistencia estructural y capacidad de crecimiento al esqueleto. Está compuesta por una secuencia de 1487 aminoácidos y precisa para su síntesis de la totalidad de los 20 aminoácidos esenciales en la dieta humana. El universo potencial de proteínas sintetizables es por tanto de proporciones astronómicas (del orden de 20 elevado a 1500, aunque la minoría de ellas serán estables o tendrán utilidad biológica). Debido a limitaciones tecnológicas (costo de equipos y tiempo de los experimentos) existe una cantidad limitada de proteínas que han podido ser estudiadas con suficiente ahínco como para conocer su estructura geométrica. Hay un potencial gigante de proteínas cuya utilidad aún no ha sido descubierta, las cuales podrían permitir el diseño de nuevas y mejores medicamentos, más específicos y con menos efectos secundarios. No es entonces sorprendente que ya existan laboratorios farmacéuticos que utilizan Alpha Fold para prospectar nuevas drogas. Este ejemplo es un claro caso de: datos, inferencia y respuesta.

Y recapitulando un poco, si ya hemos constatado que la historia de la computación efectivamente ha generado maquinas cada vez más poderosas (y de manera exponencial, no solo lineal). Y si le añadimos que desde el año 2010 en adelante las redes neuronales y demás algoritmos de IA han generado reales adelantos científicos y comerciales. Y si por último añadimos el caso de los más recientes modelos de lenguaje (chat GPT y similares) que han logrado sorprendentes niveles de habilidad para satisfacer requerimientos expresados en lenguaje natural (lenguaje cotidiano y no lenguajes de programación). Entonces podemos entender las predicciones de Kurzweil al proponer en su libro La singularidad esta cerca (2005) una posible fecha para la aparición de maquinas con inteligencia humana para el año 2045. Después de todo, la creación de máquinas inteligentes es la progresión obvia luego de haber desarrollados máquinas más fuertes y más rápidas que el musculo humano. Porque recordemos que no solo en partir leña nos han reemplazado, sino también en las labores repetitivas y exactas (maquinas lavadora, torno CNC, maquinas de inyección, etc), en las de memoria y las de cálculo, y en un futuro cercano en las creativas e intelectuales.

Pero entonces, más allá de si Kurzweil se equivoca por 5, 10 o 50 años ¿está él haciendo una predicción correcta en lo central?. ¿Podemos dar por hecho que lo lograremos?. ¿Que problemas podrían evitarlo?.

Razones para dudar

Próximamente.

¿Que es la inteligencia?

La Real Académica Española define la palabra inteligencia como la capacidad de entender o comprender. La raíz latina de esta palabra es intelligentia, cuya raíz etimológica es explicada por el Diccionario Castellano Etimológico en Linea como la composición de cuatro raíces: el prefijo inter (entre), el verbo legere (separar, escoger, leer), el sufijo nt (que indica la presencia de un agente o sujeto) y finalmente el sufijo ia (que indica cualidad). Es decir, la cualidad de aquél que sabe escoger entre varias opciones. Roberto Colom, profesor de psicología diferencial de la Universidad Autonoma de Madrid la define de manera parecida, como la capacidad para integrar, poner orden y orquestar nuestras distintas capacidades mentales. Él hace especial hincapié en señalar que la inteligencia es siempre una capacidad general, es decir, aplicada a lo largo y ancho de las actividades humano. Tanto así, que él ocupa la palabra talento para referirse a una capacidad especifica y super-desarrollada en alguna persona y que la resalte de las demás (un políglota, un memorizador, un calculista, etc). Es decir, el talentoso es especifico pero la inteligente es general. La inteligencia es una capacidad que los test especializados pueden estimar en unos 15 minutos, pero cuya consecuencia se evidencia a través de los años y décadas de vida de una persona. Y a través de sus diferentes ciclos vitales: infancia, adolescencia, juventud, madurez y vejez, en su carrera profesional, si vida de pareja, su rol de padre o madre, lazos familiares, amistades y sociedad. Pero la búsqueda por entender que es y en que más repercute esta capacidad mental, no es nueva.

Desde su nacimiento como ciencia, con Wilhelm Wundt hacia finales del siglo XIX, la psicología ha tratado de incorporar progresivamente formas de medir las diferentes características de la mente humana. El origen de las enfermedades mentales, la manera en que ordenamos nuestros pensamientos, como armamos nuestra propia imagen mental, etc. En resumen, entender nuestra propia mente. Dentro de ese afán, entender que es la inteligencia, fue y continua siendo un tema de gran importancia. Partiendo con Francis Galton y sus pruebas psicometricas y mediciones craneales hacia fines del siglo XIX, seguido luego por Binet y Simon en 1905, se comenzaron a desarrollar durante la primera mitad del siglo XX, una seguidilla de exámenes estandarizados que buscaban medir cuantitativamente la inteligencia de niños y adultos (de hecho el orden fue así). Estos exámenes demostraron tener una gran repetibilidad y poder predictivo. Dos cualidades tremendamente importantes en todo instrumento de medición. Es decir, que mida siempre parecido, y que lo que mida sirva para entender mejor el proceso o fenómeno de interés.

Sin embargo, estos test han suscitado también por décadas una gran controversia respecto a que es exactamente lo que miden. Miden muy bien la inteligencia académica, por así decirlo, ¿pero miden algo más?. El debate se ha extendido más allá de la psicología con la idea de que existen múltiples formas de inteligencia. Y que estas diferentes formas puedes y deben ser medidas por diferentes test. Pero si lográramos identificar las 3, 5, o N formas distintas de inteligencia, ¿no podríamos entonces simplemente promediarlas y definir ese nuevo valor como La Inteligencia? (promedio o cualquier estimador de tendencia central). Por tanto, más allá de las falencias del termómetro, sabemos que mide razonablemente bien algo que es muy importante.

El debate anterior tiene, sin embargo una gran complicación si quisiéramos extender estos test a máquinas y animales. Y es que son instrumentos de medición relativa y no absoluta. Es decir, necesitamos aplicarlos a una gran cantidad de sujetos para luego normalizar los resultados y darles un número con sentido práctico (para entender quién esta arriba o debajo de la media). Para el caso especifico de máquinas, la única manera de reutilizar los test para humanos es dotarlas de capacidad de comunicación y razonamiento humano. Es decir, o bien construimos máquinas humanizadas (antropomorfas) o bien nos olvidamos de ocupar estos test. Para el caso de animales estos simplemente no son aplicables y debemos diseñar test a medida de cada especie. La esperanza de comparar entre especies es por tanto vana.

Como consecuencia del nacimiento de la computación hacia 1950 y su exitosísimo desarrollo posterior, numerosos expertos y pensadores han vaticinado el surgimiento de máquinas y algoritmos capaces de razonar a nivel humano y superior. Con ello la necesidad de definir y medir la inteligencia de las máquinas cobró mayor importancia. Legg y Hutter escribieron en 2007 acerca de las diferentes formas de medir la inteligencia de máquinas y animales. En su publicación relacionan la inteligencia, con la capacidad de un individuo para lograr un determinado objetivo en un ambiente determinado. En otras palabras, la capacidad de aprender, experimentar y emplear la experiencia en la consecución de un objetivo. Proponen una definición, y además una métrica basada en un esquema de acción y recompensa provenientes del aprendizaje por refuerzo. Este tipo de aprendizaje de máquinas ha encontrado renovado interés en el mundo de la inteligencia artificial a partir del 2010 en adelante.

¿Que es la vida?

Actualmente existe cierto consenso dentro de la Biología de que es posible responder a la pregunta: ¿Está X o Y vivo?, es decir, dado un ente físico y con limites distinguible responder si está vivo o no. Planteado de esta forma es posible responder llevando a cabo un experimento o evaluación en búsqueda de ciertas propiedades del ente observado (célula, organismo o robot). Esta serie de propiedades que la biología considera indicadoras de vida son: movimiento, respiración, sensibilidad, crecimiento, reproducción, excreción y nutrición. Existen otras versiones similares, pero planteadas en términos más generalizables, como: organización (celular) compleja, metabolismo, homeostasis, irritabilidad, crecimiento, reproducción y evolución.

Si, por ejemplo, aplicamos este test a una bacteria unicelular, podremos constatar con la ayuda de un microscopio que está efectivamente se desplaza con la ayuda de apéndices flexibles que las propulsan. Además regula su estado interno a través de reacciones químicas que ocurren a lo largo de su pared celular y que son producto de su metabolismo. Demuestra irritabilidad puesto que se desplaza ante la presencia de nutrientes, etcétera.

Si ahora tratamos de aplicar este test a cualquier robot moderno descubriremos que fallan rápidamente, incluso si ignoramos algunos de los aspectos mencionados como crecimiento, reproducción y evolución. A modo de ejemplo, imaginemos un vehículo equipado con la ultima inteligencia artificial, visión computacional, programado con las mejores técnicas de aprendizaje reforzado, y así. Este artefacto, es claramente una entidad altamente organizada pues esta compuesto de baterías, electrónica de potencia, sensores, mecánica de dirección, y un largo etcétera. Podemos observar que posee el símil de metabolismo propio, pues obtiene su energía desde el medio exterior por medio de un proceso de acumulación de carga eléctricas (batería), para luego desarrollar sus procesos internos a través de la liberación controlada de esas mismas cargas eléctricas. Es capaz también de regular su estado interno a pesar de las variaciones externas como el frío, calor, inclinación del camino, curvas, etc. Finalmente, es altamente capaz en su desplazamiento, alcanzando una notable velocidad durante muy largos periodos de tiempo.

Podemos entonces asegurar que un vehículo autónomo aprueba el test de vida en cuanto a organización compleja, metabolismo y homeostasis. Sin cuando hablamos de irritabilidad ya empezamos a tener problemas, puesto que exhibir movimiento no es suficiente. Esta propiedad demanda una reacción física (desplazamiento de algún tipo) ante dos estímulos muy específicos: alimento y peligro. El lector informado sabrá muy bien que ningún auto, ni eléctrico ni a combustión, es capaz aún de buscar alimento por si mismo. Podemos dejarlo estacionado a medio metro de una estación de servicio y permanecerá allí hasta agotar por completo sus reservas de energía. De la misma manera podemos cargar a palos contra el pobre auto, sus vidrios y espejos sin que este haga movimiento alguno. Cierto es que algunos modelos de autos son capaces de advertir el peligro y frenar antes de un choque por alcance, también podría decirse que la alarma anti-robo de un vehículo es en si una reacción ante una irritación indeseada. Pero esta respuesta es muy débil si la comparamos con la capacidad de movimiento de un vehículo desplazándose por una cuidad o una carretera.

Pero, ¿que tiene de especial la irritabilidad?, ¿es justo evaluar a un robot con esta propiedad?. Un aspecto muy importante de las primeras tres propiedades del test de vida que estamos usando de referencia, es que corresponden a propiedades del funcionamiento interno del sujeto examinado, que pueden o no tener una manifestación externa. Sin embargo la irritabilidad es una propiedad puramente externa (tal como el crecimiento y la reproducción). La irritabilidad nos permite responder a la pregunta de si el sujeto examinado hace algo: ¿se mueve?, ¿hacer ruido?, ¿cambia de color?, ¿responde a estímulos externos?, etc. Alimento y peligro son justamente los dos estímulos externos más importantes en Biología pues están relacionados directamente a la supervivencia del sujeto. Es decir, comer y evitar morir en el intento (ya sea por inanición, devorado por otros o en un accidente). En el caso de que el sujeto examinado sea un robot, incluso uno que no tenga que preocuparse de depredadores, los riesgos de inanición y de accidentes sigue están muy presente (algo de lo que los teléfonos móviles saben muy bien).