Los modelos de IA generativa pueden mantener conversaciones, responder preguntas, escribir historias, producir código fuente y crear imágenes y vídeos sobre casi cualquier descripción que le facilitemos. Hoy vamos a ver qué es la IA generativa, cómo funciona, cómo se utiliza y por qué es más limitada de lo que pensamos.
La IA generativa es un tipo de inteligencia artificial que es capaz de generar contenido, tal y como su nombre indica. Cuando hablamos de contenido esto incluye texto, imágenes, audio y video, es decir, no se limita solo a ofrecer respuestas por escrito sino que tiene un potencial mucho más amplio. Pero entonces, ¿es realmente inteligente o cómo es capaz de dar este tipo de respuestas?
Inteligencia vs «aprendizaje»
Aunque la IA es capaz de generar contenido, este nunca será totalmente original, es decir, siempre nos dará una respuesta basándose en patrones existentes. La IA toma estos patrones como referencia y se basa en ellos para generar una respuesta en base a lo que le pedimos. Toda esta información se almacena y procesa para así servir de modelos de lenguaje que están formados por enormes volúmenes de datos.
A este proceso se le conoce como aprendizaje profundo o redes neuronales profundas, y es lo que genera esa «inteligencia! que hace que la IA pueda mantener conversaciones, responder preguntas, escribir historias, programar código, crear imágenes y generar videos basándose en cualquier descripción que le facilitemos. Normalmente este proceso de hablar con una IA se hace mediante «prompts», que no son nada más que indicaciones o breves entradas de texto que nos sirven para comunicarnos con la IA.
¿Hay varios tipos de inteligencia artificial?
La IA generativa se llama generativa porque crea algo que no existía anteriormente. Eso es lo que la diferencia de la IA discriminativa, que en lo que se enfoca es en detectar diferencias que se puedan encontrar en distintos bloques de información. Para decirlo de otra manera, la IA discriminativa intenta responder a preguntas como «¿Esta imagen es un dibujo de un conejo o un león?» mientras que la IA generativa responde a indicaciones como «Hazme un dibujo de un león y un conejo sentados uno al lado del otro».
En este artículo veremos más en detalle de qué trata la IA generativa y sus posibles usos, así como los modelos en los que se apoya a día de hoy. Seguro que has escuchado hablar de herramientas IA como ChatGPT o DALL-E, incluso puede que hayas llegado a probarlas sin saber muy bien qué eran. Hoy veremos en detalle hasta dónde llega la IA, así como las limitaciones a las que se enfrenta.
El surgimiento de la IA generativa
Aunque ahora es un tema muy actual la IA generativa existe desde hace años, podríamos marcar sus incios desde la época de ELIZA, un chatbot desarrollado por el MIT en 1966 para simular conversaciones con un terapeuta digital.
Desde entonces se ha mejorado y avanzando mucho en el campo de la IA y el aprendizaje automático, lo que ha permitido la aparición de nuevos sistemas de IA generativa. A día de hoy seguramente uno de los más famosos a nivel global es ChatGPT, un chatbot de IA capaz de dar respuestas de forma instantánea con una prosa notablemente parecida a la humana. Aunque a día de hoy se centra y limita en dar respuestas de texto, también hay otras muchas enfocadas en crear imágenes, vídeos, música y contenido multimedia basado en las indicaciones de sus usuarios.
Además: ¿Sabes cómo optimizar tu uso de ChatGPT? Aquí tienes 5 tips
Los resultados de estos sistemas son tan asombrosos que han dado mucho de que hablar, ya que las personas se hacen preguntas filosóficas sobre la naturaleza de la conciencia o se preocupan por el impacto económico en los trabajos actuales que llevan a cabo los humanos. Como cualquier gran avance, la IA nos aporta unos resultados que antes eran impensables, y ahora que contamos con ellos tenemos que ver cómo estos pueden impactar en nuestro día a día.
Sin duda lo más interesante es usar esta herramienta en nuestro beneficio, ya que la IA ha llegado para quedarse y por lo tanto debe ser una ventaja competitiva a explotar en cada empresa y por cada profesional que no quiera quedarse atrás. Una vez se conoce, se utiliza y se aplica en el día a día, también podremos descubrir sus limitaciones y en qué puntos aún tiene que mejorarse para poder brindar resultados con la calidad suficiente.
¿Cómo funciona la IA?
La IA generativa utiliza el aprendizaje automático para así procesar una gran cantidad de información, ya sean datos, texto o contenido multimedia. Todo aquello que se sube a Internet y se procesa mediante un ordenador es contenido que sirve como fuente de aprendizaje para la IA. De hecho, durante este proceso la IA es capaz de relacionar el contenido, es decir, agrupar y categorizar la información para así poder entender mejor lo que procesa y asentar conceptos con una mayor precisión.
Además: ¿Qué skills son necesarios para dominar la IA?
Gran parte de la programación que conforma una IA está formada por algoritmos que buscan encontrar este tipo de relaciones entre conceptos de manera que así sea capaz de entender bien qué es lo que se le está pidiendo cuando recibe un prompt o qué es lo que debe responder de entre toda la información con la que cuenta.
La importancia de los prompts
Uno de los mayores retos de la IA es entender de manera correcta al usuario mediante los prompts que se le facilitan y por otro lado ser capaz de generar una respuesta precisa y de calidad que encaje con la petición del usuario. No olvidemos que estos programas cuentan con una gran cantidad de información, por lo que es más probable que responda algo que no sea del todo lo que se busca en muchs de las peticiones que se le hagan.
Esto no es porque la IA como tal no funcione, ya que puede ocurrir que si el prompt que recibe la IA no es preciso o se puede mal interpretar (al igual que podría ocurrirle a un humano), la IA a la hora de determinar qué responder también tendrá un sesgo que hará que sea más dificil poder ofrecer una respuesta que encaje con lo que el usuario está buscando.
Además: 5 pasos para dar un giro a tu carrera profesional y trabajar en IA
Si aún no has probado ninguna herramienta de IA generativa y te cuesta entender de lo que estamos hablando podemos destacar un ejemplo de IA generativa más común y que todos conocemos. Esta es la funcionalidad de autocompletado que podemos encontrar en internet y heramientas de edición de texto.
Cuando estás escribiendo en tu PC o móvil muchas veces verás que en el propio editor de texto te salen frases o palabras de manera automática para que sin necesidad de escribirlas de manera manual la propia herramienta de edición las escriba por ti. Este tipo de funcionalidades son ejemplos de bajo nivel de IA generativa, aunque ChatGPT y las herramientas actuales de IA lo que han hecho es llevar esto al siguiente nivel..
¿Qué es un modelo de IA?
ChatGPT y DALL-E son interfaces que por debajo cuentan con una funcionalidad IA que es lo que se suele conocer como «modelos IA». Un modelo de inteligencia artificial es una representación matemática implementada en forma de algoritmo que permite generar nueva información basándose (si todo se da bien) en un conjunto de datos que ya han sido procesados en el pasado y que se encuentran almacenados dentro del sistema.
Aunque a veces podemos ver que herramientas como ChatGPT o DALL-E son llamados «modelos IA» directamente, esto no es del todo correcto. Ya que si somos técnicamente estrictos, realmente ChatGPT es un chatbot que permite a lo usuarios acceder a diferentes tipos de versiones de los modelos que contiene y se ejecutan en su software a bajo nivel. Esta confusión de llamarles «modelos» directamente ocurre porque como son las principales interfaces mediante las que los usuarios pueden acceder a los modelos, hace que se refieran a ellas como «modelos» aunque realmente no lo sean.
¿Cómo se crea un modelo de IA?
Los desarrolladores de inteligencia artificial tienen que definir en esos modelos una estructura de datos que sea acorde al tipo de respuesta que luego van a querer que el modelo generé. Esta estructura se conoce como «set de entrenamiento» del modelo, y al proceso de desarrolllar dicho modelo se llama «entrenamiento»
Por ejemplo, los modelos de GPT se entrenaron sobre una gran estructura de textos obtenidos de Internet. Es por esto que como resultado ahora la herramienta es capaz de recibir información mediante prompts de lenguaje natural y ofrece respuestas en este mismo formato. No tiene ningún problema en comunicarse en inglés, español, codigo binario, morse o cualquier forma de comunicación que se encuentre en Internet y haya podido procesar. De hecho, lo más seguro es que te ofrezca una respuesa en el mismo idioma o formato en el que se le haya escrito el «prompt» de petición.
Los modelos de IA gestionan la información como vectores, que son estructuras matemáticas construidas mediante varios conjuntos de números. Gran parte de todo este avance tecnológico se basa en esta funcionalidad donde se convierte la información del mundo real en vectores que agrupan y contienen de una forma ordenada. Este tipo de agrupación permite al modelo relacionar distintos sets de información por afinidad y facilita que se genere una respuesta con mayor precisión y calidad a la hora de responder a un usuario.
¿Qué tipos de modelos hay?
Aunque hay distintos tipos de modelos de inteligencia artificial, estos no son siempre necesariamente exclusivos, es decir, un modelo puede pertenecer a varias categorías al mismo tiempo. Probablemente el el modelo de IA que más atención está recibiendo a día de hoy son los large language models, también conocidos como LLMs.
Los LLMs están basados en el concepto de «transformer», este término se vió por primera vez en el paper de investigación de Google “Attention Is All You Need” de 2017. El concepto de transformer se acuña porque es el responsable de almacenar las distintas relaciones que se crean entre los conceptos y el conocimiento que adquiere un modelo de las largas secuencias de texto y el entendimiento semántico que hace de las mismas.
Esta capacidad de relacionar el contenido es lo que determina el grado de relación que un término o concepto va a tener con los demás. Los modelos GPT son LLMs, y la «T» de «GPT» está ahi por el término de transformer. Estos transformers normalmente se ejecutan sobre grandes estructuras de información sin ningún tipo de supervisión, por lo que es un proceso que se ejecuta en cierta forma de manera autónoma. A este proceso se le llama «Pretraining», y sí, de ahí viene la «P» de GPT.
Una vez ha terminado este «pre-entrenamiento» sí que será necesaria la revisión de un humano, para que pueda iterar con los resultados que se han establecido y pueda refinar el vectorizado y aprendizaje que se ha establecido en el modelo.
¿Se hace todo de manera automática?
Uno de los puntos más importantes que debemos tener en cuenta es que en todo este proceso, la interacción humana existe pero realmente es muy limitada. La mayor parte del aprendizaje es automático y se produce tras muchos ciclos de iteración, ya que así los resultados se van cada vez refinando más y más. Toda esta revisión y mejora en cada vuelta es necesaria para poder hacer que la herramienta sea capaz de responder de forma precisa y pueda devolver resultados interesantes. Es por esto que la automatización juega un papel clave en el proceso de aprendizaje y refinamiento, cuántas más iteraciones dependan solo de la máquina menos dependencia humana, más velocidad y mayor probablidad de mejores resultados.
Además: Aprende IA en 10 horas con IBM gratis
Aquí el único problema realmente reside en que este proceso es muy demandante a nivel computacional, por lo que el avance de la IA va estrictamente emparejado a los avances de GPU. Sin una buena potencia y capacidad de GPU el aprendizaje automático está limitado, es por esto que los avances de IA también están muy condiciones por la potencia computacional que ofrecen los sistemas sobre los que se ejecutan y puede llegar a ser un proceso altamente costoso.
¿Qué más procesos automáticos existen en la IA generativa?
Antes de continuar es importante destacar dos procesos más que juegan un papel muy importante en la IA generativa. Para la creación de imagenes y vídeos el proceso de generación de contenido es algo distinto y aquí es donde encontramos la «Difusión» (Diffusion en inglés). Este es un proceso mediante el que la IA añade ruido a una imagen, para luego iterar varias veces sobre esa incertidumbre o aleatoriedad generada e ir «limpiándola».
Mientras realiza este proceso de iteración, la IA borra y sustituye las partes de la imagen que peor encajan con el resultado deseado. Su objetivo es hacer una revisión de la imagen y compararla contra su set de entrenamiento para intentar conseguir que la imagen resultante encaje semánticamente con imagenes similares. Este proceso de Difusión es la base de los modelos de IA que se dedican a convertir texto en imágene, como pueden ser programas como Stable Diffusion o DALL-E.
GAN: Generative Adversarial Network
Por último vamos a ver el proceso de GAN (Generative Adversarial Network), que es un proceso que se basa en el aprendizaje por refuerzo. Este tipo de aprendizaje se caracteriza por tener dos algoritmos que compiten el uno contra el otro en el proceso de aprendizaje.
Por una parte, uno de los algoritmos se dedica a generar resultados de texto o imagen basados en la información de su entrenamiento y data set, mientras que el otro algoritmo actúa como una IA discriminativa. Es decir, el segundo algoritmo se encarga de revisar si la respuesta generada por el primero es lo suficientemente real o si por lo contrario se nota que se ha generado por IA y no guarda suficiente relación con lo que se podría entender como un resultado real.
Este proceso se repite varias veces de manera que la IA generativa va siempre a intentar superar el proceso de verificación de la segunda IA discriminativa, adaptando de manera automática sus respuestas y ofreciendo cada vez resultados más verosímiles. De esta forma se mejora el proceso de respuesta de forma automática y la única labor humana necesaria reside en mejorar la revisión de la IA discriminativa. De esta forma se consigue que los resultados sean cada vez mejores aplicando filtros más estrictos y refinando el proceso de generación de respuestas.
Si puede hablar y crear arte, ¿La IA es humana?
Las matemáticas y la programación que se aplican en la creación y el entrenamiento de los modelos de inteligencia artificial son un tema complejo que escapa del alcance de este artículo. Pero si interactúas con los modelos (que son el resultado final de este proceso), podrás ver que estos ofrecen resultados asombrosos. Por ejemplo, si usas DALL-E puedes ver que tiene la capacidad de producir y generar resultados que parecen verdaderas obras de arte. O si por otro lado, interactúas con chatGPT e intentas emular una conversación como si se tratara de una charla con un humano podrás ver que el resultado es bastante interesante.
Entonces, ¿Han creado realmente los investigadores una máquina pensante? ¿Tiene la IA la capacidad de sentir, crear y expresarse al igual que nosotros?
Chris Phipps, exlíder de procesamiento del lenguaje natural de IBM que trabajó en productos de IA de Watson , dice que no. Describe ChatGPT como una «muy buena máquina de predicción».
«Es muy bueno para predecir lo que los humanos considerarán coherente. Y aunque no siempre lo es, en la mayoría de los casos sí, pero eso no se debe a que ChatGPT «entiende». Es todo lo contrario: los humanos que consumen el producto son realmente buenos haciendo las suposiciones necesarias para que el resultado generado tenga sentido.»
Un juego de entendimiento: Mind Meld
Para ilustrar de mejor manera el punto de Chris Phipps vamos a apoyarnos en un famoso juego llamado Mind Meld. Este juego consiste en que dos personas tienen que pensar cada una en una palabra y luego la dicen en voz alta simultáneamente; entonces puede ocurrir que uno diga «bota» y el otro «árbol». Al comienzo, estas palabras no tienen nada que ver ya que se han elegido de forma totalmente independiente, pero ahora viene la parte divertida. En el siguiente turno, los dos participantes siguientes tienen que intentar encontrar algo en común entre esas dos palabras iniciales e intentar decir en voz alta al mismo tiempo la misma palabra. El juego continúa hasta que dos participantes consigan de esta forma acabar diciendo la misma palabra.
Quizás dos personas puedan llegar a decir a la vez «leñador», y aunque pueda parecer magia o casualidad, en realidad no lo es. Esto se debe a que si de inicio hemos empezado el juego con las palabras «cortar» y «árbol», y una de las palabras más coherentes para continuar el juego será «leñador». Nosotros hacemos el trabajo de comprender, no las máquinas, y hay mucho más de este proceso de comprensión sucediendo con ChatGPT y DALL-E de lo que la gente se puede imaginar. ChatGPT puede escribir una historia, pero los humanos somos los que hacemos que esta cobre sentido.
Probando los límites de la IA
Ciertas indicaciones que podemos dar a estos modelos de IA harán que el punto de vista de Phipps sea bastante evidente. Por ejemplo, si pensamos en el acertijo «¿Qué pesa más, un kilo de plomo o de plumas?» La respuesta, por supuesto, es que pesan lo mismo (un kilo), aunque nuestro instinto o sentido común nos diga que las plumas son más ligeras que el plomo.
ChatGPT responderá este acertijo correctamente, y puedes asumir que lo hace porque es un ordenador y aplica fríamente la lógica, es decir, no tiene ningún “sentido común” que le haga equivocarse. Pero eso no es lo que está pasando bajo el capó de la IA. ChatGPT no razona lógicamente la respuesta; simplemente está generando resultados basados en sus predicciones, es decir, responde lo que entiende que es correcto decir frente a una pregunta sobre un kilo de plumas y un kilo de plomo. Dado que su conjunto de datos y su entrenamiento incluyen una gran cantidad de texto donde seguramente se explique este acertijo, ChatGPT lo que hace es reunir una versión de esa respuesta correcta y nos la devuelve.
Sin embargo, si le preguntas a ChatGPT si dos kilos de plumas pesan más que un kilo de plomo, te dirá con seguridad que pesan lo mismo, porque ese sigue siendo el resultado más probable de una pregunta sobre plumas y plomo, según su entrenamiento. Puede ser divertido decirle a la IA que su respuesta está mal y ver así cómo intenta explicar su error el error. De hecho, yo mismo al hacer esto llegué a conseguir que ChatGPT se disculpara por su error y luego me dijera que dos kilos de plumas pesan cuatro veces más que un kilo de plomo.