Esta tecnología, basada en investigaciones que intentan modelar el cerebro humano, ha llevado a un nuevo campo conocido como IA generativa: software que puede crear textos, imágenes y códigos informáticos plausibles y sofisticados a un nivel que imita la capacidad humana.

Empresas de todo el mundo han comenzado a experimentar con la nueva tecnología con la creencia de que podría transformar los medios, las finanzas, el derecho y los servicios profesionales, así como servicios públicos como la educación. El LLM se basa en un desarrollo científico conocido como modelo transformador, realizado por investigadores de Google en 2017.

«Si bien siempre hemos comprendido la naturaleza innovadora de nuestro trabajo con transformadores, varios años después, nos sentimos entusiasmados por su potencial duradero en nuevos campos, desde la atención médica hasta la robótica y la seguridad, la mejora de la creatividad humana y más», dice Slav Petrov. investigador senior de Google, que trabaja en la creación de modelos de inteligencia artificial, incluidos los LLM.

Los beneficios promocionados de los LLM (la capacidad de aumentar la productividad escribiendo y analizando texto) también son la razón por la que representa una amenaza para los humanos. Según Goldman Sachs, podría exponer a la automatización el equivalente a 300 millones de trabajadores a tiempo completo en las grandes economías, lo que provocaría un desempleo generalizado.

A medida que la tecnología se integra rápidamente en nuestras vidas, comprender cómo los LLM generan texto significa comprender por qué estos modelos son motores cognitivos tan versátiles y qué más pueden ayudar a crear.

Para escribir texto, los LLM primero deben traducir palabras a un idioma que comprendan.

Primero, un bloque de palabras se divide en fichas , unidades básicas que pueden codificarse. Las fichas suelen representar fracciones de palabras, pero convertiremos cada palabra completa en una ficha.

Para comprender el significado de una palabra,  trabaje  en nuestro ejemplo: los LLM primero la observan en contexto utilizando enormes conjuntos de datos de entrenamiento, tomando nota de las  palabras cercanas . Estos conjuntos de datos se basan en la recopilación de texto publicado en Internet, con nuevos LLM capacitados utilizando miles de millones de palabras.

Al final, terminamos con un gran conjunto de palabras que se encuentran  junto  al trabajo  en los datos de entrenamiento, así como aquellas que  no se  encontraron cerca de él.

A medida que el modelo  procesa  este conjunto de palabras, produce un vector (o lista de valores) y lo ajusta en función de la proximidad de cada palabra para que  funcione  en los datos de entrenamiento. Este vector se conoce como incrustación de palabras.

La incrustación de una palabra puede tener cientos de valores, cada uno de los cuales representa un aspecto diferente del significado de una palabra. Así como se podría describir una casa por sus características (tipo, ubicación, dormitorios, baños, pisos), los valores en una incrustación cuantifican las características lingüísticas de una palabra.

La forma en que se derivan estas características significa que no sabemos exactamente qué representa cada valor, pero las palabras que esperamos que se utilicen de manera comparable a menudo tienen incrustaciones de apariencia similar.

Un par de palabras como  mar  y  océano , por ejemplo, pueden no usarse en contextos idénticos («todo en el océano» no es un sustituto directo de «todo en el mar»), pero sus significados son cercanos entre sí y las incrustaciones permítanos cuantificar esa cercanía.

Al reducir los cientos de valores que representa cada incorporación a solo dos, podemos ver las distancias entre estas palabras con mayor claridad.

Podríamos detectar grupos de pronombres o modos de transporte , y poder cuantificar palabras de esta manera es el primer paso en un modelo que genera texto.