In [None]:
# install the requirements
# pip install torch torchvision
# pip install transformers

# Modelos de Lenguaje de OpenAI

A mitad de febrero, [OpenAI publicó un modelo de lenguaje](https://blog.openai.com/better-language-models/) capaz de generar lenguaje natural de formar coherente. Este modelo es generalista y, a pesar de ello, es capaz de rivalizar con los mejores sistemas específicos en tareas como comprensión automática de lenguaje natural, traducción automática, búsqueda de respuestas y resumen automático.

Este modelo, llamado GPT-2, es el resultado de haber entrenado con 8 millones de páginas web (40 GB) con 1 500 millones de parámetros con un único objetivo: predecir cuál es la siguiente palabra.

Sin embargo, OpenAI no ha publicado el modelo para evitar que alguien con malas intenciones pueda hacer un uso dañino de esta tecnología. Sí que han publicado una versión simplificada y más pequeña, y el paper ["Language Models are Unsupervised Multitask Learners"](https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), en el que explican todo el proceso.

Con ganas y GPUs suficientes (+ tiempo y dinero), se puede replicar el proceso. Otras lecturas interesantes, sobre el tema: 

- [OpenAI's new Multitalented AI Writes, Translates, and Slanders](https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2)
- [Some thoughts on zero-day threats in AI, and OpenAI's GP2](https://www.fast.ai/2019/02/15/openai-gp2/)


Este código de ejemplo está inspirado en [un tweet de Thomas Wolf](https://twitter.com/Thom_Wolf/status/1097465312579072000), de [Hugging Face](https://huggingface.co/).

In [1]:
import torch
from torch.nn import functional as F
from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

A continuación, definimos una función para:

1. tokenizar el texto de entrada y codificarlo como un vector con los pesos obtenidos por el modelo GPT2
2. predecir la siguiente palabra más frecuente
3. decodificar el vector como una secuencia de tokens

In [2]:
def generate(text, length=50):
    """Generate automatic Natural Language from the input text"""
    vec_text = tokenizer.encode(text)
    my_input, past = torch.tensor([vec_text]), None

    for _ in range(length):
        logits, past = model(my_input, past_key_values=past)
        my_input = torch.multinomial(F.softmax(logits[:, -1], dim=1), 1)
        vec_text.append(my_input.item())

    return tokenizer.decode(vec_text)

In [4]:
# defino un texto de entrada
text = "The only thing we can do to fight climate change is"

# y generamos automáticamente las secuencias más probables
for _ in range(3):
    print(generate(text, 35), "\n")

The only thing we can do to fight climate change is to introduce sensible laws, one of which is fossil fuel pollution control."

Tennessee has attempted limited action by reaching a $50 million settlement and doing so with sponsorship from 

The only thing we can do to fight climate change is fight the rationalizations for global economic actions." Freeman added. "Globalization's greed and empathy for the poor or minorities is one of its greatest threats."

Read more 

The only thing we can do to fight climate change is to withdraw from it," Steven Thewlis, director of the World Wildlife Fund, said on CNN's "State of the Union."

The plan to withdraw from the 



In [5]:
# defino un texto de entrada
text = "A ti lo que te ocurre es que"

# y generamos automáticamente las secuencias más probables
for _ in range(3):
    print(generate(text, 20), "\n")

A ti lo que te ocurre es que á se attar nos nec trétaisà cuando. Pour self étude j 

A ti lo que te ocurre es que parece batas kindnesses ocurres pire cientías, talaga nem 

A ti lo que te ocurre es que nen deimanciona a ellos sinimade habolá tan que como un 



In [10]:
countries = "Spain France Italy Greece Russia China Japan India".split()

for country in countries:
    text = f"I was born in {country} so my mother language is"
    print(generate(text, 1))


I was born in Spain so my mother language is Portuguese
I was born in France so my mother language is English
I was born in Italy so my mother language is Italian
I was born in Greece so my mother language is English
I was born in Russia so my mother language is english
I was born in China so my mother language is not
I was born in Japan so my mother language is slowly
I was born in India so my mother language is Persian
