<a href="https://colab.research.google.com/github/orlandxrf/escuela-verano/blob/main/5_Escuela_Verano_Modelos_de_Lenguaje.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/img/logos.png" height="100" />

<h1>Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales</h1>
Escuela de Verano, 25-28 de Junio de 2024
<hr>
<h2><strong>Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos<strong></h2>
<hr>

# Modelos de lenguaje

Los modelos de lenguaje son sistemas de inteligencia artificial que pueden procesar y generar texto. Están entrenados en grandes cantidades de datos de texto para aprender las relaciones estadísticas entre las palabras y frases. Esto les permite realizar tareas como:

* **Traducción automática**: Traducir texto de un idioma a otro.
* **Resumen de texto**: Generar un resumen de un texto largo.
* **Respuesta a preguntas**: Responder preguntas sobre un texto.
* **Generación de texto**: Crear texto nuevo, como poemas, historias o guiones.

## Modelos pre-entrenados

Los modelos pre-entrenados son modelos de lenguaje que ya han sido entrenados en un conjunto de datos general de texto y código. Esto les permite aprender las características básicas del lenguaje y pueden ser ajustados para realizar tareas específicas con solo una pequeña cantidad de datos adicionales.

Algunos ejemplos populares de modelos pre-entrenados incluyen:

* **BERT**: Bidirectional Encoder Representations from Transformers
* **GPT-3**: Generative Pre-training Transformer 3

## Obtener archivos

Para este taller se almacenan los archivos en [Github](https://github.com/orlandxrf/escuela-verano) adicional a todo el material usado.

Para evitar subir los archivos a Google Colab cada vez que se quiera trabajar con el Notebook, se realizará el proceso de forma automática. Para la descarga de los archivos se utiliza el comando `wget`

**Wget**, que significa "World Wide Web GET", es una utilidad de línea de comandos en sistemas operativos tipo Unix, como Linux, que se utiliza para descargar archivos de la web. Es una herramienta poderosa y versátil que permite descargar una amplia variedad de contenido.

La sintaxis para descargar un archivo es la siguiente:

```bash
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/El_maravilloso_Mago_de_Oz.pdf
```

El resultado esperado por cada archivo descargado es similar al siguiente

```bash
--2024-06-22 18:35:06--  https://github.com/orlandxrf/escuela-verano/blob/main/data/El_maravilloso_Mago_de_Oz.pdf
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘data/El_maravilloso_Mago_de_Oz.pdf’

El_maravilloso_Mago     [ <=>                ] 241.79K  --.-KB/s    in 0.03s   

2024-06-22 18:35:06 (8.05 MB/s) - ‘data/El_maravilloso_Mago_de_Oz.pdf’ saved [247596]
```

Es importante señalar que si la carpeta donde se desea almacenar el archivo no existe, se crea. En caso de descargar el archivo cuando previamente existe, lo que ocurre es que se sobre escribe el archivo descargado, es decir el archivo descargado reemplaza al previo, siempre y cuando tengan el mismo nombre.

In [3]:
# descargar los archivos utilizando "wget"

#!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Escuela_de_verano.txt
#!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Los_Caudillos_de_1830.txt
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Los_Caudillos_de_1830.csv
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/ia_tweets.csv
#!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/dev.xlsx
#!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/train.xlsx
#!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/test.xlsx
#!wget -P data/ https://github.com/orlandxrf/escuela-verano/blob/main/data/El_maravilloso_Mago_de_Oz.pdf

--2024-06-27 15:16:20--  https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Los_Caudillos_de_1830.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234389 (229K) [text/plain]
Saving to: ‘data/Los_Caudillos_de_1830.csv’


2024-06-27 15:16:20 (17.0 MB/s) - ‘data/Los_Caudillos_de_1830.csv’ saved [234389/234389]

--2024-06-27 15:16:20--  https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/ia_tweets.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 918376 (897K) [text/plain]
Saving to: ‘data/ia_tw

In [4]:
# instalar modelo en español de Spacy para extraer las oraciones del texto
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m52.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [5]:
from tqdm.auto import tqdm
import pandas as pd
import spacy

nlp = spacy.load("es_core_news_sm")

ruta_archivo = "data/Los_Caudillos_de_1830.csv"

# Leer el archivo .csv
df = pd.read_csv(ruta_archivo)

oraciones = []

for texto in tqdm(df['texto'], total=df.shape[0], desc="Obteniendo oraciones"):
    doc = nlp(texto, disable=["ner"])
    for sent in doc.sents:
        tokens = [token.text for token in sent]
        if len(tokens) > 1:
          oraciones.append(sent.text)

print(f"Cantidad de oraciones: {len(oraciones):,}")

# longitud máxima de oraciones
max_len = max(len(oracion) for oracion in oraciones)

print(f"Longitud máxima de oraciones: {max_len}")



Obteniendo oraciones:   0%|          | 0/1747 [00:00<?, ?it/s]

Cantidad de oraciones: 2,778
Longitud máxima de oraciones: 450


In [6]:
# limpiar tweets
import re

def limpiar_tweet(tweet):
    # Eliminar URLs
    tweet = re.sub(r'http\S+|www\S+|https\S+', '', tweet, flags=re.MULTILINE)

    # Eliminar menciones (@usuario)
    tweet = re.sub(r'@\w+', '', tweet)

    # Eliminar hashtags (#hashtag)
    tweet = re.sub(r'#\w+', '', tweet)

    # Eliminar caracteres especiales y puntuación
    tweet = re.sub(r'[^\w\s]', '', tweet)

    # Eliminar números
    tweet = re.sub(r'\d+', '', tweet)

    # Eliminar espacios adicionales
    tweet = re.sub(r'\s+', ' ', tweet).strip()

    return tweet

df = pd.read_csv("data/ia_tweets.csv")

# aplicar la función a cada renglón del DataFrame
tweets_df = pd.DataFrame(df["text"].apply(limpiar_tweet))

print(f"Cantidad de tweets: {len(tweets_df):,}")

# eliminar renglones vacíos despues de la limpieza
tweets_df = tweets_df[tweets_df["text"] != ""]

print(f"Cantidad de tweets sin renglones vacíos: {len(tweets_df):,}")

# agregar la columna 'polarity' del DataFrame original al DataFrame tweets_df
tweets_df["polarity"] = df["polarity"]

# mostrar el DataFrame
tweets_df


Cantidad de tweets: 4,038
Cantidad de tweets sin renglones vacíos: 3,925


Unnamed: 0,text,polarity
0,Comentaba en una charla sobre IA que el proble...,N
1,Eso es imposible Y sí va a generar un montón d...,N
2,Lo disruptivo es que tras años de decir que la...,NEU
3,Prohibición del uso comercial de las imágenes ...,N
4,Cómo se está estudiando prohibir chatGPT en Eu...,NEU
...,...,...
4033,INNOVACIÓN Puede un chatbot predicar mejor que...,NEU
4034,Sería mejor por que no abusaría de niños,N
4035,Ejemplo el uso estratégico de tener datos está...,NEU
4036,X estás mal y ngmi porque esto es el futuro Yo...,NEU


## Extracción de información

La extracción de información (EI) es la tarea de identificar y extraer información específica de un texto. Por ejemplo, un sistema de EI podría usarse para extraer los nombres de las personas y las organizaciones de un artículo de noticias.

Los modelos de lenguaje pre-entrenados se pueden usar para la EI de varias maneras. Por ejemplo, se pueden usar para entrenar un clasificador que pueda identificar entidades nombradas en el texto.

### Ejemplo práctico

In [None]:
# Instalar las librerías necesarias
#!pip install transformers torch

In [None]:
# Importar las bibliotecas requeridas
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
from collections import defaultdict
import torch

# model_name = "mrm8488/bert-spanish-cased-finetuned-ner"
model_name = "Babelscape/wikineural-multilingual-ner"

# Comprobar si hay una GPU disponible y definir el dispositivo
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Cargar el tokenizer y el modelo
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Mover el modelo a la GPU si está disponible
model.to(device)

# Crear la tubería de NER con CPU
# nlp = pipeline("ner", model=model, tokenizer=tokenizer)

# Crear la tubería de NER con el dispositivo especificado
nlp = pipeline("ner", model=model, tokenizer=tokenizer, device=0 if torch.cuda.is_available() else -1)

In [None]:
# Definir el texto en español
texto = "El Sr. López compró un iPhone 15 en la tienda Apple de la Ciudad de México."
# texto = "Barack Obama nació en Honolulu, Hawaii, y fue el 44.º presidente de los Estados Unidos."

# Realizar la predicción de NER
entidades = nlp(texto)

# Procesar las entidades para obtener las entidades completas y sus etiquetas
entidades_completas = []
entidad_actual = ""
etiqueta_actual = ""

for entidad in entidades:
    if entidad['entity'].startswith('B-'):
        if entidad_actual:
            entidades_completas.append((entidad_actual, etiqueta_actual))
        entidad_actual = entidad['word']
        etiqueta_actual = entidad['entity'][2:]  # Remove the B- or I- prefix
    elif entidad['entity'].startswith('I-') and entidad['entity'][2:] == etiqueta_actual:
        # Remove the '##' if it's a sub-word token
        if entidad['word'].startswith('##'):
            entidad_actual += entidad['word'][2:]
        else:
            entidad_actual += " " + entidad['word']

# Añadir la última entidad si existe
if entidad_actual:
    entidades_completas.append((entidad_actual, etiqueta_actual))

print(entidades_completas)

# Imprimir las entidades completas
for entidad, etiqueta in entidades_completas:
    print(f"{entidad}: {etiqueta}")

[('iPhone 15', 'MISC'), ('Apple', 'ORG'), ('Ciudad de México', 'LOC')]
iPhone 15: MISC
Apple: ORG
Ciudad de México: LOC


### Reconocimiento de entidades nombradas

### Reconocer entidades en libro

Leer el archivo de "Los Caudillos de 1838" para identificar todas las posibles entidades en el texto.

In [None]:
# Función para procesar un texto y obtener las entidades completas
def obtener_entidades_completas(texto):
    max_length = 512
    tokens = tokenizer.tokenize(texto)
    if len(tokens) > max_length:
        tokens = tokens[:max_length]
        texto = tokenizer.convert_tokens_to_string(tokens)

    entidades = nlp(texto)
    entidades_completas = []
    entidad_actual = ""
    etiqueta_actual = ""

    for entidad in entidades:
        if entidad['entity'].startswith('B-'):
            if entidad_actual:
                entidades_completas.append((entidad_actual, etiqueta_actual))
            entidad_actual = entidad['word']
            etiqueta_actual = entidad['entity'][2:]  # Remove the B- or I- prefix
        elif entidad['entity'].startswith('I-') and entidad['entity'][2:] == etiqueta_actual:
            # Remove the '##' if it's a sub-word token
            if entidad['word'].startswith('##'):
                entidad_actual += entidad['word'][2:]
            else:
                entidad_actual += " " + entidad['word']

    # Añadir la última entidad si existe
    if entidad_actual:
        entidades_completas.append((entidad_actual, etiqueta_actual))

    return entidades_completas

# Aplicar la tarea de NER a cada renglón del archivo
resultados = []
for oracion in tqdm(oraciones, desc="Identificando entidades...", total=len(oraciones)):
    entidades_completas = obtener_entidades_completas(oracion)
    if len(entidades_completas) > 0:
      resultados.append(entidades_completas)

print(f"{len(resultados):,} entidades identificadas")

tmp_entidades = {
    "entidad": [],
    "etiqueta": [],
}

for entity_list in resultados:
  for entidad, etiqueta in entity_list:
    tmp_entidades["entidad"].append(entidad)
    tmp_entidades["etiqueta"].append(etiqueta)

# Crear un DataFrame con los resultados
resultados_df = pd.DataFrame(tmp_entidades)

# Guardar los resultados en un nuevo archivo .csv
# resultados_df.to_csv("data/resultados_ner.csv", index=False)

# Mostrar una muestra de los resultados
# print(resultados_df.head())

resultados_df

Identificando entidades...:   0%|          | 0/2778 [00:00<?, ?it/s]

2,116 entidades identificadas


Unnamed: 0,entidad,etiqueta
0,PÍO BAROJA,PER
1,LOS CAUDILLOS,MISC
2,NOVELA,MISC
3,Calle de Ventura Rodríguez,LOC
4,LIBRO PRIMERO,MISC
...,...,...
3489,Nacer vivir morir,MISC
3490,Gastizar,PER
3491,Madrid,LOC
3492,Febrero,MISC


### Reconocer entidades en tweets

In [None]:
# Función para procesar un texto y obtener las entidades completas
def obtener_entidades_completas(texto):
    max_length = 512
    tokens = tokenizer.tokenize(texto)
    if len(tokens) > max_length:
        tokens = tokens[:max_length]
        texto = tokenizer.convert_tokens_to_string(tokens)

    entidades = nlp(texto)
    entidades_completas = []
    entidad_actual = ""
    etiqueta_actual = ""

    for entidad in entidades:
        if entidad['entity'].startswith('B-'):
            if entidad_actual:
                entidades_completas.append((entidad_actual, etiqueta_actual))
            entidad_actual = entidad['word']
            etiqueta_actual = entidad['entity'][2:]  # Remove the B- or I- prefix
        elif entidad['entity'].startswith('I-') and entidad['entity'][2:] == etiqueta_actual:
            # Remove the '##' if it's a sub-word token
            if entidad['word'].startswith('##'):
                entidad_actual += entidad['word'][2:]
            else:
                entidad_actual += " " + entidad['word']

    # Añadir la última entidad si existe
    if entidad_actual:
        entidades_completas.append((entidad_actual, etiqueta_actual))

    return entidades_completas

# Aplicar la tarea de NER a cada renglón del archivo
resultados = []
for idx, row in tqdm(tweets_df.iterrows(), desc="Identificando entidades...", total=tweets_df.shape[0]):
    entidades_completas = obtener_entidades_completas(row["text"])
    if len(entidades_completas) > 0:
      resultados.append(entidades_completas)

print(f"{len(resultados):,} entidades identificadas")

tmp_entidades = {
    "entidad": [],
    "etiqueta": [],
}

for entity_list in resultados:
  for entidad, etiqueta in entity_list:
    tmp_entidades["entidad"].append(entidad)
    tmp_entidades["etiqueta"].append(etiqueta)

# Crear un DataFrame con los resultados
resultados_tweets_df = pd.DataFrame(tmp_entidades)

# Guardar los resultados en un nuevo archivo .csv
# resultados_tweets_df.to_csv("data/resultados_ner.csv", index=False)

# Mostrar una muestra de los resultados
# print(resultados_tweets_df.head())

resultados_tweets_df

Identificando entidades...:   0%|          | 0/3925 [00:00<?, ?it/s]

3,079 entidades identificadas


Unnamed: 0,entidad,etiqueta
0,IA,MISC
1,IA,MISC
2,Chat GPT,MISC
3,auto,MISC
4,IA,MISC
...,...,...
4674,lu,MISC
4675,Sorpresa,MISC
4676,Pastor ChatGPT,MISC
4677,chatGPT,MISC


## Análisis de Sentimientos

El análisis de sentimientos es la tarea de determinar la opinión o el sentimiento expresado en un texto. Por ejemplo, un sistema de análisis de sentimientos podría usarse para determinar si una reseña de producto es positiva o negativa.

Los modelos de lenguaje pre-entrenados se pueden usar para el análisis de sentimientos de varias maneras. Por ejemplo, se pueden usar para entrenar un clasificador que pueda clasificar el texto como positivo, negativo o neutral.

### Ejemplo práctico

In [None]:
# Importamos las bibliotecas necesarias
import pandas as pd
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification

# Verificamos si tenemos una GPU disponible
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Usando dispositivo: {device}')

# Cargamos el modelo y el tokenizador pre-entrenados
# model_name = 'nlptown/bert-base-multilingual-uncased-sentiment'  # Puedes cambiar el modelo si es necesario
model_name = 'edumunozsala/roberta_bne_sentiment_analysis_es'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
model.to(device)
print("Modelo cargado!")

Usando dispositivo: cuda


RobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(50262, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.0, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-11): 12 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.0, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
             

In [None]:
# conservar tweets distintos a la etiqueta "NEU" de la columna "polarity"
tweets_df = tweets_df[tweets_df["polarity"] != "NEU"]

In [None]:
# Crear el pipeline de análisis de sentimientos
sentiment_analysis = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer, device=0 if torch.cuda.is_available() else -1)

# Aplicamos el análisis de sentimientos a los tweets
tweets_df['sentiment'] = tweets_df['text'].apply(lambda x: sentiment_analysis(x)[0]['label'])

# Guardamos los resultados en un nuevo archivo CSV
# output_file_path = 'ruta/al/nuevo_archivo.csv'  # Reemplaza esto con la ruta donde quieres guardar el archivo
# tweets_df.to_csv(output_file_path, index=False)

# print(f'Análisis de sentimientos completado. Los resultados se han guardado en {output_file_path}')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['sentiment'] = tweets_df['text'].apply(lambda x: sentiment_analysis(x)[0]['label'])


In [None]:
tweets_df

Unnamed: 0,text,polarity,sentiment
0,Comentaba en una charla sobre IA que el proble...,N,Positivo
1,Eso es imposible Y sí va a generar un montón d...,N,Negativo
3,Prohibición del uso comercial de las imágenes ...,N,Negativo
6,Esta transición va a estar bien difícil El pla...,N,Negativo
7,Va a costar mucho adaptarse a los nuevos cambi...,N,Negativo
...,...,...,...
4014,Estoy valorando el uso de ChatGPT de Inteligen...,P,Positivo
4015,Análisis de ChatGPT Noticias emocionantes Espe...,P,Positivo
4024,No se si se han dado cuenta pero el chatgpt sa...,P,Positivo
4026,Hoy aprobé el curso introductorio de de y Es i...,P,Positivo


In [None]:
# cambiar etiqueta "Negativo" y "Positivo" de la columna "sentiment" a "N" y "P" respectivamente
tweets_df["sentiment"] = tweets_df["sentiment"].replace({"Negativo": "N", "Positivo": "P"})

tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df["sentiment"] = tweets_df["sentiment"].replace({"Negativo": "N", "Positivo": "P"})


Unnamed: 0,text,polarity,sentiment
0,Comentaba en una charla sobre IA que el proble...,N,P
1,Eso es imposible Y sí va a generar un montón d...,N,N
3,Prohibición del uso comercial de las imágenes ...,N,N
6,Esta transición va a estar bien difícil El pla...,N,N
7,Va a costar mucho adaptarse a los nuevos cambi...,N,N
...,...,...,...
4014,Estoy valorando el uso de ChatGPT de Inteligen...,P,P
4015,Análisis de ChatGPT Noticias emocionantes Espe...,P,P
4024,No se si se han dado cuenta pero el chatgpt sa...,P,P
4026,Hoy aprobé el curso introductorio de de y Es i...,P,P


In [None]:
# evaluar las predicciones obtenidas por el modelo columns "sentiment" con las anotadas manualmente columna "polarity"
from sklearn.metrics import classification_report

print(classification_report(tweets_df["polarity"], tweets_df["sentiment"]))

              precision    recall  f1-score   support

           N       0.77      0.83      0.80       590
           P       0.85      0.81      0.83       741

    accuracy                           0.82      1331
   macro avg       0.81      0.82      0.81      1331
weighted avg       0.82      0.82      0.82      1331



### Traducción automática

In [1]:
from transformers import MarianMTModel, MarianTokenizer

# Cargar el modelo y el tokenizador
model_name = 'Helsinki-NLP/opus-mt-en-es'  # Modelo de inglés a español
# model_name = 'Helsinki-NLP/opus-mt-es-en'  # Modelo de español a inglés
model = MarianMTModel.from_pretrained(model_name)
tokenizer = MarianTokenizer.from_pretrained(model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]



In [8]:
# Función para traducir texto
def translate(text, model, tokenizer):
    # Tokenizar el texto
    inputs = tokenizer(text, return_tensors="pt", padding=True)
    # Generar la traducción
    translated = model.generate(**inputs)
    # Decodificar la traducción
    translated_text = tokenizer.batch_decode(translated, skip_special_tokens=True)
    return translated_text[0]

# Texto a traducir
text_to_translate = "Hello, how are you?"
# text_to_translate = "Hola, ¿cómo estás?"


# Traducir el texto
translated_text = translate(text_to_translate, model, tokenizer)

print(f'Texto original: {text_to_translate}')
print(f'Traducción: {translated_text}')

Texto original: Hola, ¿cómo estás?
Traducción: Hey, how are you?


In [12]:
# traducir del español al inglés de todas las "oraciones"
traducciones_es_en = []
n_oraciones = 50 # len(oraciones)
for i, oracion in tqdm(enumerate(oraciones), desc="Tradución...", total=len(oraciones)):
  if i == n_oraciones:
    print(f"{i:,} oraciones traducidas")
    break
  traducciones_es_en.append(translate(oracion, model, tokenizer))

print(f"{len(traducciones_es_en):,} oraciones traducidas")

# almacenar texto original y el traducido en un DataFrame
traducciones_es_en_df = pd.DataFrame({"oracion": oraciones[:n_oraciones], "traduccion": traducciones_es_en})


Traducido...:   0%|          | 0/2778 [00:00<?, ?it/s]

51 oraciones traducidas
50 oraciones traducidas


In [13]:
traducciones_es_en_df

Unnamed: 0,oracion,traduccion
0,PÍO BAROJA.,PIO BAROJA.
1,LOS CAUDILLOS DE 1830.,THE CAUBILLES OF 1830.
2,NOVELA.,NOVELA.
3,RAFAEL CARO RAGGIO: EDITOR Calle de Ventura Ro...,RAFAEL CARO RAGGIO: EDITOR Calle de Ventura Ro...
4,LIBRO PRIMERO.,BOOK FIRST.
5,EL ETERNO CONSPIRADOR.,THE ETERNAL CONSPIRATOR.
6,DON EUGENIO.,DON EUGENIO.
7,"UN día, al anochecer, apareció en la fonda de ...","One day, at dusk, a man appeared in Iturri's f..."
8,"Era un tipo seco, amojamado, con la cara y las...","He was a dry guy, embroidered, with his face a..."
9,Tenía el aire de cansancio de los que vienen d...,He had the air of tiredness of those who come ...


In [None]:
traducciones_es_en_df