<a href="https://colab.research.google.com/github/ibonetc/Data_Analytics/blob/main/NLP/Transformers_HuggingFace.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformers en texto

- Generación de texto
- Resúmenes de texto
- Traducción de texto
- Clasificación de imágenes
- Análisis de sentimientos

**Nota**: Intalar estas bibliotecas y reiniciar el entorno

In [1]:
!pip install transformers[sentencepiece]



In [2]:
!pip install transformers
!pip install transformers datasets



In [4]:
import transformers
print(transformers.__version__)

4.32.1


In [3]:
from transformers import pipeline

## Clasificación de imágenes

In [27]:
vision_classifier = pipeline(task="image-classification", model='google/vit-base-patch16-224')
prediction=vision_classifier(images="/content/drive/MyDrive/Fotos_Pruebas/cisneNegro.jpg")
print('Clase:', prediction[0]['label'] , prediction[0]['score']*100)

Clase: black swan, Cygnus atratus 99.56654906272888


In [28]:
prediction

[{'score': 0.9956654906272888, 'label': 'black swan, Cygnus atratus'},
 {'score': 0.0003855983086396009, 'label': 'goose'},
 {'score': 0.00024381582625210285, 'label': 'lakeside, lakeshore'},
 {'score': 0.00020543277787510306,
  'label': 'American coot, marsh hen, mud hen, water hen, Fulica americana'},
 {'score': 9.251195297110826e-05,
  'label': 'European gallinule, Porphyrio porphyrio'}]

In [21]:
from transformers import ViTImageProcessor, ViTForImageClassification
from PIL import Image

In [22]:
image = Image.open("/content/drive/MyDrive/Fotos_Pruebas/cisneNegro.jpg")

In [24]:
processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Clase:", model.config.id2label[predicted_class_idx])

Clase: black swan, Cygnus atratus


## Generador

In [5]:
generator = pipeline('text-generation', model='gpt2')

In [6]:
generator("Hello, I'm a language model,", max_length=30, num_return_sequences=5)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Hello, I\'m a language model, and my students use that very much."\n\nWhile the students are still in the early stages of training in'},
 {'generated_text': "Hello, I'm a language model, and I don't want to start a language model by just looking at the grammar. When I'm writing the"},
 {'generated_text': "Hello, I'm a language model, not a language model, I think there's a better way to describe it. I think that at the end"},
 {'generated_text': "Hello, I'm a language model, so I want people to get their hands on a language for that, which would be one of the things the"},
 {'generated_text': 'Hello, I\'m a language model, not a programming model."\n\nThe other day, the editor\'s father spoke. "You\'re a beautiful'}]

In [14]:
generator("I'm a goddess", max_length=100, num_return_sequences=5, pad_token_id=50256)

[{'generated_text': 'I\'m a goddess," she said at one point, holding up her hands. As we started the walking trip back from the town, she held up that she\'d picked up on that moment earlier. I\'d seen him before, after all.\n\nMy legs kept moving, and my arms seemed to be resting gently on her feet. "And you got the feeling I\'d been here, too," I said.\n\n"You Fit The Rules!" he shouted back.\n\n"Well'},
 {'generated_text': 'I\'m a goddess… I\'ve been a goddess, too…"\n\n\n"Yes, she…" her heart thumped as it felt like she was experiencing a revelation. The whole goddess thing in particular, the pain she must feel… she was already on top. It was more than simply a feeling of acceptance or rejection, it was a sense of belonging and belonging. "Hey, I want to talk about this with you again… I was worried that I would have problems…"\n\n"Ah'},
 {'generated_text': 'I\'m a goddess of the dead to have her body brought to its knees."\n\nSo at least that\'s the way I\'ve been in this situatio

### Generador en español

In [13]:
pipe = pipeline("text-generation", model="DeepESP/gpt2-spanish")

In [14]:
pipe("Voy a vivir la vida",max_length=100, num_return_sequences=5, pad_token_id=50256)

[{'generated_text': 'Voy a vivir la vida que está esperando, no tiene esperanzas de que sea capaz de volver a vivir. \n\n—Todo el mundo piensa que podría haber perdido. \n\n—La cuestión es, —continuó explicando—, que tú eres capaz de vivir un sueño, si tienes suerte alguna, de que no pase el tiempo con la persona que lo está esperando para no olvidarlo y se presente cuando en realidad lo necesita. \n\n—No puedo. \n\n—¿Y qué vas a hacer, a morir'},
 {'generated_text': 'Voy a vivir la vida. \n\n—No he acabado. \n\n—Amanece y descanse. \n\nSe hizo un silencio entre los dos. \n\n—No, no me hace falta —dijo el joven—. El primer avión es el último. ¡Salgamos todos a recogerlo! \n\nEl avión había sido lanzado hacia la cumbre. El sol estaba ya muy alto y cuando ya iban a despegar, ya la niebla seguía cayendo sobre ellos. \n\n—Está bien,'},
 {'generated_text': 'Voy a vivir la vida que es lo opuesto de esta vida, a este mundo en el que todo es algo más que una vida. \n\nCuando le pregunté cómo s

In [11]:
pipe = pipeline("text-generation", model="mrm8488/spanish-gpt2")

Downloading (…)lve/main/config.json:   0%|          | 0.00/883 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/226 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/846k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/505k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.45M [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

In [12]:
pipe("Voy a vivir la vida",max_length=100, num_return_sequences=5, pad_token_id=50256)

[{'generated_text': 'Voy a vivir la vida y luego voy a morir feliz" y esta es la historia.En el cuento alemán, el personaje principal, el único, es el narrador de la historia, el narrador del cuento, con la historia.Y en el cuento chino, esto es otro personaje.Y como el cuento chino, tiene la historia en el mismo orden en que la tenía antes de la historia.Pero cuando hablamos del cuento chino, es importante recordar que el cuento en alemán lo que la gente quiere decir'},
 {'generated_text': 'Voy a vivir la vida.¡Quiero vivir la vida!¡Quiero vivir la vida!¡Quiero vivir la vida!¡No me hagas reír, que me muero!¡Y no me importa morir!¡Quiero vivir ya!¡Quiero vivir la vida!Así, así.Cuando vuelvas, me pones en su lugar.Que se sienta como en su casa, que se vea por primera vez.Se va con las luces apagadas y va hacia a ella.Que vea al marido, es algo'},
 {'generated_text': 'Voy a vivir la vida que siempre me imaginé... como era y si todo lo que mi madre me hizo fue mentir, y como lo hizo con m

## Resumir texto

In [8]:
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-spanish-finetuned-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):
   inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = model.generate(input_ids, attention_mask=attention_mask)
   return tokenizer.decode(output[0], skip_special_tokens=True)

Downloading (…)okenizer_config.json:   0%|          | 0.00/520 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/4.51k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/555M [00:00<?, ?B/s]

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']


In [17]:
text="""
El gol que Linda Caicedo le marcó a Alemania en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda 2023.
"El impresionante gol de Linda Caicedo en la fase de grupos contra Alemania ha sido votado como el Gol Hyundai del Torneo de la Copa Mundial Femenina de la FIFA Australia y Nueva Zelanda 2023™", dice el comunicado de la entidad.
"Después de recoger el balón justo dentro del área, la sensación adolescente se abrió paso entre dos defensores alemanes con una croqueta perfecta. Luego, con un movimiento fluido, lanzó un disparo que se metió en la esquina superior derecha de la portería de Merle Frohm para darle a Colombia la ventaja", fue la descripción de Fifa.
"El ganador del Gol Hyundai del Torneo fue determinado por una encuesta de fanáticos, con el esfuerzo de Caicedo superando el sublime tiro libre de la estrella panameña Martha Cox contra Francia por sólo el 0,5 por ciento de los votos", agrega el comunicado.
"Realmente lo vi. Se me vinieron miles de recuerdos de todo lo que he pasado y es increible todo. Agradecerles a Colombia, a mis compañeras, que siento que lo luchamos hasta lo último y bueno, muy feliz", dijo entonces Linda.
El gol tuvo un significado especial para Caicedo, una imagen que le dio la vuelta al mundo por lo que marcó entonces: la primera derrota de Alemania en fase de grupos desde 1995. La dos veces campeona del mundo no superó la primera fase
"No tengo palabras para describir lo que acabamos de hacer. Pero bueno, mucha mesura. Hay que pensar en lo que se viene, que es Marruecos, y ya pensar en los otros partidos", declaró Linda en zona mixta.
"""

In [9]:
generate_summary(text)

'El gol de Linda Caicedo en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda'

In [22]:
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))


model_name = "csebuetnlp/mT5_m2m_crossSum_enhanced"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

get_lang_id = lambda lang: tokenizer._convert_token_to_id(
    model.config.task_specific_params["langid_map"][lang][1]
)

target_lang = "spanish"

input_ids = tokenizer(
    [WHITESPACE_HANDLER(text)], # Texto a resumir
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    decoder_start_token_id=get_lang_id(target_lang),
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4,
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)

<extra_id_96> El gol que le marcó a Alemania en la fase de grupos fue el mejor del Mundial Femenino de Australia y Nueva Zelanda.


**Nota:** Ver otros modelos en: https://huggingface.co/models?pipeline_tag=summarization&language=es&sort=trending

## Traducir

In [5]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [6]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")

Downloading (…)olve/main/source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading (…)olve/main/target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]



In [8]:
translator("""
Daniel’e Junggust is pouring cold beers for the regulars at Tailgators bar in the coastal town of Weeki Watchi, but her mind is on her home a couple of minutes down the road.

Her ground floor apartment was inundated with water - she fears everything inside is ruined.

“I tried to get as much out beforehand as I possibly could,” she says. She stayed with her mother further inland last night.

Police have set up a checkpoint along the road, and she hasn’t yet been back home.

Like many along this coast, Daniel’e is both counting the damage and her blessings, thankful that friends and family are safe.

“Sometimes the universe takes things away from you,” she muses, “and hopefully you get something back in return.”
""")

[{'translation_text': "Daniel'e Junggust está echando cervezas frías para los clientes habituales en el bar Tailgators en la ciudad costera de Weeki Watchi, pero su mente está en su casa a un par de minutos por la carretera. Su apartamento en la planta baja estaba inundado de agua - teme que todo dentro esté arruinado. “Traté de sacar todo lo que pude de antemano”, dice. Se quedó con su madre en tierra adentro anoche. La policía ha establecido un puesto de control a lo largo de la carretera, y todavía no ha vuelto a casa. Como muchos a lo largo de esta costa, Daniel'e está contando el daño y sus bendiciones, agradecida de que amigos y familiares estén a salvo. “A veces el universo te quita las cosas”, reflexiona, “y espero que recuperes algo a cambio”."}]

Si queremos cargar el modelo directamente

In [7]:
#tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-es")
#model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-es")

## Análisis de sentimientos

### Biblioteca pipiline para análisis de sentimiento multilengua

In [10]:
sentiment_m = pipeline(task = 'sentiment-analysis',
                     model = 'nlptown/bert-base-multilingual-uncased-sentiment',
                     tokenizer = 'nlptown/bert-base-multilingual-uncased-sentiment')

Downloading (…)lve/main/config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [11]:
print (sentiment_m.model.config)

BertConfig {
  "_name_or_path": "nlptown/bert-base-multilingual-uncased-sentiment",
  "_num_labels": 5,
  "architectures": [
    "BertForSequenceClassification"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "finetuning_task": "sentiment-analysis",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "1 star",
    "1": "2 stars",
    "2": "3 stars",
    "3": "4 stars",
    "4": "5 stars"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "1 star": 0,
    "2 stars": 1,
    "3 stars": 2,
    "4 stars": 3,
    "5 stars": 4
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_to

In [12]:
results = sentiment_m('Esto está mal')
results

[{'label': '1 star', 'score': 0.6360456347465515}]

In [13]:
sentiment_m(text)

[{'label': '4 stars', 'score': 0.25946688652038574}]

### Modelos entrenados en español
Exiten algunos modelos que han sido entrenados con español, como:


*   pysentimiento/robertuito-sentiment-analysis




In [14]:
sentiment_pipeline = pipeline('text-classification',
                              model="pysentimiento/robertuito-sentiment-analysis")

Downloading (…)lve/main/config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/435M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

In [22]:
results = sentiment_pipeline('Esto está mal')
results

[{'label': 'NEG', 'score': 0.9360191226005554}]

Este no admite textos muy grandes, pero podemos dividirlo por oraciones

In [26]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [27]:
sent_text = nltk.sent_tokenize(text)

In [28]:
sent_text

['\nEl gol que Linda Caicedo le marcó a Alemania en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda 2023.',
 '"El impresionante gol de Linda Caicedo en la fase de grupos contra Alemania ha sido votado como el Gol Hyundai del Torneo de la Copa Mundial Femenina de la FIFA Australia y Nueva Zelanda 2023™", dice el comunicado de la entidad.',
 '"Después de recoger el balón justo dentro del área, la sensación adolescente se abrió paso entre dos defensores alemanes con una croqueta perfecta.',
 'Luego, con un movimiento fluido, lanzó un disparo que se metió en la esquina superior derecha de la portería de Merle Frohm para darle a Colombia la ventaja", fue la descripción de Fifa.',
 '"El ganador del Gol Hyundai del Torneo fue determinado por una encuesta de fanáticos, con el esfuerzo de Caicedo superando el sublime tiro libre de la estrella panameña Martha Cox contra Francia por sólo el 0,5 por ciento de los votos", agrega el comunica

In [31]:
sent=[]
for s in sent_text:
  sent.append(sentiment_pipeline(s))

In [32]:
sent

[[{'label': 'POS', 'score': 0.5557050704956055}],
 [{'label': 'NEU', 'score': 0.5725243091583252}],
 [{'label': 'POS', 'score': 0.8099199533462524}],
 [{'label': 'POS', 'score': 0.4944000244140625}],
 [{'label': 'NEU', 'score': 0.5015159845352173}],
 [{'label': 'NEU', 'score': 0.5796695351600647}],
 [{'label': 'POS', 'score': 0.8154635429382324}],
 [{'label': 'POS', 'score': 0.9507564902305603}],
 [{'label': 'POS', 'score': 0.8774600028991699}],
 [{'label': 'NEG', 'score': 0.5056822299957275}],
 [{'label': 'POS', 'score': 0.6953572630882263}],
 [{'label': 'NEU', 'score': 0.5165379643440247}]]

In [45]:
labels=np.array([s[0]['label'] for s in sent])
score=np.array([s[0]['score'] for s in sent])

In [41]:
import numpy as np

In [47]:
len(labels[labels=='POS'])

7

In [51]:
np.mean(score[labels=='POS'])

0.7427231924874442

In [48]:
len(labels[labels=='NEU'])

4

In [52]:
np.mean(score[labels=='NEU'])

0.542561948299408

In [49]:
len(labels[labels=='NEG'])

1

In [53]:
np.mean(score[labels=='NEG'])

0.5056822299957275

In [16]:
sentiment_es = pipeline(task = 'sentiment-analysis',
                     model='mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
                     tokenizer=(
        'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
        {"use_fast": False}
    ))

Downloading (…)lve/main/config.json:   0%|          | 0.00/465 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Downloading (…)okenizer_config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [17]:
print (sentiment_es.model.config)

BertConfig {
  "_name_or_path": "mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es",
  "architectures": [
    "BertForQuestionAnswering"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.32.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 31002
}



In [19]:
results = sentiment_es('Esto está mal')
results

[{'label': 'LABEL_1', 'score': 0.840549886226654}]

In [20]:
sentiment_es(text)

[{'label': 'LABEL_1', 'score': 0.8128289580345154}]