<a href="https://colab.research.google.com/github/ibonetc/Data_Analytics/blob/main/NLP/Transformers_HuggingFace.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformers en texto

- Generación de texto
- Resúmenes de texto
- Traducción de texto
- Clasificación de imágenes
- Análisis de sentimientos

**Nota**: Intalar estas bibliotecas y reiniciar el entorno

In [6]:
!pip install transformers[sentencepiece]



In [7]:
!pip install transformers
!pip install transformers datasets



In [42]:
import transformers
print(transformers.__version__)

4.38.2


In [9]:
from transformers import pipeline

## Clasificación de imágenes

In [10]:
vision_classifier = pipeline(task="image-classification", model='google/vit-base-patch16-224')
prediction=vision_classifier(images="/content/drive/MyDrive/Fotos_Pruebas/cisneNegro.jpg")
print('Clase:', prediction[0]['label'] , prediction[0]['score']*100)

Clase: black swan, Cygnus atratus 99.56652522087097


In [11]:
prediction

[{'label': 'black swan, Cygnus atratus', 'score': 0.9956652522087097},
 {'label': 'goose', 'score': 0.00038559819222427905},
 {'label': 'lakeside, lakeshore', 'score': 0.00024381572438869625},
 {'label': 'American coot, marsh hen, mud hen, water hen, Fulica americana',
  'score': 0.00020543273421935737},
 {'label': 'European gallinule, Porphyrio porphyrio',
  'score': 9.25119238672778e-05}]

In [12]:
from transformers import ViTImageProcessor, ViTForImageClassification
from PIL import Image

In [13]:
image = Image.open("/content/drive/MyDrive/Fotos_Pruebas/cisneNegro.jpg")

In [14]:
processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Clase:", model.config.id2label[predicted_class_idx])

Clase: black swan, Cygnus atratus


## Generador

In [15]:
generator = pipeline('text-generation', model='gpt2')

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [16]:
generator("Hello, I'm a language model,", max_length=30, num_return_sequences=5)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "Hello, I'm a language model, not a modeler. And if some person would say that those were the models I do and I think they"},
 {'generated_text': 'Hello, I\'m a language model, not a model."\n\n"But in theory there are certain grammar-like forms that language models and some'},
 {'generated_text': "Hello, I'm a language model, and I'm pretty sure I don't mean human form, but the problem is, it's so complicated,"},
 {'generated_text': "Hello, I'm a language model, so you're kind of like me. I was pretty well placed before people. A lot of things could have"},
 {'generated_text': "Hello, I'm a language model, so if you want a bit more control of your C++ codebase, you can also install all the available"}]

In [17]:
generator("I'm a goddess", max_length=100, num_return_sequences=5, pad_token_id=50256)

[{'generated_text': 'I\'m a goddess!\n\n[Cut to her having a baby.]\n\n[Saying "you like it a lot"]\n\n(I like everything about my mom, but even the baby doesn\'t know she\'s a goddess. It\'s pretty cool that she\'s still wearing a bra. Her baby, when it\'s really big, gets a little flustered.)\n\n[Saying "I\'m in a relationship with many girls... but one day I was bored. I'},
 {'generated_text': 'I\'m a goddess, a goddess of beauty," she said. One day, her daughters cried out.\n\nRidley said that when people asked if she had a role in helping children learn, she said no.\n\n"We do it to help them," she said. "We know we have to pay attention, and we help them learn. That\'s what I believe in."\n\nAccording to the school in her class, the girls are taught that, "If you\'re'},
 {'generated_text': 'I\'m a goddess and your soul is mine…"\n\nAfter looking around at the girls, I thought "maybe this was more than they got out of my mind. This is not a real boyfriend thing." She looked at me 

### Generador en español

In [18]:
pipe = pipeline("text-generation", model="DeepESP/gpt2-spanish")

config.json:   0%|          | 0.00/914 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/261M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


tokenizer_config.json:   0%|          | 0.00/115 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/840k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/499k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/262 [00:00<?, ?B/s]

In [19]:
pipe("Voy a vivir la vida",max_length=100, num_return_sequences=5, pad_token_id=50256)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Voy a vivir la vida de una vez por todas. \n\n—¿Para qué? \n\n—Para llegar a un acuerdo contigo por las buenas. Para estar en paz. Para formar unas cuantas personas. Para ser madre y para tener la oportunidad de formar una familia. \n\n—Pues sí. Entiendo que todo esto es muy bueno para ti. ¿No es eso lo que quieres, mi amor? \n\n—¿Qué has dicho? \n\n—Quiero hacer una vida como una familia.'},
 {'generated_text': 'Voy a vivir la vida con este joven, un hombre fuerte, fuerte, digno y bondadoso… Por eso el joven es un muchacho maravilloso. \n\n—Pues, hijo mío —dijo el joven—, en la misma ciudad en que nos encontramos, el señor Rémora, la señora Thonolande, una hermosa mujer muy inteligente, que lleva gran talento en las cosas que ha hecho, de la cual se dice, muy bienhechora, que, con una sabiduría poco natural, le'},
 {'generated_text': 'Voy a vivir la vida, y también de todo cuanto hay en algún lado. Cuando está cerca la vida es muy pesada a causa de la falta de uso

In [20]:
pipe = pipeline("text-generation", model="mrm8488/spanish-gpt2")

config.json:   0%|          | 0.00/883 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/226 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/846k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/505k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.45M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

In [21]:
pipe("Voy a vivir la vida",max_length=100, num_return_sequences=5, pad_token_id=50256)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Voy a vivir la vida de un artista, si tengo que morir.Pero no soy un asesino.No soy, y a ti no te importa.Eso dices tú.He sobrevivido dos días a la última ronda.No sé qué demonios me está pasando.¡Eh!¡Eh!Es como si hubiera subido dentro de tu tumba, y, Dios mío, es como una pesadilla post zombi.En realidad, creo que esa es una forma de hablar.¿Por qué no lo estás diciendo?Se'},
 {'generated_text': 'Voy a vivir la vida que me enseñaste.Lo dejaré todo.Me olvidaré de todo.Pero... a veces tienes que matar para sobrevivir.¡Eh, tú, imbécil, sal de ahí ahora mismo!¿No tienes nada mejor que hacer que joder con el tío?¿Quieres morir?¿No puedes ver lo que está pasando ahí fuera?¡Idiota!¡Ve ahora mismo y ve tú también!¡Maldita sea!¿No puedes ir sólo?Sí, eso es.¡Me voy!'},
 {'generated_text': 'Voy a vivir la vida de otra forma.Es decir, voy a intentar ser la buena madre.¿Por qué?Me dijiste que te gustaba verme feliz.Bueno... ahora vivo en la sensación que tú y Sam vayan a ser 

## Resumir texto

In [22]:
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-spanish-finetuned-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):
   inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = model.generate(input_ids, attention_mask=attention_mask)
   return tokenizer.decode(output[0], skip_special_tokens=True)

tokenizer_config.json:   0%|          | 0.00/520 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/4.51k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/555M [00:00<?, ?B/s]

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']


In [23]:
text="""
El gol que Linda Caicedo le marcó a Alemania en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda 2023.
"El impresionante gol de Linda Caicedo en la fase de grupos contra Alemania ha sido votado como el Gol Hyundai del Torneo de la Copa Mundial Femenina de la FIFA Australia y Nueva Zelanda 2023™", dice el comunicado de la entidad.
"Después de recoger el balón justo dentro del área, la sensación adolescente se abrió paso entre dos defensores alemanes con una croqueta perfecta. Luego, con un movimiento fluido, lanzó un disparo que se metió en la esquina superior derecha de la portería de Merle Frohm para darle a Colombia la ventaja", fue la descripción de Fifa.
"El ganador del Gol Hyundai del Torneo fue determinado por una encuesta de fanáticos, con el esfuerzo de Caicedo superando el sublime tiro libre de la estrella panameña Martha Cox contra Francia por sólo el 0,5 por ciento de los votos", agrega el comunicado.
"Realmente lo vi. Se me vinieron miles de recuerdos de todo lo que he pasado y es increible todo. Agradecerles a Colombia, a mis compañeras, que siento que lo luchamos hasta lo último y bueno, muy feliz", dijo entonces Linda.
El gol tuvo un significado especial para Caicedo, una imagen que le dio la vuelta al mundo por lo que marcó entonces: la primera derrota de Alemania en fase de grupos desde 1995. La dos veces campeona del mundo no superó la primera fase
"No tengo palabras para describir lo que acabamos de hacer. Pero bueno, mucha mesura. Hay que pensar en lo que se viene, que es Marruecos, y ya pensar en los otros partidos", declaró Linda en zona mixta.
"""

In [24]:
generate_summary(text)

'El gol de Linda Caicedo en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda'

In [25]:
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))


model_name = "csebuetnlp/mT5_m2m_crossSum_enhanced"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

get_lang_id = lambda lang: tokenizer._convert_token_to_id(
    model.config.task_specific_params["langid_map"][lang][1]
)

target_lang = "spanish"

input_ids = tokenizer(
    [WHITESPACE_HANDLER(text)], # Texto a resumir
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    decoder_start_token_id=get_lang_id(target_lang),
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4,
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)

tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/3.97k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

<extra_id_96> El gol que le marcó a Alemania en la fase de grupos fue el mejor del Mundial Femenino de Australia y Nueva Zelanda.


**Nota:** Ver otros modelos en: https://huggingface.co/models?pipeline_tag=summarization&language=es&sort=trending

## Traducir

In [26]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [27]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")

config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]



In [28]:
translator("""
Daniel’e Junggust is pouring cold beers for the regulars at Tailgators bar in the coastal town of Weeki Watchi, but her mind is on her home a couple of minutes down the road.

Her ground floor apartment was inundated with water - she fears everything inside is ruined.

“I tried to get as much out beforehand as I possibly could,” she says. She stayed with her mother further inland last night.

Police have set up a checkpoint along the road, and she hasn’t yet been back home.

Like many along this coast, Daniel’e is both counting the damage and her blessings, thankful that friends and family are safe.

“Sometimes the universe takes things away from you,” she muses, “and hopefully you get something back in return.”
""")

[{'translation_text': "Daniel'e Junggust está echando cervezas frías para los clientes habituales en el bar Tailgators en la ciudad costera de Weeki Watchi, pero su mente está en su casa a un par de minutos por la carretera. Su apartamento en la planta baja estaba inundado de agua - teme que todo dentro esté arruinado. “Traté de sacar todo lo que pude de antemano”, dice. Se quedó con su madre en tierra adentro anoche. La policía ha establecido un puesto de control a lo largo de la carretera, y todavía no ha vuelto a casa. Como muchos a lo largo de esta costa, Daniel'e está contando el daño y sus bendiciones, agradecida de que amigos y familiares estén a salvo. “A veces el universo te quita las cosas”, reflexiona, “y espero que recuperes algo a cambio”."}]

Si queremos cargar el modelo directamente

In [29]:
#tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-es")
#model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-es")

## Análisis de sentimientos

### Biblioteca pipiline para análisis de sentimiento multilengua

In [30]:
sentiment_m = pipeline(task = 'sentiment-analysis',
                     model = 'nlptown/bert-base-multilingual-uncased-sentiment',
                     tokenizer = 'nlptown/bert-base-multilingual-uncased-sentiment')

config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [31]:
print (sentiment_m.model.config)

BertConfig {
  "_name_or_path": "nlptown/bert-base-multilingual-uncased-sentiment",
  "_num_labels": 5,
  "architectures": [
    "BertForSequenceClassification"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "finetuning_task": "sentiment-analysis",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "1 star",
    "1": "2 stars",
    "2": "3 stars",
    "3": "4 stars",
    "4": "5 stars"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "1 star": 0,
    "2 stars": 1,
    "3 stars": 2,
    "4 stars": 3,
    "5 stars": 4
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_to

In [32]:
results = sentiment_m('Esto está mal')
results

[{'label': '1 star', 'score': 0.6360456943511963}]

In [33]:
sentiment_m(text)

[{'label': '4 stars', 'score': 0.2594669759273529}]

### Modelos entrenados en español
Exiten algunos modelos que han sido entrenados con español, como:


*   pysentimiento/robertuito-sentiment-analysis




In [34]:
sentiment_pipeline = pipeline('text-classification',
                              model="pysentimiento/robertuito-sentiment-analysis")

config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [35]:
results = sentiment_pipeline('Esto está mal')
results

[{'label': 'NEG', 'score': 0.9360191226005554}]

Este no admite textos muy grandes, pero podemos dividirlo por oraciones

In [36]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [37]:
sent_text = nltk.sent_tokenize(text)

In [38]:
sent_text

['\nEl gol que Linda Caicedo le marcó a Alemania en la fase de grupos fue elegido por votación como el mejor del Mundial Femenino de Australia y Nueva Zelanda 2023.',
 '"El impresionante gol de Linda Caicedo en la fase de grupos contra Alemania ha sido votado como el Gol Hyundai del Torneo de la Copa Mundial Femenina de la FIFA Australia y Nueva Zelanda 2023™", dice el comunicado de la entidad.',
 '"Después de recoger el balón justo dentro del área, la sensación adolescente se abrió paso entre dos defensores alemanes con una croqueta perfecta.',
 'Luego, con un movimiento fluido, lanzó un disparo que se metió en la esquina superior derecha de la portería de Merle Frohm para darle a Colombia la ventaja", fue la descripción de Fifa.',
 '"El ganador del Gol Hyundai del Torneo fue determinado por una encuesta de fanáticos, con el esfuerzo de Caicedo superando el sublime tiro libre de la estrella panameña Martha Cox contra Francia por sólo el 0,5 por ciento de los votos", agrega el comunica

In [39]:
sent=[]
for s in sent_text:
  sent.append(sentiment_pipeline(s))

In [40]:
sent

[[{'label': 'POS', 'score': 0.5557050108909607}],
 [{'label': 'NEU', 'score': 0.57252436876297}],
 [{'label': 'POS', 'score': 0.8099198341369629}],
 [{'label': 'POS', 'score': 0.4944000244140625}],
 [{'label': 'NEU', 'score': 0.501515805721283}],
 [{'label': 'NEU', 'score': 0.5796695351600647}],
 [{'label': 'POS', 'score': 0.8154633641242981}],
 [{'label': 'POS', 'score': 0.9507564902305603}],
 [{'label': 'POS', 'score': 0.8774598836898804}],
 [{'label': 'NEG', 'score': 0.5056825876235962}],
 [{'label': 'POS', 'score': 0.6953572034835815}],
 [{'label': 'NEU', 'score': 0.5165379047393799}]]

In [44]:
import numpy as np

In [43]:
labels=np.array([s[0]['label'] for s in sent])
score=np.array([s[0]['score'] for s in sent])

In [45]:
len(labels[labels=='POS'])

7

In [46]:
np.mean(score[labels=='POS'])

0.742723115852901

In [47]:
len(labels[labels=='NEU'])

4

In [48]:
np.mean(score[labels=='NEU'])

0.5425619035959244

In [49]:
len(labels[labels=='NEG'])

1

In [50]:
np.mean(score[labels=='NEG'])

0.5056825876235962

In [51]:
sentiment_es = pipeline(task = 'sentiment-analysis',
                     model='mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
                     tokenizer=(
        'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
        {"use_fast": False}
    ))

config.json:   0%|          | 0.00/465 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tokenizer_config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [52]:
print (sentiment_es.model.config)

BertConfig {
  "_name_or_path": "mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es",
  "architectures": [
    "BertForQuestionAnswering"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.38.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 31002
}



In [53]:
results = sentiment_es('Esto está mal')
results

[{'label': 'LABEL_1', 'score': 0.5001780986785889}]

In [54]:
sentiment_es(text)

[{'label': 'LABEL_0', 'score': 0.5583236813545227}]