### **HugginFace - Transformers** ###

Transformers: Biblioteca de código abierto de Hugging Face que facilita la creación de modelos de deep learning para procesamiento del lenguaje natural (LLM)

[Transformers](https://github.com/huggingface/transformers)

In [5]:
from transformers import pipeline
from google.colab import userdata
userdata.get('ReadTokenHugginFace')

'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'

Vamos a crear un Clasificador de Análisis de Sentimiento.

La función Pipeline permite crear fácilmente pipelines para diferentes tareas de procesamiento de lenguaje natural (PNL), como clasificación de texto, traducción automática, resumen de texto...

* text-classification: Análisis de sentimiento
* question-answering: Respuesta a preguntas
* summarization: Resumen de texto
* translation: Traducción automática
* zero-shot-classification: Clasificación de texto sin entrenamiento
* text-generation: Generación de texto
* [lista completa](https://huggingface.co/docs/transformers/main_classes/pipelines#transformers.pipeline)

Al pasarle el parámetro "sentiment-analysis", Pipeline cargará un modelo pre-entrenado especializado en identificar la polaridad emocional de un texto como positivo, negativo o neutral.

In [31]:
classifier = pipeline("text-classification") # Utiliza el modelo por defecto para Análisis de Sentimiento (entrenado con Dataset de textos en Inglés)

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [32]:
## Uso del clasificador de análisis de sentimiento
res = classifier("Me encantan las películas de acción y aventuras, son geniales")
print(res)
res = classifier("La película es buena. El público disfrutará al verla.")
print(res)

[{'label': 'POSITIVE', 'score': 0.9119333624839783}]
[{'label': 'POSITIVE', 'score': 0.7883290648460388}]


## *Modelo y Tokenizer:* ##

Vamos a bajar a un nivel inferior y ver las etapas que se están ejecutando para realizar el proceso de análisis.

Para ello, vamos a reproducir los resultados anteriores con más detalle en la codificación.

In [2]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

In [22]:
model_name = "distilbert-base-uncased-finetuned-sst-2-english" # Modelo por defecto para Análisis de Sentimiento

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_name)                  # Creamos el Tokenizador
model = AutoModelForSequenceClassification.from_pretrained(model_name) # Creamos el Modelo

classifier = pipeline(
    "text-classification",
    model = model,
    tokenizer = tokenizer
)

In [24]:
res = classifier("Me encantan las películas de acción y aventuras, son geniales")
print(res)
res = classifier("La película es buena. El público disfrutará al verla.")
print(res)

[{'label': 'POSITIVE', 'score': 0.9119333624839783}]
[{'label': 'POSITIVE', 'score': 0.7883290648460388}]


In [None]:
model # Podemos ver la arquitectura del modelo creado

Vamos a ver cómo funciona el Tokenizador con más detalle.

El modelo sólo comprende valores numéricos. Por tanto, debemos convertir nuestros textos en números para poder pasarlos como entrada a nuestro modelo.

In [42]:
texto = "La película es buena. El público disfrutará al verla."
res = tokenizer(texto)
print(res)

{'input_ids': [101, 10159, 14970, 10196, 40487, 119, 10224, 17386, 27920, 71843, 78411, 10661, 10164, 16719, 10330, 119, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


Paso a paso...

In [43]:
tokens = tokenizer.tokenize(texto)                  # Se parte el texto de entrada en Tokens
print(tokens)
token_ids = tokenizer.convert_tokens_to_ids(tokens) # Se convierten los Tokens en identificadores numéricos
print(token_ids)
tokenizer.decode(res['input_ids'])                  # Decodificar los identificadores numéricos

['La', 'película', 'es', 'buena', '.', 'El', 'público', 'dis', '##fr', '##utar', '##á', 'al', 'ver', '##la', '.']
[10159, 14970, 10196, 40487, 119, 10224, 17386, 27920, 71843, 78411, 10661, 10164, 16719, 10330, 119]


'[CLS] La película es buena. El público disfrutará al verla. [SEP]'

Los resultado obtenidos no han sido tan buenos como nos hubiera gustado.
* El Tokenizador genera los Tokens de manera que se pierde contexto de los datos de entrada.
* El resultado de la clásificación de análisis de sentimiento podría ser mejor.

Está ocurriendo esto porque estamos trabajando con el modelo por defecto propuesto para la tarea de análisis de sentimiento (distilbert-base-uncased-finetuned-sst-2-english). Dicho modelo está entrenado con un Dataset en inglés, y por tanto, los resultados obtenidos para el análisis de sentimiento con frases en Castellano no son muy buenos.

Vamos a probar a utilizar un [modelo](https://huggingface.co/models) que haya sido entrenado con un Dataset en Castellano.

In [3]:
model_name = "lxyuan/distilbert-base-multilingual-cased-sentiments-student"

In [6]:
tokenizer = AutoTokenizer.from_pretrained(model_name)                  # Creamos el Tokenizador
model = AutoModelForSequenceClassification.from_pretrained(model_name) # Creamos el Modelo

classifier = pipeline(
    "text-classification",
    model = model,
    tokenizer = tokenizer
)

In [7]:
res = classifier("Me encantan las películas de acción y aventuras, son geniales")
print(res)
res = classifier("La película es buena. El público disfrutará al verla.")
print(res)

[{'label': 'positive', 'score': 0.9821197390556335}]
[{'label': 'positive', 'score': 0.9920956492424011}]


## *Guardar Modelo y Tokenizer en Local:* ##

Guardado

In [8]:
model_path = ("./modelo")
tokenizer.save_pretrained(model_path)
model.save_pretrained(model_path)

Utilización de un modelo guardado en local

In [11]:
tokenizer_local = AutoTokenizer.from_pretrained(model_path)
model_local = AutoModelForSequenceClassification.from_pretrained(model_path)

classifier = pipeline(
    "text-classification",
    model = model_local,
    tokenizer = tokenizer_local
)

In [12]:
res = classifier("Me encantan las películas de acción y aventuras, son geniales")
print(res)

[{'label': 'positive', 'score': 0.9821197390556335}]


## *Conclusión* ##

Podemos hacer crear un Clasificador de Texto (Análisis de Sentimiento), haciendo uso del modelo que escojamos mediante el siguiente código.

In [13]:
from transformers import pipeline
from google.colab import userdata
userdata.get('ReadTokenHugginFace')

'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'

In [14]:
model_name = "lxyuan/distilbert-base-multilingual-cased-sentiments-student"
classifier = pipeline("text-classification", model = model_name)

In [15]:
res = classifier("Me encantan las películas de acción y aventuras, son geniales")
print(res)

[{'label': 'positive', 'score': 0.9821197390556335}]
