# **Transformers - [Función Pipeline](https://huggingface.co/docs/transformers/main/en/main_classes/pipelines)** #

La función Pipeline sirve para realizar una inferencia veloz. Carga un modelo preentrenado y un tokenizador para resolver tareas como...

---
**Texto:**

* Clasificación de Texto / Análisis de Sentimiento (Text Clasification / Sentiment Analysis): Clasifica la polaridad de un texto dado.
* Generación de Texto (Text Generation): Genera texto a partir de un input dado.
* Reconocimiento de Entidades (Name Entity Recognition o NER): Etiqueta cada palabra con la entidad que representa (persona, fecha, ubicación...).
* Responder Preguntas (Question answering): Extrae la respuesta del contexto dado un contexto y una pregunta.
* Rellenar Máscara (Fill-mask): Rellena el espacio faltante dado un texto con palabras enmascaradas.
* Resumir (Summarization): Genera un resumen de una secuencia larga de texto o un documento.
* Traducción (Translation): Traduce un texto a otro idioma.
* Extracción de Características (Feature Extraction): Crea una representación tensorial del texto.
---
**Imagen:**

* Clasificación de Imágenes (Image Classification): Clasifica una imagen.
* Segmentación de Imágenes (Image Segmentation): Clasifica cada pixel de una imagen.
* Detección de Objetos (Object Detection): Detecta objetos dentro de una imagen.
---
**Audio:**

* Clasificación de Audios (Audio Classification): Asigna una etiqueta a un segmento de audio.
* Reconocimiento de Voz Automático (Automatic Speech Recognition o ASR): Transcribe datos de audio a un texto.
---

### **Uso de Pipeline:**

Importar la función Pipeline.

In [None]:
!pip install -U transformers

In [2]:
from transformers import pipeline

Especificar la tarea que se desea completar.

In [None]:
clasificador = pipeline(task="text-classification", model="lxyuan/distilbert-base-multilingual-cased-sentiments-student")

Pipeline descarga y almacena en caché el modelo preentrenado y tokenizador para análisis de sentimiento. Si no hubieramos elegido un modelo (clasificador = pipeline("text-classification")) el pipeline habría elegido uno por defecto. Ahora ya podemos usar el objeto clasificador...

In [None]:
res = clasificador("Me encantan las películas de acción y aventuras, son geniales")
print(res)

# **Tareas relacionadas con el PLN (Procesamiento de Lenguaje Natural)**

Las tareas de PLN se encuentran entre las más comunes debido a que el texto es una forma natural de comunicación. Para que un modelo reconozca el texto, es necesario "tokenizarlo". Lo que implica dividir una secuencia de texto en palabras individuales o subpalabras (tokens) y luego convertirlas en números. Como resultado, se puede representar una secuencia de texto como una secuencia de números, y una vez que se tiene una secuencia de números, se puede introducir en un modelo para resolver todo tipo de tareas de PLN.

## **Clasificación de texto:**

La clasificación de texto etiqueta una secuencia de texto (puede ser a nivel de oración, párrafo o documento) a partir de un conjunto predefinido de clases. Aplicaciones prácticas:

### **Análisis de sentimiento (Sentiment Analysis):**

Etiquetar el texto según una polaridad como "positivo" o "negativo".

In [None]:
clasificador = pipeline(task="text-classification", model="lxyuan/distilbert-base-multilingual-cased-sentiments-student")

In [None]:
res = clasificador("Me encantan las películas de acción y aventuras, son geniales")
print(res)

[{'label': 'positive', 'score': 0.9821197390556335}]


### **Análisis de emoción:**
`¡¡¡TENGO QUE ENCONTRAR UN MODELO QUE FUNCIONE BIEN EN CASTELLANO!!!`

Etiquetar el texto según una emoción en base a las categorías predefinidas.

In [None]:
clasificador = pipeline(task="text-classification", model="SamLowe/roberta-base-go_emotions", top_k=None)

In [None]:
textos = ["I love football."]
res = clasificador(textos)

In [None]:
res[0]

### **Inferencia del Lenguaje Natural (Natural Language Inference - NLI):**
`¡¡¡TENGO QUE ENCONTRAR UN MODELO QUE FUNCIONE BIEN EN CASTELLANO!!!`

Evaluar si la información presentada en la hipótesis se puede inferir de la premisa. Resultados...

* Entailment: La información de la hipótesis se deriva necesariamente de la premisa. Por ejemplo, Premisa: "Todos los gatos son mamíferos." Hipótesis: "Mi gato es un mamífero."
* Contradiction: La información de la hipótesis contradice directamente a la premisa. Por ejemplo, Premisa: "El cielo es azul." Hipótesis: "El cielo es rojo."
* Neutral: No se puede determinar si la información de la hipótesis se puede inferir de la premisa o no. Por ejemplo, Premisa: "A Juan le gustan las películas de acción." Hipótesis: "A Juan le gusta la película Titanic."

In [None]:
clasificador = pipeline("text-classification", model = "roberta-large-mnli")

In [None]:
res = clasificador("El niño tiene un lapicero. Hay un objeto que sirve para escribir en la mano del niño.")
print(res)
res = clasificador("El niño está en la cocina. El niño ha ido al baño.")
print(res)
res = clasificador("El niño está en la cocina. El niño tiene fiebre.")
print(res)

[{'label': 'NEUTRAL', 'score': 0.6019813418388367}]
[{'label': 'CONTRADICTION', 'score': 0.9388557076454163}]
[{'label': 'NEUTRAL', 'score': 0.5525568127632141}]


### **Inferencia del Lenguaje Natural para preguntas (Natural Language Inference - QNLI):**

QNLI es la tarea de determinar si la respuesta a una pregunta específica se puede encontrar en un documento determinado. Si la respuesta se encuentra, la etiqueta es "entailment". Si la respuesta no se encuentra, la etiqueta es "not entailment".

En otras palabras, QNLI evalúa la relación semántica entre una pregunta (premisa) y un documento (hipótesis). La tarea consiste en decidir si la información necesaria para responder la pregunta está implícita o explícitamente presente en el documento.

* Entailment: La respuesta a la prengunta está en el documento, Premisa: "¿A qué hora sale el vuelo 234 de Madrid?" Hipótesis: "El vuelo 234 de Madrid sale a las 10:30 AM."
* Not Entailment: La respuesta a la prengunta no está en el documento, Premisa: "¿A Juan le gustan los animales?" Hipótesis: "Juan tiene un perro."

In [None]:
clasificador = pipeline("text-classification", model = "cross-encoder/qnli-electra-base")

In [None]:
res = clasificador("¿A qué hora sale el vuelo 234 de Madrid?, El vuelo 234 de Madrid sale a las 10:30 AM.")
print(res)
res = clasificador("¿A Juan le gustan los animales?, Juan tiene un perro.")
print(res)

### **Completa la frase con la palabra adecuada (Unmask):**

Se utiliza para completar frases con palabras que faltan.

In [None]:
unmasker = pipeline('fill-mask', model='bert-base-multilingual-cased')

In [None]:
unmasker("El perro [MASK] con la pelota.")

# **Tareas relacionadas con Audio**

**Clasificación de Audio:**

La clasificación de audio es una tarea que etiqueta datos de audio a partir de un conjunto predefinido de categorías. Posibles aplicaciones:
* Identificación de escena sonora (acoustic scene classification): Etiquetar el audio con una etiqueta de escena ("oficina", "playa", "estadio").
* Detección de eventos acústicos (acoustic event detection): Etiquetar el audio con una etiqueta de evento sonoro ("bocina de coche", "canto de ballena", "cristal rompiéndose").
* Etiquetado (tagging): Etiquetar audio que contiene múltiples sonidos (cantos de aves, identificación de hablantes en una reunión).
* Clasificación de música (music classification): Clasificar la música por género ("metal", "hip-hop", "country").

In [None]:
clasificador = pipeline(task="audio-classification", model="superb/hubert-base-superb-er")
preds = clasificador("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac")
preds = [{"score": round(pred["score"], 4), "label": pred["label"]} for pred in preds]
preds

# **Pruebas**

In [None]:
from transformers import pipeline, set_seed

In [None]:
generator = pipeline('text-generation', model='gpt2')

In [None]:
set_seed(42)
generator("Hello, I'm a language model,", max_length=30, num_return_sequences=5)

In [3]:
from transformers import AutoModelForCausalLM, AutoTokenizer

In [None]:
model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

In [None]:
text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))