<div style="font-size: 3em; font-weight: bold; text-align: center;">Clases en Hugging Face</div>
<div style="text-align: right; font-size: 24px; margin-right: 10px;">Guillermo Díaz Aguado</div>

In [1]:
import transformers

## `Pipelines`
En 🤗 Hugging Face, los pipelines son una forma muy sencilla y directa de usar modelos preentrenados para tareas comunes de procesamiento de lenguaje natural, visión, audio y más, sin preocuparte por los detalles internos de tokenización, preprocesamiento o inferencia

Combina:
* Preprocesador
    * Tokenizador
* Modelo preentrenado
* Postprocesamiento del resultado

La abstracción `pipeline` es un *wrapper* donde están todos los posibles **Task-specific pipelines**

### Pipelines Funcionamiento
Lo primero es inicializar el objeto que queramos usar incluyendo elementos claves como pueden ser:
* `task`, `model` o ambos. Así indicaremos que tipo de proceso se llevará a cabo

### Pipelines Parameters

#### `task` (`str`)
Define qué tipo de *pipeline* se devolverá. Las tareas aceptadas actualmente son:

- `"audio-classification"` → `AudioClassificationPipeline`
- `"automatic-speech-recognition"` → `AutomaticSpeechRecognitionPipeline`
- `"depth-estimation"` → `DepthEstimationPipeline`
- `"document-question-answering"` → `DocumentQuestionAnsweringPipeline`
- `"feature-extraction"` → `FeatureExtractionPipeline`
- `"fill-mask"` → `FillMaskPipeline`
- `"image-classification"` → `ImageClassificationPipeline`
- `"image-feature-extraction"` → `ImageFeatureExtractionPipeline`
- `"image-segmentation"` → `ImageSegmentationPipeline`
- `"image-text-to-text"` → `ImageTextToTextPipeline`
- `"image-to-image"` → `ImageToImagePipeline`
- `"image-to-text"` → `ImageToTextPipeline`
- `"mask-generation"` → `MaskGenerationPipeline`
- `"object-detection"` → `ObjectDetectionPipeline`
- `"question-answering"` → `QuestionAnsweringPipeline`
- `"summarization"` → `SummarizationPipeline`
- `"table-question-answering"` → `TableQuestionAnsweringPipeline`
- `"text2text-generation"` → `Text2TextGenerationPipeline`
- `"text-classification"` (alias `"sentiment-analysis"`) → `TextClassificationPipeline`
- `"text-generation"` → `TextGenerationPipeline`
- `"text-to-audio"` (alias `"text-to-speech"`) → `TextToAudioPipeline`
- `"token-classification"` (alias `"ner"`) → `TokenClassificationPipeline`
- `"translation"` → `TranslationPipeline`
- `"translation_xx_to_yy"` → `TranslationPipeline`
- `"video-classification"` → `VideoClassificationPipeline`
- `"visual-question-answering"` → `VisualQuestionAnsweringPipeline`
- `"zero-shot-classification"` → `ZeroShotClassificationPipeline`
- `"zero-shot-image-classification"` → `ZeroShotImageClassificationPipeline`
- `"zero-shot-audio-classification"` → `ZeroShotAudioClassificationPipeline`
- `"zero-shot-object-detection"` → `ZeroShotObjectDetectionPipeline`

---

#### `model` (`str` | `PreTrainedModel` | `TFPreTrainedModel`, *optional*)
El modelo que usará el pipeline. Puede ser un identificador de modelo o una instancia de un modelo preentrenado.  
Si no se proporciona, se usará el modelo por defecto para la tarea.

---

#### `config` (`str` | `PretrainedConfig`, *optional*)
Configuración usada para instanciar el modelo.  
Si no se proporciona, se usará la configuración por defecto del modelo dado o de la tarea.

---

#### `tokenizer` (`str` | `PreTrainedTokenizer`, *optional*)
Tokenizador que codificará los datos para el modelo.  
Si no se proporciona, se cargará el tokenizador por defecto para el modelo, la configuración o la tarea.

---

#### `feature_extractor` (`str` | `PreTrainedFeatureExtractor`, *optional*)
Extractor de características usado para modelos no NLP (visión, audio o multi-modal).  
Si no se proporciona, se carga el extractor por defecto según el modelo o la tarea.

---

#### `image_processor` (`str` | `BaseImageProcessor`, *optional*)
Procesador de imágenes para modelos de visión o multimodales.  
Si no se proporciona, se cargará el procesador por defecto.

---

#### `processor` (`str` | `ProcessorMixin`, *optional*)
Procesador para entradas multimodales (texto + imagen, por ejemplo).  
Se carga el por defecto si no se proporciona.

---

#### `framework` (`str`, *optional*)
Framework a usar: `"pt"` (PyTorch) o `"tf"` (TensorFlow).  
Si no se especifica, se elige automáticamente según lo instalado o el modelo.

---

#### `revision` (`str`, *optional*, por defecto `"main"`)
Revisión específica del modelo (rama, tag o commit) en Hugging Face Hub.

---

#### `use_fast` (`bool`, *optional*, por defecto `True`)
Usar un tokenizer rápido (`PreTrainedTokenizerFast`) si está disponible.

---

#### `use_auth_token` (`str` | `bool`, *optional*)
Token de autenticación para acceder a archivos privados del Hub.  
Si es `True`, usará el token generado con `huggingface-cli login`.

---

#### `device` (`int` | `str` | `torch.device`)
Dispositivo donde se ejecutará el pipeline (`"cpu"`, `"cuda"`, `"mps"`, etc.).

---

#### `device_map` (`str` | `dict`, *optional*)
Distribución automática de modelos entre dispositivos (usando `accelerate`).  
**⚠️ No usar junto con `device`, ya que entran en conflicto.**

---

#### `torch_dtype` (`str` | `torch.dtype`, *optional*)
Precisión usada en PyTorch (`float16`, `bfloat16`, `"auto"`, etc.).

---

#### `trust_remote_code` (`bool`, *optional*, por defecto `False`)
Permite ejecutar código personalizado de los repositorios.  
**⚠️ Solo usar si confías en el código.**

---

#### `model_kwargs` (`dict`, *optional*)
Argumentos adicionales enviados al cargar el modelo con `from_pretrained()`.

---

#### `kwargs` (`dict`, *optional*)
Argumentos adicionales pasados al inicializar el pipeline específico.

---

### Pipelines Returns

#### `Pipeline`
Devuelve un objeto pipeline adecuado para la tarea especificada.


### Pipeline Batching

Todas las *pipelines* pueden usar *batching* peor tienes que darles algun objeto divisible -> List, Dataset, generator

#### Pipeline Chunk Batching

Existen casos como `zero-shot.classification` y `question-answering` que no es posible hacer la división de batches como quisieramos hacer de forma normal puesto que los datos de uno se utilizan para otro. Para ello hacemos:


## Autoclasses
Muchas veces, la arquitectura que queremos usar seguramente esté en un *modelo preentrenado* al que podemos acceder usando el método `from_pretrained()`

Es importante recordar que debemos usar el método `from_pretrained()` para indicarle que modelo estamos usando para todas las siguientes clases. 

### `AutoTokenizer`
Sirve para cargar el **tokenizador** adecuado según el modelo que estés usando. No hace falta que tu sepas cual hay que usar. 

Es importante recordar que debemos usar el método `from_pretrained()` para indicarle que modelo estamos usando

### `Automodel`
Es una clase que carga el **modelo base** de cualquier arquitectura soportada. 

El **modelo base** es:
* El modelo **sin cabeza(head)** especifica para tareas
* Solo incluye las capas fundamentales que generan las representaciones internas:
    * **embeddings**
    * **transformaciones internas**
    * **hidden states**

#### Función exacta de `Automodel`
1. <u>Detecta el modelo correcto a partir del identificador </u> que le pases (por ejemplo "bert-base-uncased") y carga automáticamente la clase que corresponde (`BertModel`)
2. <u>Carga los pesos preentrenados </u> del modelo base correspondiente.
3. Ejecuta el modelo

#### Salida de `Automodel`
* `last_hidden_state`: tensor con la representación final de la última capa con la forma -> [batch_size, seq_len, hidden_dim]
* Si activas `output_hidden_states=True` obtienes también:
    * `hidden_states`: tupla con la salida de cada capa del modelo
* Si activas `output_attentions=True`
    * Obtienes matrices de las *attention* internas

### `AutoFeatureExtractor`
Sirve para cargar automáticamente el **extractor de características** adecuado para modelos *no basados en texto*.

#### Adjunto 
En modelos recientes, esta clase está siendo reemplazada por `AutoImageProcessor` y `AutoProcessor`. 