<a href="https://colab.research.google.com/github/YoelCanaza/curso-transfer-learning-huggingface/blob/main/my-practice_Computer_vision_con_Hugging_Face.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visi√≥n por computadora con Hugging Face

As√≠ como los modelos basados ‚Äã‚Äãen Transformers han revolucionado el PLN, ahora vemos una explosi√≥n de investigaciones que los aplican a todo tipo de dominios.

Uno de los m√°s revolucionarios fue el Vision Transformer (ViT), que fue presentado en junio de 2021 por un equipo de investigadores de Google Brain.

Usaremos el `Trainer` de Hugging Face para entrenar nuestro modelo de clasificaci√≥n de im√°genes.

Pero antes tenemos que proporcionarle informaci√≥n sobre nuestros datos, el procesamiento de los datos, el modelo, las m√©tricas e informaci√≥n del entrenamiento.

En espec√≠fico necesitamos definir cada uno de estos puntos:

    model=model,
    args=training_args,
    data_collator=collate_fn,
    compute_metrics=compute_metrics,
    train_dataset=prepared_ds["train"],
    eval_dataset=prepared_ds["validation"],
    tokenizer=feature_extractor



## Procesando los datos para visi√≥n



Usaremos un Dataset del Hub y lo usaremos para afinar un ViT preentrenado con ü§ó `Transformers`.

### Descargando el dataset

Usaremos el dataset [beans](https://huggingface.co/datasets/beans). Con base en una imagen de una hoja de frijol buscamos predecir si la hoja est√° saludable o si est√° enferma. El tipo de enfermedad que tiene (Angular Leaf Spot o Bean Rust).

Miremos un ejemplo.

Como en la key `image` tenemos una imagen tipo PIL entonces podemos verla.

Aprendamos un poco m√°s sobre las etiquetas en nuestro Dataset. Por ejemplo, notamos que tenemos tres etiquetas.

El m√©todo `int2str` de una `ClassLabel` nos permite pasar la representaci√≥n en n√∫mero (entero) de la etiqueta y recibir el nombre de la clase.

### Cargando el ViT Feature Extractor

Prepararemos estas im√°genes para nuestro modelo.

Cuando se entrenan los modelos ViT se aplican transformaciones espec√≠ficas a las im√°genes que se les alimentan. Si usa las transformaciones incorrectas en su imagen, el modelo no entender√° lo que est√° viendo. üñº ‚û°Ô∏è

Para asegurarnos de que aplicamos las transformaciones correctas, usaremos un `ViTFeatureExtractor` inicializado con una configuraci√≥n que se guard√≥ junto con el modelo pre-entrenado que planeamos usar. En nuestro caso usaremos el modelo `google/vit-base-patch16-224-in21k`, as√≠ que carguemos su deacture extractor desde el Hub.

Un extractor de caracter√≠sticas se encarga de preparar las caracter√≠sticas de los inputs de un modelo.


Puedes ver la configuraci√≥n del extractor imprimi√©ndola.

Para procesar una imagen, simplemente p√°sala a la funci√≥n `call` del extractor. Esto devolver√° un diccionario que contiene valores de pixeles, que es la representaci√≥n num√©rica que se pasar√° al modelo.

De forma determinada obtenemos una matriz NumPy, pero si agregamos el argumento `return_tensors='pt'`, obtendremos tensores de PyTorch en su lugar.

Nos regresa un diccionario con una sola key.

Podemos ver la forma del tensor de pixeles.

### Procesando el dataset

Ahora podemos leer im√°genes y transformarlas en inputs para nuestro modelo. Escribamos una funci√≥n que juntar√° esos dos pasos. Recuerda que `feature_extractor` retorna un diccionario con la key `pixel_values`. Le sumamos una segunda key con las etiquetas `labels`.

As√≠ se ve un ejemplo procesado de esta manera.

Podemos llamar a la funci√≥n `map` y aplicar esto a todos los ejemplos a la vez. Pero esto puede ser muy lento, especialmente si usa un dataset m√°s grande.

Entonces podemos aplicar una ***transformaci√≥n*** al dataset. Las transformaciones solo se aplican a los ejemplos a medida que los indexamos.

Sin embargo, primero deber√° actualizar la √∫ltima funci√≥n para aceptar un batch posiblemente con m√°s de una imagen, ya que eso es lo que espera `ds.with_transform`.

Puedes aplicar esto directamente al dataset mediante `ds.with_transform(transform)`

Ahora, cada vez que obtengas un ejemplo del dataset, la transformaci√≥n se aplicar√° en tiempo real.

El tensor `pixel_values` ‚Äã‚Äãresultante tendr√° forma (2, 3, 224, 224) porque pasamos un batch de dos ejemplos.

### Definiendo el data collator


Los data collators, o recopiladores de datos, son objetos que forman batches utilizando una lista de ejemplos de nuestros datasets. Para poder generar los batches, los data collators pueden aplicar alg√∫n procesamiento (como padding en los ejemplos con texto).

Definimos una funci√≥n, `collate_fn`, que fungir√° como nuestro data collator. Devolver√° un diccionario por cada batch. Recibir√° un batch de datos que luego ser√°n procesadas.

Los batches llegan como listas de dicts. Cada dict tiene los `label` y `pixel_values` de sus respectivos ejemplos, por lo que puedes simplemente desempaquetarlos y apilarlos en tensores de batches. `torch.stack` nos permite concatenar (pegar) tensores.


## Entrenamiento y evaluaci√≥n

Definamos el resto de los argumentos necesarios para `Trainer`.

### Definiendo la m√©trica

De la biblioteca `Datasets` tambi√©n podemos cargar m√©tricas. `accuracy` se puede usar f√°cilmente para comparar las predicciones con las etiquetas originales.

### Configurando `Trainer`

Carguemos el modelo preentrenado. Agregaremos `num_labels` para que el modelo cree un encabezado de clasificaci√≥n con el n√∫mero correcto de etiquetas. Tambi√©n incluiremos las asignaciones `id2label` y `label2id` para tener etiquetas legibles por humanos en el widget del Hub.

Lo √∫ltimo que se necesita antes de eso es establecer la configuraci√≥n de entrenamiento definiendo `TrainingArguments`.

La mayor√≠a de estos se explican por s√≠ mismos, pero uno que es bastante importante aqu√≠ es `remove_unused_columns=False`. Este eliminar√° cualquier funci√≥n que no utilice la funci√≥n de llamada del modelo. De forma predeterminada es True porque, por lo general, es ideal eliminar las columnas de funciones no utilizadas, lo que facilita el desempaquetado de las entradas en la funci√≥n de llamada del modelo. Pero, en nuestro caso, necesitamos las funciones no utilizadas ('imagen' en particular) para crear '`pixel_values`'.

Pasemos todo a `Trainer`.

Finalmente, definamos nuestro `Trainer`.

### Entrenamiento

### Evaluaci√≥n

### Compartimos en el Hub