# Práctica 1: Clasificación multi-etiqueta

## Ejercicio 7

Describe brevemente las métricas que utilizaremos: 
- Accuracy
- Hamming loss
- Precision
- Recall
- F1_score

La información que aporta cada una de estas métricas. Investiga su uso estudiando classification metrics y classification_report()

### Enfoque

A continuación se describirán brevemente las métricas. Después se realizará una clasificación para poder comprobar el funcionamiento de las métricas de clasificación y `classification_report()`

### Métricas de Evaluación

- **Accuracy:**
   - Mide la proporción de predicciones correctas entre el total de predicciones.

- **Hamming Loss:**
   - Mide la fracción de etiquetas que son incorrectas en las predicciones.

- **Precision:**
   - Mide la proporción de verdaderos positivos entre el total de predicciones positivas.

- **Recall:**
   - Mide la proporción de verdaderos positivos entre el total de ejemplos positivos reales.

- **F1 Score:**
   - Combina la precisión y el recall en una única métrica que busca un equilibrio entre ambas.


In [9]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from skmultilearn.problem_transform import LabelPowerset
from skmultilearn.dataset import load_dataset
from sklearn import metrics
from sklearn.metrics import classification_report

In [10]:
X_train, y_train, _, _ = load_dataset('scene', 'train')
X_test, y_test, _, _ = load_dataset('scene', 'test')

scene:train - exists, not redownloading
scene:test - exists, not redownloading


Se utilizará, como en apartados anteriores, el conjunto de datos scene y el clasificador NaiveBayes con el transformador LabelPowerset.

In [11]:
# Crear un clasificador GaussianNB y un PowerLabelSet
classifier = LabelPowerset(GaussianNB())

# Entrenar el modelo
classifier.fit(X_train, y_train)

# Predecir las etiquetas en el conjunto de prueba
y_pred = classifier.predict(X_test)

# Calcular y mostrar las métricas
accuracy = metrics.accuracy_score(y_test, y_pred)
hamming_loss = metrics.hamming_loss(y_test, y_pred)
precision = metrics.precision_score(y_test, y_pred, average='weighted')
recall = metrics.recall_score(y_test, y_pred, average='weighted')
f1_score = metrics.f1_score(y_test, y_pred, average='weighted')

print(f"Accuracy: {accuracy}")
print(f"Hamming Loss: {hamming_loss}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1_score}")

# Mostrar el informe de clasificación
classification_rep = classification_report(y_test, y_pred)
print("\nClassification Report:\n", classification_rep)

Accuracy: 0.5560200668896321
Hamming Loss: 0.13447603121516166
Precision: 0.6508299792050203
Recall: 0.6335642802155504
F1 Score: 0.6331829604236995

Classification Report:
               precision    recall  f1-score   support

           0       0.74      0.64      0.69       200
           1       0.85      0.69      0.76       199
           2       0.73      0.77      0.75       200
           3       0.80      0.74      0.77       237
           4       0.42      0.67      0.52       256
           5       0.40      0.29      0.33       207

   micro avg       0.63      0.63      0.63      1299
   macro avg       0.66      0.63      0.64      1299
weighted avg       0.65      0.63      0.63      1299
 samples avg       0.64      0.64      0.63      1299



En este apartado se ha realizado una clasificación para calcular las métricas obtenidas. Estas métricas se obtienen comparando las ground truth del test con las predicciones obtenidas en el modelo entrenado con train sobre los datos de test.

Por un lado se han mostrado las métricas de forma individual, y por otro de ha utilizado `classification_report` que muestra directamente las métricas, diferenciando entre micro, macro, weightened y samples. Además, muestra las métricas para cada clase. Sin embargo, `classification_report` no muestra otras métricas como HammingLoss.

Esto hace ver que, si se quiere obtener el valor medio de las métricas es más interesante utilizar directamente las métricas de clasificación o si se quiere saber una métrica que no es de las principales y más comúnmente utilizadas como Hamming Loss. Sin embargo, para un análisis más exhaustivo, es más interesante utilizar `classification_report`.