# TP2: Modelado sobre dataset Fashion MNIST

## Librerías

Fuente: https://pjreddie.com/projects/mnist-in-csv/

In [1]:
import pandas as pd
import os
import gzip
import numpy as np
from tqdm import tqdm
import requests

from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix, classification_report

Correr una sola vez para descargar toda la data luego mutear todo el chunk. 

In [2]:
# def download_gz_from_url(url, output_folder): 
#     file_name = url.split("/")[-1]
#     r = requests.get(url, stream=True)
#     with open(output_folder+"/"+file_name, 'wb') as f:
#         for chunk in r.raw.stream(1024, decode_content=False):
#             if chunk:
#                 f.write(chunk)

# output_folder= "./data"
                
# from pathlib import Path
# Path(output_folder).mkdir(parents=True, exist_ok=True)
                
# urls = ["http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz", #x_train
#         "http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz", #y_train
#         "http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz", #x_test
#         "http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz" #y_test
#        ]
                
# for url in tqdm(urls):
#     download_gz_from_url(url,output_folder)

## Carga de Datos

In [3]:
import mnist_fashion_reader as mnist

X_train, y_train = mnist.load_mnist('data/', kind='train') #devuelve amigables objetos de Pandas
X_test, y_test = mnist.load_mnist('data/', kind='t10k') #devuevle amigables objetos de Pandas

## Punto 1: Exploración del dataset

Realizar una breve descripción del dataset. ¿Qué cantidad de datos tiene este conjunto? ¿Cuántos atributos? ¿Qué rangos de valores toman los atributos? ¿Qué cantidad de clases hay para clasificar? ¿Están balanceadas? Realizar un gráfico donde se muestran ejemplos de las clases (Puede ir a un anexo).

### Cantidad de datos del conjunto

In [4]:
df_entrenamiento = pd.concat([X_train.reset_index(drop=True), y_train], axis=1)
df_test = pd.concat([X_test.reset_index(drop=True), y_test], axis=1)
df_completo = pd.concat([df_entrenamiento, df_test])

In [5]:
print(f"El dataset completo posee {len(df_completo)} registros. Cada registro corresponde a una imagen del dataset.")

El dataset completo posee 70000 registros. Cada registro corresponde a una imagen del dataset.


### Atributos

#### Cantidad de atributos

In [6]:
print(f"Cada atributo representa el valor de cada uno de los pixeles de cada imagen. Dado que cada imagen tiene un formato de 28 x 28 pixeles en escala de grises, el dataset posee {len(df_completo.columns)} atributos por registro, correspondientes al valor en escala de gris de cada pixel que compone la imagen")

Cada atributo representa el valor de cada uno de los pixeles de cada imagen. Dado que cada imagen tiene un formato de 28 x 28 pixeles en escala de grises, el dataset posee 785 atributos por registro, correspondientes al valor en escala de gris de cada pixel que compone la imagen


#### Rangos de valores

In [7]:
max_val = df_completo.max().max()
min_val = df_completo.min().min()

In [8]:
print(f"El valor mínimo de los atributos es {min_val} , y el máximo es {max_val}. Cada valor es un integer entre {min_val} y {max_val}")

El valor mínimo de los atributos es 0 , y el máximo es 255. Cada valor es un integer entre 0 y 255


#### Clases a clasificar

In [9]:
df_completo[0].unique()

array([9, 0, 3, 2, 7, 5, 1, 6, 4, 8], dtype=uint8)

In [10]:
print(f"El dataset está compuesto por {len(df_completo[0].unique())} clases")

El dataset está compuesto por 10 clases


##### N de clases

In [11]:
print(f"Las clases son: {df_completo[0].unique()}")

Las clases son: [9 0 3 2 7 5 1 6 4 8]


##### Balanceo de clases

In [12]:
df_completo[0].value_counts()

9    7000
8    7000
7    7000
6    7000
5    7000
4    7000
3    7000
2    7000
1    7000
0    7000
Name: 0, dtype: int64

In [13]:
(df_completo[0].value_counts())/len(df_completo)

9    0.1
8    0.1
7    0.1
6    0.1
5    0.1
4    0.1
3    0.1
2    0.1
1    0.1
0    0.1
Name: 0, dtype: float64

##### Visualización 

## Separación en desarrollo y testeo

Separación de datos respetando la división presente en el github oficial de desarrollo y testeo

In [14]:
X_train.shape

(60000, 784)

In [15]:
y_train.shape

(60000,)

In [16]:
X_test.shape

(10000, 784)

In [17]:
y_train.value_counts()

9    6000
8    6000
7    6000
6    6000
5    6000
4    6000
3    6000
2    6000
1    6000
0    6000
dtype: int64

In [18]:
(y_train.value_counts())/len(y_train)

9    0.1
8    0.1
7    0.1
6    0.1
5    0.1
4    0.1
3    0.1
2    0.1
1    0.1
0    0.1
dtype: float64

In [19]:
y_test.shape

(10000,)

In [20]:
y_test.value_counts()

7    1000
6    1000
5    1000
4    1000
3    1000
2    1000
9    1000
1    1000
8    1000
0    1000
dtype: int64

## Separación del conjunto de desarrollo en entrenamiento y validación

Conjunto de entrenamiento (85.71%):
* x_train, y_train = 80% del conjunto de entrenamiento
* x_val, y_val = 20% del conjunto de entrenamiento

Conjunto de testing(14.29%)
* X_test, y_test = Conjunto held-out de testing

In [21]:
from sklearn.model_selection import train_test_split 
x_train, x_val, y_train, y_val = train_test_split(X_train,y_train, test_size=0.2, stratify = y_train) 

## Entrenamiento inicial de modelos

Entrenamiento de 4 modelos con sus hiperparámetros por defecto

### Boosting

#### GradientBoostingClassifier

In [22]:
gbc = GradientBoostingClassifier()
gbc.fit(x_train, y_train)
y_pred = gbc.predict(x_val)

print("Accuracy training : {:.3f}".format(gbc.score(x_train, y_train)))
print("Accuracy val: {:.3f}".format(gbc.score(x_val, y_val)))
print(classification_report(y_val,y_pred))

Accuracy training : 0.907
Accuracy val: 0.872
              precision    recall  f1-score   support

           0       0.81      0.81      0.81      1200
           1       0.99      0.98      0.98      1200
           2       0.80      0.78      0.79      1200
           3       0.87      0.92      0.89      1200
           4       0.77      0.82      0.79      1200
           5       0.98      0.94      0.96      1200
           6       0.68      0.61      0.64      1200
           7       0.93      0.95      0.94      1200
           8       0.95      0.96      0.95      1200
           9       0.94      0.95      0.95      1200

    accuracy                           0.87     12000
   macro avg       0.87      0.87      0.87     12000
weighted avg       0.87      0.87      0.87     12000



### Bagging

#### Random Forest Classifier

In [23]:
rf = RandomForestClassifier(random_state=42)
rf.fit(x_train, y_train)
y_pred = rf.predict(x_val)

print("Accuracy training : {:.3f}".format(rf.score(x_train, y_train)))
print("Accuracy val: {:.3f}".format(rf.score(x_val, y_val)))
print(classification_report(y_val,y_pred))

Accuracy training : 1.000
Accuracy val: 0.883
              precision    recall  f1-score   support

           0       0.83      0.85      0.84      1200
           1       1.00      0.97      0.98      1200
           2       0.78      0.82      0.80      1200
           3       0.88      0.94      0.91      1200
           4       0.79      0.84      0.81      1200
           5       0.97      0.95      0.96      1200
           6       0.75      0.60      0.66      1200
           7       0.93      0.94      0.94      1200
           8       0.96      0.97      0.97      1200
           9       0.95      0.95      0.95      1200

    accuracy                           0.88     12000
   macro avg       0.88      0.88      0.88     12000
weighted avg       0.88      0.88      0.88     12000



### Árbol de decisión

In [24]:
ad = DecisionTreeClassifier(random_state=42)
ad.fit(x_train, y_train)
y_pred = ad.predict(x_val)

print("Accuracy training : {:.3f}".format(ad.score(x_train, y_train)))
print("Accuracy val: {:.3f}".format(ad.score(x_val, y_val)))
print(classification_report(y_val,y_pred))

Accuracy training : 1.000
Accuracy val: 0.798
              precision    recall  f1-score   support

           0       0.75      0.73      0.74      1200
           1       0.95      0.95      0.95      1200
           2       0.67      0.69      0.68      1200
           3       0.82      0.83      0.82      1200
           4       0.67      0.65      0.66      1200
           5       0.90      0.91      0.90      1200
           6       0.53      0.54      0.53      1200
           7       0.88      0.88      0.88      1200
           8       0.91      0.89      0.90      1200
           9       0.91      0.91      0.91      1200

    accuracy                           0.80     12000
   macro avg       0.80      0.80      0.80     12000
weighted avg       0.80      0.80      0.80     12000



### Naive Bayes

In [25]:
nb = MultinomialNB()
nb.fit(x_train, y_train)

y_pred = nb.predict(x_val)
print("Accuracy training : {:.3f}".format(nb.score(x_train, y_train)))
print("Accuracy val: {:.3f}".format(nb.score(x_val, y_val)))
print(classification_report(y_val,y_pred))

Accuracy training : 0.666
Accuracy val: 0.670
              precision    recall  f1-score   support

           0       0.74      0.79      0.76      1200
           1       0.98      0.90      0.94      1200
           2       0.63      0.61      0.62      1200
           3       0.67      0.89      0.76      1200
           4       0.47      0.63      0.54      1200
           5       0.67      0.14      0.24      1200
           6       0.37      0.18      0.24      1200
           7       0.58      0.91      0.71      1200
           8       0.90      0.82      0.85      1200
           9       0.69      0.83      0.76      1200

    accuracy                           0.67     12000
   macro avg       0.67      0.67      0.64     12000
weighted avg       0.67      0.67      0.64     12000



## Métricas relevantes para el problema en el conjunto de validación

### Métricas

### Justificación

## Exploración de modelo Random Forest

## Exploración de modelo Gradient Boosting Machine

## Análisis de mejores modelos obtenidos de Random Forest y Gradient Boosting Machine

### Evaluación con conjunto de test

### Análisis de resultados en base a métricas elegidas

#### Análisis de métricas

### Conclusión sobre mejor modelo

### Matriz de confusión de mejor modelo

## Estabilidad del modelo frente al ruido