# Naive Bayes Gaussiano

## Dataset: Fashion MNIST

[Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist) es un dataset con imágenes de prendas de vestir (artículos de la compañía Zalando). Son 70000 imágenes en baja resolución (28x28 pixeles), en escala de grises, agrupadas en 10 clases. Se utiliza en la comunidad de Machine Learning para comparación de algoritmos, de la misma forma que el dataset MNIST.

In [1]:
from sklearn.datasets import fetch_openml 
X, y = fetch_openml('Fashion-MNIST', version=1, return_X_y=True)

El objetivo de esta práctica es utilizar la técnica de Naive Bayes gaussiano como clasificador de imágenes, siguiendo la notebook para obtener las respuestas del cuestionario en Campus

## Exploratory Data Analysis (EDA)

In [4]:
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd

In [6]:
label_dict = {
                '0':'T-shirt/top',
                '1':'Trouser',
                '2':'Pullover',
                '3':'Dress',
                '4':'Coat',
                '5':'Sandal',
                '6':'Shirt',
                '7':'Sneaker',
                '8':'Bag',
                '9':'Ankle boot'
            }

**Distribución de clases**

- ¿El dataset está balanceado? 

- Redimensionar los datos de entrada con la dimensión de las imágenes

**Plots**

- Graficar las primeras 150 imágenes como una grilla

- Graficar las primeras 100 imágenes de cada clase

**Split train-validation**

- Dividir los datos en train, validation y test, en un ratio 5:1:1, usando **random_state=42**. De forma estratificada por clases

Chequear que quedaron balanceados:


In [None]:
print('TRAIN')
print(pd.Series([label_dict[label] for label in y_train]).value_counts(normalize=True))

print('VALIDATION')
print(pd.Series([label_dict[label] for label in y_val]).value_counts(normalize=True))

print('TEST')
print(pd.Series([label_dict[label] for label in y_test]).value_counts(normalize=True))

## Naive Bayes Gaussiano

**Análisis pixel por pixel**

Se puede modelar cada pixel como una variable aleatoria continua, cuyo dominio está entre 0 y 255. En ese caso, cada observación tendrá un conjunto de features: 

$X = [ X_{(0,0)},X_{(0,1)},...,X_{(0,27)},X_{(1,0)},...,X_{(27,27)} ]$

donde $X_{(i,j)}$ es la variable aleatoria del valor de gris del pixel de coordenadas i,j


- *¿Cuántas variables aleatorias se samplean para generar una imagen?* 

**Teorema de Bayes**

Para aplicar el Teorema de Bayes es necesario conocer el **likelihood** de cada $X$ dada la clase $y$, es decir $P(X|Y)$

Por ejemplo, si se representa una imagen negra como un vector $v=[0,...,0]$ de 784 ceros. Entonces $P(X=v|Y=1)$ es el likelihood de que una imagen de clase 'Trouser' sea una imagen negra. 

Por otro lado, la probabilidad a posteriori $P(Y=1|X=v)$ es la probabilidad de que una imagen negra pertenezca a la clase 'Trouser'


¿Cómo se puede estimar $P(X|Y)$ para cada clase y para cada posible combinación de píxeles? Si se asume que hay independencia entre las variables aleatorias, se puede calcular el likelihood de $X$ como el producto de los likelihoods $X_{i,j}$ individuales: 

$P(X|Y) = P(X_{(0,0)}|Y) P(X_{(0,1)}|Y) ... P(X_{(27,27)}|Y) \rightarrow$   *Naive Bayes*  

**Distribución gaussiana**

Como se vio en la práctica anterior, el clasificador de Naive Bayes resulta útil para el caso de datos discretos, como el caso de la moneda o el clasificador de artículos. Para utilizarlo con datos continuos habría que hacer una binarización de los datos y eso usualmente aumenta mucho la cantidad de parámetros. 

Otra opción es asumir que los valores tienen una distribución gaussiana, en cuyo caso se separan los datos en las $K$ clases que se quieren diferenciar y se obtienen las medias y varianzas de cada clase. 

Si se tiene una observación $v$ que se quiere clasificar, se procede a calcular con cual de las $k$ distribuciones es más probable que la observación haya sido generada.

$p(x=v|Y_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}e^{-\frac{(v-\mu_k)²}{2\sigma_k^2}} \rightarrow $ *Distribución gaussiana*

Dado que cada pixel es una variable aleatoria continua, se puede modelar como una distribución normal. 

- ¿Cuál es la media y el desvío estándar del pixel (10,10) en la clase 'Trouser' estimados a partir del set de train?

- Graficar la distribución normal del pixel (10,10) de la clase 'Trouser' y de la clase 'Pullover'

- *¿Cuál es la media y el desvío estándar del pixel (14,14) en la clase 'Bag' estimados a partir del set de train?*

- Armar una matriz con la media y el desvío para cada pixel y para cada clase. Tendrá dimensión (2x784x10)
- Escribir una función para el plot de una gaussiana
- Graficar las distribuciones del pixel (10,10) para las 10 clases. 

**Priori, likelihood y posteriori**
- *¿Cuál es el likelihood de observar en las imágenes de 'Trouser' un valor de gris 145 en el pixel (10,10)? Estimado con el set de train*
- Calcule las probabilidades a priori de las 10 clases
- *Con los dos resultados anteriores, calcule la probabilidad a posteriori no normalizada de que un valor de 145 observado en el pixel (10,10) pertenezca a una imagen de Trouser*
- *Según el criterio de maximum likelihood, ¿qué clase es más probable que haya generado una imagen con un valor de gris 145 en el pixel (10,10)?*

**Complejidad del modelo**


- *¿Cuántos parámetros tendrá el modelo de Naive Bayes Gaussiano dado que se asumió independencia entre los píxeles?*
- *Si no se asume independencia, es decir que las covarianzas entre variables no se desprecian: ¿cuántos parámetros tendría el modelo?* 

## Naive Bayes Gaussiano como clasificador

- Ajustar un modelo de NB gaussiano a los datos de train. Probar ajustar el hiperparámetro de **smoothing** con los valores indicados. Considerando el accuracy promedio entre clases, ¿cuál es el mejor accuracy que obtuvo en validación? ¿Con qué valor de smoothing lo obtuvo? 


In [22]:
var_smoothings = [1,1e-1,1e-3,1e-5,1e-7]

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score


- Clasificar los datos de test con el modelo seleccionado. Reportar accuracy. 


**Correlación entre píxeles**

En este caso, asumir independencia entre variables significa asumir que un pixel no tiene relación con su pixel vecino. Por supuesto esto es un supuesto erróneo en el caso de imágenes, donde los patrones visuales se forman gracias a la relación entre los píxeles. 

- ¿Cómo se correlaciona el valor de un pixel con sus vecinos? Calcule la matriz de autocorrelación de cada pixel con su entorno

**Agrupar píxeles como hiperparámetro**

Considerando ahora que cada vecindad de 4 píxeles pertenece a una misma distribución. Es decir, agrupando 4 píxeles y representando cada grupo con una única media y un único desvío estándar. 

- Si ajustásemos un modelo de NB gaussiano con esta nueva representación de variables. ¿Cuántos parámetros tendría el modelo? 

<img src="groupGaussians.png" width="400">

- Ajustar un modelo Naive Bayes Gaussiano agrupando los píxeles de a cuatro. ¿Qué accuracy obtiene en validación con un var_smoothing de 0.1? 

Una opción es implementar sin utilizar el paquete sklearn. Para esto, se debe calcular las medias y los desvíos de las distribuciones gaussianas. Luego, preparar una función que calcule el likelihood de una clase para una imagen como el producto del likelihood del valor de gris de cada pixel de la imagen, valuando la distribución gaussiana que corresponda. Finalmente, se selecciona por maximum likelihood la clase más probable. Aplicar la función a las imágenes de validación y calcular el accuracy. 




Otra opción es acomodar el dataset para poder usar el método de sklearn. Separamos la imagen en tantas matrices como grupos de pixeles se tengan. Cada nueva matriz tendrá una muestra de cada gaussiana. 

<img src="divideImage.png">


In [38]:
pixels_per_group = 4
X_train = X_train.reshape(-1,28,28)

X_train_full = ...
print(f'Cada imagen se convirtió en {len(X_train_full)} matrices' )
print(f'Tenemos {X_train_full[0].shape[0]} observaciones, con {len(X_train_full)} matrices de {X_train_full[0].shape[1]}x{X_train_full[0].shape[2]} en cada observacion')

Grupos de 2x2 pixeles
Cada imagen se convirtió en 4 matrices
Tenemos 50000 observaciones, con 4 matrices de 14x14 en cada observacion


Convertimos cada matriz en una observación distinta

In [39]:
X_train_full = ...
print(f'Tenemos {X_train_full.shape[0]} observaciones de dimensión {X_train_full.shape[1]}x{X_train_full.shape[2]}')

Tenemos 200000 observaciones de dimensión 14x14


Ahora repetimos cada pixel cuatro veces, para tener matrices de 28x28 nuevamente
<img src="imageTo4Images.png" width="480">


In [40]:
X_train_full = ...

In [44]:
X_train_full = X_train_full.reshape(y_train_full.shape[0],-1)
X_train_full.shape

(200000, 784)

In [45]:
gaussian = GaussianNB(var_smoothing=0.1)
gaussian.fit(X_train_full,y_train_full)

GaussianNB(priors=None, var_smoothing=0.1)

**Búsqueda de hiperparámetros**

- Realizar una búsqueda de hiperparámetros tipo grilla utilizando los siguientes valores de hiperparámetros:


In [None]:
var_smoothings = [1,1e-1,1e-3,1e-5,1e-7]
pixels_per_group = [1,4,8]

*Nota: Los ajustes con pixels_per_group=1 corresponden al ejercicio anterior. El pixels_per_group=14 se refiere a un rectángulo de 7x2*

- Calcular cuántos parámetros tiene el modelo para cada valor de pixels_per_group
- ¿Qué combinación de hiperparámetros obtuvo mejor accuracy en validación? 
- Clasificar los datos de test con el modelo seleccionado y reportar accuracy