In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, BernoulliNB, CategoricalNB
from scipy.stats import multivariate_normal as mvn
from sklearn.feature_selection import VarianceThreshold
from sklearn.mixture import GaussianMixture

**1-Entrenamiento**

Carga de los datos de entrenamiento 

In [3]:
x_train = pd.read_csv('practica_X_train.csv', sep=';', index_col=0)
y_train = pd.read_csv('practica_Y_train.csv', sep=';', index_col=0)

print(x_train.head())
print(y_train.head())

#recomendado hacer k_fold para conjunto de entrenamiento y validacion

      Temperature  Humidity  PM2.5  PM10  NO2  SO2   CO  \
41            3.0       6.0    2.0   2.0  4.0  5.0  3.0   
3777          1.0       2.0    0.0   0.0  3.0  1.0  1.0   
2998          2.0       3.0    0.0   0.0  2.0  1.0  1.0   
4469          6.0       2.0    5.0   5.0  5.0  5.0  2.0   
3422          2.0       1.0    0.0   0.0  0.0  2.0  1.0   

      Proximity_to_Industrial_Areas  Population_Density  
41                              0.0                 7.0  
3777                            3.0                 3.0  
2998                            3.0                 0.0  
4469                            0.0                 6.0  
3422                            3.0                 2.0  
     Air_Quality
41          Poor
3777        Good
2998        Good
4469        Poor
3422        Good


1.1 Preprocesado ejemplos

Como el conjunto de datos x_train son datos continuos y en el enunciado se nos dice que no tenemos valores perdidos y en los modelos de Naive Bayes, MVN y GMM los datos de tipo continuo son buenas entradas. 

Por lo tanto, el único preprocesado que sería necesario para poder trabajar con el coinjunto de test es codificar el atributo categórico del conjunto de y_train y aplicar un filtrado por varianza al conjunto de datos de x_train para descartar aquellas columnas que no aporten información. 

In [4]:
#filtrado por varianza conjunto x_train
thereshold = 0.1

sel = VarianceThreshold(threshold=thereshold)
sel.set_output(transform='pandas')
x_train = sel.fit_transform(x_train)

In [5]:
#codificación conjunto y_train
categoria = y_train['Air_Quality'].unique()
categoria_codificada ={string:i for i,string in enumerate(categoria)} #diccionario de codificación
cat = y_train['Air_Quality'].map(categoria_codificada)

y_train['Air_Quality'] = cat
print(y_train.head())

      Air_Quality
41              0
3777            1
2998            1
4469            0
3422            1


1.2 Construcción modelo a priori de la etiqueta (cada nivel de calidad del aire tiene un número difernte de ejemplos)

In [6]:
clases = y_train['Air_Quality'].value_counts()  # Cantidad de todas las soluciones distintas
Probs_priori = clases / len(y_train)
print("Probabilidades a priori: ")
print(Probs_priori)

Probabilidades a priori: 
Air_Quality
1    0.4
2    0.3
0    0.2
3    0.1
Name: count, dtype: float64


1.3 Construir distintos modelos de verosimilitud

Naive Bayes 

Primer modelo posible con GaussianNB

In [7]:
naive_bayes_gaussian = GaussianNB()
naive_bayes_gaussian.fit(x_train, y_train.values.ravel()) # con y_train.values.ravel() 
                                                 # cambiamos de lista pandas a numpy
                                                 # Es para que solo nos den los valores 
                                                 # Sino te da un enlace raro tambien
print("Probabilidades a priori con Naive Bayes Gassiano:") 
print(naive_bayes_gaussian.class_prior_) # Solo para comprobar las probabilidades de las clases

predicciones_g = naive_bayes_gaussian.predict(x_train)
cont = 0
for y_hat, y_true in zip(predicciones_g, y_train.values.ravel()):
    if (y_true == y_hat):
        cont += 1
print("acc con conjunto train:", cont / len(predicciones_g))


Probabilidades a priori con Naive Bayes Gassiano:
[0.2 0.4 0.3 0.1]
acc con conjunto train: 0.9175


Segundo modelo posible con CategoricalNB

In [8]:
naive_bayes_categorical = CategoricalNB()
naive_bayes_categorical.fit(x_train, y_train.values.ravel())

predicciones_c = naive_bayes_categorical.predict(x_train)
cont = 0
for y_hat, y_true in zip(predicciones_c, y_train.values.ravel()):
    if (y_true == y_hat):
        cont += 1
        
print("acc con conjunto train:", cont / len(predicciones_c))

acc con conjunto train: 0.95


Tercer modelo posible BernoulliNB

In [13]:
naive_bayes_bernoulli = BernoulliNB(alpha= 1)
naive_bayes_bernoulli.fit(x_train, y_train.values.ravel())

predicciones_b = naive_bayes_bernoulli.predict(x_train)
cont = 0
for y_hat, y_true in zip(predicciones_b, y_train.values.ravel()):
    if (y_true == y_hat):
        cont += 1
print("acc con conjunto train:", cont / len(predicciones_b))

acc con conjunto train: 0.61675


MVN

In [10]:
def train_mvn(Y_TRAIN, X_TRAIN):
    estadisticas_modelo = {}
    clases = np.unique(Y_TRAIN)
    for clase in clases:
        datos_clase = X_TRAIN[Y_TRAIN == clase]

        media = np.mean(datos_clase, axis=0)
        covarianza = np.cov(datos_clase, rowvar=False)
        covarianza += np.eye(covarianza.shape[0]) * 1e-6

        modelo = mvn(mean=media, cov=covarianza)

        estadisticas_modelo[clase] = {"media": media, "covarianza": covarianza, "modelo": modelo}
    return estadisticas_modelo

def predict_mvn(x_a_predecir, estadisticas):
    # Predecimos probabilidades primero
    probs = []
    clases = list(estadisticas.keys())
    for clase in clases:
        modelo = estadisticas[clase]["modelo"]
        p = modelo.logpdf(x_a_predecir)
        probs.append(p)
    probs = np.array(probs).T
    y_hat = np.argmax(probs, axis=1)
    return np.array(clases)[y_hat]
    

In [11]:
y_train_flat = y_train.values.ravel()

estadisticas_MVN = train_mvn(y_train_flat, x_train.values)

y_hat = predict_mvn(x_train.values, estadisticas_MVN)
acc = np.mean(y_hat == y_train_flat)
print("acc con conjunto train: ", acc)

acc con conjunto train:  0.92625


GMM

In [43]:
# Calcular las medias de cada clase
means_class_0 = x_train[y_train_flat == 0].mean(axis=0).values.reshape(1, -1)
means_class_1 = x_train[y_train_flat == 1].mean(axis=0).values.reshape(1, -1)

# Iniciar los parámetros de los modelos GMM con las medias de cada clase
means_init_0 = np.tile(means_class_0, (4, 1))
means_init_1 = np.tile(means_class_1, (4, 1))

# Entrenar el modelo GMM para cada clase
gmm0 = GaussianMixture(n_components=4, means_init=means_init_0, covariance_type='diag', max_iter=10)
gmm0.fit(x_train[y_train_flat == 0])

gmm1 = GaussianMixture(n_components=4, means_init=means_init_1, covariance_type='diag', max_iter=10)
gmm1.fit(x_train[y_train_flat == 1])



In [None]:
#Ver lo bueno que es el GMM, ver el ajuste por cada clase 
log_likelihood = gmm0.score(x_train)
print("Log-Verosimilitud clase 0: ", log_likelihood)

log_likelihood = gmm1.score(x_train)
print("Log-Verosimilitud clase 1: ", log_likelihood)

Log-Verosimilitud clase 0:  -15.225884320311575
Log-Verosimilitud clase 1:  -31.624875707420927


1.4 Construir sistemas con preprocesado, modelo a priori y cada uno de los modelos de verosimilitud

Sistema con Naive Bayes 

Sistema con MVN

Sistema con GMM

1.5 Comparar los sistema con un conjunto de validación  (elegir uno de los sistemas)

1.6 Almacenamiento objetos con Pickle

**2-Implementación e inferencia**

Creación script inferencia

2.1 Cargar objetos guardados del sistema seleccionado

2.2 Cargar conjunto de datos de test

2.3 Ejecución objetos guardados y guardado etiquetas predichas en un CSV con el mismo formato que practica_Y_train.csv

**3-Clustering**

3.1 Realizacion de clastering sobre el conjunto de datos practica_X_train.csv

3.2.1 ¿Cuantos clusters has elegido?¿Elección relacionada con el número de clases? 

3.2.2 Comparacion etiqueta de cada ejemplo de entrenamiento con el cluster asignado ¿Es posible crear una relación entre ambas?

3.2.3 ¿A que cluster se le asignaría cada ejemplo del conjunto de test si se crea una relacion entre cluster y etiqueta? ¿Qué etiqueta asignarias a cada ejemplo de test?

3.2.4 Si tenemos etiquetas asociadas a los datos ¿Se puede utilizar clustering para hacer clasificación?