# Lab01. Un problema de clasificación



Existen dos tipos de aprendizaje supervisado en Machine Learining: regresión y clasificación. La primera predice valores continuos y la segunda predice valores discretos. En este notebook nos enfocaremos en la clasificación. 


Los algoritmos de clasificación se usan para predecir respuestas que pueden tener solo unos pocos valores conocidos, como casado, soltero o divorciado, según las otras columnas del conjunto de datos. 

A continuación haremos un ejemplo siguiendo todos los pasos necesarios para una clasificación viendo algunos de los diferentes modelos que se emplean:

- [Creación de un entorno virtual](#Creación-de-un-entorno-virtual)
- [Importación de paquetes](#Importación-de-paquetes)
- [Lectura de datos](#Lectura-de-datos)
- [Análisis exploratorio](#Análisis-exploratorio)
- [Procesamiento](#Procesamiento)
- [Obtención del conjunto de entrenamiento y test](#Obtención-del-conjunto-de-entrenamiento-y-test)
- [Construcción de modelos](#Construcción-de-modelos)
- [Validación empleando K-Folds](#Validación-empleando-K-Folds)
- [Entrenamiento en Azure Machine Learning Workspace](#Entrenamiento-en-Azure-Machine-Learning-Workspace)

### Creación de un entorno virtual

Para crear el entorno virtual, tenemos que tener anaconda previamente instalado en nuestro equipo, este programa puede descargarse desde este [link](https://www.anaconda.com/distribution/). 

Una vez descargado e instalado, necesitamos obtener el fichero ``environment.yml`` el cual contiene todas las dependencias tanto de paquetes conda como de paquetes pip que se emplearán. 

- Creación del entorno virtual: este comando nos permite crear el entorno virtual con el nombre y dependencias especificadas en el fichero
``conda env create --file environment.yml``

- Activación del entorno creado:  una vez creado, para activar el entorno creado, será suficiente con hacer
``activate <environment_name>``
- Desactivación del entorno: 
``deactivate <environment_name>``
- Actualización del entorno: para actualizar el entorno con nuevas dependencias (el entorno actual tiene que estar desactivado)
``conda env update --file environment.yml``


En nuestro caso, el ``environment_name`` será ``aiworkshopday2``.

Más comandos útiles de ``conda`` para la gestión de entornos virtuales pueden encontrarse en este [link](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html).

### Importación de paquetes
En primer lugar, hemos de importar los paquetes que vamos a necesitar para este Laboratorio. Para ello, estos han de haber sido previamente instalados en nuestro sistema. Puede consultarse cómo hacerlo en la sección [Creación de un entorno virtual](#Creación-de-un-entorno-virtual).

In [None]:
from azureml.core.authentication import InteractiveLoginAuthentication
from azureml.core import Workspace, Run
from azureml.core.experiment import Experiment

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from joblib import dump
import seaborn as sns
import warnings

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.preprocessing import MinMaxScaler

warnings.filterwarnings('ignore')

### Lectura de datos
Lo primero que hemos de realizar es una lectura de nuestros datos para ver cómo son. 

In [None]:
df = pd.read_csv('data/retail_dataset.csv')
df.head()

In [None]:
print(df.shape)

Vemos que nuestro conjunto de datos tiene un total de 48842 filas y 11 columnas. En estas seis columnas tenemos nuestra variable **target** que es la que queremos predecir, en este caso ``buy_the_new_product``. Vemos también la existencia de valores nulos en la variable ``workclass`` que han de ser manipulados durante el procesamiento.

Dado este conjunto de datos, nuestro **objetivo** será poder predecir si el cliente va a comprar o no un nuevo producto. Estamos por tanto, ante un **problema de clasificación binaria**, es decir, ante nuevos datos, queremos clasificar si un cliente comprará o no un producto.

In [None]:
target = 'buy_the_new_product'


Veamos con más detenimiento las variables independientes que nos ayudarán a predecir ``buy_the_new_product``. Vemos que hay dos tipos de **variables**:
- Continuas
- Categóricas 

Las variables continuas son variables numéricas que pueden tomar un número infinito de valores, como es el caso de las variables ``age``, ``num_visits_store_last_year``, ``capital_gain`` y ``capital_loss``. 

Las variables categóricas son aquellas que pueden tomar un número limitado, y por lo general fijo, de posibles valores. Como serían las variables ``workclass``, ``marital_status`` y ``native_country``.

In [None]:
print(df['workclass'].unique())
print(df['marital_status'].unique())
print(df['native_country'].unique())
print(df['educational'].unique())

## Análisis exploratorio

Después de haber leído nuestros datos y de haber realizado un breve procesamiento de los mismos, vamos a proceder a realizar el análisis exploratorio. Este paso es muy importante ya que nos permite entender mejor la naturaleza de nuestras variables y ver posibles relaciones entre las mismas, lo que facilitará posteriormente el entrenamiento del modelo. 

El análisis exploratorio se puede dividir en dos partes:

- [Análisis descriptivo](#Análisis-descriptivo)
- [Análisis gráfico](#Análisis-gráfico)

#### Análisis descriptivo

Empecemos con una vista general de nuestros datos, la cual nos dará una intuición de la calidad de los mismos:

In [None]:
print(df.dtypes)
print("Rows     : " , df.shape[0],'\n')
print("Columns  : " , df.shape[1],'\n')
print("\nFeatures :\n" , df.columns.tolist(),'\n')
print("\nMissing values :  \n", df.isnull().sum(),'\n')
print("\nUnique values :\n", df.nunique())  

In [None]:
df.describe()

Al leer el conjunto de datos, hemos visto que ``?`` indica que el valor es nulo. Veamos si hay más columnas que necesiten una posterior modificación.

In [None]:
for column in df.columns:
    if '?' in df[column].unique():
        print(column)

Efectivamente vemos que hay dos columnas con valores nulos: ``workclass`` y ``native_country``. Veamos ahora cuántos valores nulos hay para cada una de las variables.

In [None]:
print(df['workclass'].value_counts())
print(df['native_country'].value_counts())

Para la variable ``workclass`` hay un total de 2799 valores nulos mientras que para ``native_country`` hay un total de 857.

#### Análisis gráfico
Tras finalizar el análisis descriptivo de nuestro conjunto de datos, en el que vimos el tipo de datos que tenemos y algunos de sus estadísticos, vamos a realizar ahora un análisis gráfico de los mismos para ver qué otras conclusiones podemos extraer de los mismos.

En un problema de clasificación como es el nuestro, es importante ver si nuestro conjunto de datos está balanceado. Esto es, si tiene aproximadamente el mismo número de datos para cada una de las clases en las que se quiere clasifiacar. Se estudia a continuación el balanceo de nuestros datos:

In [None]:
print(df.groupby(target).size())

In [None]:
sns.countplot(df[target],label="Count")
plt.show()

En esta gráfica vemos que hay más cantidad de gente que no compró el producto que aquellos que sí. Sin embargo, no parece que esto vaya a ser un problema, pues los problemas relativos al desbalanceo de nuestros datos suelen venir cuando esta diferencia es más acusada.

In [None]:
sns.countplot(df['is_weekend'],label="Count")
plt.xticks(rotation=90)
plt.show()

In [None]:
sns.countplot(df['workclass'],label="Count")
plt.xticks(rotation=90)
plt.show()

In [None]:
sns.countplot(df['native_country'],label="Count")
plt.xticks(rotation=90)
plt.show()

In [None]:
sns.countplot(df['marital_status'],label="Count")
plt.xticks(rotation=90)
plt.show()

In [None]:
sns.countplot(df['educational'],label="Count")
plt.xticks(rotation=90)
plt.show()

In [None]:
cat_columns = ['workclass', 'marital_status', 'educational', 'is_weekend']
for column in cat_columns:
    pd.crosstab(df[target], df[column]).plot(kind='bar', figsize=(12,8))
    plt.title('Target según {}'.format(column))
    plt.show()

#### Funciones de densidad

In [None]:
ax = sns.distplot(df['age'])
plt.show()

In [None]:
ax = sns.distplot(df['capital_gain'])
plt.show()

In [None]:
ax = sns.distplot(df['capital_loss'])
plt.show()

In [None]:
ax = sns.distplot(df['num_visits_store_last_year'])
plt.show()

#### Boxplot

In [None]:
df.drop(target, axis=1).plot(kind='box', subplots=True, layout=(2,3), sharex=False, sharey=False, figsize=(20,9), 
                                        title='Box Plot for each input variable')
plt.show()

#### Gráfico de dispersión e histograma 

In [None]:
feature_names = ['age', 'capital_gain', 'capital_loss', 'num_visits_store_last_year']
X = df[feature_names]
sns.pairplot(X,height=3)
plt.show()

#### Correlación
Una vez se ha obtenido el conjunto de datos total, se procede a estudiar la existencia de relaciones entre las diferentes variables consideradas. Como el objetivo final del problema a tratar es ser capaces de predecir las ventas de un producto. Las conclusiones obtenidas se centrarán en las relaciones de la variable respuesta (``buy_the_new_product``) con las otras, que como dijimos reciben el nombre de variables explicativas.

Para ello se calculará la matriz de correlación para el conjunto total de nuestros datos. La matriz de correlaciones es una matriz en la cual cada entrada presenta el coeficiente de correlación entre dos variables.

El coeficiente de correlación de Pearson es una medida estadística que permite conocer el grado de asociación lineal entre dos variables cuantitativas $(X,Y)$. Éste se calcula como la covarianza de dos variables dividida por el producto de la desviación típica de cada una de las muestras. Es la normalización de la covarianza entre dos variables. 

El coeficiente de correlación toma valores entre $-1$ y $1$. Si el valor del coeficiente de correlación es $1$ o próximo a $1$, se dirá que la asociación lineal es positiva (esto es, a medida que crece una de las variables crece la otra), de la misma forma, cuando el valor es próximo a $-1$, se dice que la asociación lineal es negativa. La matriz de correlación se representará empleando un mapa de colores, lo que permite ver a simple vista el grado de correlación entre las distintas variables.

In [None]:
plt.figure(figsize=(8, 6))
corr = df.corr(method ='pearson')
sns.heatmap(corr, 
        xticklabels=corr.columns,
        yticklabels=corr.columns)
plt.title('Matriz de correlación')
plt.show()

Si nos fijamos en el mapa de colores, vemos que la variable ``is_weekend`` está altamente correlada con la variable de interés. Debido a esto, será eliminada para entrenar los modelos sin ella, ya que si no, estos podrían fijarse únicamene en esta variable y no tener en cuenta la inversión que se está haciendo en privacidad para predecir el número de ventas. 

### Procesamiento

In [None]:
df_prep = df.copy()

#### Eliminación de variables:

In [None]:
df_prep.drop(['educational'], axis=1, inplace=True)
df_prep.drop(['is_weekend'], axis=1, inplace=True)
df_prep.head()

#### Rellenamos valores nulos:
Hay diferentes técnicas para tratar los valores nulos, cuando son pocos, estos pueden ser eliminados. En este caso, vamos a emplear otra técnica que consiste en substituír el valor nulo por la moda de los valores que toma esa variable. La moda es el valor que más veces se repite.

In [None]:
df_prep['workclass'][df_prep['workclass'] == '?']=df_prep['workclass'].value_counts().index[0]
df_prep['native_country'][df_prep['native_country'] == '?']=df_prep['native_country'].value_counts().index[0]

df_prep.head()

#### Conversión a valores numéricos:
Hemos visto que tenemos algunas variables que son categóricas, estas, para que puedan ser entendidas por nuestro algoritmo , han de ser convertidas a numéricas, que es lo que se realiza a continuación:

In [None]:
df_prep['workclass'] = df_prep['workclass'].astype('category').cat.codes
df_prep['native_country'] = df_prep['native_country'].astype('category').cat.codes
df_prep['marital_status'] = df_prep['marital_status'].astype('category').cat.codes

df_prep.head()

Una vez que estas variables han sido modificadas a numéricas, podemos también estudiar su relación con las demás.

In [None]:
plt.figure(figsize=(8, 6))
corr = df_prep.corr(method ='pearson')
sns.heatmap(corr, 
        xticklabels=corr.columns,
        yticklabels=corr.columns)
plt.title('Matriz de correlación')
plt.show()

### Obtención del conjunto de entrenamiento y test

Antes de entrenar cualquier modelo de *Machine Learning* o de *Deep Learning* debemos dividir nuestro conjunto de datos en dos o tres grandes subconjuntos: el conjunto de entrenamiento y test y, en algunos casos, el conjunto de validación. Veamos para qué sirve cada uno de estos conjuntos:
- Conjunto de entrenamiento: este conjunto será empleado, como su nombre indica, para entrenar los diferentes modelos.
- Conjunto de test: es una última porción que se mantiene aparte y sobre la cual se evalua el modelo. Usualmente se reporta la eficacia del modelo según los resultados en este conjunto. 

Los porcentajes de los datos que se emplean en cada uno de los conjuntos pueden variar si bien para el conjunto de entrenamiento se suelen unsar un 50% o más, usualmente hasta un 80%.

Expliquemos ahora brevemente en qué consiste el conjunto de validación, el cuál se obtiene mediante el empleo de validación cruzada de $K$ iteraciones. Esta técnica consiste en subdivir nuestro conjunto de entrenamiento en en $K$ subconjuntos. Uno de los subconjuntos se utiliza como datos de prueba y el resto ($K-1$) como datos de entrenamiento. El proceso de validación cruzada es repetido durante k iteraciones, con cada uno de los posibles subconjuntos de datos de prueba. Esto nos ayuda monitorizar el entrenamiento y evitar que el modelo sobre o infra-ajuste:

* Se llama **overfitting** al sobreentrenamiento de un modelo, esto ocurre cuando el modelo memoriza los datos y ya no es capaz de generalizar. Si esto ocurre el modelo no será capaz de dar buenos resultados con nuevos datos. 
* se le llama **underfitting** a un modelo que no ha sido entrenado suficientemente con lo cual no ha sido capaz de abstraer las relaciones de los datos necesarias para poder hacer buenas predicciones. 

In [None]:
x = df_prep.drop([target], axis=1)
y = df_prep[target]

msk = np.random.rand(len(df_prep))<0.8

x_train = x[msk]
y_train= y[msk]

x_test = x[~msk]
y_test = y[~msk]

## Construcción de modelos

- [Regresión logística](#Regresión-logística)
- [Árbol de decisión](#Árbol-de-decisión)
- [K-Neighbors](#K-neighbors)

#### Regresión logística
La regresión logística es un tipo de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras.



In [None]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

####  Árbol de decisión
Un árbol de decisión es un modelo predictivo que mapea observaciones sobre un un elemento sobre el valor objetivo de dicho elementos. Cuando la variable de destino puede tomar un conjunto finito de valores se denominan árboles de clasificación. En estas estructuras de árbol, las hojas representan etiquetas de clase y las ramas representan las conjunciones de características que conducen a esas etiquetas de clase.
![image.png](attachment:image.png)

In [None]:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()

####  K-Neighbors classifier
El algoritmo K-nearest neighbors (k-NN) es un método no paramétrico usado tanto para clasificación como regresión. Es usado como un método de clasificación basado en un entrenamiento mediante ejemplos cercanos en el espacio de los elementos. Cuando es empleado como método de clasificación, la salida es la pertenencia o no a la clase en la que se quiere clasificar el elemento. 
![image.png](attachment:image.png)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()

### Entrenamiento en Azure Machine Learning Workspace

En primer lugar, tenemos que realizar la conexión con el servicio. Para realizar esta conexión se necesita el ID de la subscripción, el grupo de recursos en el que se encuentra el servicio y el nombre del workspace:

In [None]:
ws = Workspace.from_config(path="config/azureml_ws.json")

In [None]:
def plot_confusion_matrix(confusion_mat):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    cax = ax.matshow(confusion_mat)
    fig.colorbar(cax)
    plt.xlabel('Predicted')
    plt.ylabel('True')
    return plt

#### Regresión logística

In [None]:
experiment_name = 'day2-logisticregression'
model_name = 'logisticregression.pkl'
exp = Experiment(workspace=ws, name=experiment_name)
root_run = exp.start_logging()

In [None]:
logreg = LogisticRegression()
kf = KFold(n_splits=3) 

i=0
for train_index, test_index in kf.split(x_train):
    i=i+1
    X, X_val, Y, Y_val = x_train.iloc[train_index], x_train.iloc[test_index], y_train.iloc[train_index], y_train.iloc[test_index]
    logreg.fit(X, Y)
    pred=logreg.predict(X_val)
    val_accuracy = accuracy_score(Y_val, pred)
    root_run.log(str(i)+' Fold val accuracy:', val_accuracy)


pred = logreg.predict(x_test)
confusion_mat = confusion_matrix(y_test, pred)
class_report = classification_report(y_test, pred)
accuracy = accuracy_score(y_test, pred)

print(confusion_mat)
print(class_report)

root_run.log("confusion_matrix", confusion_mat)    
root_run.log("classification_report", class_report)
root_run.log("Accuracy", accuracy)

plt = plot_confusion_matrix(confusion_mat)
plt.savefig('images/confusion_matrix.png', bbox_inches='tight')

root_run.log_image('confusion_matrix', path='images/confusion_matrix.png')

dump(logreg, model_name)
    
root_run.upload_file("outputs/" + model_name, model_name)
root_run.register_model(model_name=model_name, model_path='outputs/' + model_name)
root_run.complete()

#### Árbol de decisión

In [None]:
experiment_name = 'day2-decisiontreeclassifier'
model_name = 'decisiontreeclassifier.pkl'
exp = Experiment(workspace=ws, name=experiment_name)
root_run = exp.start_logging()

In [None]:
clf = DecisionTreeClassifier()
kf = KFold(n_splits=3) 

i=0
for train_index, test_index in kf.split(x_train):
    i=i+1
    X, X_val, Y, Y_val = x_train.iloc[train_index], x_train.iloc[test_index], y_train.iloc[train_index], y_train.iloc[test_index]
    clf.fit(X, Y)
    pred=clf.predict(X_val)
    val_accuracy = accuracy_score(Y_val, pred)
    root_run.log(str(i)+' Fold val accuracy:', val_accuracy)


pred = clf.predict(x_test)
confusion_mat = confusion_matrix(y_test, pred)
class_report = classification_report(y_test, pred)
accuracy = accuracy_score(y_test, pred)

print(confusion_mat)
print(class_report)

root_run.log("confusion_matrix", confusion_mat)    
root_run.log("classification_report", class_report)
root_run.log("Accuracy", accuracy)

plt = plot_confusion_matrix(confusion_mat)
plt.savefig('images/confusion_matrix.png', bbox_inches='tight')

root_run.log_image('confusion_matrix', path='images/confusion_matrix.png')

dump(clf, model_name)
    
root_run.upload_file("outputs/" + model_name, model_name)
root_run.register_model(model_name=model_name, model_path='outputs/' + model_name)
root_run.complete()

#### K-Neighbors

In [None]:
experiment_name = 'day2-knnclassifier'
model_name = 'knnclassifier.pkl'
exp = Experiment(workspace=ws, name=experiment_name)


In [None]:
root_run = exp.start_logging()
knn = KNeighborsClassifier()
kf = KFold(n_splits=3) 

i=0
for train_index, test_index in kf.split(x_train):
    i=i+1
    X, X_val, Y, Y_val = x_train.iloc[train_index], x_train.iloc[test_index], y_train.iloc[train_index], y_train.iloc[test_index]
    knn.fit(X, Y)
    pred=knn.predict(X_val)
    val_accuracy = accuracy_score(Y_val, pred)
    root_run.log(str(i)+' Fold val accuracy:', val_accuracy)


pred = knn.predict(x_test)
confusion_mat = confusion_matrix(y_test, pred)
class_report = classification_report(y_test, pred)
accuracy = accuracy_score(y_test, pred)

print(confusion_mat)
print(class_report)

root_run.log("confusion_matrix", confusion_mat)    
root_run.log("classification_report", class_report)
root_run.log("Accuracy", accuracy)

plt = plot_confusion_matrix(confusion_mat)
plt.savefig('images/confusion_matrix.png', bbox_inches='tight')

root_run.log_image('confusion_matrix', path='images/confusion_matrix.png')

dump(knn, model_name)
    
root_run.upload_file("outputs/" + model_name, model_name)
root_run.register_model(model_name=model_name, model_path='outputs/' + model_name)
root_run.complete()