# Práctica 1: Análisis exploratorio de datos, preprocesamiento y validación de modelos de clasificación

### Minería de Datos: Curso académico 2020-2021

### Realizado por:

* Antonio Beltrán Navarro
* Ramón Jesús Martínez Sánchez

# Pima Diabetes

Lo primero que haremos es cargar los datos y dividirlos en conjunto de entrenamiento y de test estratificando.

In [None]:
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score, confusion_matrix
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px


import miner_a_de_datos_an_lisis_exploratorio_utilidad as utils

seed = 27912

In [None]:
filepath = "../input/pima-indians-diabetes-database/diabetes.csv" 

index = None
target = "Outcome"

data = utils.load_data(filepath, index, target)

In [None]:
(X, y) = utils.divide_dataset(data, target="Outcome")

train_size = 0.7

(X_train, X_test, y_train, y_test) = train_test_split(X, y,
                                                      stratify=y,
                                                      random_state=seed,
                                                      train_size=train_size)

In [None]:
train = X_train.copy()
train[target] = y_train

In [None]:
train

In [None]:
train.info()

## 1. Análisis exploratorio de datos

Primero veamos cómo se distribuyen las diferentes variables.

In [None]:
train.describe().T

In [None]:
train.describe(include='category')

In [None]:
utils.plot_barplot(train)

Podemos ver que no está balanceada.

In [None]:
utils.plot_histogram(train)

Lo primero que podemos observar es que existen muchos valores perdidos que vienen representados con 0 en variables en las que este valor no está entre los valores razonables para la variable. Es el caso de Glucose, BloodPressure, SkinThickness, Insulin y BMI. Veamos qué fracción del total de valores están perdidos por variable.

In [None]:
vs = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
ntrain = train.replace({v: {0: np.NaN} for v in vs})
utils.not_valid_values_plot(ntrain, vs)

Podemos ver que casi un 50% de los valores de la variable Insulin y un 30% de la variable SkinThickness no son válidos, por lo que hemos decidido eliminarlas. Para el resto de variables imputaremos los valores perdidos, por la mediana en el caso de Glucose y BloodPressure al ser variables enteras, y por la media en el caso de BMI.

In [None]:
train_clean = utils.imputar_valores(train)
utils.plot_histogram(train_clean)

Para ver claramente las distribuciones, las visualizaremos mediante un diagrama de cajas.

In [None]:
f = go.Figure(data=[{'type': 'box', 'y': train_clean[v], 'name': v} for v in set(train_clean.columns) - {"Outcome"}])
f.show()

Ahora realizaremos un análisis multivariado para intentar encontrar correlaciones entre las variables

In [None]:
fig = utils.plot_pairplot(train_clean, 'Outcome')
fig.update_layout(width=1200, height=1000)

In [None]:
px.imshow(train_clean.corr())

Podemos ver que Age y Pregnancies presentan cierta correlación por lo que eliminaremos esta última. También observamos que las variables predictoras son en general bastante independientes de la variable clase ya que no se puede observar una diferencia clara en la distribución de los puntos etiquetados como 0 y como 1.

Al no poder observar puntos de corte claros, tomaremos arbitrariamente la decisión de realizar la discretización en tres intervalos de igual anchura.



In [None]:
disc = KBinsDiscretizer(n_bins=3, strategy='uniform')

## 2. Preprocesamiento de datos

Primero recopilaremos el preprocesamiento en un pipeline.


In [None]:
med_imp = SimpleImputer(missing_values=0, strategy='median')
mea_imp = SimpleImputer(missing_values=0, strategy='mean')
preproc = ColumnTransformer([('', 'drop', ['Insulin', 'SkinThickness', 'Pregnancies']), 
                             ('med_inp', med_imp, ["Glucose", "BloodPressure"]),
                             ('mea_inp', mea_imp, ["BMI"])], remainder='passthrough')

## 3. Aprendizaje y Evaluación *Zero-R*

Empezaremos entrenando un Zero-R.

In [None]:
zeror = DummyClassifier(strategy='most_frequent', random_state=seed)

clean_zeror = make_pipeline(preproc, zeror)
utils.evaluate(clean_zeror, X_train, X_test, y_train, y_test)

cfs = [confusion_matrix(y_test, clean_zeror.predict(X_test))]




## 4. Aprendizaje y Evaluación *Árbol de Decisión*

Ahora usaremos un árbol de clasificación sin discretización previa y con los hiperparámetros por defecto:


In [None]:
ndt = DecisionTreeClassifier(random_state=seed)

cln_ndt = make_pipeline(preproc, ndt)

utils.evaluate(cln_ndt, X_train, X_test, y_train, y_test)

cfs.append(confusion_matrix(y_test, cln_ndt.predict(X_test)))

Por último, discretizaremos antes de entrenar el árbol

In [None]:
cln_disc_ndt = make_pipeline(preproc, disc, ndt)

utils.evaluate(cln_disc_ndt, X_train, X_test, y_train, y_test)

cfs.append(confusion_matrix(y_test, cln_disc_ndt.predict(X_test)))

In [None]:
go.Figure([go.Scatter(x=[0, 1], y=[0, 1], line={'dash': 'dash'}, name='Clasificador aleatorio'), go.Scatter(x=[cfs[i][0, 1] / (cfs[i][0, 0] + cfs[i][0, 1]) for i in range(len(cfs))], y=[cfs[i][1, 1] / (cfs[i][1, 1] + cfs[i][1, 0]) for i in range(len(cfs))], mode='markers', hovertext=['ZeroR', 'Árbol sin discretizar', 'Árbol discretizando'], name='Clasificadores propuestos')], layout={'title': 'Espacio ROC', 'xaxis': {'title': '1-specificity'}, 'yaxis': {'title': 'sensitivity'}})

Observando los resultados de los tres clasificadores, podemos decir que los árboles de decisión son superiores al ZeroR en *accuracy*, además de alcanzar un mejor compromiso entre *sensitivity* y *specificity*.

Entre los dos árboles, la discretización previa parece que mejora ligeramente las medidas consideradas con respecto a no realizarla.

----

# Wisconsin

Comenzamos cargando el conjunto de datos `wisconsin`:

In [None]:
filepath = "../input/breast-cancer-wisconsin-data/data.csv"

index = "id"
target = "diagnosis"

data = utils.load_data(filepath, index, target)

Una vez hemos cargado el conjunto de datos, mostraremos 5 registros aleatorios mediante la función `sample` para comprobar que el proceso ha sido realizado correctamente

In [None]:
data.sample(5, random_state=seed)

Como podemos observar, tenemos una columna, la última, cuyo nombre es `Unnamed` y todo el contenido de sus filas `NaN`. Esto significa que antes de continuar trabajando con nuestra base de datos, debemos borrarla.

In [None]:
del data['Unnamed: 32']

Comprobamos que se ha borrado correctamente haciendo uso del método `sample` de nuevo:

In [None]:
data.sample(5, random_state=seed)

In [None]:
data.diagnosis.unique()

Es muy útil disponer del conjunto de datos separado dos subconjuntos, uno con las variables predictoras (`X`) y otro con la variable objetivo (`y`). Se puede utilizar el siguiente fragmento de código para dividirlo: 

A continuación, separaremos en dos subconjuntos nuestro conjunto de datos inicial, uno con las variables predictoras (`X`) y otro con la variable objetivo (`y`). 

In [None]:
(X, y) = utils.divide_dataset(data, target="diagnosis")

Comprobaremos que se hayan separado correctamente:

Empezamos mostrando las variables predictoras:

In [None]:
X.sample(5, random_state=seed)

Y a continuación la variable objetivo:

In [None]:
y.sample(5, random_state=seed)

Antes de comenzar el análisis exploratorio de los datos, dividiremos nuestro conjunto de datos en otros dos subconjuntos, uno de entrenamiento y otro de prueba, con los siguientes porcentajes:

* Conjunto de entrenamiento: **70%**
* Conjunto de prueba: **30%**

Mediante este proceso, nos aseguraremos de que los resultados posteriores del proceso de validación han sido obtenidos de una manera correcta.

In [None]:
train_size = 0.7
(X_train, X_test, y_train, y_test) = train_test_split(X, y,
                                                      stratify=y,
                                                      random_state=seed,
                                                      train_size=train_size)

Seguidamente, lo que haremos será unir los conjuntos `X_train` e `y_train` para obtener el conjunto de datos de entrenamiento.
Haremos los mismo para `X_test` e `y_test`, juntando así el conjunto de datos de test.

In [None]:
train = utils.join_dataset(X_train, y_train)
test = utils.join_dataset(X_test, y_test)

Nuevamente, vamos a asegurarnos de que el conjunto de datos se ha dividido correctamente. Comenzamos con las variables del conjunto de datos de entrenamiento, observando que la variable clase también aparece al final del conjunto:

In [None]:
train.sample(5, random_state=seed)

Comprobamos lo mismo para nuestro nuevo conjunto de prueba:

In [None]:
test.sample(5, random_state=seed)

Una vez tenemos bien definidos nuestros conjuntos de entrenamiento y prueba, podemos pasar con el análisis exploratorio de datos.

## 1. Análisis exploratorio de datos

El análisis exploratorio de datos es un paso fundamental a la hora de comprender los datos con los que vamos a trabajar.

El objetivo de este análisis es explorar, describir y visualizar la naturaleza de los datos recogidos mediante la aplicación de técnicas simples de resumen de datos y métodos gráficos, para observar las posibles relaciones entre las variables de nuestro conjunto de datos.

Para comenzar, veremos una descripción del conjunto de datos que vamos a emplear.

### Descripción del conjunto de datos
El número de casos y variables (respectivamente) del conjunto de datos se puede obtener consultando el atributo `shape`:
Observamos como de los 569 registros iniciales, tenemos **398** de ellos para el entrenamiento (un 70%), y **171** (un 30%) para el conjunto de prueba, ambos con 31 variables, las 30 predictoras y la variable objetivo.

In [None]:
data.shape

In [None]:
train.shape

In [None]:
test.shape

Para conocer cuál es el tipo de las variables, recurrimos al método `info`:

In [None]:
train.info(memory_usage=False)

De acuerdo con esto, todas las variables predictoras del conjunto de datos son numéricas (`float64`). Sin embargo, la variable clase (`diagnosis`) es categórica y contiene dos estados, cuyos valores serán `M`y`B` como ya hemos comentado anteriormente:

In [None]:
y_train.cat.categories

Otra cosa que observamos gracias a aplicar el método `info` sobre nuestro conjunto de datos de entrenamiento es que en realidad solo contamos con **10 variables** reales, pero que se convierten en 30 puesto que están divididas en 3 categorías `mean`, `se` y `worst`. Es importante considerar esto cuando pasemos a visualizar las variables posteriormente, puesto que al haber tal cantidad de variables será mejor una representación dividida por estas 3 categorías.

### Visualización de las variables

A la hora de visualizar las variables, comenzaremos comprobando la distribución de la variable clase de nuestro conjunto de entrenamiento. Como vemos, hay 250 instancias de la clase mayoritaria `B`, y 148 de la clase `M`.

In [None]:
train.describe(include="category")

Se puede observar mejor de la siguiente manera, comprobando gráficamente qué clase es la que predomina:

In [None]:
utils.plot_barplot(train)

Lo que podemos observar es que las clases de la variable objetivo del problema no tienen el mismo número de casos, es decir, el problema está desbalanceado (las frecuencias de las combinaciones de estados no aparecen en la misma proporción).

Ahora que sabemos que el problema es **desbalanceado**, es el turno de visualizar las variables predictoras del conjunto de datos.

Comenzaremos mostrando un **histograma** con todas las variables, para mostrar la densidad de ejemplos para los distintos valores de las variables numéricas y analizar las tendencias que estas toman:

In [None]:
utils.plot_histogram(train)

Mediante el estudio de este histograma en el que se han representado todas las variables, podremos extraer diversas conclusiones que nos serán útiles a la hora de preprocesar los datos de nuestro conjunto:
* Mirando las variables independientemente, encontramos outliers en las variables `radius, area, y perimeter` en sus tres variantes, lo que será algo a tener en cuenta a la hora de preprocesar los datos si queremos eliminarlos.
* Estimación de las distribuciones:
    * Si analizamos las variables `mean`, veremos que `radius, perimeter y area` siguen una distribución normal al igual que la mayoría de variables, excepto las relacionadas con la concavidad, que pueden llegar a tomar una distribución exponencial.
    * Si analizamos las variables `se`, veremos que `radius, perimeter y area` siguen ahora una distribución exponencial, al igual que las relacionadas con la concavidad.
    * Si analizamos las variables `worst`, veremos que `radius, perimeter y area` vuelven a seguir una distribución normal, y las relacionadas con la concavidad pasan a ser distintas, ahora solo `concavity` sigue una tendencia exponencial, mientras que `concave_points` pasa a tomar una clara distribución normal.
* Tras este paso, vemos también que todas las distribuciones tienden a ir hacia la **derecha**.

Ahora realizaremos un análisis multivariado para intentar encontrar correlaciones entre las variables.

Para ello, obtenemos del conjunto de entrenamiento solo las variables de tipo `mean`, puesto que son las más representativas. Con ellas, realizaremos una matriz de dispersión por parejas para comprobar las relaciones entre ellas.

Como podemos ver, la variable clase se diferencia también en nuestra gráfica, siendo el color naranja el diagnóstico `M`, y su homólogo azul el diagnóstico `B`:

In [None]:
train_mean = train.loc[:,'radius_mean':'fractal_dimension_mean']
train_mean["diagnosis"] = train["diagnosis"]

fig = utils.plot_pairplot(train_mean, 'diagnosis')
fig.update_layout(width=1600, height=1400)

Estudiando la matriz de dispersión de las variables predictoras ordenadas por parejas, podemos sacar como conclusión que las variables `perimeter y area` dependen fuertemente de `radius`.

Igualmente, podemos apreciar cómo las variables `concavity y compactness` dependen también en gran medida de `concave points`.

A continuación, realizaremos diversas observaciones de estos datos para ver si realmente las dependencias ya mencionadas se ven reflejadas en el conjunto de datos.

Ahora realizaremos 3 distintos **Mapas de Correlación**. La respuesta a esto es que separaremos los 3 tipos de variables `mean, se y worst` en mapas distintos, para poder visualizar de una manera más clara las correlaciones entre las variables de nuestro conjunto.

Comenzamos con el Mapa de Correlación de las variables de tipo `mean`:

In [None]:
X_train_mean = X_train.loc[:,'radius_mean':'fractal_dimension_mean']

fig = px.imshow(X_train_mean.corr(),title="Mapa de Correlación variables 'mean'")
fig.show()

X_train_mean.corr()

Seguimos con el Mapa de Correlación de las variables de tipo `se`:

In [None]:
X_train_se = X_train.loc[:,'radius_se':'fractal_dimension_se']

fig = px.imshow(X_train_se.corr(),title="Mapa de Correlación variables 'se'")
fig.show()

X_train_se.corr()

In [None]:
X_train_worst = X_train.loc[:,'radius_worst':'fractal_dimension_worst']

fig = px.imshow(X_train_worst.corr(),title="Mapa de Correlación variables 'worst'")
fig.show()

X_train_worst.corr()

Estudiando los tres mapas de correlación podemos sacar una clara conclusión: **Las variables `perimeter y area` dependen directamente de `radius`.** Esto significa que más adelante en el preprocesamiento de datos podremos eliminar las variables `perimeter y area` sin problema.

De la misma manera, vemos cómo las variables `concavity y compactness` dependen también en gran medida de `concave points`, por lo que ambas variables podrán tambier ser eliminadas posteriormente, debido a su dependencia con esta última.

Mediante un **Boxplot** veremos de mejor forma como están distribuidos los datos de cada una, y así ademas identificar de mejor forma aquellas que tengan valores atípicos (*outliers*), no solo fijándonos en el histograma. Ahora, podremos fijarnos en cada variable de forma individual para comprobar si cuentan con algún outlier.

In [None]:
f = go.Figure(data=[{'type': 'box', 'y': train[v], 'name': v} for v in set(train.columns)- {"diagnosis"}])
f.show()

Las conclusiones que podemos obtener de este diagrama es que encontramos **outliers** en las variables `radius, area, y perimeter` en sus tres variantes (como ya habíamos comentado en el histograma), y además las variables `smoothness y concavity` cuentan con valores atípicos.

Esto será algo que será algo a tener en cuenta a la hora de preprocesar los datos si queremos eliminarlos.

## 2. Preprocesamiento de datos

En esta etapa limpiaremos y organizaremos los datos de manera adecuada para entrenar a nuestro modelo basándonos en las observación que hemos realizado en el análisis exploratorio de datos previo. Por ello, en este conjunto de datos nos centraremos en la selección de variables adecuadas para conseguir reducir el número de estas.


Para realizar este proceso, haremos uso de un **Pipeline**. Este Pipeline será el encargado de aplicar las transformaciones que hemos decidido a nuestro conjunto de datos.

Como hemos decidido anteriormente graciás al análisis exploratorio de los datos, debemos eliminar las columnas (variables) seleccionadas previamente:
* Aquellas relacionadas con los `concave points`: `concavity_mean, compactness_mean, concavity_se, compactness_se, concavity_worst y compactness_worst`.
* Aquellas relacionadas con `radius`, es decir: `area_mean, perimeter_mean, area_se, perimeter_se, area_worst y perimeter_worst`.

La respuesta a por qué estas columnas son las mencionadas previamente, porque son variables que dependen directamente de las 2 que vamos a dejar en nuestro conjunto de datos: `radius y concave points`.

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.compose import ColumnTransformer

preproc = ColumnTransformer([("", "drop", ["concavity_mean", "compactness_mean", "concavity_se", "compactness_se", "concavity_worst", "compactness_worst", "area_mean", "perimeter_mean", "area_se", "perimeter_se", "area_worst", "perimeter_worst"])], remainder="passthrough")

### Discretización

Con el objeto de obtener unos datos más simples y convertir las variables numéricas en intervalos vamos a discretizar esas variables, siendo en este caso, todas las variables predictoras.

Para simplificar los datos realizaremos un proceso de discretización de los datos. Esto quiere decir que convertiremos las variables que son numéricas (todas las variables predictoras que tengamos **después de la selección de variables** que hemos hecho previamente) en variables agrupadas por intervalos, lo que restará complejidad al modelo.

Al no poder observar puntos de corte claros, tomaremos arbitrariamente la decisión de realizar la discretización en tres intervalos de igual anchura.

In [None]:
discretizer = KBinsDiscretizer(n_bins=3, strategy="uniform")

## 3. Aprendizaje y Evaluación *Zero-R*

## Aprendizaje *Zero-R*

Lo que este algoritmo hará será aprender un clasificador que asigne a los casos del conjunto de test la clase predominante en el conjunto de entrenamiento (ya vimos que el problema era desbalanceado). Como veremos, en nuestro conjunto de datos concreto no destaca por su efectividad.

In [None]:
zero_r_model = DummyClassifier(strategy="most_frequent")

## Evaluación *Zero-R*

Ahora es el momento de entrenar y validar nuestros clasificadores. Para ello, vamos a usar una matriz de confusión y tasa de acierto.

In [None]:
pipeline = make_pipeline(preproc, zero_r_model)

Aplicamos nuestro preprocesamiento al conjunto de entrenamiento y al conjunto de test:

In [None]:
utils.evaluate(pipeline,
               X_train, X_test,
               y_train, y_test)

Como era de esperar, el modelo *Zero-R* obtiene malos resultados, pues solo predice la clase mayoritaria en el conjunto de entrenamiento, en este caso 0 (B).

## 4. Aprendizaje y Evaluación *Arbol de Decisión*

## Aprendizaje *Arbol de Decisión*

Una vez estudiado el algoritmo `Zero-R` probaremos un nuevo método, la creación de un árbol de decisión.

Para obtener este arbol de decisión, usaremos el estimador `DecisionTreeClassifier` de `scikit-learn`, sin olvidar fijar la semilla que definimos al principio de la libreta para asegurar que los experimentos sean reproducibles:

In [None]:
tree_model = DecisionTreeClassifier(random_state=seed)

Aplicamos el pipeline al árbol de decisión creado. Diferenciaremos en dos:
* Solo preprocesamiento (eliminación de variables que no son necesarias)
* Preprocesamiento y discretización

In [None]:
preprocessed_tree_model = make_pipeline(preproc, tree_model)
preprocessed_discretized_tree_model = make_pipeline(preproc, discretizer, tree_model)

## Evaluación *Arbol de Decisión*

Vamos a ver los resultados del árbol de decisión sin el conjunto de datos discretizado:

In [None]:
utils.evaluate(preprocessed_tree_model,
               X_train, X_test,
               y_train, y_test)

Y con el conjunto de datos discretizado:

In [None]:
utils.evaluate(preprocessed_discretized_tree_model,
               X_train, X_test,
               y_train, y_test)

## Conclusión

Como puede resultar evidente, los árboles de decisión que hemos implementado obtienen mejores resultados que el algoritmo `Zero-R` puesto que no solo se quedan con la clase mayoritaria.

A su vez, es importante comentar que el árbol de decisión entrenado con el conjunto de datos discretizado (tras realizar las modificaciones necesarias que aprendimos en el análisis exploratorio) obtiene una tasa de acierto similar al árbol de decisión con el conjunto de datos sin discretizar para este problema concreto.

La conclusión que podemos obtener es que con un sencillo preprocesamiento y empleando un modelo predictivo no muy complejo obtendremos unas predicciones con una precisión de un 92%, lo que nos demuestra la importancia de preprocesar nuestro conjunto de datos.