# Práctica 1: Análisis exploratorio de datos, preprocesamiento y validación de modelos de clasificación\*

### Minería de Datos: Curso académico 2020-2021

### Pima diabetes

# 1. Preliminares

In [None]:
# Third party
from sklearn.impute import SimpleImputer
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.compose import ColumnTransformer
from sklearn.feature_selection import SelectKBest, chi2, RFE
from sklearn.preprocessing import KBinsDiscretizer, FunctionTransformer, Normalizer
import seaborn as sns
from matplotlib import pyplot as mpl
import numpy as np
from sklearn.preprocessing import StandardScaler
import pandas as panda
from imblearn.over_sampling import SMOTE



# Local application
import miner_a_de_datos_an_lisis_exploratorio_utilidad as utils

Añadimos librerias y generamos una seed

In [None]:
seed = 27912

# 2. Acceso y almacenamiento de datos

El conjunto de datos que vamos a emplear es `Pima diabetes`.
Tiene dos posibles resultados.

* `0` Cuando el paciente no tiene diabetes
* `1` Cuando el paciente tiene diabetes

Que conforman los valores de la variable a predecir, la variable objetivo (`Outcome`). Se tienene en cuenta las siguientes variables predictoras:

* `Age`: Edad del paciente.
* `Pregnancies`: Número de embarazos de la paciente.
* `Glucose`: Concentración de glucosa en plasma sanguíneo.
* `BloodPressure`: Presión diastólica arterial (mm Hg).
* `SkinThickness`: Grosor de la piel en el triceps (mm).
* `insulin`: Cantidad de insulina en sangre (mu Insulina/ml).
* `BMI`: Índice de Masa Corporal (kg/m^2).
* `DiabetesPedigreeFunction`: Función para el historial de diabetes en la familia del paciente.


Cargamos el data-set

In [None]:
filepath = "../input/pima-indians-diabetes-database/diabetes.csv"

index = None
target = "Outcome"

data = utils.load_data(filepath, index, target)

En el caso de Pima Diabetes no disponemos de variable índice, asi que index lo ponemos a "none"

![](http://)

 Usamos la función head para obtener las n primeras instancias del conjunto de datos:

In [None]:
data.head(5)

Pero para conseguir una muestra menos sesgada hacemos una aleatoria, porque los data-set suelen estar ordenanos en función de sus variables.

In [None]:
data.sample(5, random_state=seed)

Creamos conjunto de datos separado dos subconjuntos, uno con las variables predictoras (X) y otro con la variable objetivo (y)

In [None]:
(X, y) = utils.divide_dataset(data, target="Outcome")

Comprobamos que los conjuntos de las variables predictoras y el de la variable objetivo se han sepeparado correctamente

In [None]:
X.sample(5, random_state=seed)

Comprobamos también con la variable objetivo:




In [None]:
y.sample(5, random_state=seed)

Para hacer un proceso de Holdout creamos la muestra de Test y la muestra de training con la siguiente proporción:

* Muestra training (70%)
* Muestra test (típicamente, 30%)


Para realizar un *holdout* podemos utilizar el método `train_test_split` de `scikit-learn`:


In [None]:
train_size = 0.7

(X_train, X_test, y_train, y_test) = train_test_split(X, y,
                                                      stratify=y,
                                                      random_state=seed,
                                                      train_size=train_size)

Comenzamos con las variables predictoras del conjunto de datos de training:

In [None]:
X_train.sample(5, random_state=seed)

Y test:

In [None]:
X_test.sample(5, random_state=seed)

Hacemos la muestra con el conjunto de training

In [None]:
y_train.sample(5, random_state=seed)

Y test:

In [None]:
y_test.sample(5, random_state=seed)

# 3. Análisis exploratorio de datos

Ahora para ver las propiedades de nuestro conjunto de datos y poder sacar conclusiones de cara al preprocesamiento usaremos gráficos y estadisticos.

### Descripción del conjunto de datos

Con shape podemos saber la cantidad de casos que hay en nuestra base de datos frente a la cantidad que variables que disponemos, 768 pacientes estudiados frente a las nueve variables que disponemos, que son las diferentes pruebas que se han hecho a estos pacientes.

Usamos el metodo info para saber de que tipo son las variables

In [None]:
data.info(memory_usage=False)

En nuestro caso todas las variables predictoras son varibales continuas, y solo la variable obejetivo es una variable discreta,

In [None]:
y.cat.categories

Nuestra variable objetivo tiene dos posibles valores, 0 y 1

In [None]:
data.shape

* ### Visualización de las variables

Vamos a comenzar visualizando las variables numéricas del conjunto de datos usando histogramas para las variables numéricas y diagramas de barras para las variables categóricas

In [None]:
utils.plot_histogram(data)

Como podemos observar varias variables tiene tienen datos ruidosos, todos los que tienen una cantidad 0, alejados de la mayoría de valores de esas variables, este sería el caso de`Glucose` , `BloodPressure`, `SkinThickness`,`insulin` y `BMI`. Tambein podemos ver que `SkinThickness`, `Age` y `Insulin` tienen una disposición central. No encuentro valores anomalos en este analisis multivariado.

In [None]:
utils.plot_barplot(data)

En el caso de nuestra única variable categórica podemos ver que la muestra no esta balanceada, de nuestros 768 pacientes la mayoría dio negativo en tener diabetes como nos dice este analisis univariado.

A continuacion creamos dos matrices para analizar la correlación entre pares de variables, en el primer caso el numero de cada hueco representa la coincidencia o solopamiento entre variables , que en caso de ser demasiado alta nos podria indicar la redundancia de ciertas variables predictoras

In [None]:
f,ax=mpl.subplots(figsize=(31,31))
corrMatrix = X_train.corr()

sns.heatmap(corrMatrix,annot=True,linewidths=.5,fmt=".1f",ax=ax)

Viendo el resultado ninguna de las variables predictoras es redundante

In [None]:
utils.plot_pairplot(data, target="Outcome")

En esta caso a diferencia de la de iris no podemos averiguar claramente el poder discriminatorio de cada variable predictora pues hay muchos datos ruidosos.

In [None]:
data.describe(include="number")

In [None]:
data.describe(include="category")

# 4. Preprocesamiento de datos

![](http://)Lo primero que haremos para tratar los datos crudos sera una imputación de valores perdidos,hay varias variables , 'Glucose','BloodPressure','Insulin','BMI','SkinThickness', que por el contexto no deberían tener valores a 0, así que lo que haremos será sustituir esos valores por la mediana de cada uno , separando también segun la variable objetivo.

[](http://)Calculamos la mediana de esas variables para usarlas a modo de marcador

In [None]:
def medina(variable):
    sumt1=[]
    sumt2=[]
    n1=0
    n2=0
    t=0
    for i in data[variable]:
        j=data['Outcome'][t]
        t=t+1
        if (j==1 and i>0):
            n1=n1+1
            sumt1.append(i)
        elif (j ==0 and i>0):
            n2=n2+1
            sumt2.append(i)
    return (np.median(sumt1),np.median(sumt2))

In [None]:
medina('Glucose')

    

In [None]:
medina('BloodPressure')


In [None]:
medina('BMI')


In [None]:
medina('SkinThickness')


In [None]:
medina('Insulin')

Con las medianas calculadas pasamos a remplazar los 0 por NaN

In [None]:
col=['Glucose','BloodPressure','Insulin','BMI','SkinThickness']
for i in col:
    data[i].replace(0, np.nan, inplace= True)

Ahora remplazamos los NaN por las medianas calculadas

In [None]:
data.loc[(data['Outcome'] == 0 ) & (data['Insulin'].isnull()), 'Insulin'] = 102.5
data.loc[(data['Outcome'] == 1 ) & (data['Insulin'].isnull()), 'Insulin'] = 169.5
data.loc[(data['Outcome'] == 0 ) & (data['Glucose'].isnull()), 'Glucose'] = 107
data.loc[(data['Outcome'] == 1 ) & (data['Glucose'].isnull()), 'Glucose'] = 140
data.loc[(data['Outcome'] == 0 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 27
data.loc[(data['Outcome'] == 1 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 32
data.loc[(data['Outcome'] == 0 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 70
data.loc[(data['Outcome'] == 1 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 74.5
data.loc[(data['Outcome'] == 0 ) & (data['BMI'].isnull()), 'BMI'] = 30.1
data.loc[(data['Outcome'] == 1 ) & (data['BMI'].isnull()), 'BMI'] = 34.3

In [None]:
utils.plot_histogram(data)

Comprobamos que los valores con 0 de las variables han sido eliminados

Para tratar los datos anomalos usaremos StandarScaler que "escala" la propiedad restando por la media y diviendo por la desviación estándar, con esto conseguiremos que los datos anomalos sean menos sesgados que le resto en comparacion con el resto.

In [None]:
yOut = data.Outcome
XOut = data.drop('Outcome', axis = 1)
columns = XOut.columns
scaler = StandardScaler()
XOut = scaler.fit_transform(XOut)
dataOut_x = panda.DataFrame(XOut, columns = columns)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(dataOut_x, yOut,
                                                                    stratify=yOut, random_state = seed, train_size = train_size)

Y por último discretizaremos,teniendo en cuenta lo visto en el diagrama de puntos probaremos con las tres discretizaciones , las tres con dos bins ya que nuestra variable objetivo tiene dos valores

In [None]:
discretizerQuantile = KBinsDiscretizer(n_bins=2, strategy='quantile')

In [None]:
discretizerUniform = KBinsDiscretizer(n_bins=2, strategy="uniform")

In [None]:
discretizerKmeans = KBinsDiscretizer(n_bins=2, strategy="kmeans")

# 5. Algoritmos de clasificación

Genreamos modelos de ZeroR y de CART. Para ello usamos los siguientes clasificadores de la librería  scikit-learn

In [None]:
zero_r_model = DummyClassifier(strategy="most_frequent")

El algoritmo zero_r no nos dara mucha precisión pero nos servira como baseline, como referencia para el resto. Para que salga la clase más frecuente del subconjunto train usamos el hiperparámetro strategy="most_frequent"

In [None]:
tree_model = DecisionTreeClassifier(random_state=seed)

Tambien creamos una pipeline para cada una de las discretizaciones y usando el algoritmo CART

In [None]:
discretize_tree_model_Quantile = make_pipeline(discretizerQuantile, tree_model)

In [None]:
discretize_tree_model_Uniform = make_pipeline(discretizerUniform, tree_model)

In [None]:
discretize_tree_model_Kmeans = make_pipeline(discretizerKmeans, tree_model)

# 5. Evaluación de modelos

* ### ZERO-R

In [None]:
utils.evaluate(zero_r_model,
               X_train, X_test,
               y_train, y_test)

El zero-r nos da la precisión más baja de los algoritmos testeados.

* ### CART sin discretización.

In [None]:
utils.evaluate(tree_model,
               X_train, X_test,
               y_train, y_test)

* ### CART con discretizacion de igual frecuencia (Quantile)

In [None]:
utils.evaluate(discretize_tree_model_Quantile,
               X_train, X_test,
               y_train, y_test)

* ### CART con discretizacion de igual anchura (Uniform)

In [None]:
utils.evaluate(discretize_tree_model_Uniform,
               X_train, X_test,
               y_train, y_test)

* ### CART con discretizacion basada en k-medias (Kmeans)

In [None]:
utils.evaluate(discretize_tree_model_Kmeans,
               X_train, X_test,
               y_train, y_test)

Como podemos ver ninguna de las tres discretizaciones resultan en una mejora del algoritmo CART, todo lo contrario pues la precisión del algortimo es sensible superior sin ninguna discretización, aun así podemos observar que la que da mejor resultado de las tres es la discretización de igual anchura. 