# Análisis Exploratorio de Datos

El propósito de este EDA es encontrar ideas que nos servirán más tarde en otro notebook para la limpieza/preparación/transformación de datos que finalmente se utilizará en un algoritmo de aprendizaje automático.
Procederemos de la siguiente manera:

<img src="http://sharpsightlabs.com/wp-content/uploads/2016/05/1_data-analysis-for-ML_how-we-use-dataAnalysis_2016-05-16.png" />

# Diabetes

La diabetes es una enfermedad que se produce cuando la glucosa en sangre, también llamada azúcar en sangre, es demasiado alta. El objetivo del dataset es predecir de forma diagnóstica si un paciente tiene o no diabetes, basándose en determinadas mediciones diagnósticas incluidas en el dataset. La selección de estas instancias a partir de una base de datos más amplia está sujeta a varias restricciones. En particular, todos los pacientes aquí son mujeres de al menos 21 años de edad de origen indio Pima.

# Preparación de los datos y el módelo

Primero debemos importar las librerias necesarias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


%matplotlib inline

plt.style.use('bmh')

In [None]:
# Esta linea debemos de ejecutarla para que todos tengamos los mismos resultados
SEED = 20
np.random.seed(SEED)

In [None]:
# Loading Data
df = pd.read_csv('diabetes_1.csv')

# Análisis Exploratorio de Datos

In [None]:
df.head()

Las Columnas del data set son:

Pregnancies -> Número de embarazos

Glucose -> Concentración de glucosa en plasma

BloodPressure -> Presión diastólica (mm Hg)

SkinThickness -> Grosor del pliegue cutáneo del tríceps (mm)

Insulin -> Insulina sérica en 2 horas (mu U/ml)

BMI -> Indice de Masa Corporal

DiabetesPedigreeFunction -> Función de pedigrí de la diabetes

Age -> Edad en años

Outcome -> Si la mujer es diabética o no, 0 representa que la persona no es diabética y 1 representa que la persona es diabética.

In [None]:
print("El número de filas en el dataset es: ", df.shape)

In [None]:
df.info()

In [None]:
df.describe().T

In [None]:
sns.countplot(x=df['Outcome'])
plt.show()

In [None]:
df['Outcome'].value_counts()

Antes de seguir adelante, tenemos que comprobar cuáles son los valores mínimos para cada columna, ciertas columnas como la Glucosa o la Insulina no pueden tener valores como 0. Por lo tanto, tenemos que tener en cuenta estos valores.

In [None]:
for col in df.columns:
    print("El valor mínimo para la columna '{}' es {}".format(col, df[col].min()))

Ahora bien, de las columnas anteriores que tienen el cero como mínimo, sólo la columna Pregnancie puede tomar los valores como cero, así que ¿qué debemos hacer con esas columnas que tienen el cero como mínimo aunque no se suponga que lo tengan?

## Null Values

¿Hay Valores Nulos? Como hemos dicho, ciertas columnas tienen cero como su mínimo a pesar de que no se supone que. Esos valores se consideran nulos. Reemplacemos los ceros presentes en las columnas Glucosa, Presión arterial, Grosor de la piel, Insulina e IMC por nulos.

In [None]:
df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']] = df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']].replace(0, np.nan)

In [None]:
df.info()

In [None]:
df.isnull().sum()

## Distribución de los datos

Primero, vamos a remover la columna "Outcome", que es nuestro valor a predecir y además porque sabemos que solo son ceros (0) y unos (1).

In [None]:
df.drop('Outcome', axis=1).hist(figsize=(12,12), bins=50, xlabelsize=8, ylabelsize=8);

## Asimetría
Vamos a comprobar la asimetría de cada una de las columnas.

La asimetría se refiere a la cantidad de asimetría en la característica dada o, en otras palabras, la cantidad de distorsiones de la distribución normal. El pico del histograma representa la moda.

<img src="https://cdn.analyticsvidhya.com/wp-content/uploads/2020/06/sk1-850x321.png" />

- Si la asimetría es inferior a -1 o superior a 1, la distribución es muy asimétrica.
- Si la asimetría está entre -1 y -0,5 o entre 0,5 y 1, la distribución es moderadamente asimétrica.
- Si la asimetría está entre -0,5 y 0,5, la distribución es aproximadamente simétrica.

In [None]:
from scipy.stats import skew
for col in df.drop('Outcome', axis=1).columns:
    print("La Asimetría de la columna {} es {}".format(col, df[col].skew()))

Las columnas `Pregnancies`, `Glucose`, `BloodPressure`, `SkinThickness` y `BMI` no tienen mucha asimetría. Por lo tanto, podemos llenar esos valores con el promedio, pero las columnas `Insulin`, y `DiabetesPedrigeeFunction`, vamos a reemplazar los Null con la mediana, debido al efecto de la asimetría.

### Utilizando las herramientas de Pandas para reemplazar los Null

In [None]:
# Reemplezando los null con la mediana.
df['Insulin'] = df['Insulin'].fillna(df['Insulin'].median())

# Reemplazando los null con la media/promedio
for col in ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI']:
    df[col] = df[col].fillna(df[col].mean())

In [None]:
df.isnull().sum()

In [None]:
sns.boxplot(x = 'Outcome', y = 'Age', data = df)
plt.title('Age vs Outcome')
plt.show()

La mediana de la edad de los diabéticos es mayor que la de los no diabéticos.

Comprobemos también el efecto de la presión arterial en el resultado.

In [None]:
sns.boxplot(x = 'Outcome', y = 'BloodPressure', data = df, palette = 'Blues')
plt.title('BP vs Outcome')
plt.show()

La mediana de la presión arterial de las personas diabéticas se sitúa cerca del percentil 75 de las personas no diabéticas.

## Matriz de Correlación

In [None]:
corr = df.corr()
plt.figure(figsize=(12, 10))

sns.heatmap(corr, 
            cmap='viridis', vmax=1.0, vmin=-1.0, linewidths=0.1,
            annot=True, annot_kws={"size": 8}, square=True);