# TP N° 1: Análisis Exploratorio de Datos
## Heart Diseases Dataset
Este conjunto de datos es una versión avanzada del clásico conjunto de datos de enfermedades cardíacas de UCI Machine Learning, enriquecido con más características para soportar análisis más sofisticados.

## 1- Listado de variables y selección 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import keras
import h5py
import PIL
import seaborn as sns
import plotly
import sklearn_pandas
import plotly.express as px

In [None]:
data = pd.read_csv('./heart_disease_data_with_features.csv')

In [None]:
data.shape
# Muestra las dimensiones del dataframe

In [None]:
data.head(10)

In [None]:
# Dividimos por las columnas de interes
subset = data.loc[:, ['sex','cp','fbs','restecg','thalach', 'exang','oldpeak','slope', 'ca','thal', 'num','age_group', 'cholesterol_level', 'bp_level','risk_score', 'symptom_severity', 'risk_factor', 'avg_chol_by_age_group']]
subset.describe()

In [None]:
subset.head(10)

In [None]:
# Mostramos los tipos de datos
subset.dtypes

In [None]:
# Elije 10 filas al azar del DataFrame
subset.sample(10)

In [None]:
fig = px.box(subset, y='thalach', )
fig.show()

Analizando la variable "thalach" podemos ver que uno de los registros que tiene es atípico. Este registro va a ser eliminado porque puede perjudicar el modelo. 

In [None]:
result = subset[subset['thalach'] == 71]
result.head()

In [None]:
subset = subset.drop(index=245)

In [None]:
fig = px.box(subset, y='thalach', )
fig.show()

Con el gráfico en barras podemos deducir que en la mayoria de datos del subconjunto es 0, es decir, que no se detectaron enfermedades. Y luego la cantidad de casos donde se empieza a detectar enfermedades se encuentran escalonadas, yendo desde el 1 (enfermedad leve) hasta 4 (enfermedad grave).

## 2- Análisis detallado de un conjunto de variables

### Variables Nulos
Estos son los valores nulos encontrados en el subset de datos:

In [None]:
subset.isnull().sum()

#### Tratamiento de valores nulos

**Variables:**
- **ca: numerica**
- **thal: numerica**
- **age_group: cualitativa**
- **cholesterol_level: cualitativa**
- **bp_level: cualitativa**
- **risk_factor: numerica**
- **avg_chol_by_age_group: numerica**

Para las variables numericas, el tratamiento que llevaremos a cabo sera rellenar con la media
Para las variables cualitativas, el tratamiento será rellenar con el valor que mas se repite

#### tratamiento de valores nulos de 'ca'

In [None]:
subset['ca'] = subset['ca'].fillna(subset['ca'].mean())
subset['ca'].isnull().sum()

#### tratamiento de valores nulos de 'thal'

In [None]:
subset[subset['cholesterol_level'].isna()]

In [None]:
subset['thal'] = subset['thal'].fillna(subset['thal'].mean())
subset['thal'].isnull().sum()

#### tratamiento de valores nulos de 'age_group'

In [None]:
subset['age_group'] = subset['age_group'].fillna(subset['age_group'].mode()[0])
subset['age_group'].isnull().sum()

#### tratamiento de valores nulos de 'cholesterol level'

In [None]:
subset['cholesterol_level'] = subset['cholesterol_level'].fillna(subset['cholesterol_level'].mode()[0])
subset['cholesterol_level'].isnull().sum()

#### tratamiento de valores nulos de 'bp_level'

In [None]:
subset['bp_level'] = subset['bp_level'].fillna(subset['bp_level'].mode()[0])
subset['bp_level'].isnull().sum()

#### tratamiento de valores nulos de 'risk_factor'

In [None]:
subset['risk_factor'] = subset['risk_factor'].fillna(subset['risk_factor'].mean())
subset['risk_factor'].isnull().sum()

#### tratamiento de valores nulos de 'avg_chol_by_age_group'

In [None]:
subset['avg_chol_by_age_group'] = subset['avg_chol_by_age_group'].fillna(subset['avg_chol_by_age_group'].mean())
subset['avg_chol_by_age_group'].isnull().sum()

In [None]:
# ESTO PUEDE JUNTARSE EN DOS CELDAS, UNA CON LAS NUMERICAS Y OTRA CON LAS CUALITATIVAS

### Variable de salida
**num:** Esta variable se encuentra dentro del csv ... 

In [None]:
subset.num.value_counts().plot.bar(title='num')

### Variables de entrada

In [None]:
subset.sex.value_counts().plot.bar(title='Sex (1: Hombre 0: Mujer)')

In [None]:
plt.hist(subset.oldpeak, bins=15, edgecolor='black')
plt.show()

In [None]:
fig = px.box(subset, y='oldpeak')
fig.show()

Podemos observar en el gráfico en caja que hay valores aberrantes, por lo que procedemos a eliminarlos del subset de datos con el que estamos trabajando para evitar problemas futuros en el modelado. 

In [None]:
subset = subset[subset['oldpeak'] <= 4]

In [None]:
fig = px.box(subset, y='oldpeak')
fig.show()

#### Grupo Etáreo

In [None]:
subset.age_group.value_counts().plot.bar(title='Grupo etario', )

#### cp - Tipo de dolor de pecho

In [None]:
subset.cp.value_counts().plot.bar(title='Tipo de dolor de pecho')

#### fbs - Azúcar en sangre en ayunas > 120 mg/dl

In [None]:
subset.fbs.value_counts().plot.bar(title='Azúcar en sangre > 120ml/dl')

#### restecg

In [None]:
subset.restecg.value_counts().plot.bar(title='restecg')

#### exang - angina inducida por el ejercicio

In [None]:
subset.exang.value_counts().plot.bar(title='exang')

#### slope

In [None]:
subset.slope.value_counts().plot.bar(title='slope')

#### ca

In [None]:
subset.ca.sample(10)

Aca tenemos un problema, el tipo de variable de 'ca' es float, pero los datos adentro son todos enteros, asi que seran transformados en int.

In [None]:
subset['ca'] = subset['ca'].astype(int)

In [None]:
# plt.hist(subset.ca, bins=6, edgecolor='black')
# plt.show()

In [None]:
subset.ca.value_counts().plot.bar()

### Listado de posibles dudas/preguntas al encargado de proveer los datos

## 3- Hipótesis sobre los datos
### a. Formulación de hipótesis sobre la variable target bajo determinadas condiciones

### b. Comprobación de la hipótesis


### c. Creación de nuevas variables