# 2. Data Understanding

### Proyecto Parcial ‚Äî MLY0100  
**Autor:** Antonio Sep√∫lveda  
**Fecha:** 2025

---
# üéØ Objetivo del notebook
En este notebook se analiza el dataset de **diabetes** utilizado por el pipeline de Kedro. 
Buscamos entender:
- La estructura de los datos
- Las distribuciones de variables
- Posibles valores faltantes
- Presencia de outliers
- Relaciones entre variables y la variable objetivo `Outcome`

Esto permitir√° definir mejor las decisiones de preprocesamiento y modelado.

## 1. Carga del dataset
El archivo crudo se encuentra en la ruta:
`data/01_raw/diabetes.csv` (desde la carpeta del proyecto Kedro, este notebook lo lee con ruta relativa `../data/01_raw/diabetes.csv`).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('default')

# Cargar dataset crudo
df = pd.read_csv('../data/01_raw/diabetes.csv')

df.head()

## 2. Dimensiones y tipos de datos
Revisamos el tama√±o del dataset y los tipos de variables disponibles.

In [None]:
print(f"Filas: {df.shape[0]}")
print(f"Columnas: {df.shape[1]}\n")

df.info()

## 3. Estad√≠sticas descriptivas
Obtenemos estad√≠sticos b√°sicos (media, mediana, desviaci√≥n est√°ndar, m√≠nimos y m√°ximos) para las variables num√©ricas.

In [None]:
df.describe().T

## 4. Distribuci√≥n de variables num√©ricas
Visualizamos los histogramas de todas las variables num√©ricas para identificar sesgos y posibles valores extremos.

In [None]:
df.hist(figsize=(12, 8), bins=20)
plt.tight_layout()
plt.show()

## 5. Matriz de correlaci√≥n
Revisamos la correlaci√≥n entre variables num√©ricas, especialmente con la variable objetivo `Outcome`.

In [None]:
plt.figure(figsize=(10, 8))
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de correlaci√≥n - Dataset Diabetes')
plt.show()

## 6. Revisi√≥n de valores faltantes
Verificamos si hay valores nulos expl√≠citos en el dataset.

In [None]:
missing_counts = df.isnull().sum()
missing_counts[missing_counts > 0]

En varios casos, el dataset de diabetes no tiene `NaN` expl√≠citos, pero puede representar valores faltantes con ceros en variables como **Glucose**, **BloodPressure**, **SkinThickness**, **Insulin** o **BMI**. 
Esto se considerar√° en la etapa de **preparaci√≥n de datos**.

## 7. Detecci√≥n r√°pida de outliers
Generamos boxplots para algunas variables clave.

In [None]:
plt.figure(figsize=(12, 6))
cols = ['Glucose', 'BloodPressure', 'BMI', 'Age']
df[cols].boxplot()
plt.title('Boxplots de variables clave')
plt.show()

## 8. Distribuci√≥n de la variable objetivo `Outcome`
Revisamos el balance de clases (0 = no diabetes, 1 = diabetes).

In [None]:
outcome_counts = df['Outcome'].value_counts()
print(outcome_counts)

plt.figure(figsize=(4, 4))
sns.countplot(x='Outcome', data=df)
plt.title('Distribuci√≥n de Outcome (0 = No, 1 = S√≠)')
plt.show()

---
## ‚úÖ Conclusiones del Data Understanding
- El dataset contiene variables cl√≠nicas relevantes (Glucose, BMI, Age, etc.) vinculadas a la aparici√≥n de diabetes.
- La variable objetivo `Outcome` est√° desbalanceada de forma moderada (m√°s casos sin diabetes que con diabetes).
- No se observan valores nulos expl√≠citos, pero algunos ceros deben tratarse como posibles valores faltantes en variables biom√©dicas.
- Existen outliers en varias variables, que se abordar√°n en la fase de **preparaci√≥n de datos**.

---
‚û°Ô∏è Siguiente paso: `3_Data_Preparation.ipynb` para limpieza, imputaci√≥n y preparaci√≥n de los datos antes del modelado.