# **Exploratory Data Analysis (EDA) & Preprocessing**
Este notebook contiene el an√°lisis exploratorio de datos (EDA) y el preprocesamiento del dataset **Life Expectancy**.  
El objetivo es preparar los datos para ser usados en los distintos modelos de regresi√≥n.

En este notebook, se cargan los datos, se hace exploraci√≥n inicial, tratamiento de nulos, outliers, codificaci√≥n, escalado y exportaci√≥n de datasets listos (X_scaled, X_no_scaled, target_y).

## **Paso 1. Cargar librer√≠as**
Importamos las librer√≠as de an√°lisis y visualizaci√≥n que vamos a usar:

* pandas ‚Üí manipulaci√≥n de datos.
* matplotlib/seaborn ‚Üí visualizaciones est√°ticas.
* plotly ‚Üí gr√°ficos interactivos.
* sklean ‚Üí herramientas ML y DS.
* missingno ‚Üí visualizaci√≥n de datos nulos
* StandardScaler from scikit learn.preprocessing ‚Üí Escalado de variables

In [None]:
# ===================================
# 1. Importaci√≥n de librer√≠as
# ===================================

import pandas as pd                                                             # Manipulaci√≥n de datos y an√°lisis
import numpy as np                                                              # C√°lculos num√©ricos                               
import matplotlib.pyplot as plt                                                 # Gr√°ficos b√°sicos (histogramas, scatter, etc.).
import seaborn as sns                                                           # Gr√°ficos estad√≠sticos con menos c√≥digo (heatmaps, distribuciones‚Ä¶)
import missingno as msno                                                        # Visualizaci√≥n de datos faltantes
from sklearn.preprocessing import StandardScaler, MinMaxScaler                  # Escalado de variables (normalizaci√≥n y estandarizaci√≥n)


# Configuraci√≥n de estilo
sns.set_style("whitegrid")
plt.rcParams.update({"figure.figsize": (8,5), "axes.titlesize": 14, "axes.labelsize": 12})


## **Paso 2. Carga del dataset (../data/life_expectancy_data.csv)**

In [None]:
# ===================================
# 2. Cargar dataset original
# (el archivo debe estar en la carpeta data/)
# ===================================

df = pd.read_csv("../data/life_expectancy_data.csv")

# Vista general
print("Dimensiones:", df.shape)
display(df.head(10))  # üëà muestra primeras 10 filas en formato tabla




## **Paso 3. EDA inicial: Informaci√≥n b√°sica**

En este bloque realizamos una **exploraci√≥n general del dataset**:
- Revisamos las primeras filas para entender la estructura de los datos.
- Comprobamos el n√∫mero de filas y columnas.
- Inspeccionamos el tipo de variables (num√©ricas y categ√≥ricas).
- Verificamos si existen valores nulos en las columnas.

Este paso es clave para familiarizarnos con el dataset y planificar los siguientes pasos de limpieza y preprocesamiento.

In [None]:
# ===================================
# 3. EDA inicial: Informaci√≥n b√°sica
# ===================================

# Revisar nombres de columnas
print("\nInformaci√≥n del dataset:\n")
df.info()

# Separador visual
print("\n" + "="*50 + "\n")


# Limpiar espacios en nombres de columnas
df.columns = df.columns.str.strip()


# ===================================
# Valores nulos
# ===================================
print("\nValores nulos por columna (top 10):\n")
print(df.isnull().sum().sort_values(ascending=False).head(10))


# ===================================
# Visualizaci√≥n de nulos con missingno
# ===================================

# Mapa de calor de nulos
msno.matrix(df, figsize=(10, 5), color=(0.2, 0.4, 0.7))
plt.title("Mapa de calor de valores nulos")
plt.show()



# Definir variable objetivo
target_col = "Life expectancy"  

# Distribuci√≥n de la variable objetivo
sns.histplot(df[target_col], kde=True, color="blue")
plt.title("Distribuci√≥n de la variable objetivo (Life Expectancy)")
plt.show()

# Separador visual
print("\n" + "="*50 + "\n")





## **Paso 4. Correlaciones iniciales**

En este bloque analizamos las **relaciones lineales** entre las variables num√©ricas del dataset.  
1. Primero generamos un **mapa de calor** (*heatmap*) para visualizar todas las correlaciones entre pares de variables.  
   - Esto nos permite detectar posibles redundancias entre predictores (multicolinealidad).  
2. Despu√©s calculamos y mostramos las correlaciones de **cada variable con la variable objetivo** (`Life expectancy`).  
   - De esta forma identificamos qu√© variables est√°n m√°s asociadas con la esperanza de vida y cu√°les aportan menos informaci√≥n.  
3. Finalmente graficamos estas correlaciones en un **gr√°fico de barras ordenado**, lo que facilita interpretar qu√© predictores tienen m√°s peso potencial en el modelo.

In [None]:
# ===================================
# 4. Correlaciones iniciales num√©ricas y correlaciones con la variable objetivo
# ===================================


# Seleccionar num√©ricas
df_num = df.select_dtypes(include=["int64", "float64"])

# --- Heatmap de correlaciones num√©ricas
plt.figure(figsize=(12, 8))
sns.heatmap(
    df_num.corr(),
    cmap="coolwarm",
    annot=True,         #  muestra los valores dentro de cada celda
    fmt=".2f",          #  formato con 2 decimales
    annot_kws={"size": 8}  #  tama√±o del texto
)
plt.title("Mapa de calor de correlaciones num√©ricas", fontsize=14)
plt.show()

# --- Correlaciones con la variable objetivo
correlations = df_num.corr()[target_col].sort_values(ascending=False)

print("üìä Correlaciones con la variable objetivo:")
print(correlations)

# Visualizaci√≥n en gr√°fico de barras
plt.figure(figsize=(8, 10))
sns.barplot(
    x=correlations.values,
    y=correlations.index,
    hue=correlations.index,  # usar cada variable como hue
    palette="coolwarm",
    dodge=False,
    legend=False
)


plt.title(f"Correlaci√≥n de variables num√©ricas con {target_col}", fontsize=14)
plt.xlabel("Coeficiente de correlaci√≥n (Pearson)")
plt.ylabel("Variables")
plt.show()


## **Paso 5: Outliers (boxplots + IQR)**

Los **outliers** son valores que se alejan mucho del resto de observaciones y pueden distorsionar las m√©tricas de entrenamiento.  
En este bloque aplicamos dos t√©cnicas principales:

1. **Boxplots (diagramas de caja y bigotes)**:  
   - Permiten identificar valores extremos en la distribuci√≥n de cada variable num√©rica.  
   - Los puntos fuera de los bigotes suelen considerarse outliers.

2. **M√©todo del IQR (Interquartile Range)**:  
   - Calculamos los percentiles Q1 (25%) y Q3 (75%).  
   - Definimos un rango intercuart√≠lico (IQR = Q3 - Q1).  
   - Todo valor < Q1 - 1.5√óIQR o > Q3 + 1.5√óIQR se considera un outlier.  

Este an√°lisis nos ayuda a decidir si necesitamos **tratar o eliminar** los valores extremos antes de entrenar los modelos.
  
En general:
- Algoritmos basados en distancias o regresi√≥n lineal son sensibles a outliers.  
- Los √°rboles de decisi√≥n y ensembles (Random Forest, XGBoost) son m√°s robustos a su presencia.

In [None]:
# ===================================
# 5. Outliers con IQR
# ===================================

# --- Boxplots para variables num√©ricas
num_cols = df.select_dtypes(include=["float64","int64"]).columns

plt.figure(figsize=(15, 8))
sns.boxplot(data=df_num, orient="h", palette="Set2", showfliers=True)
plt.title("Boxplots de variables num√©ricas", fontsize=14)
plt.show()

for col in num_cols[:5]:  # mostramos solo primeras 5 para no saturar
    sns.boxplot(x=df[col], color="skyblue")
    plt.title(f"Boxplot de {col}")
    plt.show()

# Detectar outliers con m√©todo IQR
def detect_outliers_iqr(series):
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5*IQR, Q3 + 1.5*IQR
    return series[(series < lower) | (series > upper)]

outliers_count = {}
for col in num_cols:
    outliers_count[col] = len(detect_outliers_iqr(df[col].dropna()))

print("N√∫mero de outliers detectados por variable:")
print(pd.Series(outliers_count).sort_values(ascending=False).head(10))


## **Paso 6: Preprocesamiento**

En este bloque transformamos el dataset para que pueda ser utilizado por distintos modelos de machine learning:

1. Eliminamos columnas con demasiados valores nulos (>40%-50%) y que aquellas que no aporten nada (ej. identificadores, c√≥digos sin significado).
2. Rellenamos valores faltantes:  
   - Num√©ricas: con la mediana (robusta a outliers).  
   - Categ√≥ricas: con la categor√≠a `"Unknown"`.  
3. Reducimos categor√≠as poco frecuentes en variables categ√≥ricas (ej. pa√≠ses con pocas observaciones) agrup√°ndolas como `"Other"`.  
4. Aplicamos **One-Hot Encoding** a las variables categ√≥ricas ‚Üí convierte categor√≠as en columnas binarias (0/1).  

---


üí° **Nota: Tratamiento de valores nulos en la variable objetivo (Life expectancy)**

Durante el preprocesamiento detectamos que la variable objetivo `Life expectancy` conten√≠a **10 valores nulos**.

Esto es importante porque un modelo de Machine Learning **no puede entrenar** sin la variable objetivo (`y`).

Opciones posibles:

1. **Eliminar filas con NaN en `y` (recomendado)**  
   - Justificaci√≥n: al ser solo 10 de 2938 filas (~0.3%), el impacto es m√≠nimo.  
   - Evitamos introducir sesgo artificial.  

2. **Imputar `y` con media o mediana (no recomendado)**  
   - Se puede hacer, pero a√±ade un valor inventado que no estaba en el dataset original.  
   - Puede distorsionar la distribuci√≥n y las m√©tricas del modelo.

 En nuestro caso aplicamos la **opci√≥n 1 (eliminaci√≥n de filas con NaN en `y`)**, quedando finalmente **2928 registros v√°lidos**.




In [None]:
# ===================================
# 6. Preprocesamiento
# ===================================

# --- Separar target ---
y = df[target_col]
df_features = df.drop(columns=[target_col])

# --- Eliminar columnas con m√°s del 40% de nulos ---
missing = df_features.isnull().mean()
cols_to_drop = missing[missing > 0.4].index
df_features = df_features.drop(columns=cols_to_drop)

# --- Rellenar nulos ---
for col in df_features.select_dtypes(include=["int64","float64"]).columns:
    df_features[col] = df_features[col].fillna(df_features[col].median())

for col in df_features.select_dtypes(include=["object"]).columns:
    df_features[col] = df_features[col].fillna("Unknown")

# --- Reducir categor√≠as (si >20 √∫nicas ‚Üí agrupar en "Other") ---
for col in df_features.select_dtypes(include=["object"]).columns:
    if df_features[col].nunique() > 20:
        top = df_features[col].value_counts().index[:20]
        df_features[col] = df_features[col].apply(lambda x: x if x in top else "Other")

# --- One-hot encoding ---
df_features = pd.get_dummies(df_features, drop_first=True)


# ===================================
# Tratamiento de nulos en y
# ===================================

#  --- LIMPIEZA adicional de la variable objetivo ---
print(f"Valores nulos antes en la variable objetivo y ({target_col}):", y.isna().sum())

# Eliminar filas con y nulo
mask = y.notna()
df_features = df_features.loc[mask].reset_index(drop=True)
y = y.loc[mask].reset_index(drop=True)

print("Valores nulos en y (despu√©s):", y.isna().sum())
print("Dimensiones finales despu√©s de limpiar target:", df_features.shape, y.shape)




## **Paso 7: Escalado y exportaci√≥n**

1. Creamos dos versiones del dataset:  
   - `X_no_scaling`: para modelos robustos a la escala (√°rboles, Random Forest, XGBoost).  
   - `X_scaled`: aplicamos `StandardScaler`, necesario en modelos sensibles a magnitud (Regresi√≥n Lineal, KNN, SVM).
   - `target_y`: dataframe con la variable objetivo `Life expectancy`

In [None]:
# ===================================
# 7. Escalado y exportaci√≥n
# ===================================
scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(df_features), columns=df_features.columns)

# --- Comprobaci√≥n final de nulos ---
print("üîé Comprobaci√≥n final de nulos en datasets procesados:")
print(" - X_no_scaling:", df_features.isna().sum().sum())
print(" - X_scaled:", X_scaled.isna().sum().sum())
print(" - y:", y.isna().sum())

# Guardar datasets
df_features.to_csv("../data/processed/features_no_scaling.csv", index=False)
X_scaled.to_csv("../data/processed/features_scaled.csv", index=False)
y.to_csv("../data/processed/target_y.csv", index=False)

print("‚úÖ Datasets procesados guardados en data/processed/")
