# 01 - Análisis Exploratorio de Datos (EDA)

Este notebook contiene el análisis exploratorio de datos para el proyecto tscdia-pp.

## Objetivos:
- Cargar y explorar los datos
- Analizar la distribución de variables
- Identificar valores faltantes
- Explorar correlaciones
- Detectar outliers
- Generar insights iniciales

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuración
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configurar tamaño de figuras
plt.rcParams['figure.figsize'] = [12, 8]

# Importar funciones personalizadas
import sys
sys.path.append('../src')

from etl.data_loader import load_csv_data, load_config
from utils.helpers import generate_data_summary, plot_missing_values, plot_correlation_matrix

print("Librerías importadas correctamente")

## 1. Carga de Datos

In [None]:
# Cargar configuración del proyecto
config = load_config('../config.yaml')
print("Configuración cargada:")
print(config)

In [None]:
# Cargar datos (ajustar la ruta según tu dataset)
# df = load_csv_data('../data/raw/your_dataset.csv')
# print(f"Datos cargados: {df.shape}")
# df.head()

## 2. Exploración Inicial

In [None]:
# Información básica del dataset
# print("Información del dataset:")
# df.info()
# print("\nPrimeras 5 filas:")
# df.head()

In [None]:
# Resumen estadístico
# summary = generate_data_summary(df)
# print("Resumen de los datos:")
# for key, value in summary.items():
#     print(f"{key}: {value}")

## 3. Análisis de Valores Faltantes

In [None]:
# Visualizar valores faltantes
# plot_missing_values(df)

# Resumen de valores faltantes
# missing_summary = df.isnull().sum()
# missing_percentage = (df.isnull().sum() / len(df)) * 100
# missing_df = pd.DataFrame({
#     'Missing_Count': missing_summary,
#     'Missing_Percentage': missing_percentage
# }).sort_values('Missing_Percentage', ascending=False)
# print(missing_df[missing_df['Missing_Count'] > 0])

## 4. Distribución de Variables

In [None]:
# Distribución de variables numéricas
# numeric_columns = df.select_dtypes(include=[np.number]).columns
# n_cols = 3
# n_rows = (len(numeric_columns) + n_cols - 1) // n_cols

# fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
# axes = axes.flatten() if n_rows > 1 else [axes]

# for i, col in enumerate(numeric_columns):
#     if i < len(axes):
#         df[col].hist(bins=30, ax=axes[i], alpha=0.7)
#         axes[i].set_title(f'Distribución de {col}')
#         axes[i].set_xlabel(col)
#         axes[i].set_ylabel('Frecuencia')

# # Ocultar subplots vacíos
# for i in range(len(numeric_columns), len(axes)):
#     axes[i].set_visible(False)

# plt.tight_layout()
# plt.show()

In [None]:
# Distribución de variables categóricas
# categorical_columns = df.select_dtypes(include=['object']).columns

# for col in categorical_columns:
#     plt.figure(figsize=(10, 6))
#     value_counts = df[col].value_counts().head(10)  # Top 10 valores
#     value_counts.plot(kind='bar')
#     plt.title(f'Distribución de {col}')
#     plt.xlabel(col)
#     plt.ylabel('Frecuencia')
#     plt.xticks(rotation=45)
#     plt.tight_layout()
#     plt.show()

## 5. Análisis de Correlaciones

In [None]:
# Matriz de correlación
# plot_correlation_matrix(df)

# Correlaciones más altas (excluyendo la diagonal)
# corr_matrix = df.select_dtypes(include=[np.number]).corr()
# mask = np.triu(np.ones_like(corr_matrix))
# corr_matrix_masked = corr_matrix.mask(mask)
# high_corr = corr_matrix_masked.unstack().dropna().sort_values(key=abs, ascending=False)
# print("Correlaciones más altas:")
# print(high_corr.head(10))

## 6. Detección de Outliers

In [None]:
# Box plots para variables numéricas
# numeric_columns = df.select_dtypes(include=[np.number]).columns
# n_cols = 3
# n_rows = (len(numeric_columns) + n_cols - 1) // n_cols

# fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
# axes = axes.flatten() if n_rows > 1 else [axes]

# for i, col in enumerate(numeric_columns):
#     if i < len(axes):
#         df.boxplot(column=col, ax=axes[i])
#         axes[i].set_title(f'Box Plot de {col}')

# # Ocultar subplots vacíos
# for i in range(len(numeric_columns), len(axes)):
#     axes[i].set_visible(False)

# plt.tight_layout()
# plt.show()

## 7. Análisis Bivariado

In [None]:
# Pair plot para variables numéricas (muestra solo si hay pocas variables)
# if len(numeric_columns) <= 6:
#     sns.pairplot(df[numeric_columns])
#     plt.show()
# else:
#     print("Demasiadas variables numéricas para pairplot. Selecciona algunas manualmente.")

## 8. Insights y Conclusiones

### Principales hallazgos:
1. **Calidad de datos**: [Describir problemas encontrados]
2. **Distribuciones**: [Describir patrones en las distribuciones]
3. **Correlaciones**: [Destacar correlaciones importantes]
4. **Outliers**: [Comentar sobre outliers detectados]
5. **Valores faltantes**: [Estrategia para manejar valores faltantes]

### Próximos pasos:
1. Limpieza de datos basada en los hallazgos
2. Feature engineering
3. Preparación para modelado
4. Selección de algoritmos apropiados