# 📈 Análisis Exploratorio de Datos (EDA) - 9PM Bootcamp

Este notebook realiza un análisis exploratorio exhaustivo de los datos administrativos del bootcamp.

## Contenido:
1. Carga de datos preprocesados
2. Estadísticas descriptivas
3. Análisis univariado (variables individuales)
4. Análisis bivariado (relaciones entre variables)
5. Análisis de variables categóricas
6. Patrones y tendencias
7. Insights y conclusiones

In [None]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("✅ Librerías importadas correctamente")

## 1. Carga de Datos

In [None]:
# Cargar datos (ajustar ruta según disponibilidad)
# Opción 1: Datos limpios del notebook de preprocesado
# df = pd.read_csv('../data/9PM_bootcamp_clean.csv')

# Opción 2: Datos originales
df = pd.read_excel('../data/9PM_bootcamp.xlsx')

print(f"📁 Dataset cargado: {df.shape[0]} filas × {df.shape[1]} columnas")
df.head()

## 2. Estadísticas Descriptivas Generales

In [None]:
# Resumen estadístico de variables numéricas
print("📊 Estadísticas descriptivas - Variables numéricas:")
print("=" * 70)
df.describe()

In [None]:
# Resumen de variables categóricas
print("📝 Variables categóricas:")
print("=" * 70)
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    unique_count = df[col].nunique()
    print(f"\n{col}: {unique_count} valores únicos")
    if unique_count <= 10:
        print(df[col].value_counts())
    else:
        print(f"Top 5 valores más frecuentes:")
        print(df[col].value_counts().head())

## 3. Análisis Univariado

### 3.1 Variables Numéricas

In [None]:
# Identificar variables numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"📊 Variables numéricas encontradas: {len(numeric_cols)}")
print(numeric_cols)

In [None]:
# Distribución de variables numéricas
if len(numeric_cols) > 0:
    fig, axes = plt.subplots(len(numeric_cols), 2, figsize=(15, 5*len(numeric_cols)))
    if len(numeric_cols) == 1:
        axes = axes.reshape(1, -1)
    
    for idx, col in enumerate(numeric_cols):
        # Histograma
        axes[idx, 0].hist(df[col].dropna(), bins=30, edgecolor='black', alpha=0.7)
        axes[idx, 0].set_title(f'Distribución: {col}')
        axes[idx, 0].set_xlabel(col)
        axes[idx, 0].set_ylabel('Frecuencia')
        
        # Boxplot
        axes[idx, 1].boxplot(df[col].dropna(), vert=False)
        axes[idx, 1].set_title(f'Boxplot: {col}')
        axes[idx, 1].set_xlabel(col)
    
    plt.tight_layout()
    plt.show()
else:
    print("⚠️ No se encontraron variables numéricas para visualizar")

### 3.2 Variables Categóricas

In [None]:
# Visualizar distribución de variables categóricas
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    unique_count = df[col].nunique()
    
    # Solo visualizar si tiene menos de 20 categorías únicas
    if unique_count <= 20:
        plt.figure(figsize=(12, 6))
        
        value_counts = df[col].value_counts()
        
        # Gráfico de barras
        plt.subplot(1, 2, 1)
        value_counts.plot(kind='bar', color='skyblue', edgecolor='black')
        plt.title(f'Distribución: {col}')
        plt.xlabel(col)
        plt.ylabel('Frecuencia')
        plt.xticks(rotation=45, ha='right')
        
        # Gráfico de pastel
        plt.subplot(1, 2, 2)
        if len(value_counts) <= 10:
            plt.pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Proporción: {col}')
        else:
            # Si hay muchas categorías, mostrar solo las top 10
            top_values = value_counts.head(10)
            plt.pie(top_values, labels=top_values.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Top 10 - Proporción: {col}')
        
        plt.tight_layout()
        plt.show()
        print(f"\n{'='*60}\n")

## 4. Análisis Bivariado

### 4.1 Correlación entre variables numéricas

In [None]:
# Matriz de correlación
if len(numeric_cols) > 1:
    plt.figure(figsize=(10, 8))
    correlation_matrix = df[numeric_cols].corr()
    
    sns.heatmap(correlation_matrix, 
                annot=True, 
                cmap='coolwarm', 
                center=0, 
                square=True,
                linewidths=1,
                cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correlación - Variables Numéricas', fontsize=16, pad=20)
    plt.tight_layout()
    plt.show()
else:
    print("⚠️ No hay suficientes variables numéricas para análisis de correlación")

### 4.2 Relaciones entre variables categóricas

In [None]:
# Ejemplo: Análisis cruzado entre dos variables categóricas
# Ajustar según las columnas disponibles

# if len(categorical_cols) >= 2:
#     col1 = categorical_cols[0]
#     col2 = categorical_cols[1]
#     
#     cross_tab = pd.crosstab(df[col1], df[col2], margins=True)
#     print(f"\nTabla cruzada: {col1} vs {col2}")
#     print(cross_tab)
#     
#     # Visualización con heatmap
#     plt.figure(figsize=(12, 8))
#     sns.heatmap(pd.crosstab(df[col1], df[col2]), annot=True, fmt='d', cmap='YlOrRd')
#     plt.title(f'Relación: {col1} vs {col2}')
#     plt.tight_layout()
#     plt.show()

print("💡 Descomentar y ajustar según columnas disponibles")

## 5. Visualizaciones Interactivas con Plotly

In [None]:
# Ejemplo de gráfico interactivo con Plotly
# Ajustar según columnas disponibles

if len(categorical_cols) > 0:
    col = categorical_cols[0]
    value_counts = df[col].value_counts().reset_index()
    value_counts.columns = [col, 'count']
    
    fig = px.bar(value_counts, 
                 x=col, 
                 y='count',
                 title=f'Distribución interactiva: {col}',
                 labels={'count': 'Cantidad'},
                 color='count',
                 color_continuous_scale='viridis')
    
    fig.update_layout(showlegend=False)
    fig.show()

## 6. Detección de Outliers

In [None]:
# Análisis de outliers en variables numéricas
if len(numeric_cols) > 0:
    for col in numeric_cols:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
        
        print(f"\n{col}:")
        print(f"  Límite inferior: {lower_bound:.2f}")
        print(f"  Límite superior: {upper_bound:.2f}")
        print(f"  Outliers detectados: {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)")

## 7. Resumen de Insights

### Principales hallazgos:

- **[Completar después del análisis]**
- 
- 

### Recomendaciones para el dashboard:

- **[Completar según insights encontrados]**
- 
- 

In [None]:
# Exportar resumen estadístico
summary = df.describe(include='all').T
# summary.to_csv('../data/summary_statistics.csv')
print("\n📊 Análisis exploratorio completado")
print("💡 Usar los insights para diseñar el dashboard de Streamlit")