# üìà An√°lisis Exploratorio de Datos (EDA) - 9PM Bootcamp

Este notebook realiza un an√°lisis exploratorio exhaustivo de los datos administrativos del bootcamp.

## Contenido:
1. Carga de datos preprocesados
2. Estad√≠sticas descriptivas
3. An√°lisis univariado (variables individuales)
4. An√°lisis bivariado (relaciones entre variables)
5. An√°lisis de variables categ√≥ricas
6. Patrones y tendencias
7. Insights y conclusiones

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Librer√≠as importadas correctamente")

## 1. Carga de Datos

In [None]:
# Cargar datos (ajustar ruta seg√∫n disponibilidad)
# Opci√≥n 1: Datos limpios del notebook de preprocesado
# df = pd.read_csv('../data/9PM_bootcamp_clean.csv')

# Opci√≥n 2: Datos originales
df = pd.read_excel('../data/9PM_bootcamp.xlsx')

print(f"üìÅ Dataset cargado: {df.shape[0]} filas √ó {df.shape[1]} columnas")
df.head()

## 2. Estad√≠sticas Descriptivas Generales

In [None]:
# Resumen estad√≠stico de variables num√©ricas
print("üìä Estad√≠sticas descriptivas - Variables num√©ricas:")
print("=" * 70)
df.describe()

In [None]:
# Resumen de variables categ√≥ricas
print("üìù Variables categ√≥ricas:")
print("=" * 70)
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    unique_count = df[col].nunique()
    print(f"\n{col}: {unique_count} valores √∫nicos")
    if unique_count <= 10:
        print(df[col].value_counts())
    else:
        print(f"Top 5 valores m√°s frecuentes:")
        print(df[col].value_counts().head())

## 3. An√°lisis Univariado

### 3.1 Variables Num√©ricas

In [None]:
# Identificar variables num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"üìä Variables num√©ricas encontradas: {len(numeric_cols)}")
print(numeric_cols)

In [None]:
# Distribuci√≥n de variables num√©ricas
if len(numeric_cols) > 0:
    fig, axes = plt.subplots(len(numeric_cols), 2, figsize=(15, 5*len(numeric_cols)))
    if len(numeric_cols) == 1:
        axes = axes.reshape(1, -1)
    
    for idx, col in enumerate(numeric_cols):
        # Histograma
        axes[idx, 0].hist(df[col].dropna(), bins=30, edgecolor='black', alpha=0.7)
        axes[idx, 0].set_title(f'Distribuci√≥n: {col}')
        axes[idx, 0].set_xlabel(col)
        axes[idx, 0].set_ylabel('Frecuencia')
        
        # Boxplot
        axes[idx, 1].boxplot(df[col].dropna(), vert=False)
        axes[idx, 1].set_title(f'Boxplot: {col}')
        axes[idx, 1].set_xlabel(col)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è No se encontraron variables num√©ricas para visualizar")

### 3.2 Variables Categ√≥ricas

In [None]:
# Visualizar distribuci√≥n de variables categ√≥ricas
categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    unique_count = df[col].nunique()
    
    # Solo visualizar si tiene menos de 20 categor√≠as √∫nicas
    if unique_count <= 20:
        plt.figure(figsize=(12, 6))
        
        value_counts = df[col].value_counts()
        
        # Gr√°fico de barras
        plt.subplot(1, 2, 1)
        value_counts.plot(kind='bar', color='skyblue', edgecolor='black')
        plt.title(f'Distribuci√≥n: {col}')
        plt.xlabel(col)
        plt.ylabel('Frecuencia')
        plt.xticks(rotation=45, ha='right')
        
        # Gr√°fico de pastel
        plt.subplot(1, 2, 2)
        if len(value_counts) <= 10:
            plt.pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Proporci√≥n: {col}')
        else:
            # Si hay muchas categor√≠as, mostrar solo las top 10
            top_values = value_counts.head(10)
            plt.pie(top_values, labels=top_values.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Top 10 - Proporci√≥n: {col}')
        
        plt.tight_layout()
        plt.show()
        print(f"\n{'='*60}\n")

## 4. An√°lisis Bivariado

### 4.1 Correlaci√≥n entre variables num√©ricas

In [None]:
# Matriz de correlaci√≥n
if len(numeric_cols) > 1:
    plt.figure(figsize=(10, 8))
    correlation_matrix = df[numeric_cols].corr()
    
    sns.heatmap(correlation_matrix, 
                annot=True, 
                cmap='coolwarm', 
                center=0, 
                square=True,
                linewidths=1,
                cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=16, pad=20)
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è No hay suficientes variables num√©ricas para an√°lisis de correlaci√≥n")

### 4.2 Relaciones entre variables categ√≥ricas

In [None]:
# Ejemplo: An√°lisis cruzado entre dos variables categ√≥ricas
# Ajustar seg√∫n las columnas disponibles

# if len(categorical_cols) >= 2:
#     col1 = categorical_cols[0]
#     col2 = categorical_cols[1]
#     
#     cross_tab = pd.crosstab(df[col1], df[col2], margins=True)
#     print(f"\nTabla cruzada: {col1} vs {col2}")
#     print(cross_tab)
#     
#     # Visualizaci√≥n con heatmap
#     plt.figure(figsize=(12, 8))
#     sns.heatmap(pd.crosstab(df[col1], df[col2]), annot=True, fmt='d', cmap='YlOrRd')
#     plt.title(f'Relaci√≥n: {col1} vs {col2}')
#     plt.tight_layout()
#     plt.show()

print("üí° Descomentar y ajustar seg√∫n columnas disponibles")

## 5. Visualizaciones Interactivas con Plotly

In [None]:
# Ejemplo de gr√°fico interactivo con Plotly
# Ajustar seg√∫n columnas disponibles

if len(categorical_cols) > 0:
    col = categorical_cols[0]
    value_counts = df[col].value_counts().reset_index()
    value_counts.columns = [col, 'count']
    
    fig = px.bar(value_counts, 
                 x=col, 
                 y='count',
                 title=f'Distribuci√≥n interactiva: {col}',
                 labels={'count': 'Cantidad'},
                 color='count',
                 color_continuous_scale='viridis')
    
    fig.update_layout(showlegend=False)
    fig.show()

## 6. Detecci√≥n de Outliers

In [None]:
# An√°lisis de outliers en variables num√©ricas
if len(numeric_cols) > 0:
    for col in numeric_cols:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
        
        print(f"\n{col}:")
        print(f"  L√≠mite inferior: {lower_bound:.2f}")
        print(f"  L√≠mite superior: {upper_bound:.2f}")
        print(f"  Outliers detectados: {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)")

## 7. Resumen de Insights

### Principales hallazgos:

- **[Completar despu√©s del an√°lisis]**
- 
- 

### Recomendaciones para el dashboard:

- **[Completar seg√∫n insights encontrados]**
- 
- 

In [None]:
# Exportar resumen estad√≠stico
summary = df.describe(include='all').T
# summary.to_csv('../data/summary_statistics.csv')
print("\nüìä An√°lisis exploratorio completado")
print("üí° Usar los insights para dise√±ar el dashboard de Streamlit")