In [1]:
# Celda 1: Configuración de rutas
import sys
import os
sys.path.insert(0, os.path.abspath('..'))

In [2]:
# Celda 2: Imports
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from src.config import RAW_DATA
from src.preprocessing import clean_columns

In [3]:
# Celda 3: Cargar datos con delimitador correcto
try:
    df = pd.read_csv(RAW_DATA, delimiter='\t', encoding='utf-8', skipinitialspace=True)
    print("✅ CSV leído correctamente con delimitador de tabulador")
    
    # Debug: Mostrar columnas originales
    print("\n🔍 Columnas originales:", df.columns.tolist())
    
    # Limpiar columnas
    df = clean_columns(df)
    
    # Debug: Mostrar columnas limpias
    print("\n🧹 Columnas después de limpieza:", df.columns.tolist())
    
except pd.errors.ParserError as e:
    print(f"❌ Error al leer CSV: {str(e)}")
    raise

# Validación crítica del target
if 'target' not in df.columns:
    print("\n🚨 ERROR: Columna 'target' no encontrada. Posibles causas:")
    print("- El CSV usa un delimitador incorrecto (debe ser tabulador)")
    print("- El archivo tiene encabezados modificados")
    print("- Problemas de codificación de caracteres")
    print("Columnas detectadas:", df.columns.tolist())
    raise KeyError("Columna 'target' faltante")

❌ Error al leer CSV: Error tokenizing data. C error: EOF inside string starting at row 0


ParserError: Error tokenizing data. C error: EOF inside string starting at row 0

In [None]:
# Celda 4: Análisis básico
print("\n📊 Primeras filas del dataset:")
display(df.head(3))

# Celda 5: Visualización del target
plt.figure(figsize=(12, 6))
sns.countplot(
    x='target', 
    data=df, 
    palette='viridis',
    order=df['target'].value_counts().index
)
plt.title('Distribución de la Variable Target\n(n={} registros)'.format(len(df)))
plt.xlabel('Estado Académico')
plt.ylabel('Cantidad de Estudiantes')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Celda 5: Visualización
plt.figure(figsize=(12, 6))
ax = sns.countplot(
    x='target', 
    data=df.dropna(subset=['target']), 
    palette='viridis',
    order=df['target'].value_counts().index
)
plt.title('Distribución de la Variable Target\n(n={})'.format(len(df)), pad=20)
plt.xlabel('Categoría')
plt.ylabel('Recuento')
for p in ax.patches:
    ax.annotate(f'{p.get_height():,.0f}', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 5), 
                textcoords='offset points')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Celda 6: Análisis numérico
numeric_cols = df.select_dtypes(include='number').columns
print(df[numeric_cols].describe())

In [None]:
# Celda 7: Correlaciones
plt.figure(figsize=(20,15))
sns.heatmap(df[numeric_cols].corr(), annot=True, fmt=".1f", cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()