# 📊 Exploración Inicial del Dataset de la Competencia

In [None]:
# 📦 Importación de librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración estética de gráficos
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)


In [None]:
# 📁 Carga del archivo CSV
file_path = "/content/train.csv"  # Asegúrate de que este archivo exista en la ruta especificada
data_train = pd.read_csv(file_path, index_col="ID")
print("✅ Datos cargados correctamente")
data_train.head()


In [None]:
# 🔍 Información general del dataset
data_train.info()


In [None]:
# 🔎 Revisión de valores nulos
data_train.isnull().sum().sort_values(ascending=False).head(20)


In [None]:
# 🎯 Distribución de Clases (Variable Objetivo)
sns.countplot(data=data_train, x='CLASE', palette="Set1")
plt.title("Distribución de Clases")
plt.xlabel("Clase")
plt.ylabel("Cantidad")
plt.show()


In [None]:
# 🏙️ Top 10 Departamentos con más Estudiantes
top_deptos = data_train['ESTU_PRGM_DEPARTAMENTO'].value_counts().nlargest(10)
sns.barplot(x=top_deptos.values, y=top_deptos.index, palette="viridis")
plt.title("Top 10 Departamentos por Número de Estudiantes")
plt.xlabel("Cantidad")
plt.ylabel("Departamento")
plt.show()


In [None]:
# 🚻 Distribución por Género
sns.countplot(data=data_train, x='ESTU_GENERO', palette="Set2")
plt.title("Distribución por Género")
plt.xlabel("Género")
plt.ylabel("Cantidad")
plt.show()


In [None]:
# 🕒 Distribución de Horas Semanales de Trabajo
sns.histplot(data_train['ESTU_HORASSEMANATRABAJA'].dropna(), bins=30, kde=True)
plt.title("Horas de Trabajo Semanales")
plt.xlabel("Horas")
plt.ylabel("Frecuencia")
plt.show()


In [None]:
# 🔗 Correlación entre Coeficientes
coef_cols = ['coef_1', 'coef_2', 'coef_3', 'coef_4']
sns.heatmap(data_train[coef_cols].corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlación entre Coeficientes")
plt.show()


In [None]:
# 📦 Distribución de coef_1 según la clase
sns.boxplot(data=data_train, x='CLASE', y='coef_1', palette="Pastel1")
plt.title("Distribución de coef_1 por Clase")
plt.show()


In [None]:
# 📦 Distribución de coef_2 según la clase
sns.boxplot(data=data_train, x='CLASE', y='coef_2', palette="Pastel1")
plt.title("Distribución de coef_2 por Clase")
plt.show()


In [None]:
# 📦 Distribución de coef_3 según la clase
sns.boxplot(data=data_train, x='CLASE', y='coef_3', palette="Pastel1")
plt.title("Distribución de coef_3 por Clase")
plt.show()


In [None]:
# 📦 Distribución de coef_4 según la clase
sns.boxplot(data=data_train, x='CLASE', y='coef_4', palette="Pastel1")
plt.title("Distribución de coef_4 por Clase")
plt.show()
