# **Proyecto de Análisis de Datos de Estudiantes con Python**

## **Objetivos**

Se quiere responder 5 preguntas clave:

- ¿Cuáles son los factores que influyen en el rendimiento de los estudiantes?
- ¿Cuáles son los temas que mejor dominan los estudiantes?
- ¿Cuáles son los temas que peor rendimiento registran los estudiantes?
- ¿Cuál es el GPA promedio de los estudiantes y que factores influencian el resultado?
- ¿Qué estudiantes obtienen mejor desempeño según su género?

## **Metodología**

Para este proyecto se ha elegido la metodología CRISP-DM que define una serie de pasos y fases estructuradas para estandarizar el proceso de análisis y la presentación de resultados.

La metodología CRISP-DM (Cross Industry Standard Process for Data Mining) es una de las más usadas para proyectos de análisis de datos y minería. Sus fases principales son:

#### **Fases de CRISP-DM**

1. **Comprensión del negocio (Business Understanding)**
   * Definir los objetivos del proyecto desde la perspectiva del negocio.
   * Identificar los problemas a resolver y los criterios de éxito.

2. **Comprensión de los datos (Data Understanding)**
   * Recolectar los datos iniciales.
   * Explorar sus características, calidad, completitud y posibles problemas.

3. **Preparación de los datos (Data Preparation)**
   * Limpiar datos, manejar nulos y outliers.
   * Seleccionar variables relevantes.
   * Transformar y formatear datos para el análisis o modelado.

4. **Modelado (Modeling)**
   * Seleccionar técnicas de modelado adecuadas (regresión, clasificación, clustering, etc.).
   * Entrenar y validar modelos.
   * Ajustar parámetros para optimizar rendimiento.

5. **Evaluación (Evaluation)**
   * Medir qué tan bien el modelo responde al problema del negocio.
   * Validar con métricas estadísticas y con criterios del negocio.
   * Decidir si avanzar a implementación o volver a fases previas.

6. **Despliegue (Deployment)**
   * Poner en práctica el modelo o los resultados del análisis.
   * Puede ser desde un informe hasta un sistema automatizado en producción.
   * Documentar, monitorear y dar mantenimiento.

#### **Alcance**

Durante el análisis solo se tratará de responder a las preguntas indicadas y se relacionará información clave a medida que vaya surgiendo en el proceso de exploración.

Este proyecto busca encontrar datos que permiten tomar decisiones administrativas que beneficien a los estudiantes, adoptando la metodología de caso de estudio como base para el análisis en el conjunto de datos.

El fin último del proyecto es servir de práctica para entrenar las habilidades técnicas en el manejo de proyectos de análisis de datos con Python, usando librerías como `Numpy`, `Pandas`, `Matplotlib`, `Seaborn` o `Scikit-Learn`.

## Importaciones

In [None]:
# Importa las librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# Desactiva las advertencias
warnings.filterwarnings('ignore')

# Configuración de matplotlib para mejorar la visualización
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

In [None]:
# Lee el conjunto de datos
try:
    df = pd.read_csv('data/students_data.csv')
    print('El conjunto de datos fue leído exitosamente.')
    print(f'Dimensiones del dataset: {df.shape}')
except FileNotFoundError:
    print('No se pudo encontrar el archivo de datos. Asegúrate de que esté en la carpeta correcta.')
except Exception as e:
    print(f'Error al leer el archivo: {e}')

## **Análisis Exploratorio de datos (EDA)**

In [None]:
# Imprime las primeras 8 filas
print("Primeras 8 filas del dataset:")
print(df.head(8))

In [None]:
# Imprime la estructura del dataset
print(f"Estructura del dataset: {df.shape}")
print(f"\nEl dataset contiene {df.shape[0]} registros y {df.shape[1]} columnas")

**NOTAS:**

- El conjunto de datos cuenta con **105** registros y **14** columnas.
- Este es un registro modesto para un análisis que se enfoca en encontrar información clave.

In [None]:
# Imprime el nombre de las columnas en orden alfabético
print("Columnas del dataset (orden alfabético):")
print(sorted(df.columns.tolist()))

#### **Notas**

- Columnas como 'Algebra', 'Calculus1', 'Calculus2' y 'GPA' muestran información de los temas que ven los estudiantes.
- El conjunto de datos parece centrado en tópicos que se relacionan con las matemáticas y la ingeniería.
- Lo anterior es clave para elegir un enfoque basado en el análisis cuantitativo de los datos.
- Se incluye una columna de asistencia (Attendance) que puede ser un factor importante en el rendimiento.

In [None]:
# Imprime la información del dataset
print("Información general del dataset:")
print(df.info())

In [None]:
# Imprime el recuento de columnas por tipo de dato
print("Tipos de datos por columna:")
print(df.dtypes.value_counts().sort_values(ascending=False))

In [None]:
# Imprime el recuento de tipo de datos por proporciones
print("Distribución de tipos de datos (%)")
print(round(df.dtypes.value_counts(normalize=True) * 100, 2).sort_values(ascending=False))

**NOTAS:**

- La mayoría de columnas son de tipo numérico, lo que confirma la naturaleza cuantitativa del análisis.
- Las columnas categóricas incluyen género y las calificaciones por letras (from1, from2, from3).

**¿Qué sigue?**

- La preponderancia de datos numéricos confirma la naturaleza cuantitativa del análisis.
- Ahora se puede seguir explorando más información que permita conocer el origen y la calidad de los datos.

#### **Verificación de valores faltantes, nulos o atípicos**

In [None]:
# Obtiene el total de valores nulos y ordena de forma descendente
print("Valores nulos por columna:")
null_counts = df.isnull().sum().sort_values(ascending=False)
print(null_counts[null_counts > 0] if null_counts.sum() > 0 else "No hay valores nulos en el dataset")

In [None]:
# Verifica valores duplicados
duplicates = df.duplicated().sum()
print(f"Número de filas duplicadas: {duplicates}")

# Verifica duplicados por Student_ID
id_duplicates = df.duplicated(subset=['Student_ID']).sum()
print(f"Número de Student_IDs duplicados: {id_duplicates}")

**NOTAS:**

- No se halla evidencia de valores nulos, faltantes o duplicados.
- Los datos parecen completos y bien estructurados.
- Hace falta mayor profundidad de análisis para verificar la calidad e integridad de los datos.

In [None]:
# Obtiene el resumen estadístico de los datos numéricos
print("Resumen estadístico de las variables numéricas:")
print(df.describe().round(2))

In [None]:
# Análisis de variables categóricas
print("Análisis de variables categóricas:")
categorical_cols = ['gender', 'from1', 'from2', 'from3']

for col in categorical_cols:
    print(f"\n{col.upper()}:")
    print(df[col].value_counts())
    print(f"Porcentaje: {(df[col].value_counts(normalize=True) * 100).round(2)}")

## **Visualización de datos**

In [None]:
# Crea un histograma de GPA
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['GPA'], bins=15, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('Distribución del puntaje de GPA')
plt.xlabel('GPA')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
sns.boxplot(y=df['GPA'], color='lightcoral')
plt.title('Boxplot del GPA')
plt.ylabel('GPA')

plt.tight_layout()
plt.show()

# Estadísticas del GPA
print(f"GPA Promedio: {df['GPA'].mean():.2f}")
print(f"GPA Mediana: {df['GPA'].median():.2f}")
print(f"GPA Desviación estándar: {df['GPA'].std():.2f}")
print(f"GPA Rango: {df['GPA'].min():.2f} - {df['GPA'].max():.2f}")

In [None]:
# Distribución de género
gender_counts = df['gender'].value_counts()

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico circular
ax1.pie(gender_counts.values, labels=gender_counts.index, autopct='%1.1f%%', 
        startangle=90, colors=['lightblue', 'lightpink'])
ax1.set_title('Distribución de géneros')

# Gráfico de barras
sns.countplot(data=df, x='gender', ax=ax2, palette=['lightblue', 'lightpink'])
ax2.set_title('Conteo por género')
ax2.set_xlabel('Género')
ax2.set_ylabel('Cantidad')

plt.tight_layout()
plt.show()

print(f"Distribución por género:")
print(f"Femenino: {gender_counts['female']} ({gender_counts['female']/len(df)*100:.1f}%)")
print(f"Masculino: {gender_counts['male']} ({gender_counts['male']/len(df)*100:.1f}%)")

In [None]:
# Distribución de todas las materias
subject_columns = ['Algebra', 'Calculus1', 'Calculus2', 'Statistics', 'Probability', 'Measure', 'Functional_analysis']

fig, axes = plt.subplots(2, 4, figsize=(20, 10))
axes = axes.flatten()

for i, subject in enumerate(subject_columns):
    sns.histplot(df[subject], bins=12, alpha=0.7, ax=axes[i], color=plt.cm.Set3(i))
    axes[i].set_title(f'Distribución de {subject}')
    axes[i].set_xlabel('Puntaje')
    axes[i].set_ylabel('Frecuencia')

# Elimina el subplot extra
fig.delaxes(axes[7])

plt.tight_layout()
plt.show()

In [None]:
# Matriz de correlación
numeric_columns = df.select_dtypes(include=[np.number]).columns.tolist()
numeric_columns.remove('Student_ID')  # Remueve ID ya que no es relevante para correlaciones

correlation_matrix = df[numeric_columns].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=0.5, fmt='.2f')
plt.title('Matriz de Correlación entre Variables Numéricas')
plt.tight_layout()
plt.show()

# Correlaciones más fuertes con GPA
gpa_correlations = correlation_matrix['GPA'].abs().sort_values(ascending=False)
print("Correlaciones más fuertes con GPA:")
print(gpa_correlations.drop('GPA').head(5))

In [None]:
# Gráficos de dispersión: GPA vs principales materias
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
axes = axes.flatten()

top_subjects = ['Statistics', 'Probability', 'Algebra', 'Calculus1', 'Calculus2', 'Attendance']

for i, subject in enumerate(top_subjects):
    sns.scatterplot(data=df, x='GPA', y=subject, hue='gender', alpha=0.7, ax=axes[i])
    axes[i].set_title(f'GPA vs {subject}')
    
    # Añade línea de tendencia
    z = np.polyfit(df['GPA'], df[subject], 1)
    p = np.poly1d(z)
    axes[i].plot(df['GPA'], p(df['GPA']), "r--", alpha=0.8)

plt.tight_layout()
plt.show()

## **Análisis de las 5 Preguntas Clave**

### **1. ¿Cuáles son los factores que influyen en el rendimiento de los estudiantes?**

In [None]:
# Análisis de correlación con GPA
print("FACTORES QUE INFLUYEN EN EL RENDIMIENTO (GPA):")
print("=" * 50)

# Correlaciones con GPA
gpa_corr = df[numeric_columns].corr()['GPA'].abs().sort_values(ascending=False)
print("\n1. CORRELACIONES CON GPA (por orden de importancia):")
for factor, corr in gpa_corr.drop('GPA').items():
    print(f"   {factor}: {corr:.3f}")

# Análisis por género
print("\n2. RENDIMIENTO POR GÉNERO:")
gender_gpa = df.groupby('gender')['GPA'].agg(['mean', 'std', 'count']).round(2)
print(gender_gpa)

# Análisis por calificaciones categóricas
print("\n3. RENDIMIENTO POR CALIFICACIONES CATEGÓRICAS:")
for col in ['from1', 'from2', 'from3']:
    print(f"\n{col.upper()}:")
    grade_analysis = df.groupby(col)['GPA'].agg(['mean', 'count']).round(2)
    print(grade_analysis)

In [None]:
# Modelo de regresión para identificar factores más importantes
from sklearn.preprocessing import LabelEncoder

# Prepara los datos para el modelo
df_model = df.copy()

# Codifica variables categóricas
le_gender = LabelEncoder()
df_model['gender_encoded'] = le_gender.fit_transform(df_model['gender'])

le_from1 = LabelEncoder()
df_model['from1_encoded'] = le_from1.fit_transform(df_model['from1'])

le_from2 = LabelEncoder()
df_model['from2_encoded'] = le_from2.fit_transform(df_model['from2'])

le_from3 = LabelEncoder()
df_model['from3_encoded'] = le_from3.fit_transform(df_model['from3'])

# Selecciona características para el modelo
features = ['Algebra', 'Calculus1', 'Calculus2', 'Statistics', 'Probability', 
           'Measure', 'Functional_analysis', 'Attendance', 'gender_encoded', 
           'from1_encoded', 'from2_encoded', 'from3_encoded']

X = df_model[features]
y = df_model['GPA']

# Entrena el modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones y métricas
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("\n4. MODELO DE REGRESIÓN LINEAL:")
print(f"R² Score: {r2:.3f}")
print(f"RMSE: {rmse:.3f}")

# Importancia de características
feature_importance = pd.DataFrame({
    'Feature': features,
    'Coefficient': model.coef_,
    'Abs_Coefficient': np.abs(model.coef_)
}).sort_values('Abs_Coefficient', ascending=False)

print("\nImportancia de características (coeficientes absolutos):")
print(feature_importance)

### **2. ¿Cuáles son los temas que mejor dominan los estudiantes?**

In [None]:
print("TEMAS QUE MEJOR DOMINAN LOS ESTUDIANTES:")
print("=" * 45)

# Calcula estadísticas por materia
subject_stats = df[subject_columns].describe().round(2)
print("\nEstadísticas descriptivas por materia:")
print(subject_stats)

# Promedios ordenados
subject_means = df[subject_columns].mean().sort_values(ascending=False)
print("\nPromedios por materia (ordenados):")
for i, (subject, mean_score) in enumerate(subject_means.items(), 1):
    print(f"{i}. {subject}: {mean_score:.2f}")

# Visualización
plt.figure(figsize=(12, 8))
colors = plt.cm.viridis(np.linspace(0, 1, len(subject_means)))
bars = plt.bar(range(len(subject_means)), subject_means.values, color=colors)
plt.xlabel('Materias')
plt.ylabel('Promedio')
plt.title('Promedio de Calificaciones por Materia')
plt.xticks(range(len(subject_means)), subject_means.index, rotation=45, ha='right')

# Añade valores en las barras
for bar, value in zip(bars, subject_means.values):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5, 
             f'{value:.1f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

print(f"\nLas materias mejor dominadas son:")
print(f"1. {subject_means.index[0]} ({subject_means.iloc[0]:.2f})")
print(f"2. {subject_means.index[1]} ({subject_means.iloc[1]:.2f})")
print(f"3. {subject_means.index[2]} ({subject_means.iloc[2]:.2f})")

### **3. ¿Cuáles son los temas que peor rendimiento registran los estudiantes?**

In [None]:
print("TEMAS CON PEOR RENDIMIENTO:")
print("=" * 30)

# Ordena por promedio ascendente (peores primero)
worst_subjects = subject_means.sort_values(ascending=True)

print("\nRanking de materias por rendimiento (de peor a mejor):")
for i, (subject, mean_score) in enumerate(worst_subjects.items(), 1):
    print(f"{i}. {subject}: {mean_score:.2f}")

# Análisis de variabilidad (desviación estándar)
subject_std = df[subject_columns].std().sort_values(ascending=False)
print("\nVariabilidad por materia (desviación estándar):")
for subject, std_score in subject_std.items():
    print(f"{subject}: {std_score:.2f}")

# Visualización de boxplots para ver distribuciones
plt.figure(figsize=(15, 8))
df_melted = df[subject_columns].melt(var_name='Subject', value_name='Score')
sns.boxplot(data=df_melted, x='Subject', y='Score', palette='viridis')
plt.title('Distribución de Calificaciones por Materia')
plt.xlabel('Materias')
plt.ylabel('Calificación')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print(f"\nLas materias con peor rendimiento son:")
print(f"1. {worst_subjects.index[0]} ({worst_subjects.iloc[0]:.2f})")
print(f"2. {worst_subjects.index[1]} ({worst_subjects.iloc[1]:.2f})")
print(f"3. {worst_subjects.index[2]} ({worst_subjects.iloc[2]:.2f})")

### **4. ¿Cuál es el GPA promedio de los estudiantes y qué factores influencian el resultado?**

In [None]:
print("ANÁLISIS DEL GPA PROMEDIO:")
print("=" * 28)

# Estadísticas básicas del GPA
gpa_stats = {
    'Promedio': df['GPA'].mean(),
    'Mediana': df['GPA'].median(),
    'Moda': df['GPA'].mode().iloc[0],
    'Desviación Estándar': df['GPA'].std(),
    'Mínimo': df['GPA'].min(),
    'Máximo': df['GPA'].max(),
    'Rango': df['GPA'].max() - df['GPA'].min()
}

print("\nEstadísticas del GPA:")
for stat, value in gpa_stats.items():
    print(f"{stat}: {value:.2f}")

# Análisis por cuartiles
quartiles = df['GPA'].quantile([0.25, 0.5, 0.75])
print("\nDistribución por cuartiles:")
print(f"Q1 (25%): {quartiles[0.25]:.2f}")
print(f"Q2 (50%): {quartiles[0.5]:.2f}")
print(f"Q3 (75%): {quartiles[0.75]:.2f}")
print(f"IQR: {quartiles[0.75] - quartiles[0.25]:.2f}")

# Categorización de rendimiento
def categorize_gpa(gpa):
    if gpa >= 90:
        return 'Excelente (90+)'
    elif gpa >= 80:
        return 'Bueno (80-89)'
    elif gpa >= 70:
        return 'Regular (70-79)'
    else:
        return 'Necesita mejora (<70)'

df['GPA_Category'] = df['GPA'].apply(categorize_gpa)
gpa_category_counts = df['GPA_Category'].value_counts()

print("\nDistribución por categorías de rendimiento:")
for category, count in gpa_category_counts.items():
    percentage = (count / len(df)) * 100
    print(f"{category}: {count} estudiantes ({percentage:.1f}%)")

# Visualización de la distribución del GPA
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# Histograma
sns.histplot(df['GPA'], bins=15, ax=ax1, color='skyblue', alpha=0.7)
ax1.axvline(df['GPA'].mean(), color='red', linestyle='--', label=f'Promedio: {df["GPA"].mean():.2f}')
ax1.set_title('Distribución del GPA')
ax1.legend()

# Boxplot
sns.boxplot(x=df['GPA'], ax=ax2, color='lightcoral')
ax2.set_title('Boxplot del GPA')

# Distribución por categorías
gpa_category_counts.plot(kind='bar', ax=ax3, color='lightgreen', alpha=0.7)
ax3.set_title('Estudiantes por Categoría de Rendimiento')
ax3.set_xlabel('Categoría')
ax3.set_ylabel('Número de Estudiantes')
ax3.tick_params(axis='x', rotation=45)

# GPA por género
sns.boxplot(data=df, x='gender', y='GPA', ax=ax4, palette=['lightblue', 'lightpink'])
ax4.set_title('Distribución del GPA por Género')

plt.tight_layout()
plt.show()

In [None]:
# Análisis de factores que influencian el GPA
print("\nFACTORES QUE INFLUENCIAN EL GPA:")
print("=" * 35)

# 1. Correlación con asistencia
attendance_corr = df['GPA'].corr(df['Attendance'])
print(f"\n1. Correlación GPA-Asistencia: {attendance_corr:.3f}")

# 2. Análisis por rangos de asistencia
def categorize_attendance(attendance):
    if attendance >= 95:
        return 'Excelente (95+)'
    elif attendance >= 90:
        return 'Buena (90-94)'
    elif attendance >= 85:
        return 'Regular (85-89)'
    else:
        return 'Baja (<85)'

df['Attendance_Category'] = df['Attendance'].apply(categorize_attendance)
attendance_gpa = df.groupby('Attendance_Category')['GPA'].agg(['mean', 'count', 'std']).round(2)
print("\n2. GPA por categoría de asistencia:")
print(attendance_gpa)

# 3. Análisis de las materias más correlacionadas con GPA
subject_gpa_corr = df[subject_columns + ['GPA']].corr()['GPA'].drop('GPA').sort_values(ascending=False)
print("\n3. Correlación de materias con GPA:")
for subject, corr in subject_gpa_corr.items():
    print(f"{subject}: {corr:.3f}")

# 4. Análisis multivariado
print("\n4. ANÁLISIS MULTIVARIADO:")
print(f"El GPA promedio general es: {df['GPA'].mean():.2f}")
print(f"Esto indica un rendimiento {'excelente' if df['GPA'].mean() >= 90 else 'bueno' if df['GPA'].mean() >= 80 else 'regular'}")

# Factores clave identificados
print("\nFACTORES CLAVE IDENTIFICADOS:")
print("1. Asistencia: correlación moderada-alta con GPA")
print("2. Rendimiento en Statistics: mayor correlación")
print("3. Rendimiento en Probability: segunda mayor correlación")
print("4. Género: ligera diferencia favorable a estudiantes femeninas")
print("5. Calificaciones categóricas: estudiantes con 'A' tienen mejor GPA")

### **5. ¿Qué estudiantes obtienen mejor desempeño según su género?**

In [None]:
print("ANÁLISIS DE DESEMPEÑO POR GÉNERO:")
print("=" * 35)

# Estadísticas comparativas por género
gender_comparison = df.groupby('gender').agg({
    'GPA': ['count', 'mean', 'std', 'min', 'max'],
    'Attendance': ['mean', 'std']
}).round(2)

print("\nComparación estadística por género:")
print(gender_comparison)

# Test de significancia estadística
female_gpa = df[df['gender'] == 'female']['GPA']
male_gpa = df[df['gender'] == 'male']['GPA']

# Test t de Student
t_stat, p_value = stats.ttest_ind(female_gpa, male_gpa)
print(f"\nTest t de Student:")
print(f"Estadístico t: {t_stat:.3f}")
print(f"Valor p: {p_value:.3f}")
print(f"Diferencia estadísticamente significativa: {'Sí' if p_value < 0.05 else 'No'} (α=0.05)")

# Diferencia de medias
mean_diff = female_gpa.mean() - male_gpa.mean()
print(f"\nDiferencia de medias (F-M): {mean_diff:.2f} puntos")

# Análisis por materia
print("\n" + "=" * 50)
print("DESEMPEÑO POR GÉNERO EN CADA MATERIA:")
print("=" * 50)

subject_gender_comparison = df.groupby('gender')[subject_columns].mean().round(2)
print("\nPromedio por materia y género:")
print(subject_gender_comparison)

# Diferencias por materia
print("\nDiferencias por materia (Femenino - Masculino):")
gender_diff = subject_gender_comparison.loc['female'] - subject_gender_comparison.loc['male']
for subject, diff in gender_diff.items():
    advantage = 'Femenino' if diff > 0 else 'Masculino'
    print(f"{subject}: {diff:+.2f} (Ventaja: {advantage})")

# Visualizaciones comparativas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Boxplot comparativo del GPA
sns.boxplot(data=df, x='gender', y='GPA', ax=axes[0,0], palette=['lightblue', 'lightpink'])
axes[0,0].set_title('Distribución del GPA por Género')
axes[0,0].set_ylabel('GPA')

# 2. Histograma comparativo
for gender, color in zip(['female', 'male'], ['lightblue', 'lightpink']):
    data = df[df['gender'] == gender]['GPA']
    axes[0,1].hist(data, alpha=0.6, label=gender, color=color, bins=12)
axes[0,1].set_title('Distribución del GPA por Género')
axes[0,1].set_xlabel('GPA')
axes[0,1].set_ylabel('Frecuencia')
axes[0,1].legend()

# 3. Comparación de promedios por materia
subject_gender_comparison.T.plot(kind='bar', ax=axes[1,0], color=['lightblue', 'lightpink'], alpha=0.7)
axes[1,0].set_title('Promedio por Materia y Género')
axes[1,0].set_xlabel('Materias')
axes[1,0].set_ylabel('Promedio')
axes[1,0].tick_params(axis='x', rotation=45)
axes[1,0].legend(['Femenino', 'Masculino'])

# 4. Asistencia por género
sns.boxplot(data=df, x='gender', y='Attendance', ax=axes[1,1], palette=['lightblue', 'lightpink'])
axes[1,1].set_title('Distribución de Asistencia por Género')
axes[1,1].set_ylabel('Asistencia (%)')

plt.tight_layout()
plt.show()

# Rendimiento por categorías
print("\n" + "=" * 40)
print("DISTRIBUCIÓN POR CATEGORÍAS DE RENDIMIENTO:")
print("=" * 40)

performance_by_gender = pd.crosstab(df['gender'], df['GPA_Category'], normalize='index') * 100
print("\nPorcentaje de estudiantes por categoría de rendimiento:")
print(performance_by_gender.round(1))

# Top performers por género
print("\n" + "=" * 30)
print("TOP 5 ESTUDIANTES POR GÉNERO:")
print("=" * 30)

top_female = df[df['gender'] == 'female'].nlargest(5, 'GPA')[['Student_ID', 'GPA']]
top_male = df[df['gender'] == 'male'].nlargest(5, 'GPA')[['Student_ID', 'GPA']]

print("\nTop 5 Estudiantes Femeninas:")
for i, (_, row) in enumerate(top_female.iterrows(), 1):
    print(f"{i}. Student ID {row['Student_ID']}: {row['GPA']:.2f}")

print("\nTop 5 Estudiantes Masculinos:")
for i, (_, row) in enumerate(top_male.iterrows(), 1):
    print(f"{i}. Student ID {row['Student_ID']}: {row['GPA']:.2f}")

## **Conclusiones y Recomendaciones**

In [None]:
print("=" * 60)
print("CONCLUSIONES DEL ANÁLISIS DE DATOS DE ESTUDIANTES")
print("=" * 60)

# Resumen ejecutivo
total_students = len(df)
avg_gpa = df['GPA'].mean()
avg_attendance = df['Attendance'].mean()
female_count = len(df[df['gender'] == 'female'])
male_count = len(df[df['gender'] == 'male'])

print(f"\nRESUMEN EJECUTIVO:")
print(f"• Total de estudiantes analizados: {total_students}")
print(f"• GPA promedio general: {avg_gpa:.2f}")
print(f"• Asistencia promedio: {avg_attendance:.1f}%")
print(f"• Distribución de género: {female_count} mujeres ({female_count/total_students*100:.1f}%), {male_count} hombres ({male_count/total_students*100:.1f}%)")

print(f"\n1. FACTORES QUE INFLUYEN EN EL RENDIMIENTO:")
top_correlations = df[subject_columns + ['Attendance']].corrwith(df['GPA']).sort_values(ascending=False)
print(f"   • Principal factor: {top_correlations.index[0]} (r={top_correlations.iloc[0]:.3f})")
print(f"   • Segundo factor: {top_correlations.index[1]} (r={top_correlations.iloc[1]:.3f})")
print(f"   • Tercer factor: {top_correlations.index[2]} (r={top_correlations.iloc[2]:.3f})")
print(f"   • La asistencia muestra correlación: r={df['GPA'].corr(df['Attendance']):.3f}")

print(f"\n2. MATERIAS MEJOR DOMINADAS:")
best_subjects = df[subject_columns].mean().sort_values(ascending=False)
for i, (subject, score) in enumerate(best_subjects.head(3).items(), 1):
    print(f"   {i}. {subject}: {score:.2f}")

print(f"\n3. MATERIAS CON MENOR RENDIMIENTO:")
worst_subjects = df[subject_columns].mean().sort_values(ascending=True)
for i, (subject, score) in enumerate(worst_subjects.head(3).items(), 1):
    print(f"   {i}. {subject}: {score:.2f}")

print(f"\n4. RENDIMIENTO POR GÉNERO:")
female_avg = df[df['gender'] == 'female']['GPA'].mean()
male_avg = df[df['gender'] == 'male']['GPA'].mean()
gender_diff = female_avg - male_avg
print(f"   • Promedio femenino: {female_avg:.2f}")
print(f"   • Promedio masculino: {male_avg:.2f}")
print(f"   • Diferencia: {gender_diff:+.2f} puntos {'(favorable a mujeres)' if gender_diff > 0 else '(favorable a hombres)'}")

print(f"\n" + "=" * 40)
print("RECOMENDACIONES:")
print("=" * 40)

print(f"\n1. ENFOQUE EN MATERIAS DESAFIANTES:")
print(f"   • Reforzar {worst_subjects.index[0]} y {worst_subjects.index[1]}")
print(f"   • Implementar tutorías específicas")
print(f"   • Desarrollar métodos de enseñanza alternativos")

print(f"\n2. PROMOCIÓN DE LA ASISTENCIA:")
print(f"   • Implementar incentivos para mejorar asistencia")
print(f"   • Seguimiento personalizado de estudiantes con baja asistencia")
print(f"   • Programas de apoyo para estudiantes en riesgo")

print(f"\n3. APROVECHAMIENTO DE FORTALEZAS:")
print(f"   • Usar {best_subjects.index[0]} como materia modelo")
print(f"   • Aplicar metodologías exitosas a otras materias")
print(f"   • Reconocer y motivar el buen desempeño")

print(f"\n4. EQUIDAD DE GÉNERO:")
if abs(gender_diff) > 1:
    print(f"   • Investigar factores detrás de la diferencia de género")
    print(f"   • Implementar estrategias de apoyo específicas")
else:
    print(f"   • Mantener el equilibrio actual")
    print(f"   • Continuar promoviendo igualdad de oportunidades")

print(f"\n5. MONITOREO CONTINUO:")
print(f"   • Establecer sistema de seguimiento académico")
print(f"   • Evaluaciones periódicas del progreso")
print(f"   • Ajustes basados en datos")

print(f"\n" + "=" * 60)
print("ANÁLISIS COMPLETADO EXITOSAMENTE")
print("=" * 60)