# Análisis del Rendimiento de Estudiantes

## Introducción

Este proyecto se centra en analizar el rendimiento de estudiantes en tres áreas clave: matemáticas, lectura y escritura, utilizando el dataset 'Students Performance'. El objetivo es explorar cómo diversas características demográficas y socioeconómicas, como el género, el grupo étnico y el nivel educativo de los padres, influyen en el rendimiento académico de los estudiantes.

A través de este análisis, buscamos identificar patrones significativos y factores predictivos que puedan ayudar en la formulación de estrategias para mejorar el rendimiento estudiantil. Las principales tareas incluirán la exploración de datos, visualización, manejo de datos faltantes, análisis estadístico y modelado predictivo para estimar el rendimiento en matemáticas.

Este análisis no solo aportará insights valiosos sobre la educación sino que también demostrará cómo técnicas avanzadas de análisis de datos pueden aplicarse en contextos educativos para obtener conclusiones prácticas y útiles.


## Carga de Datos
A continuación, cargamos el dataset utilizando la librería Pandas. Contiene las siguientes columnas de interés:
- `gender`: Género del estudiante.
- `race/ethnicity`: Grupo étnico del estudiante.
- `parental level of education`: Nivel educativo de los padres.
- `lunch`: Tipo de almuerzo.
- `test preparation course`: Si el estudiante tomó o no un curso de preparación.
- `math score`, `reading score`, `writing score`: Puntuaciones en las pruebas de matemáticas, lectura y escritura.


In [None]:
import pandas as pd

# Load the data
data_path = '../data/StudentsPerformance.csv'
df = pd.read_csv(data_path)

# Show the first rows of the dataframe using the head method
df.head()


### Exploración de Datos
Visualizamos información general del DataFrame para entender la estructura y los tipos de datos que contiene.


In [None]:
# General information about the dataframe
df.info()

### Estadísticas Descriptivas
Obtenemos estadísticas descriptivas para las columnas numéricas del DataFrame para tener una visión general de la distribución de los datos.



In [None]:
# Summary statistics for the numerical columns
df.describe()

### Manejo de Valores Faltantes
Verificamos y manejamos los valores faltantes en el dataset, utilizando la media para las variables numéricas y la moda para las categóricas.


In [None]:
# Check for missing values
df.isnull().sum()

#check for missing values and handle them if any
if df.isnull().sum().any():
    # fill missing values with the mean when the column is numerical and with the mode when the column is categorical
    df.fillna({
        'math score': df['math score'].mean(),
        'reading score': df['reading score'].mean(),
        'writing score': df['writing score'].mean(),
        'gender': df['gender'].mode()[0],
        'race/ethnicity': df['race/ethnicity'].mode()[0],
        'parental level of education': df['parental level of education'].mode()[0],
        'lunch': df['lunch'].mode()[0],
        'test preparation course': df['test preparation course'].mode()[0]
    }, inplace=True)
else:
    print('No missing values found')


### Visualización de Distribuciones
Utilizamos histogramas para examinar la distribución de las puntuaciones en matemáticas, lectura y escritura.



In [None]:
## Histogramas de las puntuaciones
''' 
Utilizamos histogramas para visualizar la distribución de las puntuaciones en matemáticas, lectura y escritura. 
Estos gráficos nos permiten observar la forma de la distribución y detectar si existen patrones como asimetría o presencia de picos.

'''

import matplotlib.pyplot as plt
import seaborn as sns

# Setting the style of seaborn
sns.set(style="whitegrid")

# Creating the histogram plots for the math, reading, and writing scores
plt.figure(figsize=(18, 5))

plt.subplot(1, 3, 1)
sns.histplot(df['math score'], kde=True, color='blue')
plt.title('Distribución de Puntuaciones de Matemáticas')

plt.subplot(1, 3, 2)
sns.histplot(df['reading score'], kde=True, color='green')
plt.title('Distribución de Puntuaciones de Lectura')

plt.subplot(1, 3, 3)
sns.histplot(df['writing score'], kde=True, color='red')
plt.title('Distribución de Puntuaciones de Escritura')

plt.show()


### Gráficos de Caja por Género
Analizamos las diferencias en las puntuaciones por género a través de gráficos de caja, los cuales ayudan a identificar variaciones en medianas y la presencia de valores atípicos entre grupos.


In [None]:
## Gráficos de Caja por Género

'''
Los gráficos de caja proporcionan una forma visual de comparar la distribución de las puntuaciones entre diferentes grupos de género, destacando diferencias en medianas, rangos intercuartílicos y la presencia de valores atípicos.
'''

# Graphs of box plots to compare performance by gender
plt.figure(figsize=(18, 5))

plt.subplot(1, 3, 1)
sns.boxplot(x='gender', y='math score', data=df)
plt.title('Puntuaciones de Matemáticas por Género')

plt.subplot(1, 3, 2)
sns.boxplot(x='gender', y='reading score', data=df)
plt.title('Puntuaciones de Lectura por Género')

plt.subplot(1, 3, 3)
sns.boxplot(x='gender', y='writing score', data=df)
plt.title('Puntuaciones de Escritura por Género')

plt.show()


### Influencia del Nivel Educativo de los Padres
Exploramos cómo el nivel educativo de los padres afecta las puntuaciones en diferentes materias mediante gráficos de caja.


In [None]:
# Gráfico de caja del nivel educativo de los padres y las puntuaciones en todas las materias
subjects = ['math score', 'reading score', 'writing score']
titles = ['Matemáticas', 'Lectura', 'Escritura']

plt.figure(figsize=(18, 6))
for i, (score, title) in enumerate(zip(subjects, titles), 1):
    plt.subplot(1, 3, i)
    sns.boxplot(x='parental level of education', y=score, data=df)
    plt.xticks(rotation=45)
    plt.title(f'Puntuaciones de {title} por Nivel Educativo de los Padres')

plt.tight_layout()
plt.show()


### Relación entre el Tipo de Almuerzo y las Puntuaciones
Observamos cómo el tipo de almuerzo que los estudiantes reciben está relacionado con sus puntuaciones académicas.


In [None]:
# Gráfico de caja de la relación entre el almuerzo y las puntuaciones en todas las materias
plt.figure(figsize=(18, 6))
for i, score in enumerate(subjects, 1):
    plt.subplot(1, 3, i)
    sns.boxplot(x='lunch', y=score, data=df)
    plt.title(f'{score.title()} por Tipo de Almuerzo')

plt.tight_layout()
plt.show()


### Impacto de la Preparación para el Examen
Evaluamos cómo la preparación para el examen influye en las puntuaciones utilizando gráficos de caja.


In [None]:
# Gráfico de caja de la relación entre la preparación del examen y las puntuaciones en todas las materias
plt.figure(figsize=(18, 6))
for i, score in enumerate(subjects, 1):
    plt.subplot(1, 3, i)
    sns.boxplot(x='test preparation course', y=score, data=df)
    plt.title(f'{score.title()} por Preparación del Examen')

plt.tight_layout()
plt.show()


### Análisis de Correlación entre Materias
Utilizamos gráficos de dispersión para evaluar las relaciones entre las puntuaciones de diferentes materias y detectar correlaciones potenciales.


In [None]:
## Gráficos de Dispersión entre Puntuaciones
'''
Utilizamos gráficos de dispersión para evaluar la relación entre las diferentes puntuaciones académicas. Estos gráficos ayudan a identificar correlaciones potenciales entre las puntuaciones en matemáticas, lectura y escritura.

'''
# Gráficos de dispersión entre las puntuaciones
sns.pairplot(df[['math score', 'reading score', 'writing score']])
plt.suptitle('Dispersión entre Puntuaciones', y=1.02)
plt.show()


### Matriz de Correlación entre Puntuaciones
Visualizamos la matriz de correlación para entender mejor las interrelaciones entre las diferentes puntuaciones académicas.


In [None]:
# Correlaciones entre las puntuaciones
correlation_matrix = df[['math score', 'reading score', 'writing score']].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación entre Puntuaciones')
plt.show()

### Preparación de Datos
Antes de construir modelos predictivos, es esencial preparar los datos adecuadamente. Este paso incluye la codificación de variables categóricas y la división de los datos en conjuntos de entrenamiento y prueba.


In [None]:
from sklearn.model_selection import train_test_split, cross_val_score

# Codification of categorical variables and division data
df_encoded = pd.get_dummies(df, columns=['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course'])

X = df_encoded.drop(['math score', 'reading score', 'writing score'], axis=1)  # Delete other scores to focus on math score
y = df_encoded['math score']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Modelo de Regresión Lineal
Construimos un modelo de regresión lineal para predecir las puntuaciones de matemáticas. Evaluamos el modelo utilizando el error cuadrático medio (MSE) y validación cruzada para asegurar la robustez de nuestro modelo.


In [None]:
# Linear Regression Model
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Create and train the linear regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

# Evaluate the model
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

# Cross-validation
scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
print(f'Cross-validation Mean Squared Error: {scores.mean() * -1}')

# Feature importance
importance = model.coef_
feature_names = X.columns

feature_importance = pd.DataFrame({
    'feature': feature_names,
    'importance': importance
})

feature_importance = feature_importance.sort_values('importance', ascending=False)
print(feature_importance)




### Preparación de Datos para Modelos Regularizados
Antes de aplicar modelos regularizados como Ridge y Lasso, es crucial estandarizar los datos para mejorar la eficiencia y efectividad de la regularización.


In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
import numpy as np

# Standardize the data
scaler = StandardScaler()
x_scaled = scaler.fit_transform(X)
x_train_scaled, x_test_scaled = scaler.transform(X_train), scaler.transform(X_test)

# Different values of alpha
alpha_options = [0.001, 0.01, 0.1, 1, 10, 100]

### Modelo Ridge
Exploramos el uso del modelo Ridge, que incluye una regularización L2, para entender su impacto en el sobreajuste y seleccionar el mejor valor de alpha utilizando validación cruzada.


In [None]:
# Ridge  Model
from sklearn.linear_model import Ridge

best_score = np.inf
best_alpha = {}

for alpha in alpha_options:
    model = Ridge(alpha=alpha, random_state=42, max_iter=10000)
    model.fit(x_train_scaled, y_train)
    scores = cross_val_score(model, x_scaled, y, cv=5, scoring='neg_mean_squared_error')
    mean_mse = -scores.mean()
    if mean_mse < best_score:
        best_score = mean_mse
        best_alpha = {'alpha': alpha}
    print(f"Alpha: {alpha}, Mean Squared Error: {mean_mse:.2f}")

print(f"\n\nBest Alpha: {best_alpha['alpha']}, Best Mean Squared Error: {best_score:.2f}")



### Modelo Lasso
El modelo Lasso incorpora una regularización L1, que puede ayudar a realizar la selección de características al penalizar los coeficientes de manera que algunos se reduzcan a cero.


In [None]:
# Lasso  Model
from sklearn.linear_model import Lasso

best_score = np.inf
best_alpha = {}

for alpha in alpha_options:
    model = Lasso(alpha=alpha, random_state=42, max_iter=10000)
    model.fit(x_train_scaled, y_train)
    scores = cross_val_score(model, x_scaled, y, cv=5, scoring='neg_mean_squared_error')
    mean_mse = -scores.mean()
    if mean_mse < best_score:
        best_score = mean_mse
        best_alpha = {'alpha': alpha}
    print(f"Alpha: {alpha}, Mean Squared Error: {mean_mse:.2f}")

print(f"\n\nBest Alpha: {best_alpha['alpha']}, Best Mean Squared Error: {best_score:.2f}")

### Model Random Forest
Utilizamos un modelo Random Forest para evaluar cómo los métodos de ensamble pueden mejorar la predicción. Este modelo es especialmente útil para manejar interacciones complejas entre características y no linealidades.

In [None]:
# Random Forest Regressor
from sklearn.ensemble import RandomForestRegressor


# List of different settings for testing
n_estimators_options = [100, 200, 300]
max_features_options = ['sqrt', 'log2', None]
max_depth_options = [10, 15, 20, None]

best_score = np.inf

# Test all the combinations
for n_estimators in n_estimators_options:
    for max_features in max_features_options:
        for max_depth in max_depth_options:
            model = RandomForestRegressor(n_estimators=n_estimators, max_features=max_features, max_depth=max_depth, random_state=42)
            model.fit(X_train, y_train)
            scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
            mean_mse = -scores.mean()

            print(f"Random Forest with n_estimators={n_estimators}, max_features={max_features}, max_depth={max_depth}: MSE={mean_mse:.2f}")

            # Guardar el mejor modelo
            if mean_mse < best_score:
                best_score = mean_mse
                best_params = {'n_estimators': n_estimators, 'max_features': max_features, 'max_depth': max_depth}

print(f"Best MSE: {best_score:.2f} with parameters: {best_params}")

### Evaluación de Combinaciones de Características con Regresión Lineal
Este bloque evalúa diferentes combinaciones de características para predecir las puntuaciones de matemáticas utilizando regresión lineal. Se almacenan los resultados en formato JSON para facilitar su análisis posterior y visualización. La evaluación se realiza hasta un número máximo de características especificado, analizando el error cuadrático medio (MSE) y la comparación entre valores reales y predichos para las mejores combinaciones.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from itertools import combinations
import json

def test_feature_combinations(df, target, max_features=3):
    features = [col for col in df.columns if col != target]
    results = []

        # Create file to store the results 
    filename = f"../Results/linear_regression_results_{max_features}_features.json"
    
    # Probar todas las combinaciones de características
    for r in range(1, max_features + 1):
        for subset in combinations(features, r):
            X = df[list(subset)]
            y = df[target]
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
            
            # Entrenar el modelo de regresión lineal
            model = LinearRegression()
            model.fit(X_train, y_train)
            predictions = model.predict(X_test)
            mse = mean_squared_error(y_test, predictions)
            
            # Almacenar el subset, MSE, y una muestra de los valores reales vs. predichos
            results.append({
                'features': subset,
                'mse': mse,
                'sample_comparison': {
                    'actual': y_test[:5].tolist(),
                    'predicted': predictions[:5].tolist()
                }
            })

    # Ordenar los resultados por MSE
    results.sort(key=lambda x: x['mse'])

    # invert the order to have the best MSE first
    results = results[:100][::-1]

    # save the results to a file
    with open(filename, 'w') as file:
        json.dump(results, file, indent=4)

# Ejemplo de uso
test_feature_combinations(df_encoded, 'math score', max_features=1)
test_feature_combinations(df_encoded, 'math score', max_features=3)
test_feature_combinations(df_encoded, 'math score', max_features=5)


### Evaluación de Combinaciones de Características con Modelo Ridge
Este bloque implementa pruebas similares al anterior pero usando el modelo Ridge para considerar la regularización. Se ajustan los datos y se evalúan diferentes valores del hiperparámetro alpha para optimizar el modelo. Los resultados se almacenan en JSON para un análisis detallado.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from itertools import combinations
import numpy as np

def test_ridge_combinations(df, target, max_features=3, alpha_options=[0.001, 0.01, 0.1, 1, 10, 100]):
    features = [col for col in df.columns if col != target]
    results = []
    scaler = StandardScaler()

    # Create file to store the results 
    filename = f"../Results/ridge_results_max_features_{max_features}.json"

    
    # Probar todas las combinaciones de características
    for r in range(1, max_features + 1):
        for subset in combinations(features, r):
            X = df[list(subset)]
            y = df[target]
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
            
            # Escalar los datos
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)
            
            # Evaluar diferentes alphas
            for alpha in alpha_options:
                model = Ridge(alpha=alpha, max_iter=10000)
                model.fit(X_train_scaled, y_train)
                predictions = model.predict(X_test_scaled)
                mse = mean_squared_error(y_test, predictions)
                scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error')
                mean_cv_mse = -np.mean(scores)
                
                # Almacenar los resultados
                results.append({
                    'features': subset,
                    'alpha': alpha,
                    'mse': mse,
                    'mean_cv_mse': mean_cv_mse,
                    'sample_comparison': {
                        'actual': y_test[:5].tolist(),
                        'predicted': predictions[:5].tolist()
                    }
                })

    
    # Ordenar los resultados por MSE de validación cruzada
    results.sort(key=lambda x: x['mean_cv_mse'])

    results = results[:100][::-1]

    # Write the results to the file
    with open(filename, 'w') as file:
        json.dump(results, file, indent=4)

test_ridge_combinations(df_encoded, 'math score', max_features=2, alpha_options=[0.001, 0.01, 0.1, 1, 10, 100])
test_ridge_combinations(df_encoded, 'math score', max_features=3, alpha_options=[0.001, 0.01, 0.1, 1, 10, 100])
test_ridge_combinations(df_encoded, 'math score', max_features=5, alpha_options=[0.001, 0.01, 0.1, 1, 10, 100])


### Evaluación de Combinaciones de Características con Modelo Random Forest
Este bloque examina cómo diferentes configuraciones del modelo Random Forest afectan el rendimiento en la predicción de las puntuaciones de matemáticas. Se prueban varias configuraciones de árboles, características y profundidades para encontrar la combinación óptima, almacenando también los resultados en JSON.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from itertools import combinations
import numpy as np

def test_random_forest_combinations(df, target, max_features_comb=3):
    features = [col for col in df.columns if col != target]
    results = []
    scaler = StandardScaler()

    # Crear archivo para almacenar los resultados
    filename = f"../Results/random_forest_results_max_features_{max_features_comb}.json"

    # Opciones de configuración del Random Forest
    n_estimators_options = [100, 200]
    max_features_options = ['sqrt', 'log2', None]
    max_depth_options = [10, 15, None]

    # Probar todas las combinaciones de características
    for r in range(1, max_features_comb + 1):
        for subset in combinations(features, r):
            X = df[list(subset)]
            y = df[target]
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

            # Escalar los datos
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)

            # Evaluar diferentes configuraciones del Random Forest
            for n_estimators in n_estimators_options:
                for max_features in max_features_options:
                    for max_depth in max_depth_options:
                        model = RandomForestRegressor(n_estimators=n_estimators, max_features=max_features, max_depth=max_depth, random_state=42)
                        model.fit(X_train_scaled, y_train)
                        predictions = model.predict(X_test_scaled)
                        mse = mean_squared_error(y_test, predictions)
                        scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error')
                        mean_cv_mse = -np.mean(scores)

                        # Almacenar los resultados
                        results.append({
                            'features': subset,
                            'n_estimators': n_estimators,
                            'max_features': max_features,
                            'max_depth': max_depth,
                            'mse': mse,
                            'mean_cv_mse': mean_cv_mse,
                            'sample_comparison': {
                                'actual': y_test[:5].tolist(),
                                'predicted': predictions[:5].tolist()
                            }
                        })

    # Ordenar los resultados por MSE de validación cruzada
    results.sort(key=lambda x: x['mean_cv_mse'])

    results = results[:100][::-1]

    # Escribir los resultados en el archivo y mostrar los 20 mejores
    with open(filename, 'w') as file:
        json.dump(results, file, indent=4)

# Ejemplo de uso
test_random_forest_combinations(df_encoded, 'math score', max_features_comb=1)
test_random_forest_combinations(df_encoded, 'math score', max_features_comb=2)
# test_random_forest_combinations(df_encoded, 'math score', max_features_comb=3)


### Visualización de Predicciones vs. Valores Reales
Esta función genera un gráfico que compara los valores reales con los valores predichos por los modelos. Es útil para evaluar visualmente la precisión de las predicciones y la adherencia del modelo a la línea de identidad, donde las predicciones perfectas deberían caer.


In [None]:
# visualización de los resultados
def plot_predictions_vs_actual(actual, predicted, title):
    plt.figure(figsize=(10, 6))
    plt.scatter(actual, predicted, alpha=0.5)
    plt.plot([min(actual), max(actual)], [min(actual), max(actual)], '--r')
    plt.xlabel('Actual Scores')
    plt.ylabel('Predicted Scores')
    plt.title('Actual vs. Predicted Scores - ' + title)
    plt.show()


### Visualización de Resultados de Modelos Predictivos
Este bloque define una función que carga resultados de modelos predictivos desde archivos JSON y visualiza la comparación entre los valores predichos y los valores reales. Esto permite evaluar visualmente la precisión de diferentes modelos y configuraciones.


In [None]:
import json


# function to visualize all models
def visualize_results(filename, model_name):
    with open(filename, 'r') as file:
        results = json.load(file)
    
    first_result = results[0]  # Change this to visualize other results

    actual_scores = first_result['sample_comparison']['actual']
    predicted_scores = first_result['sample_comparison']['predicted']

    # Create plots of predictions vs. actual and residuals
    plot_predictions_vs_actual(actual_scores, predicted_scores, model_name)

# Visualize the results for the linear regression model with 5 features
visualize_results("../Results/linear_regression_results_5_features.json", "Linear Regression with 5 Features")

# Visualize the results for the Ridge model with 5  features
visualize_results("../Results/ridge_results_max_features_5.json", "Ridge Regression with 5 Features")

# Visualize the results for the Random Forest model with 1 feature
visualize_results("../Results/random_forest_results_max_features_2.json", "Random Forest with 1 Feature")

