# Regresión calificación alumnos
Pandalytics - Equipo 1
* **A00832444** | Andrea Garza
* **A01197991** | Hiram Maximiliano Muñoz Ramírez
* **A00517124** | Erick Orlando Hernández Vallejo
* **A01197655** | Raúl Isaí Murillo Alemán
* **A01235692** | David Gerardo Martíne Hidrogo

In [22]:
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_regression, f_classif
%matplotlib inline

In [23]:
students_df = pd.read_csv('data_estudiantes.csv')
students_df

## Pairplot

In [24]:
sns.pairplot(data=students_df, diag_kind='kde')

## Nivel de significancia de las variables p-value

In [25]:

correlations = students_df.corr()
plt.figure(figsize=(9, 9))
sns.heatmap(correlations, annot=True, square=True, vmin=-1, vmax=1, cmap=sns.diverging_palette(220, 10, as_cmap=True))
plt.title('Correlaciones entre las variables independientes')

## Modelo

In [26]:
X_train, X_test, Y_train, Y_test = train_test_split(students_df.drop(['Calificacion_Examen'], axis='columns'),
                                                    students_df['Calificacion_Examen'], test_size=0.25,
                                                    random_state=123)

# Añadir constante al DataFrame de variables independientes (intercepto)
X_train = sm.add_constant(X_train)
X_test = sm.add_constant(X_test)
# Crear y ajustar el modelo de regresión lineal múltiple utilizando statsmodels
model = sm.OLS(Y_train, X_train).fit()

display(model.summary())

Y_pred = model.predict(X_test)
display(Y_pred)

coef_correlacion = np.corrcoef(Y_test, Y_pred)[0, 1]

print(f"Coeficiente de correlación (r): {coef_correlacion:.3f}")

mse = mean_squared_error(Y_test, Y_pred)

print(f"Error Cuadrático Medio (MSE): {mse:.3f}")

residuals = Y_pred - Y_test

sns.scatterplot(x=Y_pred, y=residuals)
plt.xlabel('Predicción de calificación')
plt.ylabel('Residuales')
plt.show()
sns.histplot(residuals)
plt.xlabel('Residuales')


In [27]:
mse

# Modelo 2

In [28]:
students_adjusted_df = students_df.drop('Calificacion_Examen', axis='columns')
poly = PolynomialFeatures(2, interaction_only=False)
output_nparray = poly.fit_transform(students_adjusted_df)
target_feature_names = ['x'.join(['{}^{}'.format(pair[0], pair[1]) for pair in tuple if pair[1] != 0]) for tuple in
                        [zip(students_adjusted_df.columns, p) for p in poly.powers_]]
students_adjusted_df = pd.DataFrame(output_nparray, columns=target_feature_names)
students_adjusted_df = students_adjusted_df.assign(Calificacion_Examen=students_df['Calificacion_Examen'])

students_adjusted_df['Horas_Estudio^1xHoras_Suenio^1'] = np.sqrt(
    students_adjusted_df['Horas_Estudio^1xHoras_Suenio^1'])

students_adjusted_df['Horas_Estudio^1xTiempo_Estudio_Previo^1'] = np.sqrt(
    students_adjusted_df['Horas_Estudio^1xTiempo_Estudio_Previo^1'])

students_adjusted_df['Horas_Estudio^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Horas_Estudio^1xTiempo_Ocio^1'])

students_adjusted_df['Horas_Estudio^1xParticipacion_Extraclases^1'] = np.sqrt(
    students_adjusted_df['Horas_Estudio^1xParticipacion_Extraclases^1'])

students_adjusted_df['Horas_Estudio^1xIndice_Concentracion^1'] = np.sqrt(
    students_adjusted_df['Horas_Estudio^1xIndice_Concentracion^1'])

students_adjusted_df['Horas_Suenio^1xParticipacion_Extraclases^1'] = np.sqrt(
    students_adjusted_df['Horas_Suenio^1xParticipacion_Extraclases^1'])

students_adjusted_df['Horas_Suenio^1xTiempo_Estudio_Previo^1'] = np.sqrt(
    students_adjusted_df['Horas_Suenio^1xTiempo_Estudio_Previo^1'])

students_adjusted_df['Horas_Suenio^1xIndice_Concentracion^1'] = np.sqrt(
    students_adjusted_df['Horas_Suenio^1xIndice_Concentracion^1'])

students_adjusted_df['Horas_Suenio^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Horas_Suenio^1xTiempo_Ocio^1'])

students_adjusted_df['Asistencia_Clases^1xParticipacion_Extraclases^1'] = np.sqrt(
    students_adjusted_df['Asistencia_Clases^1xParticipacion_Extraclases^1'])

students_adjusted_df['Asistencia_Clases^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Asistencia_Clases^1xTiempo_Ocio^1'])

students_adjusted_df['Participacion_Extraclases^1xTiempo_Estudio_Previo^1'] = np.sqrt(
    students_adjusted_df['Participacion_Extraclases^1xTiempo_Estudio_Previo^1'])

students_adjusted_df['Participacion_Extraclases^1xIndice_Concentracion^1'] = np.sqrt(
    students_adjusted_df['Participacion_Extraclases^1xIndice_Concentracion^1'])

students_adjusted_df['Participacion_Extraclases^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Participacion_Extraclases^1xTiempo_Ocio^1'])

students_adjusted_df['Tiempo_Estudio_Previo^1xIndice_Concentracion^1'] = np.sqrt(
    students_adjusted_df['Tiempo_Estudio_Previo^1xIndice_Concentracion^1'])

students_adjusted_df['Tiempo_Estudio_Previo^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Tiempo_Estudio_Previo^1xTiempo_Ocio^1'])

students_adjusted_df['Indice_Concentracion^1xTiempo_Ocio^1'] = np.sqrt(
    students_adjusted_df['Indice_Concentracion^1xTiempo_Ocio^1'])

#
g = sns.FacetGrid(students_adjusted_df.drop(['', 'Calificacion_Examen'], axis='columns').melt(), col='variable',
                  col_wrap=8, sharey=False, sharex=False)
g.map(sns.histplot, 'value', kde=True)


In [29]:
irrelevant_columns = [
    'Calificacion_Examen',
    'Horas_Estudio^1xIndice_Concentracion^1',
    #'Horas_Estudio^1xParticipacion_Extraclases^1',
    'Horas_Estudio^1xAsistencia_Clases^1',
    'Horas_Estudio^1xTiempo_Estudio_Previo^1',
    'Horas_Estudio^2',
    'Horas_Estudio^1xHoras_Suenio^1',
    'Horas_Suenio^1xAsistencia_Clases^1',
    'Participacion_Extraclases^1xTiempo_Estudio_Previo^1',
    'Tiempo_Estudio_Previo^1xTiempo_Ocio^1',
    'Participacion_Extraclases^1xTiempo_Ocio^1',
    '',
    'Asistencia_Clases^1xParticipacion_Extraclases^1',
    'Indice_Concentracion^1xTiempo_Ocio^1',
    'Tiempo_Ocio^2',
    'Horas_Estudio^1xTiempo_Ocio^1',
    'Horas_Suenio^1xTiempo_Ocio^1',
    'Participacion_Extraclases^1xIndice_Concentracion^1',
    'Horas_Suenio^1',
    'Asistencia_Clases^1xTiempo_Estudio_Previo^1',
    'Tiempo_Estudio_Previo^1xIndice_Concentracion^1',
    'Horas_Suenio^1xParticipacion_Extraclases^1',
    'Asistencia_Clases^1xIndice_Concentracion^1',
    'Horas_Suenio^1xIndice_Concentracion^1',
    'Horas_Suenio^1xTiempo_Estudio_Previo^1',
    'Indice_Concentracion^1',
    'Indice_Concentracion^2',
    'Horas_Suenio^2',
    'Participacion_Extraclases^1',
    # 'Asistencia_Clases^1xTiempo_Ocio^1',
    'Asistencia_Clases^1',
    'Tiempo_Estudio_Previo^2',
]

X_train2, X_test2, Y_train2, Y_test2 = train_test_split(
    students_adjusted_df.drop(irrelevant_columns, axis='columns'),
    students_adjusted_df['Calificacion_Examen'], test_size=0.25,
    random_state=123)

scaler = StandardScaler().fit(X_train2)

X_train2 = pd.DataFrame(scaler.transform(X_train2), columns=X_train2.columns, index=X_train2.index)
X_test2 = pd.DataFrame(scaler.transform(X_test2), columns=X_train2.columns, index=X_test2.index)

# Añadir constante al DataFrame de variables independientes (intercepto)
X_train2 = sm.add_constant(X_train2)
X_test2 = sm.add_constant(X_test2)

# Crear y ajustar el modelo de regresión lineal múltiple utilizando statsmodels
model = sm.OLS(Y_train2, X_train2).fit()

display(model.summary())

Y_pred = model.predict(X_test2)
display(Y_pred)

coef_correlacion = np.corrcoef(Y_test, Y_pred)[0, 1]

print(f"Coeficiente de correlación (r): {coef_correlacion:.3f}")

mse = mean_squared_error(Y_test, Y_pred)

print(f"Error Cuadrático Medio (MSE): {mse:.3f}")

residuals = Y_pred - Y_test

sns.scatterplot(x=Y_pred, y=residuals)
plt.xlabel('Predicción de calificación')
plt.ylabel('Residuales')
plt.show()
sns.histplot(residuals)
plt.xlabel('Residuales')

In [30]:
mse