# Aplicación de álgebra lineal en un caso real de regresión lineal a partir del "Student Performance Data Set"

##Samir Hassan - 2190041
## Gabriel Jeannot - 2185887
##Carlos Osorio - 2230894
##Luis Pareja - 2185833
##Diego Perea - 2185751


**Data Set** :[Student](https://archive.ics.uci.edu/ml/datasets/Student+Performance)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from scipy.linalg import svd

df = pd.read_csv('https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply/Students_Alcohol_Consumption/student-mat.csv')


In [None]:
url = "https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply/Students_Alcohol_Consumption/student-mat.csv"
pd.set_option('display.max_columns', None)
dataset = pd.read_csv(url)
dataset.head(5)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10


In [None]:
X = df[['age', 'Medu', 'Fedu', 'traveltime', 'studytime']]
y = df['G3']


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
reg = LinearRegression().fit(X_train, y_train)
y_pred = reg.predict(X_test)


In [None]:
rmse_orig = np.sqrt(mean_squared_error(y_test, y_pred))
print('RMSE con todas las variables de entrada:', rmse_orig)


RMSE con todas las variables de entrada: 5.447230239494682


In [None]:
U, s, VT = svd(X)
X_2 = U[:, :2] @ np.diag(s[:2]) @ VT[:2, :]
X_train_2, X_test_2, y_train, y_test = train_test_split(X_2, y, test_size=0.3, random_state=0)
reg_2 = LinearRegression().fit(X_train_2, y_train)
y_pred_2 = reg_2.predict(X_test_2)


In [None]:
rmse_2 = np.sqrt(mean_squared_error(y_test, y_pred_2))
print('RMSE con 2 variables de entrada:', rmse_2)


RMSE con 2 variables de entrada: 5.374443215391654


In [None]:
X_1 = U[:, :1] @ np.diag(s[:1]) @ VT[:1, :]
X_train_1, X_test_1, y_train, y_test = train_test_split(X_1, y, test_size=0.3, random_state=0)
reg_1 = LinearRegression().fit(X_train_1, y_train)
y_pred_1 = reg_1.predict(X_test_1)


In [None]:
rmse_1 = np.sqrt(mean_squared_error(y_test, y_pred_1))
print('RMSE con 1 variable de entrada:', rmse_1)


RMSE con 1 variable de entrada: 5.378508787845286


In [None]:
print('RMSE con todas las variables de entrada:', rmse_orig)
print('RMSE con 2 variables de entrada:', rmse_2)
print('RMSE con 1 variable de entrada:', rmse_1)


RMSE con todas las variables de entrada: 5.447230239494682
RMSE con 2 variables de entrada: 5.374443215391654
RMSE con 1 variable de entrada: 5.378508787845286


# Conclusiones 

Es posible que con más variables se puedan dispersar más los datos. Esto se debe a que al agregar más variables de entrada al modelo, también aumenta la complejidad del modelo, lo que puede llevar a una mayor variabilidad en los resultados. Además, también puede haber una mayor correlación entre las variables de entrada, lo que puede llevar a la multicolinealidad y, por lo tanto, a una mayor dispersión en los datos.

Sin embargo, esto no siempre es el caso y puede depender de la relación entre las variables de entrada y la variable de salida, así como de la calidad de los datos y la elección del modelo. Es importante tener en cuenta que agregar más variables no siempre mejorará la precisión del modelo y puede incluso empeorarla si las variables adicionales no son relevantes para la predicción de la variable de salida.

Por lo que **el mejor RMSE fue el de dos variables con 5.374443215391654** debido a que tuvo el menor valor, comparado con los demás, dando mayor  cercanía a la linealidad. Cabe recordar que, entre menor sea el valor, mejor desempeño tendrá el modelo.

De esta forma entendemos que la multidimensionalidad que pueda tener una red neuronal artificial no define el desempeño de sus resultados. Es viable e imperante reducir al máximo la cantidad de entradas para ahorrar costo de cómputo, siempre y cuando la calidad del modelo no disminuya.

la técnica de SVD es una herramienta muy útil para reducir la cantidad de variables de entrada en un contexto de regresión lineal, ya que permite eliminar variables redundantes y reducir la complejidad del modelo. Esto no solo mejora el rendimiento y la eficiencia del modelo, sino que también puede ayudar a prevenir el sobreajuste. Además, la reducción de dimensiones puede facilitar la visualización y comprensión de los datos y hacer más fácil su interpretación.

# Explicación



```
X = df[['age', 'Medu', 'Fedu', 'traveltime', 'studytime']]
y = df['G3']
```
Leer un archivo CSV usando la biblioteca Pandas y asignar las columnas 'age', 'Medu', 'Fedu', 'traveltime' y 'studytime' que son las del dataset a la variable X y la columna 'G3' a la variable y.

```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
reg = LinearRegression().fit(X_train, y_train)
y_pred = reg.predict(X_test)
```
Construcción de un modelo de regresión lineal utilizando la biblioteca sklearn de Python.

train_test_split es una función que se utiliza para dividir los datos en conjuntos de entrenamiento y prueba. En este caso, la función divide los datos X e y en cuatro conjuntos diferentes: X_train (conjunto de entrenamiento para las variables independientes), X_test (conjunto de prueba para las variables independientes), y_train (conjunto de entrenamiento para la variable dependiente) y y_test (conjunto de prueba para la variable dependiente). El parámetro test_size indica el tamaño del conjunto de prueba, que se establece en el 30% de los datos, mientras que random_state establece una semilla para la generación de números aleatorios, lo que asegura que los resultados sean reproducibles.

Una vez que se han dividido los datos en conjuntos de entrenamiento y prueba, se ajusta un modelo de regresión lineal utilizando la función LinearRegression(). La función fit() se utiliza para entrenar el modelo con los datos de entrenamiento (X_train e y_train).

Finalmente, se utiliza el modelo entrenado para hacer predicciones en el conjunto de prueba X_test utilizando la función predict(), lo que devuelve un arreglo de predicciones y_pred.





```
rmse_orig = np.sqrt(mean_squared_error(y_test, y_pred))
print('RMSE con todas las variables de entrada:', rmse_orig)
```
Se calcula la raíz del error cuadrático medio (RMSE, por sus siglas en inglés) entre las respuestas verdaderas y las predicciones del modelo de regresión lineal. El valor de y_test contiene los resultados verdaderos, mientras que y_pred contiene las predicciones del modelo. El resultado se almacena en la variable rmse_orig. El RMSE se utiliza comúnmente para evaluar el rendimiento de un modelo de regresión, y cuanto menor sea su valor, mejor será el rendimiento del modelo. Al imprimir este valor, el código proporciona una medida de qué tan bien el modelo se ajusta a los datos utilizando todas las variables de entrada en X.


```
U, s, VT = svd(X)
X_2 = U[:, :2] @ np.diag(s[:2]) @ VT[:2, :]
X_train_2, X_test_2, y_train, y_test = train_test_split(X_2, y, test_size=0.3, random_state=0)
reg_2 = LinearRegression().fit(X_train_2, y_train)
y_pred_2 = reg_2.predict(X_test_2)
```
Primero, se aplica la descomposición SVD al conjunto de datos X para obtener tres matrices U, s y VT. U y VT son matrices unitarias y s es una matriz diagonal de valores singulares. Luego, se utiliza esta descomposición para reducir la dimensionalidad del conjunto de datos a solo 2 características (columnas) y se almacena en X_2. La matriz X_2 se calcula utilizando las dos primeras columnas de U, los dos primeros valores singulares en s y las dos primeras filas de VT.

A continuación, se divide el conjunto de datos reducido X_2 y el vector de salida y en conjuntos de entrenamiento y prueba usando la función train_test_split de Scikit-Learn.

Luego, se entrena un modelo de regresión lineal en el conjunto de entrenamiento utilizando la función LinearRegression().fit() de Scikit-Learn y se utilizan las características reducidas en X_train_2 y el vector de salida correspondiente y_train.

Finalmente, se utilizan las características reducidas en el conjunto de prueba X_test_2 para hacer predicciones en el conjunto de prueba y se almacenan en y_pred_2.

Recapitulando, el código realiza una reducción de dimensionalidad utilizando SVD, luego entrena y evalúa un modelo de regresión lineal en las características reducidas. Esto se hace para explorar si la reducción de dimensionalidad puede mejorar la precisión del modelo al eliminar características redundantes o irrelevantes en los datos.



```
rmse_2 = np.sqrt(mean_squared_error(y_test, y_pred_2))
print('RMSE con 2 variables de entrada:', rmse_2)
```
Se calcula la raíz del error cuadrático medio (RMSE, por sus siglas en inglés) entre las respuestas verdaderas y las predicciones del modelo de regresión lineal pero en dos variables.



```
X_1 = U[:, :1] @ np.diag(s[:1]) @ VT[:1, :]
X_train_1, X_test_1, y_train, y_test = train_test_split(X_1, y, test_size=0.3, random_state=0)
reg_1 = LinearRegression().fit(X_train_1, y_train)
y_pred_1 = reg_1.predict(X_test_1)
```
descomposición en valores singulares (SVD) para reducir la dimensionalidad del conjunto de datos X de 5 variables a 1 variable. Luego, utiliza la misma función train_test_split para dividir el conjunto de datos en conjuntos de entrenamiento y prueba, esta vez usando la matriz reducida X_1. Finalmente, entrena un nuevo modelo de regresión lineal reg_1 utilizando la matriz reducida de entrenamiento X_train_1 y realiza predicciones en el conjunto de prueba X_test_1. Los valores predichos se almacenan en y_pred_1.

```
rmse_1 = np.sqrt(mean_squared_error(y_test, y_pred_1))
print('RMSE con 1 variable de entrada:', rmse_1)
```
Se calcula la raíz del error cuadrático medio (RMSE, por sus siglas en inglés) entre las respuestas verdaderas y las predicciones del modelo de regresión lineal  en una variables.




```
print('RMSE con todas las variables de entrada:', rmse_orig)
print('RMSE con 2 variables de entrada:', rmse_2)
print('RMSE con 1 variable de entrada:', rmse_1)
```
Comparación de RMSE de todas las variables de entrada, con 2 variables de entrada y 1 variable de entrada respectivamente.