# Regresión Lineal Multiple
 
El encuentro pasado entrenamos un modelo de Regresión Linear Simple que únicamente tenía dos variables: la variable predictora y la variable a predecir. Ahora entrenaremos una Regresión Linear Multiple con el dataset que utilizamos previamente del Clima para predecir la temperatura.

Dado que en los encuentos pasados realizamos la exploraciòn y la limpieza del dataset, ahora realizaremos los siguientes pasos:

1. Dividir los datos en **X** (variables predictoras) e **y** (variable a predecir)
2. Dividir los datos en entrenamiento y testo con el méodo *train_test_split*
3. Importar e instanciar el modelo que utilizaremos y definir hiperparámetros
4. Entrenar el modelo con el método *fit*
5. Testear el modelo con el método *predict*
6. Ver la performance con una métrica 

In [1]:
#importamos las librerías que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#### Desde el Drive


In [2]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [3]:
#Recordar utilizar dataset modificado de la clase pasada. 

data = pd.read_csv("/content/drive/MyDrive/Aprender Programando/2022/Materiales Ciencia de Datos 2022/Módulo 2/Encuentro 4/Dataset salario.csv")

#### Desde el archivo descargado en la computadora

In [4]:
#from google.colab import files
#import io

#filesUploaded = files.upload()   #Recordar utilizar el dataset de la clase pasada

In [5]:
#data = pd.read_csv("data_clima.csv")

In [6]:
# Observamos el dataset que limpiamos en las clases anteriores

data.head(3)

Unnamed: 0,anios_experiencia,salario
0,1.1,39343
1,1.3,46205
2,1.5,37731


In [7]:
# vemos la información del dataset: cantidad de registros, tipos de dato y nulos

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 2 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   anios_experiencia  35 non-null     float64
 1   salario            35 non-null     int64  
dtypes: float64(1), int64(1)
memory usage: 688.0 bytes


#### División de datos en entrenamiento y testeo

Ahora vamos a separar el Dataset para crear X e y considerando que **X** son las variable predictoras, en este caso todas menos *temperatura* por lo que utilizaremos el método *drop* para eliminar esa columna e **y** es la variable a predecir *temperatura*.

Luego lo separaremos nuevamente entre datos de Entrenamiento y Teseto para lo cual usaremos [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=train%20test%20split#sklearn.model_selection.train_test_split) de la librería de Scikit-learn. 

In [8]:
data.shape

(35, 2)

In [9]:
# Creamos X (variables predictoras) e y (variable a predecir)

X = data.drop(columns="temperatura")
y = data["temperatura"]

KeyError: ignored

In [None]:
# Confirmamos que se realizo correctamente observando X

print(X.shape)
X.head(3)

In [None]:
# Confirmamos que se realizo correctamente observando y

print(y.shape)
y.head(3)

In [None]:
# Importamos train_test_split de la libreria scikit-learn

from sklearn.model_selection import train_test_split 

In [None]:
# Definimos X de entrenamiento y de testeo e y de entrenamiento y testeo

X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=48)

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

#### Entrenamiento del modelo

En primer lugar importaremos e instanciaremos el modelo que utilizaremos, en este caso [regresion lineal](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) de la librería Scikit-Learn. Los valores de los hiperparámetros se dejaran por default.

Luego realizaremos el entrenamiento del modelo con el método *fit* y los datos de **entrenamiento**. El resultado será un modelo entrenado de regresión lineal de la cual podremos ver los parámetros: *pendiente de la recta* e *intercepto*(ordenada al origen).



In [None]:
# Importamos el modelo que utilizaremos. Regresión lineal: 

from sklearn.linear_model import LinearRegression

In [None]:
# Definimos un objeto con el modelo importado, en este caso los hiperparametros son por default por lo que el parentesis está vacio

modelo_rl = LinearRegression()

In [None]:
# Realizamos el entrenamiento del modelo con el método fit y los datos de entrenamiento 

modelo_rl.fit(X_train, y_train)

##### Parámetros 

Los parámetros de una Regresión Lineal son el coeficiente (*pendiente de la recta*) y el intercepto (*ordenada al orignen*: punto en *y* que *x=0*), en este caso se obtienden como resultado del entrenamiento del modelo

In [None]:
# Coeficiente (la pendiente de la recta)

modelo_rl.coef_


In [None]:
# Intercepto (el punto de comienzo de la recta en el eje y)

modelo_rl.intercept_

#### Testeo del modelo

Ahora probaremos nuestro modelo con el método *predict* y los datos de testeo (X_test) para ver el resultado y compararlo con el resultado final a través de distintas métricas

- [MAE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html?highlight=mean_absolute_error#sklearn.metrics.mean_absolute_error(): Media del Error Absoluto 

- [MSE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html?highlight=mean_squared_error#sklearn.metrics.mean_squared_error): La Media del Error cuadrático

- RMSE: La raíz del error cuadrático medio 

- [R2](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html?highlight=r2#sklearn.metrics.r2_score)


In [None]:
# Probar nuestro modelo con los datos de test

y_pred = modelo_rl.predict(X_test)
y_pred

In [None]:
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, y_pred)
mae

In [None]:
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
mse

In [None]:
# importamos la libería numpy para calcular la raíz cuadrada para RMSE

import numpy as np

In [None]:
rmse = np.sqrt(mse)

In [None]:
from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
r2

##### Vemos los resultados de la performance del modelo con distintas métricas

In [None]:
print("La Media del Error Absoluto  del modelo es", round(mae,2))
print("La Media del Error cuadrático del modelo es", round(mse,2))
print("La raíz del error cuadrático medio del modelo es", round(rmse,2))
print("El R2 del modelo es", round(r2,2))

#### Hiperparámetros

Un hiperparámetros es una variable que se define **antes** del entrenamiento **por el/la Científico/a de datos**.

En la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) de cada modelo se pueden ver los distintos hiperparámetros que se pueden definir.

Al igual que en el encuentro pasado, cambiaremos el hiperparámetros de la existencia o no de un intercecpto para comparar los resultados entre los dos modelos con las distintas métricas

Realizaremos los mismos pasos que el caso anterior para poder comparar los resultados. Utilizaremos los mismos datos de testeo y entrenamiento que en el modelo anterior por lo que los dos primeros pasos ya están realizados:

1. Dividir los datos en **X** (variables predictoras) e **y** (variable a predecir)
2. Dividir los datos en entrenamiento y testo con el mètodo *train_test_split*
3. Importar e instanciar el modelo que utilizaremos y definir hiperparámetros
4. Entrenar el modelo con el método *fit*
5. Testear el modelo con el método *predict*
6. Ver la performance con distintas métricas y comparar los distintos modelos entrenados

##### Instanciar y entrenar el modelo

In [None]:
# Al momento de instanciar el modelo se definen los hiperparámetros

modelo_sin_inter = LinearRegression(fit_intercept = False)


In [None]:
# Se entena el modelo sin intercepto (se usa x_train con el reshape ya realizado)

modelo_sin_inter.fit(X_train, y_train)

In [None]:
# El coeficiente del modelo (la pendiente de la recta)

modelo_sin_inter.coef_

In [None]:
# El intercepto es 0 debido a que eso es lo que se ha definido

modelo_sin_inter.intercept_

##### Probar el modelo y medir la performance

In [None]:
# Probar nuestro modelo con los datos de test

y_pred_sin_inter = modelo_sin_inter.predict(X_test)

In [None]:
# Evaluamos el modelo con distintas métricas

mae_sin_inter = mean_absolute_error(y_test, y_pred_sin_inter)
mse_sin_inter = mean_squared_error(y_test, y_pred_sin_inter)
rmse_sin_inter = np.sqrt(mse)
r2_sin_inter = r2_score(y_test, y_pred_sin_inter)


In [None]:
print("La Media del Error Absoluto  del modelo sin intercepto es", round(mae_sin_inter,2))
print("La Media del Error cuadrático del modelo sin intercepto es", round(mse_sin_inter,2))
print("La raíz del error cuadrático medio del modelo sin intercepto es", round(rmse_sin_inter,2))
print("El R2 del modelo sin intercepto es", round(r2_sin_inter,2))

##### Comparar la performance de ambos modelos entrenados con las distintas métricas

Para poder realizar una comparación generaremos una tabla con los resultados obtenidos

In [None]:
hiperparametros_default = pd.Series({'mae': mae, 'mse': mse,'rmse': rmse, 'r2': r2})
sin_intercepto= pd.Series({'mae': mae_sin_inter, 'mse': mse_sin_inter,'rmse': rmse_sin_inter, 'r2': r2_sin_inter})
resultados = pd.DataFrame({'hiperparametros_default':hiperparametros_default, 'sin_intercepto':sin_intercepto})
resultados