# Ejercicios Pair Programming - Modulo 3 - Sprint 1 
## Lección 10 - Regresión Lineal: Métricas
### Pilar García y Sonia Ruiz Pérez

En el pair programming anterior creastéis vuestro primer modelo de machine learning usando la regresion Lineal. Es el momento, que con vuestros datos evaluéis si es bueno haciendo predicciones. Los objetivo de este pairprogramming son:
- Calculéis las métricas para vuestro modelo
- Discutid los resultados de las métricas y extraed conclusiones
- Guardad los resultados de las métricas en un csv para usarlo más adelante.

In [1]:
# Tratamiento de datos
import numpy as np
import pandas as pd

# Gráficos
import matplotlib.pyplot as plt
import seaborn as sns


# Modelado y evaluación
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
pd.options.display.max_columns=None

#Importamos la librería necesaria para poder hacer la normalización inversa de la variable respuesta.
from scipy.special import boxcox, inv_boxcox

In [2]:
#Creamos el dataframe con el csv con nuestros datos.
df=pd.read_csv('files/taxis4_encoding.csv',index_col=0)
df.head(3)

Unnamed: 0,pickup,dropoff,passengers,distance,fare,tip,tolls,total,pickup_zone,dropoff_zone,pickup_borough,dropoff_borough,tip_no_zeros,tip_box,passengers_robust,distance_robust,fare_robust,tolls_robust,total_robust,x0_green,x0_yellow,payment_cash,payment_credit_card,pickup_borough_oe,dropoff_borough_map
0,2019-03-23 20:21:09,2019-03-23 20:27:24,1,1.6,7.0,2.15,0.0,12.95,Lenox Hill West,UN/Turtle Bay South,Manhattan,Manhattan,2.15,0.787753,0.0,-0.022624,-0.294118,0.0,-0.127368,0,1,0,1,2,0
1,2019-03-04 16:11:55,2019-03-04 16:19:00,1,0.79,5.0,0.0,0.0,9.3,Upper West Side South,Upper West Side South,Manhattan,Manhattan,1e-10,-10.996744,0.0,-0.38914,-0.529412,0.0,-0.511579,0,1,1,0,2,0
2,2019-03-27 17:53:01,2019-03-27 18:00:25,1,1.37,7.5,2.36,0.0,14.16,Alphabet City,West Village,Manhattan,Manhattan,2.36,0.886769,0.0,-0.126697,-0.235294,0.0,0.0,0,1,0,1,2,0


In [3]:
# X: variables predictoras (independientes) 
# Seleccionamos solo las columnas estandarizadas y codificadas
X=df[['payment_cash','payment_credit_card','pickup_borough_oe','dropoff_borough_map','passengers_robust',
        'fare_robust','tolls_robust','total_robust']]
X.head(3)

Unnamed: 0,payment_cash,payment_credit_card,pickup_borough_oe,dropoff_borough_map,passengers_robust,fare_robust,tolls_robust,total_robust
0,0,1,2,0,0.0,-0.294118,0.0,-0.127368
1,1,0,2,0,0.0,-0.529412,0.0,-0.511579
2,0,1,2,0,0.0,-0.235294,0.0,0.0


In [4]:
# y: variable respuesta (dependiente) normalizada
y=df['tip_box']
y.head(3)

0     0.787753
1   -10.996744
2     0.886769
Name: tip_box, dtype: float64

In [5]:
# Creamos los datos de entrenamiento y los datos de test.
x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)

#Iniciamos la regresión lineal.
lr=LinearRegression(n_jobs=-1)

#Ajustamos el modelo, le pasamos los datos de entrenamiento.
lr.fit(x_train,y_train)

#Hacemos las predicciones.
y_predict_train=lr.predict(x_train)
y_predict_test=lr.predict(x_test)

#Creamos un dataframe para visualizar mejor los datos.
df_train=pd.DataFrame({'Real':y_train,'Predicted':y_predict_train,'Set':['Train']*len(y_train)})
df_test=pd.DataFrame({'Real':y_test,'Predicted':y_predict_test,'Set':['Test']*len(y_test)})
df_resultado=pd.concat([df_train, df_test],axis=0)

# Remainder es la diferencia de lo real y lo predicho
df_resultado['Remainder']=df_resultado['Real']-df_resultado['Predicted']
df_resultado.head(3)

Unnamed: 0,Real,Predicted,Set,Remainder
4414,-10.996744,-9.810353,Train,-1.186392
334,1.362352,1.054786,Train,0.307566
3593,-10.996744,-15.766131,Train,4.769387


In [6]:
#Las metricas para el conjunto de entrenamiento son:
print('Las métricas para el conjunto "Train" son:')
print('El valor de R² score es:', r2_score(y_train,y_predict_train))

print('El valor de MAE es:', mean_absolute_error(y_train,y_predict_train))

print('El valor de MSE es:', mean_squared_error(y_train,y_predict_train))

print('El valor de RMSE es:', np.sqrt(mean_squared_error(y_train,y_predict_train)))
print('------------------------------------')

#Las metricas para el conjunto de test son:
print('Las métricas para el conjunto "Test" son:')
print('El valor de R² score es:', r2_score(y_test,y_predict_test))

print('El valor de MAE es:', mean_absolute_error(y_test,y_predict_test))

print('El valor de MSE es:', mean_squared_error(y_test,y_predict_test))

print('El valor de RMSE es:', np.sqrt(mean_squared_error(y_test,y_predict_test)))

Las métricas para el conjunto "Train" son:
El valor de R² score es: 0.8655227158488787
El valor de MAE es: 1.3246767602243685
El valor de MSE es: 4.438722270493814
El valor de RMSE es: 2.1068275369602074
------------------------------------
Las métricas para el conjunto "Test" son:
El valor de R² score es: 0.887130555557865
El valor de MAE es: 1.251615611865909
El valor de MSE es: 3.7159398422059535
El valor de RMSE es: 1.927677317967391


In [7]:
#Creamos un dataframe con los resultados de las métricas de nuestro modelo.
resultados_metricas={
    'R²':[r2_score(y_train,y_predict_train),r2_score(y_test,y_predict_test)],
    'MAE':[mean_absolute_error(y_train,y_predict_train),mean_absolute_error(y_test,y_predict_test)],
    'MSE':[mean_squared_error(y_train,y_predict_train),mean_squared_error(y_test,y_predict_test)],
    'RMSE':[np.sqrt(mean_squared_error(y_train,y_predict_train)),np.sqrt(mean_squared_error(y_test,y_predict_test))],
    'Set':['Train','Test'],
    'Modelo':['LinearRegression','LinearRegression']}

df_resultado=pd.DataFrame(resultados_metricas)
df_resultado 

Unnamed: 0,R²,MAE,MSE,RMSE,Set,Modelo
0,0.865523,1.324677,4.438722,2.106828,Train,LinearRegression
1,0.887131,1.251616,3.71594,1.927677,Test,LinearRegression


`Aplicamos el método inv_boxcox a las métricas porque tenemos nuestra variable respuesta 'tip_box' normalizada con el método boxcox. Lo que queremos conseguir es tener los valores de las métricas en las mismas unidades de la variable respuesta antes de la normalización (tip) para su correcta interpretación.`

In [8]:
#Nuestro valor de lambda ajustada obtenido al normalizar la variable 'tip' fue:
lambda_ajustada=0.07462469096512592

In [15]:
# Creamos una lista con las columnas a las que vamo a aplicar inv_boxcox,
# excepto R² que su valor es un porcentaje.
lista_columnas=['MAE','MSE','RMSE']

In [16]:
for col in lista_columnas:
    print(f'El valor de {col} en los datos de entrenamiento tras la normalización inversa es {inv_boxcox(df_resultado[col].iloc[0], lambda_ajustada)}')
    print(f'El valor de {col} en los datos de test tras la normalización inversa es {inv_boxcox(df_resultado[col].iloc[1], lambda_ajustada)}')

El valor de MAE en los datos de entrenamiento tras la normalización inversa es 3.536793860102238
El valor de MAE en los datos de test tras la normalización inversa es 3.3087372232422765
El valor de MSE en los datos de entrenamiento tras la normalización inversa es 46.246215278296006
El valor de MSE en los datos de test tras la normalización inversa es 26.56870947563494
El valor de RMSE en los datos de entrenamiento tras la normalización inversa es 7.07628060543185
El valor de RMSE en los datos de test tras la normalización inversa es 6.05592158867894


`Tras obtener las métricas para nuestro modelo en los datos de entrenamiento y en los datos de test concluimos:`
- `R²: porcentaje de la varianza que puede ser explicado por las variables indentendietes del modelo.`
    - `Train: 0.866 --> 86,6% de la variación de las propinas queda explicada con nuestro modelo.`
    - `Test: 0,887 --> 88,7%, por tanto vamos a acertar en la prediccion de las propinas en un 88,7%.`
- `MAE:`
    - `Train: esta cercano a 0, pero no mucho.`
    - `Test: esta cercano a 0, pero no mucho.`
- `MSE:`
    - `Train: si hacemos la raiz cuadrada de este valor obtenemos el RMSE para datos de entrenamiento. Vemos que se aleja de 0 bastante.`
    - `Test: si hacemos la raiz cuadrada de este valor obtenemos el RMSE para datos de test. Vemos que se aleja de 0 bastante.`
- `RMSE: distancia promedio entre los valores reales y los predichos.`
    - `Train: hemos obtenido que puede variar 7,08$ la propina en los datos de entrenamiento. Si lo observamos en porcentaje (7.077*100/23.19=30.51), vemos que es una variación del 30%, un valor bastante alto.`
    - `Test: hemos obtenido que puede variar 6,06$ la propina en los datos de test. Si lo observamos en porcentaje (6.056*100/23.19=26.11), vemos que es una variación del 26%, un valor bastante alto.`

In [13]:
df_resultado.to_csv('files/resultados_taxis_linealreg.csv')

**Happy coding** 🤔