# Pair Programming Métricas Regresión Lineal

En el pair programming anterior creastéis vuestro primer modelo de machine learning usando la regresion Lineal. Es el momento, que con vuestros datos evaluéis si es bueno haciendo predicciones. 

Los objetivo de este pairprogramming son:

- Calculéis las métricas para vuestro modelo
- Discutid los resultados de las métricas y extraed conclusiones
- Guardad los resultados de las métricas en un csv para usarlo más adelante.

Happy coding 🤔

In [30]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

In [31]:
sales = pd.read_csv('ficheros/sales5.csv')
sales.head()

Unnamed: 0,market,market_size,profit,margin,sales,cogs,total_expenses,marketing,inventory,budget_profit,...,budget_sales,product_type,año,market_encoding,market_size_encoding,año_encoding,Coffee,Espresso,Herbal Tea,Tea
0,East,Small Market,107.0,176.0,292.0,116.0,69.0,38.0,962.0,110.0,...,270.0,Coffee,2010,3,0,0,1,0,0,0
1,East,Small Market,75.0,135.0,225.0,90.0,60.0,29.0,1148.0,90.0,...,210.0,Coffee,2010,3,0,0,1,0,0,0
2,East,Small Market,122.0,195.0,325.0,130.0,73.0,42.0,1134.0,130.0,...,290.0,Coffee,2010,3,0,0,1,0,0,0
3,East,Small Market,105.0,174.0,289.0,115.0,69.0,37.0,1166.0,110.0,...,260.0,Coffee,2010,3,0,0,1,0,0,0
4,East,Small Market,104.0,135.0,223.0,90.0,56.0,29.0,1148.0,90.0,...,210.0,Coffee,2011,3,0,1,1,0,0,0


In [32]:
sales_cross = sales.drop(columns=['market', 'market_size','product_type', 'año'], axis=1)

In [33]:
X = sales_cross.drop("profit", axis = 1)
y = sales_cross["profit"]

In [34]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [35]:
lr = LinearRegression(n_jobs=-1)

In [36]:
lr.fit(x_train, y_train)

In [37]:
y_predict_train = lr.predict(x_train)
y_predict_test = lr.predict(x_test)

In [38]:
train_df = pd.DataFrame({'Real': y_train, 'Predicted': y_predict_train, 'Set': ['Train']*len(y_train)})
test_df  = pd.DataFrame({'Real': y_test,  'Predicted': y_predict_test,  'Set': ['Test']*len(y_test)})
resultados = pd.concat([train_df,test_df], axis = 0)
resultados.head()

Unnamed: 0,Real,Predicted,Set
3651,25.0,45.788831,Train
1659,23.0,20.824898,Train
3824,30.0,33.50047,Train
3173,125.0,97.709345,Train
3155,28.0,40.04713,Train


In [39]:
# Para el conjunto de entrenamsiento las méticas han sido
print('Para el conjunto train:---------------')
print('El valor de r2 score es ',r2_score(y_train,y_predict_train))
print('El MAE es',mean_absolute_error(y_train,y_predict_train))
print('El MSE es',mean_squared_error(y_train,y_predict_train))
print('EL RMSE es ',np.sqrt(mean_squared_error(y_train,y_predict_train)))


# Para el conjunto de test las métricas han sido
print('Para el conjunto test:---------------')
print('El valor de r2 score es ',r2_score(y_test,y_predict_test))
print('El MAE es',mean_absolute_error(y_test,y_predict_test))
print('El MSE es',mean_squared_error(y_test,y_predict_test))
print('EL RMSE es ',np.sqrt(mean_squared_error(y_test,y_predict_test)))

Para el conjunto train:---------------
El valor de r2 score es  0.7396041366919299
El MAE es 14.404211107613483
El MSE es 611.5069659830956
EL RMSE es  24.728666886492196
Para el conjunto test:---------------
El valor de r2 score es  0.7201791923782551
El MAE es 14.216181985572858
El MSE es 622.4047275853948
EL RMSE es  24.948040556031547


- Como podemos observar, según nuestras métricas, tenemos underfitting en nuestro modelo, ya que los valores de nuestras métricas son más altas que el valor de r2, que es muy bajo. 

Unas posibles soluciones para lograr un mejor ajuste sería: aumentar el número de variables predictoras o cambiarlas.
Siguiendo estas indicaciones, hemos añadido a nuestro test la columna de "budget_cogs" para intentar compensar el resultado de las métricas. No obstante, el resultado no ha sido concluyente, por lo que la hemos vuelto a eliminar.

Por otra parte, hemos intentado estandarizar nuestra variable respuesta, para observar si nuestros resultados variaban a mejor, pero lo que ha ocurrido es que hemos obtenido un r2 mayor que las métricas, lo que nos indica que, con la estandarización nuestros datos sufren overfitting. Por lo tanto, volvemos a desestandarizarlos. 

In [40]:
resultados_metricas = {'MAE': [mean_absolute_error(y_test, y_predict_test), mean_absolute_error(y_train, y_predict_train)],
                'MSE': [mean_squared_error(y_test, y_predict_test), mean_squared_error(y_train, y_predict_train)],
                'RMSE': [np.sqrt(mean_squared_error(y_test, y_predict_test)), np.sqrt(mean_squared_error(y_train, y_predict_train))],
                'R2':  [r2_score(y_test, y_predict_test), r2_score(y_train, y_predict_train)],
                 "set": ["test", "train"], 
                 "modelo": ["Linear Regresion", "LinearRegression"]}

df_resultados = pd.DataFrame(resultados_metricas)

df_resultados

Unnamed: 0,MAE,MSE,RMSE,R2,set,modelo
0,14.216182,622.404728,24.948041,0.720179,test,Linear Regresion
1,14.404211,611.506966,24.728667,0.739604,train,LinearRegression


In [41]:
df_resultados.to_csv("../DA-PromoC-Modulo3-Sprint1-Lola-Noemi/ficheros/sales_metricas.csv", index = False)