# Métricas Regresión Lineal

In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

In [11]:
sales = pd.read_csv('ficheros/sales5.csv')
sales.head()

Unnamed: 0,profit,margin,sales,cogs,total_expenses,marketing,inventory,budget_profit,budget_margin,budget_sales,market_encoding,market_size_encoding,año_encoding,Coffee,Espresso,Herbal Tea,Tea
0,107.0,176.0,292.0,116.0,69.0,38.0,962.0,110.0,160.0,270.0,3,0,0,1,0,0,0
1,75.0,135.0,225.0,90.0,60.0,29.0,1148.0,90.0,130.0,210.0,3,0,0,1,0,0,0
2,122.0,195.0,325.0,130.0,73.0,42.0,1134.0,130.0,180.0,290.0,3,0,0,1,0,0,0
3,105.0,174.0,289.0,115.0,69.0,37.0,1166.0,110.0,160.0,260.0,3,0,0,1,0,0,0
4,104.0,135.0,223.0,90.0,56.0,29.0,1148.0,90.0,130.0,210.0,3,0,1,1,0,0,0


In [12]:
X = sales.drop("profit", axis = 1)
y = sales["profit"]

In [13]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [14]:
lr = LinearRegression(n_jobs=-1)

In [15]:
lr.fit(x_train, y_train)

In [16]:
y_predict_train = lr.predict(x_train)
y_predict_test = lr.predict(x_test)

In [17]:
resultados_metricas = {'MAE': [mean_absolute_error(y_test, y_predict_test), mean_absolute_error(y_train, y_predict_train)],
                'MSE': [mean_squared_error(y_test, y_predict_test), mean_squared_error(y_train, y_predict_train)],
                'RMSE': [np.sqrt(mean_squared_error(y_test, y_predict_test)), np.sqrt(mean_squared_error(y_train, y_predict_train))],
                'R2':  [r2_score(y_test, y_predict_test), r2_score(y_train, y_predict_train)],
                 "set": ["test", "train"], 
                 "modelo": ["Linear Regresion", "LinearRegression"]}

df_resultados = pd.DataFrame(resultados_metricas)

df_resultados

Unnamed: 0,MAE,MSE,RMSE,R2,set,modelo
0,14.216182,622.404728,24.948041,0.720179,test,Linear Regresion
1,14.404211,611.506966,24.728667,0.739604,train,LinearRegression


- Como podemos observar, estas métricas no nos indican ni over- ni underfitting, ya que los valores de train y test están equilibrados. De las 4 métricas que se observan, nos fijaremos únicamente en el RMSE y R2.

- El RMSE nos interesa que sea lo más bajo posible, ya que indica el margen de error tanto por encima como por debajo de la estimación de nuestro modelo.

- El R2 nos indica que las variables predictoras escogidas para nuestro modelo explican el 73 % de porcentaje de variación de nuestra variable respuesta. Este porcentaje lo podemos considerar como bueno.

In [18]:
df_resultados.to_csv("../regresion_lineal/ficheros/sales_metricas.csv", index = False)