# Validación del modelo:

La eficacia del modelo puede variar conforme cogemos otros datos.
Para ver si tenemos un problema de Overfitting (si el modelo se ajusta DEMASIADO bien) al conjunto de datos que le hemos proporcionado, pero no es capaz de modelar datos que no formen parte del dataset original 

Para validar esto, dividimos el conjunto de datos en 2, un conjunto de entrenamiento y otro de testing:

**Explicación R. Lineal ->** https://www.notion.so/Regresi-n-lineal-39b5e113aa01468a8963932b5ec26123

**Librerías, Funciones:**
- *Pandas* -> .read_csv,
- *Python* -> .mean(), .str, .summary, .len()
- *Numpy* -> .sqrt, .mean(), .sum(), .random.randn
- *statsmodels.formula.api* -> smf.ols, .predict(),

**Índice:**

0. Preparación **previa**
1. Dividimos el dataset en **2 conjuntos** (training, testing)
2. **Creamos el modelo** con el subconjunto de **Training**
3. **Validamos el modelo** con el conjunto de **Testing**


# 0. Preparación previa

In [19]:
%config IPCompleter.greedy=True  #Para permitir el autocompletado en Jupyter

import pandas as pd
import statsmodels.formula.api as smf
import numpy as np

In [20]:
mainpath = "/Users/irene/Documents/GitHub/python-ml-course/datasets"  #Ruta ficheros
filename = "ads/Advertising.csv" #Fichero a abrir
fullpath = mainpath + "/" + filename #Ruta completa

df = pd.read_csv(fullpath)
df.head(2)

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4


# 1. Dividimos el dataset en 2 conjuntos (training, testing)

In [21]:
#Creamos una distrib normal para la división
a = np.random.randn(len(df))

#Elegimos la condición en base a la que separamos -> 80-20%
check = (a<0.8)

#Dividimos en subconjuntos
training = df[check] #80% para Training
testing = df[~check] #20% para Testing (lo que no cumple con la condición)

#Comprobamos
len(df), len(training), len(testing)

(200, 163, 37)

# 2. Creamos el modelo con el subconjunto de Training

**El modelo lineal obtenido por regresión es:**

* **Sales = 2.8107 + 0.0463*TV + 0.1872*Radio**

Es un buen modelo, ya que:

- **p-values** = 0 -> Súper OK
- **R2** -> casi 1 -> Súper OK
- **F-stat** -> alto -> Súper OK
- **Prob(F-stat)** -> bajísimo -> Súper OK

In [22]:
lm = smf.ols(formula="Sales~TV+Radio", data=training).fit()

lm.summary() 

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.893
Model:,OLS,Adj. R-squared:,0.891
Method:,Least Squares,F-statistic:,666.2
Date:,"Tue, 09 Feb 2021",Prob (F-statistic):,2.62e-78
Time:,14:39:13,Log-Likelihood:,-316.55
No. Observations:,163,AIC:,639.1
Df Residuals:,160,BIC:,648.4
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3.0145,0.324,9.317,0.000,2.376,3.653
TV,0.0454,0.002,29.925,0.000,0.042,0.048
Radio,0.1827,0.009,19.825,0.000,0.164,0.201

0,1,2,3
Omnibus:,49.345,Durbin-Watson:,2.088
Prob(Omnibus):,0.0,Jarque-Bera (JB):,118.065
Skew:,-1.288,Prob(JB):,2.3e-26
Kurtosis:,6.278,Cond. No.,412.0


In [23]:
sales_pred_training = lm.predict(training)

SSD = sum((training["Sales"]-sales_pred_training)**2)
RSE = np.sqrt(SSD/(len(training)-2-1)) #2 vars predictoras
sales_m = np.mean(training["Sales"])
error = (RSE / sales_m)*100

print("El SSD es: " + str(SSD))
print("El RSE es: " + str(RSE))
print("La media de Y es: " + str(sales_m))
print("El Error es: " + str(error) + "%") #12%

El SSD es: 464.0371747819347
El RSE es: 1.7030068533000953
La media de Y es: 13.631288343558282
El Error es: 12.493366807143234%


# 3. Validamos el modelo con el conjunto de testing

No hay mucha diferencia con los datos de errores previos -> súper OK -> no existen problemas de Overfitting -> es un buen modelo.

In [24]:
#Creamos la predicción sobre el subconjunto de Testing

sales_pred = lm.predict(testing)
sales_pred.head()

1     12.213687
5     12.342727
6     11.616216
10     7.073972
15    20.596735
dtype: float64

In [25]:
SSD = sum((testing["Sales"]-sales_pred)**2)
RSE = np.sqrt(SSD/(len(testing)-2-1)) #2 vars predictoras
sales_m = np.mean(testing["Sales"])
error = (RSE / sales_m)*100

print("El SSD es: " + str(SSD))
print("El RSE es: " + str(RSE))
print("La media de Y es: " + str(sales_m))
print("El Error es: " + str(error) + "%") #12%

El SSD es: 95.79895257775247
El RSE es: 1.6785756617700727
La media de Y es: 15.745945945945943
El Error es: 10.660367230602935%
