# A1 -  Validación de un Modelo de Regresión Lineal

## Instrucciones:
Utilizando las herramientas vistas en clase generar y evaluar un modelo de regresión lineal múltiple para las variables del dataset de "advertising.csv" considerando lo siguiente:


1. Primeramente deberá generar una partición del conjunto de datos disponible, de manera que se tengan dos subconjuntos: uno de entrenamiento y otro de validación/testing. Se recomienda utilizar proporciones de 70/30 porciento de las observaciones para cada subconjunto.
2. Generar y ajustar el modelo regresión utilizando el conjunto de datos de entrenamiento definido en el punto anterior.
3. Evaluar la bondad de ajuste del modelo de regresión generado en términos de sus respectivo coeficientes de determinación.
4. Realizar predicciones utilizando el modelo de regresión ajustado y el conjunto de datos de testing reservados previamente y evaluar el modelo en términos del el Error Residual Estándar en Ratio (RSE%)

### Librerias

In [316]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf

### Carga de Datos

In [317]:
ads = pd.read_csv('../datasets/ads/Advertising.csv')

In [318]:
ads.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [319]:
ads.shape

(200, 4)

### 1. Primeramente deberá generar una partición del conjunto de datos disponible, de manera que se tengan dos subconjuntos: uno de entrenamiento y otro de validación/testing. Se recomienda utilizar proporciones de 70/30 porciento de las observaciones para cada subconjunto.

In [320]:
ads_train = ads.sample(frac=0.7)
ads_test = ads.drop(ads_train.index)

In [321]:
ads_train.shape, ads_test.shape

((140, 4), (60, 4))

### 2. Generar y ajustar el modelo regresión utilizando el conjunto de datos de entrenamiento definido en el punto anterior.

In [322]:
lm = smf.ols(formula = "Sales~TV+Radio+Newspaper" , data = ads_train).fit()

In [323]:
lm.params

Intercept    2.917835
TV           0.045411
Radio        0.186214
Newspaper   -0.001631
dtype: float64

### 3. Evaluar la bondad de ajuste del modelo de regresión generado en términos de sus respectivo coeficientes de determinación.

In [324]:
lm.rsquared

np.float64(0.8809084916175789)

In [325]:
lm.rsquared_adj

np.float64(0.8782814730503197)

### 4. Realizar predicciones utilizando el modelo de regresión ajustado y el conjunto de datos de testing reservados previamente y evaluar el modelo en términos del el Error Residual Estándar en Ratio (RSE%)

In [326]:
sales_pred = lm.predict(ads_test[["TV","Radio","Newspaper"]])
sales_pred

0      20.292994
1      12.183295
4      13.044058
5      12.296469
6      11.598474
7      12.007138
10      6.960093
11     17.130232
21     14.609825
36     23.186101
37     15.434496
38      9.789731
40     16.214644
45     15.007783
48     16.096069
49      8.074537
53     19.717281
55     21.051248
58     21.665249
60      5.684865
66      8.925562
68     18.801400
71     10.515151
76      4.430830
84     20.565208
87     15.402079
88     11.556405
89     16.721192
98     23.866818
101    22.972743
103    14.624290
111    20.932020
112    13.760364
116    11.860188
117     6.512088
119     6.741870
120    14.249632
123    14.930735
131    15.430787
133    19.063839
137    20.631111
138     9.660027
142    19.051504
144     9.978924
145     9.628157
147    23.014081
150    18.192798
154    15.359681
157     9.922886
160    14.071677
177    12.041890
179    12.271369
183    23.868211
186     9.600371
187    16.910577
188    18.487780
189     5.982054
190    12.355511
191     8.3477

In [327]:
sales_pred.shape

(60,)

In [328]:
lm.summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.881
Model:,OLS,Adj. R-squared:,0.878
Method:,Least Squares,F-statistic:,335.3
Date:,"Sat, 04 Oct 2025",Prob (F-statistic):,1.27e-62
Time:,09:48:56,Log-Likelihood:,-275.46
No. Observations:,140,AIC:,558.9
Df Residuals:,136,BIC:,570.7
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9178,0.398,7.328,0.000,2.130,3.705
TV,0.0454,0.002,26.270,0.000,0.042,0.049
Radio,0.1862,0.011,17.449,0.000,0.165,0.207
Newspaper,-0.0016,0.007,-0.226,0.821,-0.016,0.013

0,1,2,3
Omnibus:,45.731,Durbin-Watson:,2.137
Prob(Omnibus):,0.0,Jarque-Bera (JB):,108.579
Skew:,-1.344,Prob(JB):,2.64e-24
Kurtosis:,6.375,Cond. No.,455.0


In [329]:
def RSE_rate(lm, X,Y):
    Y_e = lm.predict(X)
    SSD = np.sum((Y-Y_e)**2)
    RSE = np.sqrt(SSD/(len(X)-len(X.columns.values.tolist())-1))
    RSE_rate = RSE/np.mean(Y)
    return RSE_rate

In [330]:
RSE_TV_Radio_News = RSE_rate(lm, ads_test[["TV","Radio","Newspaper"]], ads_test["Sales"])
RSE_TV_Radio_News

np.float64(0.10552608268002181)