# A1 -  Validación de un Modelo de Regresión Lineal

In [10]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

In [11]:
# Carguemos el dataset de "Advertising.csv"
ads = pd.read_csv("/home/omarg/Master/Data Analisys and Machine Learning/Notes/Mineria de datos/ads/Advertising.csv")
ads.head() # Mostrar el encabezado del dataframe cargado

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


### Conjunto de Entrenamiento (Training) y Prueba (Testing)

In [28]:
# Se divide el dataset en conjunto de entrenamiento (70%) y conjunto de testing (30%)
ads_shuffled = ads.sample(frac=1, random_state=42)

split_point = int(len(ads_shuffled) * 0.7)

train_data = ads_shuffled[:split_point]
test_data = ads_shuffled[split_point:]

X_test = test_data[['TV', 'Radio', 'Newspaper']]
y_test = test_data['Sales']

In [13]:
print(f"Tamaño del conjunto de entrenamiento: {len(train_data)} observaciones.")
print(f"Tamaño del conjunto de testing: {len(test_data)} observaciones.\n")

Tamaño del conjunto de entrenamiento: 140 observaciones.
Tamaño del conjunto de testing: 60 observaciones.



### Modelo de regresión utilizando los datos de entrenamiento

In [21]:
lm = smf.ols(formula="Sales~TV+Radio+Newspaper", data=train_data).fit()
lm.params

Intercept    2.956094
TV           0.046793
Radio        0.187063
Newspaper   -0.004805
dtype: float64

In [22]:
r_squared = lm.rsquared
print(f"Coeficiente de Determinación (R²): {r_squared:.4f}")

Coeficiente de Determinación (R²): 0.9088


### Validar el modelo de regresión mediante los datos de prueba

In [29]:
sales_pred = lm.predict(X_test)
print(sales_pred)

180    10.730288
178    16.219957
185    20.890935
49      8.098332
80     11.418480
34      7.660472
7      12.191257
110    14.784288
91      4.416393
83     14.309958
176    20.131127
181    14.058749
89     16.788559
8       3.746538
13      8.905451
59     18.288958
171    14.335332
131    15.701346
17     23.263099
72     10.290483
175    24.859489
134    11.588173
167    13.512303
183    24.112349
63     13.258395
54     20.559513
107     7.130784
50     12.718888
196     8.241641
58     21.917146
48     16.303190
88     11.505304
21     14.905748
57     12.841088
160    14.266138
192     4.376049
129     7.782595
37     15.472830
157    10.092038
193    18.600443
1      12.173241
52     20.692257
149     9.774968
130    10.354746
151     9.955321
103    14.879889
99     16.862432
116    12.021612
87     15.427120
74     17.480430
121     7.652896
199    15.383582
20     18.100650
188    18.921159
71     10.616601
106     6.040896
14     18.439801
92     19.125954
179    12.4910

In [33]:
# Cálculo del RSE resultante de las predicciones
rest = y_test - sales_pred

ssd = np.sum(rest**2)
rse = np.sqrt(ssd / (len(y_test) - len(X_test.columns) - 1))

print(f"SSD: {ssd:.4f}")
print(f"RSE: {rse:.4f}")

SSD: 212.4255
RSE: 1.9476


In [18]:
# Número de observaciones (n) y número de predictores (p)
n = len(X_test)
p = len(X_test.columns)
n, p

(60, 3)

In [34]:
# Cálculo del RSE%
rse_ratio = (rse / np.mean(y_test))

In [35]:
print(f"Error Residual Estándar (RSE): {rse:.4f}")
print(f"Error Residual Estándar (RSE%): {rse_ratio:.2f}%")

Error Residual Estándar (RSE): 1.9476
Error Residual Estándar (RSE%): 0.14%
