# Laboratorio de regresión - 3

## Significancia de factores

|                |   |
:----------------|---|
| **Nombre**     |Nicolás Martínez Gutiérrez   |
| **Fecha**      25/08/2025|   |
| **Expediente**751746 |   |

Descarga el archivo de publicidad y carga los datos (Advertising.csv).

In [3]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [4]:
data = pd.read_csv("Advertising.csv")

In [5]:
data

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9
...,...,...,...,...,...
195,196,38.2,3.7,13.8,7.6
196,197,94.2,4.9,8.1,9.7
197,198,177.0,9.3,6.4,12.8
198,199,283.6,42.0,66.2,25.5


**¿Hay alguna relación entre el presupuesto para publicidad y las ventas?**

Nuestra primera meta debe ser determinar si hay evidencia en los datos de que haya una asociación entre estas variables.

- ¿Por qué? ¿Qué resultaría si nos diéramos cuenta de la falta de relación entre el presupuesto de publicidad y las ventas?

Los recursos destinados a publicidad serían un gasto innecesario

La empresa estaría malgastando dinero en campañas que no aumentan sus ventas.

Sería mejor redirigir la inversión hacia otras áreas como mejoras en el producto, reducción de costos o estrategias diferentes de mercadotecnia que sí influyan en las ventas.

Además, se perdería una de las herramientas clave para planear estrategias de crecimiento, pues la publicidad dejaría de ser un factor de predicción útil.

**¿Qué tan fuerte es esta relación?**
Asumiendo que existe esta relación, ¿nos sirve conocer el impacto que tiene invertir en publicidad en las ventas?

La relación entre la publicidad y las ventas es bastante fuerte, ya que el modelo estadístico explica casi todo el cambio en las ventas a partir del gasto en publicidad. Esto significa que, cuando una empresa invierte más en publicidad, las ventas aumentan de forma clara y medible

Conocer este impacto es muy útil porque le permite a la empresa decidir dónde invertir su dinero para obtener más ganancias. Por ejemplo, si la televisión genera más ventas que el periódico, la empresa puede enfocar ahí su presupuesto y así usar sus recursos de manera más eficiente.

**¿Cuáles medios están asociados con las ventas? ¿Qué tan grande es la asociación entre un medio específico y las ventas?**

Hay 3 medios distintos en los datos. ¿Sirve invertir en los 3? ¿Conviene más invertir sólo en uno?

**¿Qué tan seguros estamos de que podríamos predecir ventas futuras?**

**¿La relación es lineal?**

**¿Hay sinergia entre estos medios?**

Puede ser que gastar \\$50,000 en publicidad y otros \\$50,000 en radio es mejor opción que gastar \\$100,000 en televisión. A esto le llamamos efecto de interacción.

Podemos usar regresión lineal para responder todas estas preguntas.

Realiza una regresión lineal:

$$ \text{ventas} \approx \beta_0 + (\beta_1)(\text{TV})$$

In [6]:
x = data.iloc[:,1].values  #TV
y = data.iloc[:,4].values  #sales

In [7]:
X = np.column_stack([x])

In [8]:
lr = LinearRegression()

In [9]:
lr.fit(X, y)

In [10]:
beta0 = lr.intercept_

In [11]:
beta1 = lr.coef_ 

In [12]:
beta0

np.float64(7.032593549127694)

In [13]:
beta1

array([0.04753664])

$$ \text{ventas} \approx 7.03 + (0.0475)(\text{TV})$$

### Verificando la precisión de nuestros coeficientes estimados

Recuerda que en el mundo real hay ruidos y errores de medición. Siempre se asume que la verdadera relación entre $X$ y $Y$ es $$Y = \beta_0 + \beta_1 X + \epsilon$$

Se asume que el término de error es independiente de $X$ (el error siempre es el mismo sin importar el valor de $X$). Este modelo describe a la *línea de regresión de la población*, que es la mejor aproximación de la verdadera relación entre $X$ y $Y$. Cuando usamos mínimos cuadrados encontramos la *línea de mínimos cuadrados*.

¿Cuál es la diferencia entre población y muestra?

La población es el conjunto total de datos posibles que podríamos tener. En este caso, sería toda la información de ventas y gastos en publicidad de todas las empresas y campañas posibles.

La muestra, en cambio, es solo una parte de esa población. Aquí nuestro archivo Advertising.csv es una muestra con 200 observaciones que usamos para estimar la relación entre publicidad y ventas.

¿Cuál crees que sea la diferencia entre hacer una regresión con todos los datos de la población y una muestra de ella?

Si usamos todos los datos de la población, tendríamos la relación exacta y verdadera entre publicidad y ventas, sin error de estimación.

Si usamos solo una muestra, la regresión nos da una aproximación. Como no tenemos todos los datos, puede haber un poco de error o ruido en los coeficientes (B0 y B1)

La línea de regresión de la población no se puede observar. El concepto de comparar estas líneas es una extensión natural del acercamiento estadístico estándar de usar información de una muestra para estimar características de una población grande.

Imagina que quieres encontrar la altura promedio de un mexicano $\mu$. Medir a todos y cada uno de los mexicanos en situaciones similares, con la misma regla, mismo operador, y otras incontables formas de minimizar la variación de la medida es una tarea imposible. Lo que podemos asumir es que $\hat{\mu} = \bar{y}$. La media poblacional y la media muestral son diferentes, pero la media muestral es usualmente un buen estimado.

De la misma manera, como no contamos con el 100% de la información para hacer una regresión, los coeficientes $\beta_0$ y $\beta_1$ son desconocidos. Podemos estimarlos usando mínimos cuadrados, encontrando $\hat{\beta_0}$ y $\hat{\beta_1}$. Puede que las muestras que tengamos en ese momento estén un poco por encima de la media, pero otras muestras en otro momento puede que estén debajo de la media. En general, esperamos que el promedio de las aproximaciones $\hat{\mu}$ aproxime a $\mu$.

Esto lleva a la pregunta: ¿qué tan cercanos son nuestros coeficientes estimados a los verdaderos coeficientes? Utilizamos el concepto de error estándar para evaluar esto.

$$ \text{Var}(\hat{\mu})=\text{SE}(\hat{\mu})^2 = \frac{\sigma^2}{n} $$

Donde $\sigma$ es la desviación estándar de cada una de las observaciones $y_i$ de $Y$. El error estándar nos dice la cantidad promedio que el estimado difiere del valor verdadero. Podemos ver en la fórmula que entre más observaciones tengamos el error se hace más pequeño. Las fórmulas para errores estándar de $\hat{\beta_0}$ y $\hat{\beta_1}$ son:

$$ \text{SE}(\hat{\beta_0})^2 = \sigma^2 [\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}]$$

$$ \text{SE}(\hat{\beta_1})^2 = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}$$

$$ \sigma^2 = \text{Var}(\epsilon) = \text{RSE}^2 = \frac{\text{RSS}}{n-p}$$

Para que estas fórmulas sean validas asumimos que los errores $\epsilon_i$ tienen varianza común $\sigma^2$ y que no están correlacionados.

Calcula los errores estándar de los coeficientes

In [14]:
y_pred = lr.predict(X)

In [15]:
n = len(y)
p = 2  

In [16]:
n

200

In [17]:
RSS = np.sum((y - y_pred)**2)

In [18]:
RSS

np.float64(2102.5305831313517)

In [19]:
sigma2 = RSS / (n - p)

In [20]:
sigma2

np.float64(10.618841328946221)

In [21]:
x = data.iloc[:,1].values
x_mean = np.mean(x)
Sxx = np.sum((x - x_mean)**2)

In [22]:
SE_beta1 = np.sqrt(sigma2 / Sxx)
SE_beta0 = np.sqrt(sigma2 * (1/n + (x_mean**2)/Sxx))

In [23]:
SE_beta1

np.float64(0.0026906071877968707)

In [24]:
SE_beta0

np.float64(0.45784294027347855)

Estos errores se pueden usar para calcular intervalos de confianza. Un intervalo de confianza del $95\%$ se define como un rango de valores en el cuál se encuentra el desconocido valor verdadero con un $95\%$ de probabilidad.

Otra forma de verlo es que si tomamos muestras repetidas y construimos un intervalo de confianza para cada una, el $95\%$ de los intervalos creados van a contener el valor verdadero. Para la regresión el intervalo de confianza del $95\%$ toma la forma:

$$ \hat{\beta_j} \pm 2\text{SE}(\hat{\beta_j})$$

Calcula los intervalos de confianza para los coeficientes estimados:

In [25]:
lr.intercept_ - 2*SE_beta0

np.float64(6.116907668580737)

In [26]:
lr.intercept_ + 2*SE_beta0

np.float64(7.948279429674651)

$$ [6.117,7.948] $$

In [27]:
lr.coef_  - 2*SE_beta1

array([0.04215543])

In [28]:
lr.coef_  + 2*SE_beta1

array([0.05291785])

$$ [0.0421,0.0529] $$

Los errores estándar también se usan para realizar pruebas de hipótesis. La prueba de hipótesis más común es probar la hipótesis nula de:

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$

contra la hipótesis alternativa:
$$ H_0: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

Explica con tus palabras el significado de la hipótesis nula y la hipótesis alternativa.

Hipótesis nula (H0): Es la idea de que no existe relación entre la variable de publicidad, por ejemplo, la TV (x) y las ventas (y). En otras palabras, invertir en publicidad no tendría ningún efecto en las ventas, y el coeficiente B1 sería igual a 0.

Hipótesis alternativa (H1): Es la idea contraria, que sí existe una relación entre publicidad y ventas. Esto significa que al invertir en publicidad, las ventas cambian, y por lo tanto el coeficiente B1 es diferente de 0.

Para probal la hipótesis nula debemos determinar si nuestro estimado $\hat{\beta_1}$ de $\beta_1$ está lo suficientemente alejado de cero para que podamos decir con confianza que este valor no es cero. 

¿Qué tan lejos? Depende de qué tanta confianza tengamos en el estimado encontrado. Si nuestro error estándar es pequeño y nuestro estimado está alejado de cero podríamos decir que hay muy poca probabilidad de que el valor verdadero sea 0. En cambio, si nuestro error estándar es grande y nuestro estimado está muy cerca de cero, entonces podrías ser que el valor verdadero sea cero y que no haya relación entre las variables.

Se calcula un *estadístico t* dado por
$$ t = \frac{\hat{\beta_j} - \mu}{\text{SE}(\hat{\beta_j})} $$

donde $\mu$ es el valor contra el que queremos probar.

Calcula el estadístico t para tus coeficientes estimados, usando como referencia la prueba de hipótesis.

In [29]:
t_beta0 = (beta0 - 0) / SE_beta0

In [30]:
t_beta0

np.float64(15.360275174117543)

In [31]:
t_beta1 = (beta1 - 0) / SE_beta1

In [32]:
t_beta1

array([17.6676256])

La distribución t tiene forma de campana y se parece bastante a la distribución normal cuando $n > 30$. Ya sólo es cuestión de calcular la probabilidad de observar cualquier número tal que su valor absoluto sea igual o mayor que el valor absoluto del estadístico t calculado. En otras palabras:
$$ P(|x| \geq |t|) $$

A esta probabilidad la llamamos *p-value*. Un *p-value* pequeño indica que es poco probable que exista por puro azar una relación significativa entre predictor y respuesta, en caso de que no haya una asociación real entre predictor y respuesta. En otras palabras, el *p-value* te dice la probabilidad de que parezca que hay relación cuando no la hay.

Si el *p-value* es pequeño, inferimos que sí hay una asociación entre el predictor y la respuesta, y **rechazamos la hipótesis nula**.
  

¿Qué tan pequeño? Depende de la aplicación. Un valor muy común es del $5\%$.

Utiliza el siguiente código para calcular el *p-value* para tus coeficientes

`from scipy import stats`

`p_bj = 2*(1 - stats.t.cdf(np.abs(t_bj), n-p))`

In [33]:
from scipy import stats

In [34]:
p_beta0 = 2 * (1 - stats.t.cdf(np.abs(t_beta0), n-p))

In [35]:
p_beta1 = 2 * (1 - stats.t.cdf(np.abs(t_beta1), n-p))

In [36]:
p_beta0

np.float64(0.0)

In [37]:
p_beta1

array([0.])

¿Se rechaza la hipótesis nula? ¿Qué significa?

Sí, se rechaza la hipótesis nula porque los valores de t fueron muy grandes y los p-values resultaron prácticamente iguales a 0. Esto significa que no es razonable pensar que la relación entre publicidad (TV) y ventas sea nula, ya que existe evidencia estadística muy fuerte de que la inversión en publicidad en TV sí influye en las ventas. Así, podemos estar seguros de que la pendiente B1 es distinta de 0, lo que confirma que hay una relación real entre el gasto en publicidad y el aumento de ventas.

#### Conclusión

Al realizar la regresión lineal entre la inversión en televisión y las ventas, encontramos que la pendiente es aproximadamente 0.0475, lo que significa que por cada unidad adicional invertida en TV las ventas aumentan en promedio en 0.0475 unidades, mientras que el intercepto es cercano a 7.03, representando las ventas esperadas sin inversión en TV. Los errores estándar fueron muy pequeños, lo que indica que las estimaciones son precisas, y los intervalos de confianza al 95% muestran que la pendiente se encuentra entre 0.042 y 0.053, y el intercepto entre 6.11 y 7.95. Además, al realizar la prueba de hipótesis, el valor de t fue muy grande y los p-values prácticamente iguales a 0, lo que nos llevó a rechazar la hipótesis nula y concluir con mucha seguridad que la publicidad en televisión sí tiene un efecto real y positivo sobre las ventas.

Realiza otras dos regresiones. Ya tienes hecha la regresión de ventas dado el gasto en publicidad de TV. Realiza la regresión para gastos en radio y gastos en periódico. Organiza las respuestas para que debajo de esta celda se tenga:
- Título de regresión
- Coeficientes estimados
- Errores estándar de los coeficientes
- Intervalos de confianza
- Estadísticos t
- p-values
- Observaciones

### Regresión Lineal Newspaper

$$ \text{sales} = \beta_0 + \beta_1 (\text{newspaper}) $$

In [38]:
data = pd.read_csv("Advertising.csv")

In [39]:
x = data.iloc[:,3].values  #newspaper
y = data.iloc[:,4].values  #sales

In [40]:
X = np.column_stack([x])

In [41]:
lr = LinearRegression()

In [42]:
lr.fit(X, y)

In [43]:
beta0 = lr.intercept_

In [44]:
beta1 = lr.coef_ 

In [45]:
beta0

np.float64(12.351407069278162)

In [46]:
beta1

array([0.0546931])

$$ \text{sales} = 12.351 + 0.0547 (\text{newspaper}) $$

In [47]:
y_pred = lr.predict(X)
n = len(y)
p = 2  
RSS = np.sum((y - y_pred)**2)
sigma2 = RSS / (n - p)

In [48]:
x = data.iloc[:,3].values
x_mean = np.mean(x)
Sxx = np.sum((x - x_mean)**2)

In [49]:
SE_beta1 = np.sqrt(sigma2 / Sxx)
SE_beta0 = np.sqrt(sigma2 * (1/n + (x_mean**2)/Sxx))

In [50]:
SE_beta1

np.float64(0.016575721876358165)

In [51]:
SE_beta0

np.float64(0.6214201876094345)

In [52]:
lr.intercept_ - 2*SE_beta0

np.float64(11.108566694059293)

In [53]:
lr.intercept_ + 2*SE_beta0

np.float64(13.59424744449703)

$$ [11.108,13.594] $$

In [54]:
lr.coef_  - 2*SE_beta1

array([0.02154165])

In [55]:
lr.coef_  + 2*SE_beta1

array([0.08784454])

$$ [0.0215,0.0878] $$

In [56]:
t_beta0 = (beta0 - 0) / SE_beta0

In [57]:
t_beta0

np.float64(19.87609562024895)

In [58]:
t_beta1 = (beta1 - 0) / SE_beta1

In [59]:
t_beta1

array([3.29959074])

In [60]:
from scipy import stats

In [61]:
p_beta0 = 2 * (1 - stats.t.cdf(np.abs(t_beta0), n-p))

In [62]:
p_beta1 = 2 * (1 - stats.t.cdf(np.abs(t_beta1), n-p))

In [63]:
p_beta0

np.float64(0.0)

In [64]:
p_beta1 

array([0.0011482])

¿Se rechaza la hipótesis nula? ¿Qué significa?

Sí se rechaza la hipótesis nula, ya que el valor de t para la pendiente (B1) fue aproximadamente 3.29 y el p-value fue cercano a 0.001, mucho menor al 5%, lo que indica que no es razonable pensar que la publicidad en periódico no tenga ningún efecto en las ventas. En otras palabras, existe evidencia estadística de que la inversión en newspaper tiene cierta relación con las ventas.

#### Conclusión

La regresión lineal entre la inversión en periódico y las ventas muestra que existe una relación estadísticamente significativa, ya que el valor t fue 3.29 y el p-value cercano a 0.001 permitió rechazar la hipótesis nula. Sin embargo, el efecto de la variable newspaper sobre las ventas resulta ser bastante débil, pues la pendiente obtenida (B1 = 0.054) indica que el aumento en ventas por cada unidad adicional de inversión en este medio es mucho menor en comparación con la televisión. En conclusión, aunque la publicidad en periódicos puede tener algún impacto en las ventas, su efecto es limitado y no representa un factor tan determinante como otros medios publicitarios.

### Regresión Lineal Radio

$$ \text{sales} = \beta_0 + \beta_1 (\text{radio}) $$

In [65]:
data = pd.read_csv("Advertising.csv")

In [66]:
x = data.iloc[:,2].values  #radio
y = data.iloc[:,4].values  #sales

In [67]:
X = np.column_stack([x])

In [68]:
lr = LinearRegression()

In [69]:
lr.fit(X, y)

In [70]:
beta0 = lr.intercept_

In [71]:
beta1 = lr.coef_ 

In [72]:
beta0

np.float64(9.311638095158283)

In [73]:
beta1

array([0.20249578])

$$ \text{sales} = 9.311 + 0.202 (\text{radio}) $$

In [74]:
y_pred = lr.predict(X)
n = len(y)
p = 2  
RSS = np.sum((y - y_pred)**2)
sigma2 = RSS / (n - p)

In [75]:
x = data.iloc[:,2].values
x_mean = np.mean(x)
Sxx = np.sum((x - x_mean)**2)

In [76]:
SE_beta1 = np.sqrt(sigma2 / Sxx)
SE_beta0 = np.sqrt(sigma2 * (1/n + (x_mean**2)/Sxx))

In [77]:
SE_beta1

np.float64(0.020411306360090635)

In [78]:
SE_beta0

np.float64(0.5629004962718711)

In [79]:
lr.intercept_ - 2*SE_beta0

np.float64(8.185837102614542)

In [80]:
lr.intercept_ + 2*SE_beta0

np.float64(10.437439087702025)

$$ [8.185,10.437] $$

In [81]:
lr.coef_  - 2*SE_beta1

array([0.16167317])

In [82]:
lr.coef_  + 2*SE_beta1

array([0.2433184])

$$ [0.167,0.243] $$

In [83]:
t_beta0 = (beta0 - 0) / SE_beta0

In [84]:
t_beta0

np.float64(16.542245311258217)

In [85]:
t_beta1 = (beta1 - 0) / SE_beta1

In [86]:
t_beta1

array([9.92076547])

In [87]:
from scipy import stats

In [88]:
p_beta0 = 2 * (1 - stats.t.cdf(np.abs(t_beta0), n-p))

In [89]:
p_beta1 = 2 * (1 - stats.t.cdf(np.abs(t_beta1), n-p))

In [90]:
p_beta0

np.float64(0.0)

In [91]:
p_beta1

array([0.])

¿Se rechaza la hipótesis nula? ¿Qué significa?

Sí se rechaza la hipótesis nula, ya que el valor de t para la pendiente (B1) fue aproximadamente 9.92 y el p-value resultó prácticamente igual a 0, lo que indica que no es razonable pensar que la publicidad en radio no tenga ningún efecto en las ventas. Esto significa que existe evidencia estadística muy fuerte de que la inversión en radio sí influye en las ventas

#### Conclusión

La regresión lineal entre la inversión en radio y las ventas muestra una relación positiva y estadísticamente muy significativa. El valor de t fue cercano a 9.92 y el p-value prácticamente 0, lo que permitió rechazar la hipótesis nula y confirmar que la publicidad en radio sí tiene un efecto real sobre las ventas. La pendiente obtenida (B1 = 0.202) indica que, en promedio, por cada unidad adicional invertida en radio, las ventas aumentan en 0.20 unidades, un efecto bastante mayor al observado en periódicos. En conclusión, la radio representa un medio publicitario con un impacto fuerte y confiable en las ventas, aunque menor en comparación con la televisión, lo que la convierte en un canal relevante dentro de la estrategia de inversión publicitaria.

## Regresión lineal múltiple

En lugar de hacer una regresión para cada factor independiente, quizás se puede extender el modelo para que tenga varios factores dentro:

$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon $$

Para nuestro ejemplo de publicidad:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

Utiliza la librería `statsmodels` para realizar la regresión. Por defecto la librería statsmodels no toma en cuenta el intercepto ($\beta_0$), por lo que se tendrá que agregar una columna de unos de tamaño *n* a la matriz X.

`import statsmodels.api as sm`

`ols = sm.OLS(Y, X)`

`results = ols.fit()`

`results.summary()`

In [92]:
import statsmodels.api as sm

In [93]:
x = data[["TV", "radio", "newspaper"]]

In [94]:
unos = np.ones([n,1])

In [95]:
X = np.column_stack([unos,x])

In [96]:
y = data["sales"]

In [97]:
ols = sm.OLS(y, X)

In [98]:
x

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4
...,...,...,...
195,38.2,3.7,13.8
196,94.2,4.9,8.1
197,177.0,9.3,6.4
198,283.6,42.0,66.2


In [99]:
results = ols.fit()

In [100]:
results.summary()

0,1,2,3
Dep. Variable:,sales,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,570.3
Date:,"Fri, 29 Aug 2025",Prob (F-statistic):,1.58e-96
Time:,10:51:18,Log-Likelihood:,-386.18
No. Observations:,200,AIC:,780.4
Df Residuals:,196,BIC:,793.6
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.9389,0.312,9.422,0.000,2.324,3.554
x1,0.0458,0.001,32.809,0.000,0.043,0.049
x2,0.1885,0.009,21.893,0.000,0.172,0.206
x3,-0.0010,0.006,-0.177,0.860,-0.013,0.011

0,1,2,3
Omnibus:,60.414,Durbin-Watson:,2.084
Prob(Omnibus):,0.0,Jarque-Bera (JB):,151.241
Skew:,-1.327,Prob(JB):,1.44e-33
Kurtosis:,6.332,Cond. No.,454.0


¿Qué diferencias puedes observar entre los *p-values* de una regresión múltiple y los encontrados en las regresiones simples? ¿Por qué crees que existen estas diferencias?

En las regresiones simples, TV, radio y newspaper salieron con p-values muy bajos (menores a 0.05), lo que indicaba que cada variable por separado parecía significativa. Sin embargo, en la regresión múltiple, donde se consideran las tres variables al mismo tiempo, TV y radio siguen teniendo p-values extremadamente pequeños (0.000), lo que confirma que son fuertes predictores de ventas, mientras que newspaper ahora presenta un p-value de 0.864, mucho mayor a 0.05, lo que significa que deja de ser significativo cuando se incluyen los otros dos medios en el modelo.

La razón es que en las regresiones simples se analiza cada variable de forma aislada, sin tomar en cuenta la influencia de las demás, lo que puede hacer que parezca importante una variable que en realidad está correlacionada con otra. En la regresión múltiple, en cambio, el modelo controla el efecto de cada variable para identificar cuál aporta información adicional y única, en este caso, newspaper comparte gran parte de su variabilidad explicada con TV y radio, por lo que pierde relevancia estadística. Esto ocurre porque al incluir todas las variables juntas el modelo distingue cuáles realmente agregan información nueva y cuáles no, y en este caso la publicidad en periódico no contribuye de manera adicional a explicar las ventas.

## Referencia

James, G., Witten, D., Hastie, T., Tibshirani, R.,, Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Cham: Springer. ISBN: 978-3-031-38746-3

In [101]:
import statsmodels.api as sm

In [102]:
x = data[["TV", "radio"]]

In [103]:
unos = np.ones([n,1])

In [104]:
x_tv = data["TV"].values.reshape(-1, 1)

In [105]:
x_radio = data["radio"].values.reshape(-1, 1)

In [106]:
x_tv_radio = x_tv*x_radio

In [107]:
X = np.column_stack([unos,x_tv, x_radio, x_tv_radio])

In [108]:
y = data["sales"]

In [109]:
ols = sm.OLS(y, X)

In [110]:
results = ols.fit()

In [111]:
results.summary()

0,1,2,3
Dep. Variable:,sales,R-squared:,0.968
Model:,OLS,Adj. R-squared:,0.967
Method:,Least Squares,F-statistic:,1963.0
Date:,"Fri, 29 Aug 2025",Prob (F-statistic):,6.68e-146
Time:,10:51:18,Log-Likelihood:,-270.14
No. Observations:,200,AIC:,548.3
Df Residuals:,196,BIC:,561.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,6.7502,0.248,27.233,0.000,6.261,7.239
x1,0.0191,0.002,12.699,0.000,0.016,0.022
x2,0.0289,0.009,3.241,0.001,0.011,0.046
x3,0.0011,5.24e-05,20.727,0.000,0.001,0.001

0,1,2,3
Omnibus:,128.132,Durbin-Watson:,2.224
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1183.719
Skew:,-2.323,Prob(JB):,9.089999999999998e-258
Kurtosis:,13.975,Cond. No.,18000.0


In [112]:
x_news = data["newspaper"].values.reshape(-1, 1)

In [113]:
x_tv_news = x_tv*x_news

In [114]:
x_radio_news = x_radio*x_news

In [115]:
X = np.column_stack([unos,x_tv, x_radio, x_news, x_tv_radio, x_tv_news, x_radio_news])

In [116]:
y = data["sales"]

In [117]:
ols = sm.OLS(y, X)

In [118]:
results = ols.fit()

In [119]:
results.summary()

0,1,2,3
Dep. Variable:,sales,R-squared:,0.969
Model:,OLS,Adj. R-squared:,0.968
Method:,Least Squares,F-statistic:,993.3
Date:,"Fri, 29 Aug 2025",Prob (F-statistic):,3.68e-142
Time:,10:51:18,Log-Likelihood:,-267.49
No. Observations:,200,AIC:,549.0
Df Residuals:,193,BIC:,572.1
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,6.4602,0.318,20.342,0.000,5.834,7.087
x1,0.0203,0.002,12.633,0.000,0.017,0.024
x2,0.0229,0.011,2.009,0.046,0.000,0.045
x3,0.0170,0.010,1.691,0.092,-0.003,0.037
x4,0.0011,5.72e-05,19.930,0.000,0.001,0.001
x5,-7.971e-05,3.58e-05,-2.227,0.027,-0.000,-9.12e-06
x6,-0.0001,0.000,-0.464,0.643,-0.001,0.000

0,1,2,3
Omnibus:,111.385,Durbin-Watson:,2.222
Prob(Omnibus):,0.0,Jarque-Bera (JB):,767.483
Skew:,-2.046,Prob(JB):,2.2e-167
Kurtosis:,11.681,Cond. No.,38000.0


## Addendum

Para calcular los *p-values* de los parámetros sin `statsmodels`:
1. Calcular RSS
2. Calcular RSE
3. `var_beta = np.linalg.inv(X.T @ X) * rse**2` (X con columna de intercepto)
4. `std_beta = np.sqrt(var_beta.diagonal())` El orden de los valores corresponde al orden de los factores en las columnas de la matriz $X$.
5. Calcular *estadístico t*
6. Calcular *p-value*