# Laboratorio de regresión - 3

## Significancia de factores

|                |   |
:----------------|---|
| **Nombre**     | Michelle Trigo  |
| **Fecha**      | 28/08/2025  |
| **Expediente** | 745567  |

Descarga el archivo de publicidad y carga los datos (Advertising.csv).

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv("Advertising.csv")
matriz = df.to_numpy()

**¿Hay alguna relación entre el presupuesto para publicidad y las ventas?**

Nuestra primera meta debe ser determinar si hay evidencia en los datos de que haya una asociación entre estas variables.

- ¿Por qué? ¿Qué resultaría si nos diéramos cuenta de la falta de relación entre el presupuesto de publicidad y las ventas?

Si sí hay relación, podemos usar esa información para invertir mejor y vender más; pero si no la hay, significaría que el gasto en publicidad no está dando resultados y sería mejor cambiar de estrategia o usar ese presupuesto en otra cosa.


**¿Qué tan fuerte es esta relación?**
Asumiendo que existe esta relación, ¿nos sirve conocer el impacto que tiene invertir en publicidad en las ventas?

La fuerza de la relación nos dice qué tanto cambian las ventas cuando se gasta en publicidad. Conocerlo sirve para saber cuánto ayuda cada peso invertido a vender más y decidir en qué medio conviene gastar más o menos.

**¿Cuáles medios están asociados con las ventas? ¿Qué tan grande es la asociación entre un medio específico y las ventas?**

Hay 3 medios distintos en los datos. ¿Sirve invertir en los 3? ¿Conviene más invertir sólo en uno?

**¿Qué tan seguros estamos de que podríamos predecir ventas futuras?**

**¿La relación es lineal?**

**¿Hay sinergia entre estos medios?**

Puede ser que gastar \\$50,000 en publicidad y otros \\$50,000 en radio es mejor opción que gastar \\$100,000 en televisión. A esto le llamamos efecto de interacción.

Podemos usar regresión lineal para responder todas estas preguntas.

Realiza una regresión lineal:

$$ \text{ventas} \approx \beta_0 + (\beta_1)(\text{TV})$$

In [3]:
df

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9
...,...,...,...,...,...
195,196,38.2,3.7,13.8,7.6
196,197,94.2,4.9,8.1,9.7
197,198,177.0,9.3,6.4,12.8
198,199,283.6,42.0,66.2,25.5


In [29]:
# TV
X = matriz[:, 1].reshape(-1, 1) 
y = matriz[:, 4].reshape(-1, 1)
lr=LinearRegression()
lr.fit(X,y)

y_pred = lr.predict(X)

b0=lr.intercept_
b1=lr.coef_

print("Intercepto",b0,"Coeficientes",b1)

Intercepto [7.03259355] Coeficientes [[0.04753664]]


### Verificando la precisión de nuestros coeficientes estimados

Recuerda que en el mundo real hay ruidos y errores de medición. Siempre se asume que la verdadera relación entre $X$ y $Y$ es $$Y = \beta_0 + \beta_1 X + \epsilon$$

Se asume que el término de error es independiente de $X$ (el error siempre es el mismo sin importar el valor de $X$). Este modelo describe a la *línea de regresión de la población*, que es la mejor aproximación de la verdadera relación entre $X$ y $Y$. Cuando usamos mínimos cuadrados encontramos la *línea de mínimos cuadrados*.

¿Cuál es la diferencia entre población y muestra?

La población es el grupo completo que queremos estudiar, y la muestra es una porción representativa que usamos para sacar conclusiones sin tener que medir todo el grupo.

¿Cuál crees que sea la diferencia entre hacer una regresión con todos los datos de la población y una muestra de ella?

Si usamos toda la población, los resultados, en este caso, describirían exactamente la relación entre publicidad y ventas, sin error de estimación. En cambio, con una muestra, podemos estimar la relación, pero siempre habrá un poco de incertidumbre porque no estamos usando todos los datos.

La línea de regresión de la población no se puede observar. El concepto de comparar estas líneas es una extensión natural del acercamiento estadístico estándar de usar información de una muestra para estimar características de una población grande.

Imagina que quieres encontrar la altura promedio de un mexicano $\mu$. Medir a todos y cada uno de los mexicanos en situaciones similares, con la misma regla, mismo operador, y otras incontables formas de minimizar la variación de la medida es una tarea imposible. Lo que podemos asumir es que $\hat{\mu} = \bar{y}$. La media poblacional y la media muestral son diferentes, pero la media muestral es usualmente un buen estimado.

De la misma manera, como no contamos con el 100% de la información para hacer una regresión, los coeficientes $\beta_0$ y $\beta_1$ son desconocidos. Podemos estimarlos usando mínimos cuadrados, encontrando $\hat{\beta_0}$ y $\hat{\beta_1}$. Puede que las muestras que tengamos en ese momento estén un poco por encima de la media, pero otras muestras en otro momento puede que estén debajo de la media. En general, esperamos que el promedio de las aproximaciones $\hat{\mu}$ aproxime a $\mu$.

Esto lleva a la pregunta: ¿qué tan cercanos son nuestros coeficientes estimados a los verdaderos coeficientes? Utilizamos el concepto de error estándar para evaluar esto.

$$ \text{Var}(\hat{\mu})=\text{SE}(\hat{\mu})^2 = \frac{\sigma^2}{n} $$

Donde $\sigma$ es la desviación estándar de cada una de las observaciones $y_i$ de $Y$. El error estándar nos dice la cantidad promedio que el estimado difiere del valor verdadero. Podemos ver en la fórmula que entre más observaciones tengamos el error se hace más pequeño. Las fórmulas para errores estándar de $\hat{\beta_0}$ y $\hat{\beta_1}$ son:

$$ \text{SE}(\hat{\beta_0})^2 = \sigma^2 [\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}]$$

$$ \text{SE}(\hat{\beta_1})^2 = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}$$

$$ \sigma^2 = \text{Var}(\epsilon) = \text{RSE}^2 = \frac{\text{RSS}}{n-p}$$

Para que estas fórmulas sean validas asumimos que los errores $\epsilon_i$ tienen varianza común $\sigma^2$ y que no están correlacionados.

Calcula los errores estándar de los coeficientes

In [30]:
# TV
n = len(X)

x_m = np.mean(X)
y_m = np.mean(y)

RSS = np.sum((y_pred-y) ** 2)

p = 2  
sigma2 = RSS / (n - p)

SE_beta1 = np.sqrt(sigma2 / np.sum((X - x_m) ** 2))
SE_beta0 = np.sqrt(sigma2 * (1/n + x_m**2 / np.sum((X - x_m) ** 2)))

print("SE (B0):",SE_beta0, "SE(B1):",SE_beta1)

SE (B0): 0.4578429402734785 SE(B1): 0.0026906071877968707


Estos errores se pueden usar para calcular intervalos de confianza. Un intervalo de confianza del $95\%$ se define como un rango de valores en el cuál se encuentra el desconocido valor verdadero con un $95\%$ de probabilidad.

Otra forma de verlo es que si tomamos muestras repetidas y construimos un intervalo de confianza para cada una, el $95\%$ de los intervalos creados van a contener el valor verdadero. Para la regresión el intervalo de confianza del $95\%$ toma la forma:

$$ \hat{\beta_j} \pm 2\text{SE}(\hat{\beta_j})$$

Calcula los intervalos de confianza para los coeficientes estimados:

**Intervalo B0**

In [32]:
print(b0-2*SE_beta0,"-",b0+2*SE_beta0)

[6.11690767] - [7.94827943]


**Intervalo B1**

In [33]:
print(b1-2*SE_beta1,"-",b1+2*SE_beta1)

[[0.04215543]] - [[0.05291785]]


Los errores estándar también se usan para realizar pruebas de hipótesis. La prueba de hipótesis más común es probar la hipótesis nula de:

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$

contra la hipótesis alternativa:
$$ H_a: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

Explica con tus palabras el significado de la hipótesis nula y la hipótesis alternativa.

La hipótesis nula dice que no hay cambio o relación entre las cosas que estamos estudiando.
La hipótesis alternativa dice que sí hay cambio o relación.

Para probar la hipótesis nula debemos determinar si nuestro estimado $\hat{\beta_1}$ de $\beta_1$ está lo suficientemente alejado de cero para que podamos decir con confianza que este valor no es cero. 

¿Qué tan lejos? Depende de qué tanta confianza tengamos en el estimado encontrado. Si nuestro error estándar es pequeño y nuestro estimado está alejado de cero podríamos decir que hay muy poca probabilidad de que el valor verdadero sea 0. En cambio, si nuestro error estándar es grande y nuestro estimado está muy cerca de cero, entonces podrías ser que el valor verdadero sea cero y que no haya relación entre las variables.

Se calcula un *estadístico t* dado por
$$ t = \frac{\hat{\beta_j} - \mu}{\text{SE}(\hat{\beta_j})} $$

donde $\mu$ es el valor contra el que queremos probar.

Calcula el estadístico t para tus coeficientes estimados, usando como referencia la prueba de hipótesis.

In [13]:
from scipy import stats
p = 2  # beta0 y beta1

In [16]:
# TV
t_beta1 = b1 / SE_beta1
t_beta0 = b0 / SE_beta0

print(" t B0 =", t_beta0)
print(" t B1=", t_beta1)

 t B0 = [15.36027517]
 t B1= [[17.6676256]]


La distribución t tiene forma de campana y se parece bastante a la distribución normal cuando $n > 30$. Ya sólo es cuestión de calcular la probabilidad de observar cualquier número tal que su valor absoluto sea igual o mayor que el valor absoluto del estadístico t calculado. En otras palabras:
$$ P(|x| \geq |t|) $$

A esta probabilidad la llamamos *p-value*. Un *p-value* pequeño indica que es poco probable que exista por puro azar una relación significativa entre predictor y respuesta, en caso de que no haya una asociación real entre predictor y respuesta. En otras palabras, el *p-value* te dice la probabilidad de que parezca que hay relación cuando no la hay.

Si el *p-value* es pequeño, inferimos que sí hay una asociación entre el predictor y la respuesta, y **rechazamos la hipótesis nula**.
  

¿Qué tan pequeño? Depende de la aplicación. Un valor muy común es del $5\%$.

Utiliza el siguiente código para calcular el *p-value* para tus coeficientes

`from scipy import stats`

`p_bj = 2*(1 - stats.t.cdf(np.abs(t_bj), n-p))`

In [17]:
from scipy import stats

In [34]:
p_bj0 = 2*(1 - stats.t.cdf(np.abs(t_beta0), n-p))
p_bj1=2*(1 - stats.t.cdf(np.abs(t_beta1), n-p))

In [35]:
p_bj1= float(p_bj1) 
p_bj1

0.0

In [36]:
p_bj0= float(p_bj0) 
p_bj0

0.0

¿Se rechaza la hipótesis nula? ¿Qué significa?

Como el p-valor es 0, significa que es extremadamente improbable que la hipótesis nula sea cierta, así que la rechazamos.
Lo que significa que sí hay relación entre  X y Y, que en este caso se traduce a que sí hay relación entre la publicidad en TV y las ventas. 

Realiza otras dos regresiones. Ya tienes hecha la regresión de ventas dado el gasto en publicidad de TV. Realiza la regresión para gastos en radio y gastos en periódico. Organiza las respuestas para que debajo de esta celda se tenga:
- Título de regresión
- Coeficientes estimados
- Errores estándar de los coeficientes
- Intervalos de confianza
- Estadísticos t
- p-values
- Observaciones

### Newspaper

In [37]:
# Regresión
X = matriz[:, 3].reshape(-1, 1) 
y = matriz[:, 4].reshape(-1, 1)
lr=LinearRegression()
lr.fit(X,y)

y_pred = lr.predict(X)

In [38]:
# Coeficientes estimados
b0=lr.intercept_
b1=lr.coef_
print("Intercepto",b0,"Coeficientes",b1)

Intercepto [12.35140707] Coeficientes [[0.0546931]]


In [39]:
# Errores estándar
n = len(X)

x_m = np.mean(X)
y_m = np.mean(y)

RSS = np.sum((y_pred-y) ** 2)

p = 2  
sigma2 = RSS / (n - p)

# 4. Errores estándar
SE_beta1 = np.sqrt(sigma2 / np.sum((X - x_m) ** 2))
SE_beta0 = np.sqrt(sigma2 * (1/n + x_m**2 / np.sum((X - x_m) ** 2)))

print("SE (B0):",SE_beta0, "SE(B1):",SE_beta1)

SE (B0): 0.6214201876094345 SE(B1): 0.016575721876358165


In [41]:
# Intervalos de confianza
print("B0:",b0-2*SE_beta0,"-",b0+2*SE_beta0)
print("B1:",b1-2*SE_beta1,"-",b1+2*SE_beta1)

B0: [11.10856669] - [13.59424744]
B1: [[0.02154165]] - [[0.08784454]]


In [42]:
# Estadísticos t
t_beta1 = b1 / SE_beta1
t_beta0 = b0 / SE_beta0

print(" t B0 =", t_beta0)
print(" t B1=", t_beta1)

 t B0 = [19.87609562]
 t B1= [[3.29959074]]


In [43]:
# p-values
p_bj0 = 2*(1 - stats.t.cdf(np.abs(t_beta0), n-p))
p_bj1=2*(1 - stats.t.cdf(np.abs(t_beta1), n-p))
p_bj0= float(p_bj0) 
p_bj1= float(p_bj1) 
print("P-values:", "B0:",p_bj0,"B1:",p_bj1)

P-values: B0: 0.0 B1: 0.0011481958688881466


**Observaciones**
La intercepción B0 = 12.35 significa que sin invertir en publicidad, se esperarían alrededor de 12.35 unidades de ventas, y este valor es estadísticamente significativo. El B1 = 0.0547 significa que por cada unidad adicional de inversión, las ventas aumentan en promedio 0.0547 unidades; su p-value (0.0011) confirma que es significativo. Sí hay relación entre la publicidad en el periódico y las ventas. 


### Radio

In [44]:
# Regresión
X = matriz[:, 2].reshape(-1, 1) 
y = matriz[:, 4].reshape(-1, 1)
lr=LinearRegression()
lr.fit(X,y)

y_pred = lr.predict(X)

In [45]:
# Coeficientes estimados
b0=lr.intercept_
b1=lr.coef_
print("Intercepto",b0,"Coeficientes",b1)

Intercepto [9.3116381] Coeficientes [[0.20249578]]


In [46]:
# Errores estándar
n = len(X)

x_m = np.mean(X)
y_m = np.mean(y)

RSS = np.sum((y_pred-y) ** 2)

p = 2  
sigma2 = RSS / (n - p)

# 4. Errores estándar
SE_beta1 = np.sqrt(sigma2 / np.sum((X - x_m) ** 2))
SE_beta0 = np.sqrt(sigma2 * (1/n + x_m**2 / np.sum((X - x_m) ** 2)))

print("SE (B0):",SE_beta0, "SE(B1):",SE_beta1)

SE (B0): 0.5629004962718711 SE(B1): 0.020411306360090635


In [47]:
# Intervalos de confianza
print("B0:",b0-2*SE_beta0,"-",b0+2*SE_beta0)
print("B1:",b1-2*SE_beta1,"-",b1+2*SE_beta1)

B0: [8.1858371] - [10.43743909]
B1: [[0.16167317]] - [[0.2433184]]


In [48]:
# Estadísticos t
t_beta1 = b1 / SE_beta1
t_beta0 = b0 / SE_beta0

print(" t B0 =", t_beta0)
print(" t B1=", t_beta1)

 t B0 = [16.54224531]
 t B1= [[9.92076547]]


In [49]:
# p-values
p_bj0 = 2*(1 - stats.t.cdf(np.abs(t_beta0), n-p))
p_bj1=2*(1 - stats.t.cdf(np.abs(t_beta1), n-p))
p_bj0= float(p_bj0) 
p_bj1= float(p_bj1) 
print("P-values:", "B0:",p_bj0,"B1:",p_bj1)

P-values: B0: 0.0 B1: 0.0


**Observaciones**
La intercepción B0 = 9.3116381 significa que sin invertir en publicidad, se esperarían alrededor de 9.31 unidades de ventas, y este valor es estadísticamente significativo (p-value=0). El B1 = 0.20249578 significa que por cada unidad adicional de inversión, las ventas aumentan en promedio 0.20249578 unidades; su p-value (0.0) confirma que es significativo. Sí hay relación entre la publicidad en el radio y las ventas. 

## Regresión lineal múltiple

En lugar de hacer una regresión para cada factor independiente, quizás se puede extender el modelo para que tenga varios factores dentro:

$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon $$

Para nuestro ejemplo de publicidad:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

Utiliza la librería `statsmodels` para realizar la regresión. Por defecto la librería statsmodels no toma en cuenta el intercepto ($\beta_0$), por lo que se tendrá que agregar una columna de unos de tamaño *n* a la matriz X.

`import statsmodels.api as sm`

`ols = sm.OLS(Y, X)`

`results = ols.fit()`

`results.summary()`

In [50]:
import statsmodels.api as sm

In [51]:
matriz[:, 0] = 1
X = matriz[:, :-1]

In [52]:
X

array([[  1. , 230.1,  37.8,  69.2],
       [  1. ,  44.5,  39.3,  45.1],
       [  1. ,  17.2,  45.9,  69.3],
       [  1. , 151.5,  41.3,  58.5],
       [  1. , 180.8,  10.8,  58.4],
       [  1. ,   8.7,  48.9,  75. ],
       [  1. ,  57.5,  32.8,  23.5],
       [  1. , 120.2,  19.6,  11.6],
       [  1. ,   8.6,   2.1,   1. ],
       [  1. , 199.8,   2.6,  21.2],
       [  1. ,  66.1,   5.8,  24.2],
       [  1. , 214.7,  24. ,   4. ],
       [  1. ,  23.8,  35.1,  65.9],
       [  1. ,  97.5,   7.6,   7.2],
       [  1. , 204.1,  32.9,  46. ],
       [  1. , 195.4,  47.7,  52.9],
       [  1. ,  67.8,  36.6, 114. ],
       [  1. , 281.4,  39.6,  55.8],
       [  1. ,  69.2,  20.5,  18.3],
       [  1. , 147.3,  23.9,  19.1],
       [  1. , 218.4,  27.7,  53.4],
       [  1. , 237.4,   5.1,  23.5],
       [  1. ,  13.2,  15.9,  49.6],
       [  1. , 228.3,  16.9,  26.2],
       [  1. ,  62.3,  12.6,  18.3],
       [  1. , 262.9,   3.5,  19.5],
       [  1. , 142.9,  29.3,  12.6],
 

In [53]:
ols = sm.OLS(y, X)

In [54]:
results = ols.fit()

In [55]:
results.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,570.3
Date:,"Fri, 29 Aug 2025",Prob (F-statistic):,1.58e-96
Time:,00:16:16,Log-Likelihood:,-386.18
No. Observations:,200,AIC:,780.4
Df Residuals:,196,BIC:,793.6
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.9389,0.312,9.422,0.000,2.324,3.554
x1,0.0458,0.001,32.809,0.000,0.043,0.049
x2,0.1885,0.009,21.893,0.000,0.172,0.206
x3,-0.0010,0.006,-0.177,0.860,-0.013,0.011

0,1,2,3
Omnibus:,60.414,Durbin-Watson:,2.084
Prob(Omnibus):,0.0,Jarque-Bera (JB):,151.241
Skew:,-1.327,Prob(JB):,1.44e-33
Kurtosis:,6.332,Cond. No.,454.0


¿Qué diferencias puedes observar entre los *p-values* de una regresión múltiple y los encontrados en las regresiones simples? ¿Por qué crees que existen estas diferencias?

En el modelo de regresión múltiple se muestra que la publicidad en TV y en radio aumenta significativamente las ventas, mientras que la publicidad en periódicos no tiene impacto. 
Según la regresión simple, la publicidad en periódicos sí influía en las ventas, pero al tomar en cuenta las otras variables, se encontró que su influencia no era tan significativa.

En la regresión simple, el p-value indica si una variable por sí sola afecta las ventas, mientras que en la regresión múltiple muestra si una variable afecta las ventas después de tener en cuenta las otras variables. Por eso el p-value cambió, pues la variable que parecía importante sola dejó de serlo cuando se consideraron las demás.


## Referencia

James, G., Witten, D., Hastie, T., Tibshirani, R.,, Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Cham: Springer. ISBN: 978-3-031-38746-3

## Addendum

Para calcular los *p-values* de los parámetros sin `statsmodels`:
1. Calcular RSS
2. Calcular RSE
3. `var_beta = np.linalg.inv(X.T @ X) * rse**2` (X con columna de intercepto)
4. `std_beta = np.sqrt(var_beta.diagonal())` El orden de los valores corresponde al orden de los factores en las columnas de la matriz $X$.
5. Calcular *estadístico t*
6. Calcular *p-value*

##### Modelo TV RADIO TV*RADIO

In [80]:
X

array([[  1. , 230.1,  37.8,  69.2],
       [  1. ,  44.5,  39.3,  45.1],
       [  1. ,  17.2,  45.9,  69.3],
       [  1. , 151.5,  41.3,  58.5],
       [  1. , 180.8,  10.8,  58.4],
       [  1. ,   8.7,  48.9,  75. ],
       [  1. ,  57.5,  32.8,  23.5],
       [  1. , 120.2,  19.6,  11.6],
       [  1. ,   8.6,   2.1,   1. ],
       [  1. , 199.8,   2.6,  21.2],
       [  1. ,  66.1,   5.8,  24.2],
       [  1. , 214.7,  24. ,   4. ],
       [  1. ,  23.8,  35.1,  65.9],
       [  1. ,  97.5,   7.6,   7.2],
       [  1. , 204.1,  32.9,  46. ],
       [  1. , 195.4,  47.7,  52.9],
       [  1. ,  67.8,  36.6, 114. ],
       [  1. , 281.4,  39.6,  55.8],
       [  1. ,  69.2,  20.5,  18.3],
       [  1. , 147.3,  23.9,  19.1],
       [  1. , 218.4,  27.7,  53.4],
       [  1. , 237.4,   5.1,  23.5],
       [  1. ,  13.2,  15.9,  49.6],
       [  1. , 228.3,  16.9,  26.2],
       [  1. ,  62.3,  12.6,  18.3],
       [  1. , 262.9,   3.5,  19.5],
       [  1. , 142.9,  29.3,  12.6],
 

In [81]:
X = matriz[:, :-1]


In [83]:
X=X[:, :-1]
X

array([[  1. , 230.1,  37.8],
       [  1. ,  44.5,  39.3],
       [  1. ,  17.2,  45.9],
       [  1. , 151.5,  41.3],
       [  1. , 180.8,  10.8],
       [  1. ,   8.7,  48.9],
       [  1. ,  57.5,  32.8],
       [  1. , 120.2,  19.6],
       [  1. ,   8.6,   2.1],
       [  1. , 199.8,   2.6],
       [  1. ,  66.1,   5.8],
       [  1. , 214.7,  24. ],
       [  1. ,  23.8,  35.1],
       [  1. ,  97.5,   7.6],
       [  1. , 204.1,  32.9],
       [  1. , 195.4,  47.7],
       [  1. ,  67.8,  36.6],
       [  1. , 281.4,  39.6],
       [  1. ,  69.2,  20.5],
       [  1. , 147.3,  23.9],
       [  1. , 218.4,  27.7],
       [  1. , 237.4,   5.1],
       [  1. ,  13.2,  15.9],
       [  1. , 228.3,  16.9],
       [  1. ,  62.3,  12.6],
       [  1. , 262.9,   3.5],
       [  1. , 142.9,  29.3],
       [  1. , 240.1,  16.7],
       [  1. , 248.8,  27.1],
       [  1. ,  70.6,  16. ],
       [  1. , 292.9,  28.3],
       [  1. , 112.9,  17.4],
       [  1. ,  97.2,   1.5],
       [  

In [84]:
X= np.column_stack([X, X[:,1] * X[:,2]])
X

array([[1.000000e+00, 2.301000e+02, 3.780000e+01, 8.697780e+03],
       [1.000000e+00, 4.450000e+01, 3.930000e+01, 1.748850e+03],
       [1.000000e+00, 1.720000e+01, 4.590000e+01, 7.894800e+02],
       [1.000000e+00, 1.515000e+02, 4.130000e+01, 6.256950e+03],
       [1.000000e+00, 1.808000e+02, 1.080000e+01, 1.952640e+03],
       [1.000000e+00, 8.700000e+00, 4.890000e+01, 4.254300e+02],
       [1.000000e+00, 5.750000e+01, 3.280000e+01, 1.886000e+03],
       [1.000000e+00, 1.202000e+02, 1.960000e+01, 2.355920e+03],
       [1.000000e+00, 8.600000e+00, 2.100000e+00, 1.806000e+01],
       [1.000000e+00, 1.998000e+02, 2.600000e+00, 5.194800e+02],
       [1.000000e+00, 6.610000e+01, 5.800000e+00, 3.833800e+02],
       [1.000000e+00, 2.147000e+02, 2.400000e+01, 5.152800e+03],
       [1.000000e+00, 2.380000e+01, 3.510000e+01, 8.353800e+02],
       [1.000000e+00, 9.750000e+01, 7.600000e+00, 7.410000e+02],
       [1.000000e+00, 2.041000e+02, 3.290000e+01, 6.714890e+03],
       [1.000000e+00, 1.9

In [85]:
ols = sm.OLS(y, X)

In [86]:
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.968
Model:,OLS,Adj. R-squared:,0.967
Method:,Least Squares,F-statistic:,1963.0
Date:,"Thu, 28 Aug 2025",Prob (F-statistic):,6.68e-146
Time:,17:44:31,Log-Likelihood:,-270.14
No. Observations:,200,AIC:,548.3
Df Residuals:,196,BIC:,561.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,6.7502,0.248,27.233,0.000,6.261,7.239
x1,0.0191,0.002,12.699,0.000,0.016,0.022
x2,0.0289,0.009,3.241,0.001,0.011,0.046
x3,0.0011,5.24e-05,20.727,0.000,0.001,0.001

0,1,2,3
Omnibus:,128.132,Durbin-Watson:,2.224
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1183.719
Skew:,-2.323,Prob(JB):,9.089999999999998e-258
Kurtosis:,13.975,Cond. No.,18000.0


La publicidad en TV y radio aumenta las ventas, y además invertir en ambos al mismo tiempo tiene un efecto extra positivo gracias a la interacción.

##### Modelo TV - Radio - Newspaper - TV*Radio - TV*Newspaper - Radio*Newspaper

In [87]:
matriz

array([[  1. , 230.1,  37.8,  69.2,  22.1],
       [  1. ,  44.5,  39.3,  45.1,  10.4],
       [  1. ,  17.2,  45.9,  69.3,   9.3],
       [  1. , 151.5,  41.3,  58.5,  18.5],
       [  1. , 180.8,  10.8,  58.4,  12.9],
       [  1. ,   8.7,  48.9,  75. ,   7.2],
       [  1. ,  57.5,  32.8,  23.5,  11.8],
       [  1. , 120.2,  19.6,  11.6,  13.2],
       [  1. ,   8.6,   2.1,   1. ,   4.8],
       [  1. , 199.8,   2.6,  21.2,  10.6],
       [  1. ,  66.1,   5.8,  24.2,   8.6],
       [  1. , 214.7,  24. ,   4. ,  17.4],
       [  1. ,  23.8,  35.1,  65.9,   9.2],
       [  1. ,  97.5,   7.6,   7.2,   9.7],
       [  1. , 204.1,  32.9,  46. ,  19. ],
       [  1. , 195.4,  47.7,  52.9,  22.4],
       [  1. ,  67.8,  36.6, 114. ,  12.5],
       [  1. , 281.4,  39.6,  55.8,  24.4],
       [  1. ,  69.2,  20.5,  18.3,  11.3],
       [  1. , 147.3,  23.9,  19.1,  14.6],
       [  1. , 218.4,  27.7,  53.4,  18. ],
       [  1. , 237.4,   5.1,  23.5,  12.5],
       [  1. ,  13.2,  15.9,  49

In [88]:
W = matriz[:, :-1]
W

array([[  1. , 230.1,  37.8,  69.2],
       [  1. ,  44.5,  39.3,  45.1],
       [  1. ,  17.2,  45.9,  69.3],
       [  1. , 151.5,  41.3,  58.5],
       [  1. , 180.8,  10.8,  58.4],
       [  1. ,   8.7,  48.9,  75. ],
       [  1. ,  57.5,  32.8,  23.5],
       [  1. , 120.2,  19.6,  11.6],
       [  1. ,   8.6,   2.1,   1. ],
       [  1. , 199.8,   2.6,  21.2],
       [  1. ,  66.1,   5.8,  24.2],
       [  1. , 214.7,  24. ,   4. ],
       [  1. ,  23.8,  35.1,  65.9],
       [  1. ,  97.5,   7.6,   7.2],
       [  1. , 204.1,  32.9,  46. ],
       [  1. , 195.4,  47.7,  52.9],
       [  1. ,  67.8,  36.6, 114. ],
       [  1. , 281.4,  39.6,  55.8],
       [  1. ,  69.2,  20.5,  18.3],
       [  1. , 147.3,  23.9,  19.1],
       [  1. , 218.4,  27.7,  53.4],
       [  1. , 237.4,   5.1,  23.5],
       [  1. ,  13.2,  15.9,  49.6],
       [  1. , 228.3,  16.9,  26.2],
       [  1. ,  62.3,  12.6,  18.3],
       [  1. , 262.9,   3.5,  19.5],
       [  1. , 142.9,  29.3,  12.6],
 

In [89]:
W= np.column_stack([W, W[:,1] * W[:,2]])
W= np.column_stack([W, W[:,1] * W[:,3]])
W= np.column_stack([W, W[:,2] * W[:,3]])
W

array([[1.000000e+00, 2.301000e+02, 3.780000e+01, ..., 8.697780e+03,
        1.592292e+04, 2.615760e+03],
       [1.000000e+00, 4.450000e+01, 3.930000e+01, ..., 1.748850e+03,
        2.006950e+03, 1.772430e+03],
       [1.000000e+00, 1.720000e+01, 4.590000e+01, ..., 7.894800e+02,
        1.191960e+03, 3.180870e+03],
       ...,
       [1.000000e+00, 1.770000e+02, 9.300000e+00, ..., 1.646100e+03,
        1.132800e+03, 5.952000e+01],
       [1.000000e+00, 2.836000e+02, 4.200000e+01, ..., 1.191120e+04,
        1.877432e+04, 2.780400e+03],
       [1.000000e+00, 2.321000e+02, 8.600000e+00, ..., 1.996060e+03,
        2.019270e+03, 7.482000e+01]])

In [90]:
ols = sm.OLS(y, W)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.969
Model:,OLS,Adj. R-squared:,0.968
Method:,Least Squares,F-statistic:,993.3
Date:,"Thu, 28 Aug 2025",Prob (F-statistic):,3.68e-142
Time:,17:48:02,Log-Likelihood:,-267.49
No. Observations:,200,AIC:,549.0
Df Residuals:,193,BIC:,572.1
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,6.4602,0.318,20.342,0.000,5.834,7.087
x1,0.0203,0.002,12.633,0.000,0.017,0.024
x2,0.0229,0.011,2.009,0.046,0.000,0.045
x3,0.0170,0.010,1.691,0.092,-0.003,0.037
x4,0.0011,5.72e-05,19.930,0.000,0.001,0.001
x5,-7.971e-05,3.58e-05,-2.227,0.027,-0.000,-9.12e-06
x6,-0.0001,0.000,-0.464,0.643,-0.001,0.000

0,1,2,3
Omnibus:,111.385,Durbin-Watson:,2.222
Prob(Omnibus):,0.0,Jarque-Bera (JB):,767.483
Skew:,-2.046,Prob(JB):,2.2e-167
Kurtosis:,11.681,Cond. No.,38000.0


La publicidad en TV y radio tiene un efecto positivo y significativo en las ventas.

La combinación de TV y radio potencia los resultados, pero combinar TV con periódico puede tener un efecto negativo.