# Laboratorio de regresión - 3

### Significancia de factores

|                |   |
:----------------|---|
| **Nombre**     Sara Hernandez Ochoa|   |
| **Fecha**     25/08/2025 |   |
| **Expediente*750733* |   |

Descarga el archivo de publicidad y carga los datos (Advertising.csv).

In [87]:
import pandas as pd
import numpy as np  
from sklearn.linear_model import LinearRegression
from scipy import stats

In [88]:
read = pd.read_csv('Advertising.csv')

In [89]:
read.head()


Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


- TV: Dinero invertido en TV

- Nuestra primera meta debe ser determinar si hay evidencia en los datos de que haya una asociación entre estas variables. Si existe esa asociación, podremos decir que la publicidad realmente tiene impacto en las ventas y vale la pena analizar qué medio es más efectivo.

Realiza una regresión lineal:

$$ \text{ventas} \approx \beta_0 + (\beta_1)(\text{TV})$$
es un aproximado de: 
$$ \text{ventas} \ = f(x)+ E $$

# TV

In [117]:
df_TV = pd.read_csv('Advertising.csv')
X_TV = df[['TV']]
y_TV = df['sales']

lr = LinearRegression()
lr.fit(X_TV, y_TV)

print(f'Intercepto (beta_0): {lr.intercept_:.4f}')
print(f'Coeficiente TV (beta_1): {lr.coef_[0]:.4f}')

Intercepto (beta_0): 7.0326
Coeficiente TV (beta_1): 0.0475


### Verificando la precisión de nuestros coeficientes estimados

Recuerda que en el mundo real hay ruidos y errores de medición. Siempre se asume que la verdadera relación entre $X$ y $Y$ es $$Y = \beta_0 + \beta_1 X + \epsilon$$

Se asume que el término de error es independiente de $X$ (el error siempre es el mismo sin importar el valor de $X$). Este modelo describe a la *línea de regresión de la población*, que es la mejor aproximación de la verdadera relación entre $X$ y $Y$. Cuando usamos mínimos cuadrados encontramos la *línea de mínimos cuadrados*.

- **¿Cuál es la diferencia entre población y muestra?**

Los parámetros (β₀, β₁) son fijos y representan la verdadera relación. En este caso sería “todas las posibles combinaciones” de presupuesto en publicidad y las ventas que se generan, aunque no la conocemos directamente.

En la muestra, los coeficientes que calculamos (intercepto y pendiente) son estimadores de esos parámetros. La muestra es lo que sí tenemos en el archivo, los gastos en TV, radio, newspaper y ventas. La usamos para estimar la relación de la población con la regresión, entendiendo que los coeficientes son aproximaciones.

- **¿Cuál crees que sea la diferencia entre hacer una regresión con todos los datos de la población y una muestra de ella?**

Si hiciera la regresión con todos los datos de la población, obtendría los coeficientes reales que muestran la relación exacta entre publicidad y ventas. Sería la verdad completa, sin margen de error, y la línea de regresión reflejaría exactamente cómo influyen TV, radio y newspaper en las ventas.

Si hago la regresión con solo la muestra, los coeficientes son aproximaciones. Pueden cambiar un poco según qué datos estén en la muestra, y siempre hay un margen de error porque no estoy viendo todos los casos posibles. ´Por eso son importantes los intervalos de confianza, para saber que tan confiables son.

La línea de regresión de la población no se puede observar. El concepto de comparar estas líneas es una extensión natural del acercamiento estadístico estándar de usar información de una muestra para estimar características de una población grande.

### Error estandar:

$$ \text{Var}(\hat{\mu})=\text{SE}(\hat{\mu})^2 = \frac{\sigma^2}{n} $$

Donde $\sigma$ es la desviación estándar de cada una de las observaciones $y_i$ de $Y$. El error estándar nos dice la cantidad promedio que el estimado difiere del valor verdadero. Podemos ver en la fórmula que entre más observaciones tengamos el error se hace más pequeño. Las fórmulas para errores estándar de $\hat{\beta_0}$ y $\hat{\beta_1}$ son:

$$ \text{SE}(\hat{\beta_0})^2 = \sigma^2 [\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}]$$

$$ \text{SE}(\hat{\beta_1})^2 = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}$$

$$ \sigma^2 = \text{Var}(\epsilon) = \text{RSE}^2 = \frac{\text{RSS}}{n-p}$$

Para que estas fórmulas sean validas asumimos que los errores $\epsilon_i$ tienen varianza común $\sigma^2$ y que no están correlacionados.

Calcula los errores estándar de los coeficientes

In [118]:
pd.read_csv('Advertising.csv')
X_TV = df['TV'].values
y_TV = df['sales'].values
n_TV = len(X_TV)
p_TV = 2

In [119]:
lr.fit(X_TV.reshape(-1, 1), y_TV)
beta_0_TV = lr.intercept_
beta_1_TV = lr.coef_[0]

In [120]:
yTV_pred = lr.predict(X_TV.reshape(-1, 1))
RSS_TV = sum((y_TV - yTV_pred) ** 2)
print(f'(RSS): {RSS_TV:.4f}')

(RSS): 2102.5306


2102.5306 indica que las predicciones del modelo todavía tienen errores acumulados respecto a las ventas reales.

In [121]:
RSE_TV = (RSS_TV / (n_TV - p_TV))
print(f'RSE: {RSE_TV:.4f}')

RSE: 10.6188


Cada predicción se desvía unas 10.62 unidades de las ventas reales

In [122]:
x_2_TV = np.mean(X_TV)*np.mean(X_TV)
x_mean_TV = np.mean(X_TV)
SE_TV = (RSE_TV *(1/n_TV + (x_2_TV / sum((X_TV - x_mean_TV)**2))))**0.5
print(f'SE(beta_0): {SE_TV:.4f}')

SE(beta_0): 0.4578


Son precisas porque los errores estándar son muy pequeños en comparación con los valores de los coeficientes. El intercepto es 7.0326 y su SE es 0.4578

In [123]:
SE_beta_1_TV = (RSE_TV / sum((X_TV - x_mean_TV)**2))**0.5
print(f'SE(beta_1): {SE_beta_1_TV:.4f}')

SE(beta_1): 0.0027


Mientras que el coeficiente de TV es 0.0475 y su SE es 0.0027.

Esto significa que las estimaciones del modelo son muy precisas. Si hicieramos otra vez el análisis con otras muestras, los valores de β₀ y β₁ apenas variarían, por lo que el modelo confía mucho en que el efecto de TV sobre las ventas está bien estimado.

In [124]:
lr = LinearRegression()
lr.fit(X_TV.reshape(-1, 1), y_TV)
beta_0_TV = lr.intercept_   
beta_1_TV = lr.coef_[0]    
print(f'Intercepto (beta_0): {beta_0_TV:.4f}')
print(f'Coeficiente TV (beta_1): {beta_1_TV:.4f}') 

Intercepto (beta_0): 7.0326
Coeficiente TV (beta_1): 0.0475


Estos errores se pueden usar para calcular intervalos de confianza. Un intervalo de confianza del $95\%$ se define como un rango de valores en el cuál se encuentra el desconocido valor verdadero con un $95\%$ de probabilidad.

Otra forma de verlo es que si tomamos muestras repetidas y construimos un intervalo de confianza para cada una, el $95\%$ de los intervalos creados van a contener el valor verdadero. Para la regresión el intervalo de confianza del $95\%$ toma la forma:

$$ \hat{\beta_j} \pm 2\text{SE}(\hat{\beta_j})$$

Calcula los intervalos de confianza para los coeficientes estimados:

In [125]:
beta_0_lower_TV = beta_0_TV - 2*SE_TV
beta_0_upper_TV = beta_0_TV + 2*SE_TV    
print(f'Intervalo de confianza beta_0: ({beta_0_lower_TV:.4f}, {beta_0_upper_TV:.4f})')
beta_1_lower_TV = beta_1_TV - 2*SE_beta_1_TV  
beta_1_upper_TV = beta_1_TV + 2*SE_beta_1_TV   
print(f'Intervalo de confianza beta_1: ({beta_1_lower_TV:.4f}, {beta_1_upper_TV:.4f})')

Intervalo de confianza beta_0: (6.1169, 7.9483)
Intervalo de confianza beta_1: (0.0422, 0.0529)


Los errores estándar también se usan para realizar pruebas de hipótesis. La prueba de hipótesis más común es probar la hipótesis nula de:

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$

contra la hipótesis alternativa:
$$ H_0: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

- **Explica con tus palabras el significado de la hipótesis nula y la hipótesis alternativa.**

La H0 Dice que no hay relación entre la variable independiente (X) y la variable dependiente (Y). Significa que gastar en publicidad no afecta las ventas; el coeficiente 𝛽1 sería igual a 0.

La Hi dice que sí hay relación entre X y Y. Osea que invertir en publicidad sí tiene un efecto en las ventas, y 𝛽1 sería diferente de 0.

Para probal la hipótesis nula debemos determinar si nuestro estimado $\hat{\beta_1}$ de $\beta_1$ está lo suficientemente alejado de cero para que podamos decir con confianza que este valor no es cero. 

¿Qué tan lejos? Depende de qué tanta confianza tengamos en el estimado encontrado. Si nuestro error estándar es pequeño y nuestro estimado está alejado de cero podríamos decir que hay muy poca probabilidad de que el valor verdadero sea 0. En cambio, si nuestro error estándar es grande y nuestro estimado está muy cerca de cero, entonces podrías ser que el valor verdadero sea cero y que no haya relación entre las variables.

Se calcula un *estadístico t* dado por
$$ t = \frac{\hat{\beta_j} - \mu}{\text{SE}(\hat{\beta_j})} $$

donde $\mu$ es el valor contra el que queremos probar.

Calcula el estadístico t para tus coeficientes estimados, usando como referencia la prueba de hipótesis.

In [126]:
t0_TV = beta_0_TV / SE_TV
t1_TV = beta_1_TV / SE_beta_1_TV 
print(f't0: {t0_TV:.4f}')
print(f't1: {t1_TV:.4f}')

t0: 15.3603
t1: 17.6676


La distribución t tiene forma de campana y se parece bastante a la distribución normal cuando $n > 30$. Ya sólo es cuestión de calcular la probabilidad de observar cualquier número tal que su valor absoluto sea igual o mayor que el valor absoluto del estadístico t calculado. En otras palabras:
$$ P(|x| \geq |t|) $$

A esta probabilidad la llamamos *p-value*. Un *p-value* pequeño indica que es poco probable que exista por puro azar una relación significativa entre predictor y respuesta, en caso de que no haya una asociación real entre predictor y respuesta. En otras palabras, el *p-value* te dice la probabilidad de que parezca que hay relación cuando no la hay.

Si el *p-value* es pequeño, inferimos que sí hay una asociación entre el predictor y la respuesta, y **rechazamos la hipótesis nula**.
  

¿Qué tan pequeño? Depende de la aplicación. Un valor muy común es del $5\%$.

Utiliza el siguiente código para calcular el *p-value* para tus coeficientes

`from scipy import stats`

`p_bj = 2*(1 - stats.t.cdf(np.abs(t_bj), n-p))`

In [127]:
p_0_TV = 2 * (1 - stats.t.cdf(np.abs(t0_TV), n_TV-p_TV))
p_1_TV = 2 * (1 - stats.t.cdf(np.abs(t1_TV), n_TV-p_TV))

print(f'E1 p-value para b0 es: {p_0_TV:.4f}')
print(f'E1 p-value para b1 es: {p_1_TV:.4f}')

E1 p-value para b0 es: 0.0000
E1 p-value para b1 es: 0.0000


- **¿Se rechaza la hipótesis nula? ¿Qué significa?**

Como el p value es menor que 0.05, se rechaza la H0, osea que si hay suficiente evidencia de que el dinero que se invierte en la pubicidad de TV si influye en las ventas. Cada dólar extra invertido en TV aumenta, en promedio, 0.0475 unidades de ventas.

Realiza otras dos regresiones. Ya tienes hecha la regresión de ventas dado el gasto en publicidad de TV. Realiza la regresión para gastos en radio y gastos en periódico. Organiza las respuestas para que debajo de esta celda se tenga:
- Título de regresión
- Coeficientes estimados
- Errores estándar de los coeficientes
- Intervalos de confianza
- Estadísticos t
- p-values
- Observaciones

# NEWSPAPER

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$
$$ H_0: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

### COEFICIENTES ESTIMADOS

In [156]:
df_NEWS = pd.read_csv('Advertising.csv')
X_NEWS = df[['newspaper']]
y_NEWS = df['sales']

lr = LinearRegression()
lr.fit(X_NEWS, y_NEWS)

print(f'Intercepto (beta_0): {lr.intercept_:.4f}')
print(f'Coeficiente NEWS (beta_1): {lr.coef_[0]:.4f}')

Intercepto (beta_0): 12.3514
Coeficiente NEWS (beta_1): 0.0547


12.3514 ventas si no se invierte en periodico y 0.0547 indica el incremento promedio de ventas por unidad gastada en periódico.

In [157]:
pd.read_csv('Advertising.csv')
X_NEWS = df['newspaper'].values
y_NEWS = df['sales'].values
n_NEWS = len(X_NEWS)
p_NEWS = 2

In [158]:
lr.fit(X_NEWS.reshape(-1, 1), y_NEWS)
beta_0_NEWS = lr.intercept_
beta_1_NEWS = lr.coef_[0]

### ERRORES ESTANDAR

In [159]:
yNEWS_pred = lr.predict(X_NEWS.reshape(-1, 1))
RSS_NEWS = sum((y_NEWS - yNEWS_pred) ** 2)
print(f'(RSS): {RSS_NEWS:.4f}')

(RSS): 5134.8045


Muestra que las predicciones del modelo se alejan bastante de las ventas reales, acumulando un error grande en total.

In [160]:
RSE_NEWS = (RSS_NEWS / (n_NEWS - p_NEWS))
print(f'RSE: {RSE_NEWS:.4f}')

RSE: 25.9334


Indica que, en promedio, cada predicción se desvía unas 25.93 unidades de las ventas reales. Esto significa que, aunque el coeficiente de Newspaper es significativo, el modelo por sí solo no logra ajustar muy bien los datos y las predicciones siguen teniendo bastante variabilidad.

In [161]:
x_2_NEWS = np.mean(X_NEWS)*np.mean(X_NEWS)
x_mean_NEWS = np.mean(X_NEWS)
SE_NEWS = (RSE_NEWS *(1/n_NEWS + (x_2_NEWS / sum((X_NEWS - x_mean_NEWS)**2))))**0.5
print(f'SE(beta_0): {SE_NEWS:.4f}')

SE(beta_0): 0.6214


In [162]:
SE_beta_1_NEWS = (RSE_NEWS / sum((X_NEWS - x_mean_NEWS)**2))**0.5
print(f'SE(beta_1): {SE_beta_1_NEWS:.4f}')

SE(beta_1): 0.0166


Las estimaciones del intercepto y del coeficiente son relativamente estables. El efecto de NEWSPAPER es estable 

### INTERVALOS DE CONFIANZA

In [163]:
lr = LinearRegression()
lr.fit(X_NEWS.reshape(-1, 1), y_NEWS)
beta_0_NEWS = lr.intercept_   
beta_1_NEWS = lr.coef_[0]    
print(f'Intercepto (beta_0): {beta_0_NEWS:.4f}')
print(f'Coeficiente NEWS (beta_1): {beta_1_NEWS:.4f}') 

Intercepto (beta_0): 12.3514
Coeficiente NEWS (beta_1): 0.0547


El modelo esta bien, ya que nos dio la misma cantidad que la primera parte.

In [164]:
beta_0_lower_NEWS = beta_0_NEWS - 2*SE_NEWS
beta_0_upper_NEWS = beta_0_NEWS + 2*SE_NEWS    
print(f'Intervalo de confianza beta_0: ({beta_0_lower_NEWS:.4f}, {beta_0_upper_NEWS:.4f})')
beta_1_lower_NEWS = beta_1_NEWS - 2*SE_beta_1_NEWS  
beta_1_upper_NEWS = beta_1_NEWS + 2*SE_beta_1_NEWS   
print(f'Intervalo de confianza beta_1: ({beta_1_lower_NEWS:.4f}, {beta_1_upper_NEWS:.4f})')

Intervalo de confianza beta_0: (11.1086, 13.5942)
Intervalo de confianza beta_1: (0.0215, 0.0878)


El intercepto se encuentra entre 11.11 y 13.59, lo que marca el nivel promedio de ventas cuando no hay inversión en newspaper. El coeficiente de newspaper está entre 0.0215 y 0.0878, lo que significa que el impacto real de la publicidad en periódico sobre las ventas se mueve dentro de ese rango.

### ESTADÍSTICOS T

In [165]:
t0_NEWS = beta_0_NEWS / SE_NEWS
t1_NEWS = beta_1_NEWS / SE_beta_1_NEWS 
print(f't0: {t0_NEWS:.4f}')
print(f't1: {t1_NEWS:.4f}')

t0: 19.8761
t1: 3.2996


Indican cuánto se alejan los coeficientes de cero en términos de error estándar.

### P-VALUES

In [166]:
p_0_NEWS = 2 * (1 - stats.t.cdf(np.abs(t0_NEWS), n_NEWS-p_NEWS))
p_1_NEWS = 2 * (1 - stats.t.cdf(np.abs(t1_NEWS), n_NEWS-p_NEWS))

print(f'E1 p-value para b0 es: {p_0_NEWS:.4f}')
print(f'E1 p-value para b1 es: {p_1_NEWS:.4f}')

E1 p-value para b0 es: 0.0000
E1 p-value para b1 es: 0.0011


### Observaciones

El p-value del coeficiente de Newspaper es 0.0011, menor que 0.05, lo que indica que  podemos rechazar la hipótesis nula. Por lo que hay evidencia de que el gasto en periódico influya en las ventas, aunque su efecto es pequeño (coeficiente 0.0547). 

# RADIO

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$
$$ H_0: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

### COEFICIENTES ESTIMADOS

In [139]:
df_RA = pd.read_csv('Advertising.csv')
X_RA = df[['radio']]
y_RA = df['sales']

lr = LinearRegression()
lr.fit(X_RA, y_RA)

print(f'Intercepto (beta_0): {lr.intercept_:.4f}')
print(f'Coeficiente TV (beta_1): {lr.coef_[0]:.4f}')

Intercepto (beta_0): 9.3116
Coeficiente TV (beta_1): 0.2025


El intercepto 9.3116 indica las ventas promedio sin invertir en radio, y el coeficiente muestra que cada unidad extra invertida en radio aumenta las ventas en promedio 0.2025 unidades.

In [140]:
pd.read_csv('Advertising.csv')
X_RA = df['radio'].values
y_RA = df['sales'].values
n_RA = len(X_RA)
p_RA = 2

In [141]:
lr.fit(X_RA.reshape(-1, 1), y_RA)
beta_0_RA = lr.intercept_
beta_1_RA = lr.coef_[0]

### ERRORES ESTANDAR

In [142]:
yRA_pred = lr.predict(X_RA.reshape(-1, 1))
RSS_RA = sum((y_RA - yRA_pred) ** 2)
print(f'(RSS): {RSS_RA:.4f}')

(RSS): 3618.4795


Muestra la suma de los errores al ajustar el modelo; mientras más pequeño, mejor se ajusta.

In [143]:
RSE_RA = (RSS_RA / (n_RA - p_RA))
print(f'RSE: {RSE_RA:.4f}')

RSE: 18.2751


Las ventas se desvían unas 18 unidades respecto a lo que predice el modelo.

In [144]:
x_2_RA = np.mean(X_RA)*np.mean(X_RA)
x_mean_RA = np.mean(X_RA)
SE_RA = (RSE_RA *(1/n_RA + (x_2_RA / sum((X_RA - x_mean_RA)**2))))**0.5
print(f'SE(beta_0): {SE_RA:.4f}')

SE(beta_0): 0.5629


Muestra que la estimación del intercepto es bastante precisa.

In [145]:
SE_beta_1_RA = (RSE_RA / sum((X_RA - x_mean_RA)**2))**0.5
print(f'SE(beta_1): {SE_beta_1_RA:.4f}')

SE(beta_1): 0.0204


Indica que la estimación del efecto de la radio sobre las ventas también es muy estable y con poca variabilidad.

Sabemos esto ya que cuando el SE es menor que el coeficiente la estimacion es confiable. 

### INTERVALOS DE CONFIANZA

In [146]:
lr = LinearRegression()
lr.fit(X_RA.reshape(-1, 1), y_RA)
beta_0_RA = lr.intercept_   
beta_1_RA = lr.coef_[0]    
print(f'Intercepto (beta_0): {beta_0_RA:.4f}')
print(f'Coeficiente TV (beta_1): {beta_1_RA:.4f}') 

Intercepto (beta_0): 9.3116
Coeficiente TV (beta_1): 0.2025


El modelo esta bien , ya que nos salio igual que la primera parte.

In [147]:
beta_0_lower_RA = beta_0_RA - 2*SE_RA
beta_0_upper_RA = beta_0_RA + 2*SE_RA    
print(f'Intervalo de confianza beta_0: ({beta_0_lower_RA:.4f}, {beta_0_upper_RA:.4f})')
beta_1_lower_RA = beta_1_RA - 2*SE_beta_1_RA  
beta_1_upper_RA = beta_1_RA + 2*SE_beta_1_RA   
print(f'Intervalo de confianza beta_1: ({beta_1_lower_RA:.4f}, {beta_1_upper_RA:.4f})')

Intervalo de confianza beta_0: (8.1858, 10.4374)
Intervalo de confianza beta_1: (0.1617, 0.2433)


El intervalo del intercepto está entre 8.19 y 10.44, lo que indica que el nivel base de ventas sin gasto en radio se mueve dentro de ese rango.
El coeficiente de radio está entre 0.162 y 0.243, lo que confirma que el efecto de la publicidad en radio es positivo y bastante consistente: cada unidad invertida en radio aumenta las ventas en ese rango promedio.

### ESTADÍSTICOS T

In [148]:
t0_RA = beta_0_RA / SE_RA
t1_RA = beta_1_RA / SE_beta_1_RA 
print(f't0: {t0_RA:.4f}')
print(f't1: {t1_RA:.4f}')

t0: 16.5422
t1: 9.9208


### P-VALUES

In [149]:
p_0_RA = 2 * (1 - stats.t.cdf(np.abs(t0_RA), n_RA-p_RA))
p_1_RA = 2 * (1 - stats.t.cdf(np.abs(t1_RA), n_RA-p_RA))

print(f'E1 p-value para b0 es: {p_0_RA:.4f}')
print(f'E1 p-value para b1 es: {p_1_RA:.4f}')

E1 p-value para b0 es: 0.0000
E1 p-value para b1 es: 0.0000


### Observaciones

Se rechaza H₀ porque la evidencia indica que el coeficiente no es 0. La variable RADIO sí tiene un efecto positivo y significativo sobre la variable dependiente. Es decir, a medida que aumenta radio, también aumenta la respuesta.

# REGRESION LINEAL MULTIPLE

En lugar de hacer una regresión para cada factor independiente, quizás se puede extender el modelo para que tenga varios factores dentro:

$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon $$

Para nuestro ejemplo de publicidad:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

Utiliza la librería `statsmodels` para realizar la regresión. Por defecto la librería statsmodels no toma en cuenta el intercepto ($\beta_0$), por lo que se tendrá que agregar una columna de unos de tamaño *n* a la matriz X.

`import statsmodels.api as sm`

`ols = sm.OLS(Y, X)`

`results = ols.fit()`

`results.summary()`

In [169]:
import statsmodels.api as sm

In [170]:
X = df[["TV", "radio", "newspaper"]]
X = sm.add_constant(X)
Y = df["sales"]
ols = sm.OLS(Y, X)
results = ols.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Fri, 29 Aug 2025   Prob (F-statistic):           1.58e-96
Time:                        23:25:19   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

- El modelo explica el 89.7% de la variación de los datos 
- Si no se invierte nada en publicidad, las ventas promedio seran 2.94
- Cada dólar en TV aumenta las ventas en 0.046.
- Cada dólar en radio aumenta las ventas en 0.189 (impacto más fuerte que TV).
- El efecto es casi cero y no aporta al modelo.
- TV: significativo, tiene efecto real en las ventas
- Radio: Significativo, tiene efecto real en las ventas
- Newspaper: No significativo, no tiene fecto real en las ventas, es irrelevante.

### Referencia

James, G., Witten, D., Hastie, T., Tibshirani, R.,, Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Cham: Springer. ISBN: 978-3-031-38746-3

# PREGUNTAS

- **¿Qué diferencias puedes observar entre los *p-values* de una regresión múltiple y los encontrados en las regresiones simples? ¿Por qué crees que existen estas diferencias?**

En las regresiones simples, cada p-value refleja la relación de una sola variable independiente con las ventas, sin considerar las demás. Por eso, tanto TV como radio y newspaper tenían sus efectos evaluados de forma aislada y cada uno contribuia con las ventas. 

En la regresión múltiple, los p-values cambian porque ahora se mide el efecto de cada variable mientras se controlan las otras. Por ejemplo, newspaper tenía un p-value bajo en la regresión simple, pero en la múltiple subió a 0.860, mostrando que cuando se consideran TV y radio, newspaper realmente no aporta a las ventas.

- **¿Hay alguna relación entre el presupuesto para publicidad y las ventas?**



Sí hay una relacion entre el presupuesto para publicidad y las ventas, porque el análisis busca comprobar si el dinero invertido en TV, radio, periódico está relacionado con el nivel de ventas.

- **¿Por qué? ¿Qué resultaría si nos diéramos cuenta de la falta de relación entre el presupuesto de publicidad y las ventas?** 

Si no hubiera relación, significaría que la publicidad no explica las ventas en estos datos, y en ese caso las empresas estarían gastando dinero sin obtener resultados, por lo que tendrían que buscar otros factores que sí influyan.

- **¿Qué tan fuerte es esta relación? Asumiendo que existe esta relación, ¿nos sirve conocer el impacto que tiene invertir en publicidad en las ventas**

La relación es bastante fuerte porque los valores de 𝑅2 y los p-values muestran que la inversión en publicidad sí influye en las ventas. Conocer el impacto sirve porque nos dice cuánto aumentan las ventas al invertir más en cada medio, lo que ayuda a decidir dónde poner mas el presupuesto.


- **¿Cuáles medios están asociados con las ventas? ¿Qué tan grande es la asociación entre un medio específico y las ventas?**

Los medios que muestran mayor relación con las ventas son la TV y la radio, ya que tienen coeficientes significativos y p-values bajos. La asociación es más grande en TV, invertir ahí aumenta más las ventas que en los otros medios.

- **Hay 3 medios distintos en los datos. ¿Sirve invertir en los 3? ¿Conviene más invertir sólo en uno?**

El periódico casi no muestra impacto, mientras que TV y radio sí son rentables. Por eso, conviene concentrar más inversión en TV y radio que repartir en los tres por igual.
    
- **¿Qué tan seguros estamos de que podríamos predecir ventas futuras?**

Podemos tener un buen nivel de confianza porque el modelo explica gran parte de las ventas, pero no es 100% seguro ya que hay otros factores fuera de la publicidad que también influyen, como competencia, cambios en la economia, etc.


- **¿La relación es lineal?**

Sí, el modelo supone que la relación es lineal, y los datos se ajustan bien a esta idea porque a mayor inversión, mayores ventas, de forma proporcional.


- **¿Hay sinergia entre estos medios?**

No se observa una sinergia clara en el modelo, no parece que combinar los medios genere un efecto extra más allá de lo que aporta cada uno por separado (TV y radio).


## Addendum

Para calcular los *p-values* de los parámetros sin `statsmodels`:
1. Calcular RSS
2. Calcular RSE
3. `var_beta = np.linalg.inv(X.T @ X) * rse**2` (X con columna de intercepto)
4. `std_beta = np.sqrt(var_beta.diagonal())` El orden de los valores corresponde al orden de los factores en las columnas de la matriz $X$.
5. Calcular *estadístico t*
6. Calcular *p-value*

Al utilizar statsmodel esto ya lo hace de forma interna, asi que no es necesario hacerlo a mano, los resultados quedarian igual.