# Laboratorio de regresión - 3

## Significancia de factores

|                |   |
:----------------|---|
| **Nombre**     |Sofia|
| **Fecha**      |29 Enero 2026|
| **Expediente** |738594|

Descarga el archivo de publicidad y carga los datos (Advertising.csv).

In [1]:
import pandas as pd

In [4]:
df = pd.read_csv('Advertising.csv')
display(df.head())

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


**¿Hay alguna relación entre el presupuesto para publicidad y las ventas?**

Nuestra primera meta debe ser determinar si hay evidencia en los datos de que haya una asociación entre estas variables.

- ¿Por qué? ¿Qué resultaría si nos diéramos cuenta de la falta de relación entre el presupuesto de publicidad y las ventas?

Cien por ciento es necesario saber si hay una asociación entre estas dos variables.
Si no hubiera relación, invertir en publicidad sería un gasto de dinero y de recursos. En ese caso, la empresa debería buscar otras estrategias para aumentar las ventas o contemplar completamente su enfoque de marketing, ya que la publicidad no estaría generando el retorno de inversión esperado.

**¿Qué tan fuerte es esta relación?**
Asumiendo que existe esta relación, ¿nos sirve conocer el impacto que tiene invertir en publicidad en las ventas?

**Nos ayuda para:**
1. Cuantificar el retorno de la inversión. Esto es importante para justificar presupuestos y decidir donde pondremos nuestros recursos.
2. Optimizar estrategias: Si sabemos qué tipo de publicidad (TV, radio, periódico) tiene un mayor impacto, podemos invertir en los canales que más nos generan retorno de inversión.
3. Predecir ventas futuras: Un modelo que cuantifique esta relación nos puede ayudar a predecir cómo los cambios en la inversión de publicidad afectarán las ventas, de que manera y en cuanta cantidad.

**¿Cuáles medios están asociados con las ventas? ¿Qué tan grande es la asociación entre un medio específico y las ventas?**

Hay 3 medios distintos en los datos. ¿Sirve invertir en los 3? ¿Conviene más invertir sólo en uno?

**¿Qué tan seguros estamos de que podríamos predecir ventas futuras?**

**¿La relación es lineal?**

**¿Hay sinergia entre estos medios?**

Puede ser que gastar \\$50,000 en publicidad y otros \\$50,000 en radio es mejor opción que gastar \\$100,000 en televisión. A esto le llamamos efecto de interacción.

Podemos usar regresión lineal para responder todas estas preguntas.

Realiza una regresión lineal:

$$ \text{ventas} \approx \beta_0 + (\beta_1)(\text{TV})$$

In [5]:
from sklearn.linear_model import LinearRegression

# Definir X y Y
X = df[['TV']]
y = df['sales']

# Crear modelo de regresión lineal
model_tv_sklearn = LinearRegression()
model_tv_sklearn.fit(X, y)

print(f"Intercept B0: {model_tv_sklearn.intercept_:.2f}")
print(f"Coefficient for TV (B1): {model_tv_sklearn.coef_[0]:.2f}")

Intercept B0: 7.03
Coefficient for TV (B1): 0.05


### Verificando la precisión de nuestros coeficientes estimados

Recuerda que en el mundo real hay ruidos y errores de medición. Siempre se asume que la verdadera relación entre $X$ y $Y$ es $$Y = \beta_0 + \beta_1 X + \epsilon$$

Se asume que el término de error es independiente de $X$ (el error siempre es el mismo sin importar el valor de $X$). Este modelo describe a la *línea de regresión de la población*, que es la mejor aproximación de la verdadera relación entre $X$ y $Y$. Cuando usamos mínimos cuadrados encontramos la *línea de mínimos cuadrados*.

**¿Cuál es la diferencia entre población y muestra?**

La población es el grupo completo que queremos estudiar y del que buscamos y/o extraer conclusiones. La muestra es un conjunto más pequeño de esa población, que se utiliza para hacer o sacar conclusiones de la población, porque a veces suele más difícil estudiar a la población completa

**¿Cuál crees que sea la diferencia entre hacer una regresión con todos los datos de la población y una muestra de ella?**

No, ya que con la población conoces la verdad, mientras que con una muestra, usas la información para estimar la verdad, aunque no sea la verdad absoluta entonces hay cierta incertidumbre en los datos, pero se estiman con la muestra.

La línea de regresión de la población no se puede observar. El concepto de comparar estas líneas es una extensión natural del acercamiento estadístico estándar de usar información de una muestra para estimar características de una población grande.

Imagina que quieres encontrar la altura promedio de un mexicano $\mu$. Medir a todos y cada uno de los mexicanos en situaciones similares, con la misma regla, mismo operador, y otras incontables formas de minimizar la variación de la medida es una tarea imposible. Lo que podemos asumir es que $\hat{\mu} = \bar{y}$. La media poblacional y la media muestral son diferentes, pero la media muestral es usualmente un buen estimado.

De la misma manera, como no contamos con el 100% de la información para hacer una regresión, los coeficientes $\beta_0$ y $\beta_1$ son desconocidos. Podemos estimarlos usando mínimos cuadrados, encontrando $\hat{\beta_0}$ y $\hat{\beta_1}$. Puede que las muestras que tengamos en ese momento estén un poco por encima de la media, pero otras muestras en otro momento puede que estén debajo de la media. En general, esperamos que el promedio de las aproximaciones $\hat{\mu}$ aproxime a $\mu$.

Esto lleva a la pregunta: ¿qué tan cercanos son nuestros coeficientes estimados a los verdaderos coeficientes? Utilizamos el concepto de error estándar para evaluar esto.

$$ \text{Var}(\hat{\mu})=\text{SE}(\hat{\mu})^2 = \frac{\sigma^2}{n} $$

Donde $\sigma$ es la desviación estándar de cada una de las observaciones $y_i$ de $Y$. El error estándar nos dice la cantidad promedio que el estimado difiere del valor verdadero. Podemos ver en la fórmula que entre más observaciones tengamos el error se hace más pequeño. Las fórmulas para errores estándar de $\hat{\beta_0}$ y $\hat{\beta_1}$ son:

$$ \text{SE}(\hat{\beta_0})^2 = \sigma^2 [\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}]$$

$$ \text{SE}(\hat{\beta_1})^2 = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}$$

$$ \sigma^2 = \text{Var}(\epsilon) = \text{RSE}^2 = \frac{\text{RSS}}{n-p}$$

Para que estas fórmulas sean validas asumimos que los errores $\epsilon_i$ tienen varianza común $\sigma^2$ y que no están correlacionados.

Calcula los errores estándar de los coeficientes

In [6]:
import numpy as np

X_tv = df['TV']
y_ventas = df['sales']
n = len(y_ventas)
p = 1

beta_0 = model_tv_sklearn.intercept_
beta_1 = model_tv_sklearn.coef_[0]

y_pred = model_tv_sklearn.predict(X.values.reshape(-1, 1))

# Calcular RSS
residuals = y_ventas - y_pred
rss = np.sum(residuals**2)

# Calcular sigma^2 (varianza del error, o RSE^2)
rse_squared = rss / (n - p - 1)

# Calcular la media de X (TV)
x_mean = X_tv.mean()

# Calcular la suma de cuadrados de X (TV)
sum_sq_x = np.sum((X_tv - x_mean)**2)

# Calcular SE(beta_0)^2
se_beta_0_cuad = rse_squared * (1/n + (x_mean**2) / sum_sq_x)
se_beta_0 = np.sqrt(se_beta_0_cuad)

# Calcular SE(beta_1)^2
se_beta_1_squared = rse_squared / sum_sq_x
se_beta_1 = np.sqrt(se_beta_1_squared)

print(f"Error estándar para el Intercepto (SE(β0)): {se_beta_0:.2f}")
print(f"Error estándar para TV (SE(β1)): {se_beta_1:.2f}")

Error estándar para el Intercepto (SE(β0)): 0.46
Error estándar para TV (SE(β1)): 0.00




Estos errores se pueden usar para calcular intervalos de confianza. Un intervalo de confianza del $95\%$ se define como un rango de valores en el cuál se encuentra el desconocido valor verdadero con un $95\%$ de probabilidad.

Otra forma de verlo es que si tomamos muestras repetidas y construimos un intervalo de confianza para cada una, el $95\%$ de los intervalos creados van a contener el valor verdadero. Para la regresión el intervalo de confianza del $95\%$ toma la forma:

$$ \hat{\beta_j} \pm 2\text{SE}(\hat{\beta_j})$$

Calcula los intervalos de confianza para los
coeficientes estimados:

In [7]:
# Calcular intervalos de confianza del 95%
ci_beta_0 = [beta_0 - 2 * se_beta_0, beta_0 + 2 * se_beta_0]
ci_beta_1 = [beta_1 - 2 * se_beta_1, beta_1 + 2 * se_beta_1]

print(f"Intervalo de confianza 95% para el Intercepto (B0): [{ci_beta_0[0]:.3f}, {ci_beta_0[1]:.3f}]")
print(f"Intervalo de confianza 95% para TV (B1): [{ci_beta_1[0]:.3f}, {ci_beta_1[1]:.3f}]")

Intervalo de confianza 95% para el Intercepto (B0): [6.117, 7.948]
Intervalo de confianza 95% para TV (B1): [0.042, 0.053]


Los errores estándar también se usan para realizar pruebas de hipótesis. La prueba de hipótesis más común es probar la hipótesis nula de:

$$ H_0: \text{No hay relación entre } X \text{ y } Y \ \ \ \ (\beta_1=0)$$

contra la hipótesis alternativa:
$$ H_0: \text{Hay alguna relación entre } X \text{ y } Y \ \ \ (\beta_1 \neq 0)$$

Explica con tus palabras el significado de la hipótesis nula y la hipótesis alternativa.

La **hipótesis nula** nos comprube que no hay un efecto en sí, que no afecta o que no hay relación.

La **hipótesis alternativa** nos habla de lo contrario, habla de un efecto, de algo que afecta y donde si hay relación

Para probal la hipótesis nula debemos determinar si nuestro estimado $\hat{\beta_1}$ de $\beta_1$ está lo suficientemente alejado de cero para que podamos decir con confianza que este valor no es cero.

¿Qué tan lejos? Depende de qué tanta confianza tengamos en el estimado encontrado. Si nuestro error estándar es pequeño y nuestro estimado está alejado de cero podríamos decir que hay muy poca probabilidad de que el valor verdadero sea 0. En cambio, si nuestro error estándar es grande y nuestro estimado está muy cerca de cero, entonces podrías ser que el valor verdadero sea cero y que no haya relación entre las variables.

Se calcula un *estadístico t* dado por
$$ t = \frac{\hat{\beta_j} - \mu}{\text{SE}(\hat{\beta_j})} $$

donde $\mu$ es el valor contra el que queremos probar.

Calcula el estadístico t para tus coeficientes estimados, usando como referencia la prueba de hipótesis.

In [12]:
t_beta_0 = beta_0 / se_beta_0
t_beta_1 = beta_1 / se_beta_1

print(f"Estadistico t para el Intercepto (t_B0): {t_beta_0:.4f}")
print(f"Estadistico t para TV (t_B1): {t_beta_1:.4f}")

Estadistico t para el Intercepto (t_B0): 15.3603
Estadistico t para TV (t_B1): 17.6676


La distribución t tiene forma de campana y se parece bastante a la distribución normal cuando $n > 30$. Ya sólo es cuestión de calcular la probabilidad de observar cualquier número tal que su valor absoluto sea igual o mayor que el valor absoluto del estadístico t calculado. En otras palabras:
$$ P(|x| \geq |t|) $$

A esta probabilidad la llamamos *p-value*. Un *p-value* pequeño indica que es poco probable que exista por puro azar una relación significativa entre predictor y respuesta, en caso de que no haya una asociación real entre predictor y respuesta. En otras palabras, el *p-value* te dice la probabilidad de que parezca que hay relación cuando no la hay.

Si el *p-value* es pequeño, inferimos que sí hay una asociación entre el predictor y la respuesta, y **rechazamos la hipótesis nula**.
  

¿Qué tan pequeño? Depende de la aplicación. Un valor muy común es del $5\%$.

Utiliza el siguiente código para calcular el *p-value* para tus coeficientes

`from scipy import stats`

`p_bj = 2*(1 - stats.t.cdf(np.abs(t_bj), n-p))`

In [14]:
from scipy import stats

d = n - p - 1
p_beta_0 = 2 * (1 - stats.t.cdf(np.abs(t_beta_0), d))
p_beta_1 = 2 * (1 - stats.t.cdf(np.abs(t_beta_1), d))

print(f"p-value para el Intercepto: {p_beta_0:.4e}")
print(f"p-value para TV: {p_beta_1:.4e}")

p-value para el Intercepto: 0.0000e+00
p-value para TV: 0.0000e+00


**¿Se rechaza la hipótesis nula? ¿Qué
significa?**

Sí, se rechaza la hipótesis nula porque los p-values son prácticamente cero (mucho menores al 5%). O sea la relación entre la publicidad en TV y las ventas es real.

Realiza otras dos regresiones. Ya tienes hecha la regresión de ventas dado el gasto en publicidad de TV. Realiza la regresión para gastos en radio y gastos en periódico. Organiza las respuestas para que debajo de esta celda se tenga:
- Título de regresión
- Coeficientes estimados
- Errores estándar de los coeficientes
- Intervalos de confianza
- Estadísticos t
- p-values
- Observaciones

- Radio vs Sales

In [17]:
from sklearn.linear_model import LinearRegression
from scipy import stats
import numpy as np

# 2. Define X and y
X_radio = df[['radio']]
y = df['sales']
n = len(y)

model_radio = LinearRegression()
model_radio.fit(X_radio, y)
beta_0_radio = model_radio.intercept_
beta_1_radio = model_radio.coef_[0]

# 4. Calcular residuos y RSS
y_pred_radio = model_radio.predict(X_radio)
residuals_radio = y - y_pred_radio
rss_radio = np.sum(residuals_radio**2)

# 5. RSE
rse_sq_radio = rss_radio / (n - 2)

# 6. Media y suma de cuadrados 'radio'
radio_mean = df['radio'].mean()
sum_sq_radio = np.sum((df['radio'] - radio_mean)**2)

# 7. Calcular SE
se_beta0_radio = np.sqrt(rse_sq_radio * (1/n + radio_mean**2 / sum_sq_radio))
se_beta1_radio = np.sqrt(rse_sq_radio / sum_sq_radio)

# 8. Intervalos de confianza
ci_beta0_radio = [beta_0_radio - 2 * se_beta0_radio, beta_0_radio + 2 * se_beta0_radio]
ci_beta1_radio = [beta_1_radio - 2 * se_beta1_radio, beta_1_radio + 2 * se_beta1_radio]

# 9. Calculate t-estadisticos
t_beta0_radio = beta_0_radio / se_beta0_radio
t_beta1_radio = beta_1_radio / se_beta1_radio

# 10. P-values
p_beta0_radio = 2 * (1 - stats.t.cdf(np.abs(t_beta0_radio), n - 2))
p_beta1_radio = 2 * (1 - stats.t.cdf(np.abs(t_beta1_radio), n - 2))

print(f"Coeficientes estimados: B0 (Intercept) = {beta_0_radio:.4f}, B1 (Radio) = {beta_1_radio:.4f}")
print(f"Errores estándar: SE(B0) = {se_beta0_radio:.4f}, SE(B1) = {se_beta1_radio:.4f}")
print(f"Intervalos de confianza 95%: B0 {ci_beta0_radio}, B1 {ci_beta1_radio}")
print(f"Estadísticos t: t(B0) = {t_beta0_radio:.4f}, t(B1) = {t_beta1_radio:.4f}")
print(f"p-values: p(B0) = {p_beta0_radio:.4e}, p(B1) = {p_beta1_radio:.4e}")
print("Observaciones: El p-value para Radio es extremadamente bajo (< 0.05), lo que indica una relación estadísticamente significativa entre la publicidad en radio y las ventas.")

Regresión Radio
Coeficientes estimados: B0 (Intercept) = 9.3116, B1 (Radio) = 0.2025
Errores estándar: SE(B0) = 0.5629, SE(B1) = 0.0204
Intervalos de confianza 95%: B0 [np.float64(8.185837102614542), np.float64(10.437439087702025)], B1 [np.float64(0.1616731706722584), np.float64(0.2433183961126209)]
Estadísticos t: t(B0) = 16.5422, t(B1) = 9.9208
p-values: p(B0) = 0.0000e+00, p(B1) = 0.0000e+00
Observaciones: El p-value para Radio es extremadamente bajo (< 0.05), lo que indica una relación estadísticamente significativa entre la publicidad en radio y las ventas.


- Newspaper vs sales

In [18]:
from sklearn.linear_model import LinearRegression
from scipy import stats
import numpy as np

X_news = df[['newspaper']]
y = df['sales']
n = len(y)

model_news = LinearRegression()
model_news.fit(X_news, y)
beta_0_news = model_news.intercept_
beta_1_news = model_news.coef_[0]

y_pred_news = model_news.predict(X_news)
residuals_news = y - y_pred_news
rss_news = np.sum(residuals_news**2)

rse_sq_news = rss_news / (n - 2)

news_mean = df['newspaper'].mean()
sum_sq_news = np.sum((df['newspaper'] - news_mean)**2)

se_beta0_news = np.sqrt(rse_sq_news * (1/n + news_mean**2 / sum_sq_news))
se_beta1_news = np.sqrt(rse_sq_news / sum_sq_news)

ci_beta0_news = [beta_0_news - 2 * se_beta0_news, beta_0_news + 2 * se_beta0_news]
ci_beta1_news = [beta_1_news - 2 * se_beta1_news, beta_1_news + 2 * se_beta1_news]

t_beta0_news = beta_0_news / se_beta0_news
t_beta1_news = beta_1_news / se_beta1_news

p_beta0_news = 2 * (1 - stats.t.cdf(np.abs(t_beta0_news), n - 2))
p_beta1_news = 2 * (1 - stats.t.cdf(np.abs(t_beta1_news), n - 2))

print(f"Coeficientes estimados: B0 (Intercept) = {beta_0_news:.4f}, B1 (Newspaper) = {beta_1_news:.4f}")
print(f"Errores estándar: SE(B0) = {se_beta0_news:.4f}, SE(B1) = {se_beta1_news:.4f}")
print(f"Intervalos de confianza 95%: B0 {ci_beta0_news}, B1 {ci_beta1_news}")
print(f"Estadísticos t: t(B0) = {t_beta0_news:.4f}, t(B1) = {t_beta1_news:.4f}")
print(f"p-values: p(B0) = {p_beta0_news:.4e}, p(B1) = {p_beta1_news:.4e}")
print("Observaciones: El p-value para Newspaper es bajo (< 0.05), sugiriendo una relación significativa, aunque el coeficiente B1 es menor comparado con TV y Radio.")

Coeficientes estimados: B0 (Intercept) = 12.3514, B1 (Newspaper) = 0.0547
Errores estándar: SE(B0) = 0.6214, SE(B1) = 0.0166
Intervalos de confianza 95%: B0 [np.float64(11.108566694059292), np.float64(13.594247444497029)], B1 [np.float64(0.021541654719557032), np.float64(0.08784454222498969)]
Estadísticos t: t(B0) = 19.8761, t(B1) = 3.2996
p-values: p(B0) = 0.0000e+00, p(B1) = 1.1482e-03
Observaciones: El p-value para Newspaper es bajo (< 0.05), sugiriendo una relación significativa, aunque el coeficiente B1 es menor comparado con TV y Radio.


## Regresión lineal múltiple

En lugar de hacer una regresión para cada factor independiente, quizás se puede extender el modelo para que tenga varios factores dentro:

$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon $$

Para nuestro ejemplo de publicidad:

$$ \text{sales} = \beta_0 + \beta_1 (\text{TV}) + \beta_2 (\text{radio}) + \beta_3 (\text{newspaper}) + \epsilon $$

Utiliza la librería `statsmodels` para realizar la regresión. Por defecto la librería statsmodels no toma en cuenta el intercepto ($\beta_0$), por lo que se tendrá que agregar una columna de unos de tamaño *n* a la matriz X.

`import statsmodels.api as sm`

`ols = sm.OLS(Y, X)`

`results = ols.fit()`

`results.summary()`

In [23]:
import statsmodels.api as sm

# Definir X (multi)
X_multi = df[['TV', 'radio', 'newspaper']]

# 2. Agregar constante a la matriz
X_multi = sm.add_constant(X_multi)

# 3. Variable dep
y = df['sales']

# 4. modelo multi
ols_multi = sm.OLS(y, X_multi)

# 5. Fit
results_multi = ols_multi.fit()

# 6. Print the summary
print(results_multi.summary())

                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Tue, 03 Feb 2026   Prob (F-statistic):           1.58e-96
Time:                        01:50:17   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

¿Qué diferencias puedes observar entre los *p-values* de una regresión múltiple y los encontrados en las regresiones simples? ¿Por qué crees que existen estas diferencias?

La correlación entre 'radio' y 'newspaper' es de aproximadamente 0.35. Esto dice que
en los mercados donde se gasta mucho en radio, también se suele gastar en periódico.
La regresión múltiple nos deja ver que el éxito que pensabamos, tenía el periódico en la
regresión simple en realidad pertenecía a la radio o a la combinación de ambas.

## Referencia

James, G., Witten, D., Hastie, T., Tibshirani, R.,, Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Cham: Springer. ISBN: 978-3-031-38746-3