In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# Fra strukturel model til økonometrisk analyse
I dette problem set  skal vi arbejde med et eksempel på, hvordan man kan bruge  økonometriske værktøjer til empirisk at teste økonomisk teori. Konkret skal vi arbejde med en strukturel model, som beskriver optimal firmaadfærd når efterspørgslen kan påvirkes gennem reklame (annoncering) og prissætning.


# Del 1: Teoretiske opgaver

Nedenfor vil vi først beskrive en simpel strukturel model for, hvordan virksomheder sætter priser og vælger deres annoncebudget. Vi transformerer derefter modellen så vi opnår en lineær specifikation, således at modelparametrene kan estimeres empirisk ved hjælp af OLS. Vi formulerer herefter nogle nulhypoteser, således at vi kan teste den strukturelle models prædiktioner. Til sidst estimerer vi modellen empirisk (i del 2) og kigger på en udvidet model med flere annoncekategorier (i del 3)

## 1.1: Efterspørgselsfunktionen
Antag, at virksomhederne ved, at forbrugernes efterspørgsel efter virksomhedens varer er givet ved følgende multiplikative efterspørgselsfunktion med konstante elasticiteter (dvs. Cobb-Douglas form):


$$ Q(P,A) = K P^{-\beta} A^{\gamma} \varepsilon, \tag{1}
 $$

hvor:
- $Q$ = Mængde efterspurgt  
- $K$ = En konstant
- $P$ = Virksomhedens pris
- $A$ = Virksomhedens annonceforbrug  
- $\beta > 0$ = priselasticitet  
- $\gamma \geq 0$ = annonceelasticitet  
- $\varepsilon$ = stokastisk efterspørgselsstød 

**Opgave 1.1:**

Vis, at de marginale efterspørgselsfunktioner er

\begin{align*}
\frac{\partial Q}{\partial P} &= - \frac{\beta}{P} Q(P,A),
\\
\frac{\partial Q}{\partial A} &= \frac{\gamma}{A} Q(P,A).

\end{align*}

**Dit svar:** 

> Løses ved at differentiere efterspørgselsfunktionen (ligning 1) med hensyn til $P$ og $A$: 
> 
>\begin{align*} \frac {\partial Q}{\partial P} &= - \beta K P^{-\beta-1} A^\gamma \epsilon \\
&= - \frac{\beta}{P}  K  P^{-\beta}  A^\gamma  \epsilon \\
&= - \frac{\beta}{P} Q(P,A)
\end{align*}
>
>\begin{align*} \frac {\partial Q}{\partial A} &= \gamma  K  P^{-\beta}  A^{\gamma-1}  \epsilon \\
&= \frac{\gamma}{A}  K  P^{-\beta}  A^\gamma  \epsilon \\
&= \frac{\gamma}{A} Q(P,A)
\end{align*}

Fortolk på fortegnene. Er de som du forventer?


**Dit svar:** 

> Fortegnet til $\frac{\partial Q}{\partial P}$ er negativt. Det betyder, at efterspørgslen falder, når prisen stiger. Altså er efterspørgselsfunktionen aftagende i prisen, hvilken er en standardantagelse (The Law of Demand).
>
> Fortegnet til $\frac{\partial Q}{\partial A}$ er positivt. Altså stiger efterspørgslen når virksomhedens annonceforbrug stiger. Det er forventet, hvis vi tror på at reklame har en effekt.

---


## 1.2. Profitmaksimering og Dorfman–Steiner reglen

Firmaet vælger prisen $P$ og annoncebudgettet $A$ sådan at deres profit maksimeres. Profitfunktionen er:

$$
\pi = P \cdot Q(P,A) - c \cdot Q(P,A) - A - F, \tag{2}
$$

med marginalomkostninger $c$ og faste omkostninger $F$.


**Opgave 1.2:**

Vis, at profitmaksimering medfører førsteordensbetingelserne:

1. **Prissætning (Lerner betingelsen):**
$$
\frac{P-c}{P} = \frac{1}{\beta} \equiv L, \tag{3}
$$

2. **Annoncering (Dorfman–Steiner betingelsen):**
$$
\frac{A}{P \cdot Q} = \gamma \frac{P-c}{P} = \gamma L. \tag{4}
$$

(Hint: Brug produktreglen samt de marginale efterspørgselsfunktioner fra opgave 1 i din udledning)

**Dit svar:** 

> For at få førsteordensbetingelse 1 skal vi differentiere profitfunktionen mht. $P$ og sætte lig med nul. Det gør vi nedenfor, hvor vi starter med at bruge produktreglen (linje 1), så faktoriserer vi (linje 2), indsætter vores resultat fra opgave 1 (linje 3), flytter lidt rundt og simplificerer (linje 4-6):
>
> \begin{align*}
\frac{\partial \pi}{\partial P} = 1 \cdot Q(P,A) + P \frac{\partial Q}{\partial P} - c \frac{\partial Q}{\partial P}  &= 0 \\
  Q(P,A) + (P - c) \cdot \frac{\partial Q}{\partial P}  &= 0 \\
  Q(P,A) + (P - c) \cdot \left[- \frac{\beta}{P} Q(P,A) \right]  &= 0 \\
  Q(P,A) &= (P - c) \cdot \frac{\beta}{P} Q(P,A)  \\
  1 &= (P - c) \cdot \frac{\beta}{P}\\
  \frac{1}{\beta} &= \frac{P - c}{P} \\ 
\end{align*}
>
>Nu gør vi det samme for førsteordensbetingelse 2, hvor vi differentierer profitfunktionen mht. $A$ og sætter lig nul. I linje 2 faktoriserer vi, i linje 3 indsætter vi resultatet fra opg. 1, i linje 4-5 omrokerer vi og dividerer igennem med $P$ for at få det ønskede udtryk.
>
>\begin{align*}
\frac{\partial \pi}{\partial A} 
= P \frac{\partial Q}{\partial A} - c \frac{\partial Q}{\partial A} - 1  &= 0 \\
(P-c) \frac{\partial Q}{\partial A}  &= 1 \\
(P-c) \left[\frac{\gamma}{A} Q(P,A)\right]   &= 1 \\
(P-c) \cdot \gamma  &= \frac{A}{Q(P,A)} \\
\gamma \cdot \frac{P-c}{P}   &= \frac{A}{P \cdot Q} \\
\end{align*}


PS:
$L \equiv \frac{1}{\beta}$ kaldes Lerner indekset (eller markup'en). De udledte førsteordensbetingelser illustrerer den såkaldte **Dorfman–Steiner regel**: optimal annonceringsintensitet (dvs. annonceandelen af salget, venstresiden i ligning 4) er proportional med annonceelasticiteten $\gamma$ og markup'en $L \equiv \frac{P-c}{P}$ (højresiden).


---

## 1.3. Fra teori til empirisk specifikation

Vi ønsker empirisk at undersøge, om virksomhederne følger Dorfman-Steiner reglen; dvs. om virksomhedernes valg af priser og annoncebudgetter stemmer overens med de teoretiske forudsigelser om optimal profitmaksimerende adfærd.

For at kunne bruge lineær regressionsanalyse skal vores model være lineær i parametrene. Det kan vi opnå ved at bruge logaritmetransformationen.



**Opgave 1.3:** 

Vis, at vi ved at tage logaritmen i efterspørgselsfunktionen (ligning 1) og Dorfman-Steiner-betingelsen (ligning 4) kan få følgende lineære specifikationer: 


**Log efterspørgsel:**
$$
\log Q = \alpha - \beta \log P + \gamma \log A + u, \tag{5}
$$
hvor $u \equiv \log \varepsilon$ og $\alpha \equiv \log K$

og 

**Log Dorfman-Steiner:**
$$
\log \left(\frac{A}{P \cdot Q} \right) = \delta + \log L. \tag{6}
$$

hvor $ \delta \equiv \log \gamma $ og $L = \frac{P-C}{P}$


**Dit svar:** 

> Vi tager først logaritmen af efterspørgselsfunktionen fra ligning 1 og husker vores logaritmeregneregler:
> \begin{align*} 
\log Q(P,A) &= \log \left[  K \cdot P^{-\beta} \cdot A^\gamma \cdot \varepsilon  \right] \\
            &= \log K + \log \left (P^{-\beta} \right) + \log \left(A^\gamma \right) + \log \varepsilon \\
            &= \alpha -\beta \log P + \gamma \log A + u \\
\end{align*}
> hvor vi har defineret $u \equiv \log \varepsilon$ og $\alpha \equiv \log K$.
>
> Vi tager nu logaritmen af Dorfman-Steiner betingelsen i ligning 4:
> \begin{align*}
\log \left(\frac{A}{P \cdot Q} \right) 
&= \log \left(\gamma \cdot \frac{P-c}{P} \right) \\
&= \log \gamma + \log \frac{P-c}{P} \\
&= \delta + \log L \\
\end{align*}
> hvor vi har defineret $ \delta \equiv \log \gamma $, og hvor vi har brugt prissætningsbetingelsen fra ligning 3:  $L \equiv \frac{1}{\beta} =  \frac{P-C}{P}$.

---

## 1.4. Nul- og alternativhypoteser 

Antag, at du har et datasæt til rådighed, hvor vi observerer $N$ virksomheder der hver sælger et enkelt produkt. For hver virksomhed $i$ observeres virksomhedens solgte mængde $Q_i$, pris $P_i$, annoncebudget $A_i$ og marginalomkostninger $c_i$. Med udgangspunkt i de lineære specifikationer i ligning (5) og (6) vil det da være muligt at estimere parametrene $\alpha$, $\beta$, $\gamma$, $\delta$ og $\theta$ i følgende regressionsspecifikationer

\begin{align*}
\log Q_i &= \alpha + \eta \log P_i + \gamma \log A_i + u_i \tag{7} \\
\log Adv\_share_i &= \delta + \theta \log L_i + \epsilon_i \tag{8}
\end{align*}

hvor: 
- $\eta \equiv -\beta$
- $Adv\_share_i \equiv  \left(\frac{A_i}{P_i Q_i} \right)$
- $L_i = \frac{P_i - c_i}{P_i}$

**Opgave 1.4a:**

Hvordan kan du teste Dorfman-Steiner hypotesen? Er der en parameterrestriktion på $\theta$, som kan hjælpe os med at teste om firmaernes adfærd stemmer overens med teorien? Formulér formelt den relevante nul- og alternativhypotese.

**Dit svar:**

>
> Hvis Dorfman-Steiner betingelsen skal være overholdt, skal følgende nulhypotese holde:
>
> \begin{align*} H_0: \theta &= 1. \quad H_A: \theta \neq 1
>\end{align*}
>
> Betingelsen er nødvendig for at ligning 8 stemmer overens med ligning 6 (Tjek dette og vær sikker på, at du kan se sammenhængen!)
> Hvis $\theta$ er større end 1, så har markup'en større indflydelse på annoncebudgettet end hvad er optimalt - og vice versa hvis $\theta$ er mindre end 1.

**Opgave 1.4b:**

Vi kan også bruge datasættet og vores lineære specifikationer til at teste andre, simplere hypoteser. Lad os eksempelvis antage, at prisen er ligegyldig for efterspørgslen. Hvad er den relevante nul- og alternativhypotese da? Og hvad er den relevante nul- og alternativhypotese for, at annoncering er ligegyldig for efterspørgslen?



>
> Pris:
>
> \begin{align*} H_0: \eta &= 0. \quad H_A: \eta \neq 0
> \end{align*}
>  
> Annoncering:
> \begin{align*} H_0: \gamma &= 0. \quad H_A: \gamma \neq 0
>\end{align*}
> Det følger direkte af ligning 7 at hvis $\eta = 0$, så har prisen ingen indflydelse på efterspørgslen. Tilsvarende, hvis $\gamma = 0$, så har annoncering ingen indflydelse på efterspørgslen.


## Del 2: Regressionsanalyse i Python

Vi skal nu teste, om de teoretiske forudsigelser understøttes af empirien. Til det formål anvender vi datasættet `advertising.dta`. 

Bemærk at der er tale om simuleret data, og at der derfor **ikke** kan drages konklusioner om faktisk firmaadfærd på baggrund af analysen.

Datasættet rummer 500 observationer af virksomheders salg, priser, marginalomkostninger og annoncebudgetter. Variablene er defineret således:

| Variabel       | Beskrivelse                                                                 |
|----------------|-----------------------------------------------------------------------------|
| `sales`        | Antallet af solgte enheder                                                  |
| `price`        | Virksomhedens valgte enhedspris                                             |
| `costs`        | Marginalomkostningerne                                                      |
| `adv`          | Det totale annoncebudget                                                    |
| `adv_trad`     | Annoncebudgettet til traditionelle kanaler (avis, TV, radio etc.)           |
| `adv_infl`     | Annoncebudgettet til influencer-markedsføring                               |
| `adv_podcasts` | Annoncebudgettet til podcast-reklamer                                       |

**Opgave 2.1**

Indlæs datasættet og estimer først den simple specifikation

$$\log Q_i = \alpha + \eta \log P_i + u_i$$

Sammenlign specifikationen med ligning 7. Hvad har vi implicit antaget om $\gamma$ (dvs. effekten af annoncering)? 

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne for $\eta$ og $\gamma$.

_Hint:_ Husk at tilføje et konstantled.

_Hint:_ Husk at du skal logaritmetransformere dine variable med `np.log()`

**Din kode:**

In [2]:
# Indlæs datasættet
df = pd.read_stata('advertising.dta')

# Tilføj et konstantled
df['const'] = 1

# Transformer dine variable
df['log_Q'] = np.log(df.sales)
df['log_P'] = np.log(df.price)
df['log_A'] = np.log(df.adv)
df['log_c'] = np.log(df.costs)

# Estimer med OLS (brug enten statsmodels, din egen implementation af OLS eller kode fra forelæsningen).
y = df['log_Q']
X = df[['const', 'log_P']]

model21 = sm.OLS(y, X)
results21 = model21.fit()
print(results21.summary())

                            OLS Regression Results                            
Dep. Variable:                  log_Q   R-squared:                       0.452
Model:                            OLS   Adj. R-squared:                  0.451
Method:                 Least Squares   F-statistic:                     410.9
Date:                Fri, 26 Sep 2025   Prob (F-statistic):           4.58e-67
Time:                        13:42:36   Log-Likelihood:                -256.73
No. Observations:                 500   AIC:                             517.5
Df Residuals:                     498   BIC:                             525.9
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.5901      0.295     32.458      0.0

**Dit svar:** (Fortolk dine resultater)

> - Ved at udelade annoncering antager vi implicit, at $\gamma = 0$; altså at annoncering ikke har nogen indflydelse på efterspørgslen.
> - Fortegnet af den estimerede priselasticitet stemmer overens med teorien. Når prisen stiger, falder efterspørslen. Størrelsen på estimatet indikerer, at efterspørgslen er meget elastisk. Når prisen stiger med 1%, falder efterspørgslen med -1.83% ifølge modellen. Standardfejlen er ikke synderligt stor, og konfidensintervallet indikerer, at estimatet med 95% sikkerhed ligger mellem -2.0 og -1.65.

---

**Opgave 2.2**

Estimer nu den fulde specifikation fra ligning 7, hvor vi medtager effekten af annoncering:

$$\log Q_i = \alpha + \eta \log P_i + \gamma \log A_i + u_i$$

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne for $\eta$ og $\gamma$. Sammenlign estimatet af priselasticiteten med resultatet fra forrige opgave.


**Din kode:** 

In [3]:
y = df['log_Q']
X = df[['const', 'log_P', 'log_A']]

model22 = sm.OLS(y, X)
results22 = model22.fit()
print(results22.summary())

                            OLS Regression Results                            
Dep. Variable:                  log_Q   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.466
Method:                 Least Squares   F-statistic:                     218.9
Date:                Fri, 26 Sep 2025   Prob (F-statistic):           6.74e-69
Time:                        13:42:36   Log-Likelihood:                -249.23
No. Observations:                 500   AIC:                             504.5
Df Residuals:                     497   BIC:                             517.1
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.4874      0.849      7.642      0.0

**Dit svar:** (Fortolk dine resultater)

> - Punktestimatet af priselasticiteten $\hat \eta$ er faldet sammenlignet med den første specifikation. Det indikerer, at vi altså overvurderede priseffekten før vi tog højde for annonceeffekten (omitted variable bias). Priselasticiteten estimeres dog stadig til at være ret høj.
> - Estimatet af annonceelasticiteten $\hat \gamma$ er positiv og signifikant forskelligt fra 0. Annoncering har altså en signifikant effekt på efterspørgslen. Dog er den absolutte størrelse af priselasticiteten meget højere end annonceelasticiteten ifølge vores estimater.


---

**Opgave 2.3**
Vi skal nu undersøge, om virksomhederne overholder Dorfman-Steiner betingelsen for profitmaksimering under annoncering.

Konstruer først de to variable $Adv\_share_i \equiv  \left(\frac{A_i}{P_i Q_i} \right)$ og $L_i = \frac{P_i - C_i}{P_i}$.

Estimer herefter ligning 8 med OLS (husk, at du igen skal bruge en log-transformation):

$$
\log Adv\_share_i = \delta + \theta \log L_i + \epsilon_i
$$

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne $\delta$ og $\theta$.

Test formelt din nulhypotese fra opgave 1.4 vedr. Dorfman-Steiner hypotesen. Hvilket test skal du bruge? (_Hint:_ Der er tale om en enkelt parameterrestriktion). Hvad er resultatet af dit test?

**Din kode:**

In [4]:
df["adv_share"] = df.adv/(df.price * df.sales) # Udfyld
df["L"] = (df.price - df.costs) / df.price # Udfyld
df['log_adv_share'] = np.log(df.adv_share)
df['log_L'] = np.log(df.L)

# Estimer med OLS (brug enten statsmodels, din egen implementation af OLS eller kode fra forelæsningen).
y = df['log_adv_share']
X = df[['const', 'log_L']]
model23 = sm.OLS(y, X)
results23 = model23.fit()
print(results23.summary())

                            OLS Regression Results                            
Dep. Variable:          log_adv_share   R-squared:                       0.022
Model:                            OLS   Adj. R-squared:                  0.020
Method:                 Least Squares   F-statistic:                     11.38
Date:                Fri, 26 Sep 2025   Prob (F-statistic):           0.000799
Time:                        13:42:36   Log-Likelihood:                -261.38
No. Observations:                 500   AIC:                             526.8
Df Residuals:                     498   BIC:                             535.2
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.7707      0.172     -4.482      0.0

In [5]:
# Test Dorfman-Steiner hypotesen

# Do it manually using the t-test formula (See the slides from lecture 4 or check Wooldridge sec 4-2):
beta1hat = results23.params.iloc[1]    # beta1hat
std_error = results23.bse.iloc[1]      # standard error of beta1hat
hypothesis = 1                       # hypothesized true value of theta

print(f"{beta1hat = :.3f}")
print(f"{std_error = :.3f}")
print(f"{hypothesis = :.3f}")

ttest = (beta1hat - hypothesis) / std_error
print(f"{ttest = :.3f}")

# Critical value:
from scipy import stats
deg_f = model23.df_resid               # degrees of freedom
alpha = 0.05                         # Confidence level
crit = stats.t.ppf(1-alpha/2, deg_f) # Two-tailed test

print(f'{crit = :.3f}')

reject = ttest > crit
print(f'{reject = }')


beta1hat = 1.221
std_error = 0.362
hypothesis = 1.000
ttest = 0.612
crit = 1.965
reject = np.False_


In [6]:
# Or do it with statsmodels:
hypothesis = "log_L = 1"
ttest = results23.t_test(hypothesis)

print(ttest)


                             Test for Constraints                             
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
c0             1.2214      0.362      0.612      0.541       0.510       1.933


**Dit svar:** (Fortolk dine resultater)

> Vores punktestimat er $\hat \theta = 1.2214$. Punktestimatet er større end den teoretiske forudsigelse $\theta = 1$. Tager vi punktestimatet for gode varer, så lægger virksomhederne for stor vægt på deres markup, når de fastsætter deres annoncebudgetter, og der vil være rum for at optimere profitten ved at mindske denne følsomhed. Dog er standardfejlen meget stor;  vores 95% konfidensinterval spænder fra 0.510 til 1.933.
>
> Hvis Dorfman-Steiner betingelsen skal være overholdt, skal den sande populationsparameter være $\theta = 1$. Vi tester derfor, hvorvidt vi kan afvise nulhypotesen $\theta = 1$. Da der er tale om en enkelt parameterrestriktion anvender vi et $t$-test.
> Vi beregner t-teststatistikken til at være $|t| = 0.612$. Dette overstiger ikke den kritiske værdi, som er $\approx 1.96$. Vi kan derfor ikke forkaste nulhypotesen.

## Del 3: Flere annoncekategorier
Betragt nu følgende udvidede teoretiske model, hvor der indgår $m$ annoncekategorier (fx TV, bannerannoncer, influencers, avisreklamer, busreklamer, radio, podcasts, sponsorering af sportshold osv.). Hver kategori $j \in \{1,2,...,m\}$ har sit eget annoncebudget $A_j$ og sin egen annonceelasticitet $\gamma_j$. Under antagelse af, at annoncekategorierne er multiplikative komplementer, får vi følgende efterspørgselsfunktion:

\begin{align*}
Q(P,A_1, A_2, ..., A_m) &= K P^{-\beta} A_1^{\gamma_1} A_2^{\gamma_2} \cdots A_m^{\gamma_m}  \varepsilon \\
                        &= K P^{-\beta} \prod_{j=1}^m A_j^{\gamma_i}  \varepsilon \tag{9}
\end{align*}

mens profitfunktionen er

\begin{align*}
\pi &= P Q - c Q - A_1 - A_2 - ... - A_m - F \\
    &= P Q - c Q - \sum_{j=1}^m A_j - F \tag{10}
\end{align*}

hvor $Q = Q(P, A_1, A_2, ..., A_m)$.

Profitmaksimering medfører samme førsteordensbetingelser som i opgave 1.2, blot hører der nu en Dorfman-Steiner betingelse til hver af de $m$ annoncekategorier på formen:

$$
\frac{A_j}{P \cdot Q} = \gamma_j  \frac{P-c}{P} = \gamma_j  L, \quad \forall j \leq m
$$

(Vis evt. selv dette; brug samme fremgangsmåde som i opgave 1.2, men profitmaksimer blot mht. $P$ og $A_j$).

**Opgave 3.1**

Vores datasæt rummer tre variable, som angiver annoncebudgettet fordelt på specifikke kategorier. Estimer med udgangspunkt i ligning (5) følgende lineære specifikation:


$$
\log Q_i = \alpha + \eta \log P_i + \gamma_1 \log A_{1i} + \gamma_2 \log A_{2i} + \gamma_3 \log A_{3i} + u_i \tag{11}
$$ 

hvor
- $A_1$ er annonceforbrug på traditionelle markedsføringskanaler (_adv\_trad_)
- $A_2$ er annonceforbrug på influencers (_adv\_infl_)
- $A_3$ er annonceforbrug på podcasts (_adv\_podcasts_)

Rapporter og fortolk dine resultater. 

**Din kode**

In [7]:
df['log_A1'] = np.log(df.adv_trad)
df['log_A2'] = np.log(df.adv_infl)
df['log_A3'] = np.log(df.adv_podcasts)

y = df.log_Q
X = df[['const', 'log_P', 'log_A1', 'log_A2', 'log_A3']]

model31 = sm.OLS(y,X)
results31 = model31.fit()

print(results31.summary())

                            OLS Regression Results                            
Dep. Variable:                  log_Q   R-squared:                       0.465
Model:                            OLS   Adj. R-squared:                  0.461
Method:                 Least Squares   F-statistic:                     107.6
Date:                Fri, 26 Sep 2025   Prob (F-statistic):           6.43e-66
Time:                        13:42:36   Log-Likelihood:                -250.72
No. Observations:                 500   AIC:                             511.4
Df Residuals:                     495   BIC:                             532.5
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          7.5282      0.668     11.266      0.0

**Dit svar** (Fortolk dine resultater)

> Koefficienten til $\log A_2$ (influencers) er størst. Det peger på, at influencermarkedsføring er mere effektivt end traditionelle kanaler og podcasts. Traditionelle kanaler er har en statistisk signifikant – men måske økonomisk insignifikant – effekt på efterspørgslen, mens effekten af podcastmarkedsføring ikke er statistisk signifikant ifl. modellen.

---

Vi skal nu bruge et F-test til at undersøge hypotesen

\begin{align*}
H_0: &\quad \gamma_1 = \gamma_2 = \gamma_3 \\
\iff & \quad \gamma_1 - \gamma_2 = 0 \land \gamma_2 - \gamma_3 = 0 \\ \\
H_A: &\quad \gamma_1 - \gamma_2 \neq 0 \lor \gamma_2 - \gamma_3 \neq 0

\end{align*}

**Opgave 3.2a**
Hvad er den økonomiske fortolkning af denne hypotese?


**Dit svar**

> Hvis nulhypotesen er sand, så er annonceelasticiteten for de tre annoncekategorier den samme; altså er der ingen forskel i effektiviteten af de tre kategorier.

For at beregne F-test-statistikken skal vi estimere en urestrikteret model og en restrikteret model. 

_Den urestrikterede model_ har vi estimeret ovenfor i opgave 3.1. Denne model er urestrikteret, fordi vi her estimerer $\gamma_1, \gamma_2$ og $\gamma_3$ separat og altså tillader, at parameterne varierer frit. 

Udfordringen er at estimere _den restrikterede model_. Det kræver en omformulering af vores regressionsspecifikation.

**Opgave 3.2b**
Vis, at vi under nulhypotesen kan omskrive ligning 11 til følgende lineære form:
$$
\log Q_i = \alpha + \eta \log P_i + \gamma_1 (\log A_{1i} + \log A_{2i} + \log A_{3i}) + u_i \tag{12}
$$ 

**Dit Svar:**

> Vi starter med ligning 11, og bruger nulhypotesen $\gamma_1 = \gamma_2 = \gamma_3$ til at substituere $\gamma_1$ ind på $\gamma_2$ og $\gamma_3$'s pladser: 
>
>\begin{align*}
\log Q_i &= \alpha + \eta \log P_i + \gamma_1 \log A_{1i} + \gamma_2 \log A_{2i} + \gamma_3 \log A_{3i} + u_i \\
 &= \alpha + \eta \log P_i + \gamma_1 \log A_{1i} + \gamma_1 \log A_{2i} + \gamma_1 \log A_{3i} + u_i
\end{align*}
>
>Nu kan vi faktorisere for at få det ønskede udtryk i ligning 12:
>
>\begin{align*}
\log Q_i &= \alpha + \eta \log P_i + \gamma_1 (\log A_{1i} + \log A_{2i} + \log A_{3i}) + u_i
\end{align*}


**Opgave 3.2c** Konstruer variablen $(\log A_{1i} + \log A_{2i} + \log A_{3i})$ og estimér den restrikterede model i ligning 12 med OLS

In [8]:
df['log_Aj_sum'] = df.log_A1 + df.log_A2 + df.log_A3

y = df.log_Q
X = df[['const', 'log_P', 'log_Aj_sum']]

model32 = sm.OLS(y, X)
results32 = model32.fit()

print(results32.summary())

                            OLS Regression Results                            
Dep. Variable:                  log_Q   R-squared:                       0.455
Model:                            OLS   Adj. R-squared:                  0.453
Method:                 Least Squares   F-statistic:                     207.9
Date:                Fri, 26 Sep 2025   Prob (F-statistic):           2.49e-66
Time:                        13:42:36   Log-Likelihood:                -255.18
No. Observations:                 500   AIC:                             516.4
Df Residuals:                     497   BIC:                             529.0
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.0069      0.444     20.303      0.0

**Opgave 3.2d** Udfør nu dit F-test ved at bruge formlen:

1. **F-statistik**:
   $$
   F = \frac{(RSS_r - RSS_{ur}) / q}{RSS_{ur} / (n - k_{ur})} \sim F(q, n - k_{ur})
   $$
   hvor:
   - $RSS_r$: RSS for den restrikterede model
   - $RSS_{ur}$: RSS for den fulde model
   - $q$: antal restriktioner
   - $n$: antal observationer
   - $k_{ur}$: antal parametre i den urestrikterede model, inklusive konstantledet
2. **P-værdi**:
   P-værdien beregnes som:
   $$
   p = 1 - F_{\text{cdf}}(F_{\text{stat}}, q, n - k_{ur})
   $$
   hvor $F_{\text{cdf}}$ er kumulativ fordelingsfunktion for F-fordelingen, og $F_{\text{stat}}$ er den beregnede F-statistik.

- _Hint_: Der er $q=2$ lineære restriktioner, hvilket kan ses af omformuleringen af nul- og alternativhypotesen over opgave 3.2a
- _Hint_: Hvis du bruger statsmodels, kan du tilgå RRS i dit modelresultat-objekt med kommandoen `results.ssr`
- _Hint_: Du kan finde $F_{\text{cdf}} ( F_\text{stat}, q, n - k_{ur})$ med følgende kode:
```py
from scipy import stats
stats.f.cdf(F_stat, q, n - k_ur)
```

**Din kode:** 

In [9]:
RSSr = results32.ssr
RSSur = results31.ssr
q = 2
n = 500
k_ur = 5

F_stat = ((RSSr - RSSur)/q)  /  ((RSSur)/(n-k_ur))

from scipy import stats
p = 1 - stats.f.cdf(F_stat, q, n-k_ur)

print(f'{F_stat = :.4f}')
print(f'{p = :.4f}')

F_stat = 4.4555
p = 0.0121


In [10]:
# The entire F-test can also be calculated in one step using statsmodels:

hypotheses = 'log_A1 = log_A2 = log_A3'
ftest = results31.f_test(hypotheses)

print(ftest)

<F test: F=4.455535975174263, p=0.012083598588868575, df_denom=495, df_num=2>


**Opgave 3.2e** Fortolk dine resultater. Kan vi afvise nulhypotesen eller ej? Hvad er den økonomiske fortolkning?

**Dit svar:**

> $p$-værdien er $0.01208$, hvilket betyder at udfaldet er mindre end 5% sandsynligt under nulhypotesen. Altså forkaster vi nulhypotesen på et 5% konfidensniveau.
>
> Den økonomiske implikation er, at annonceelasticiteten ikke lader til at være den samme på tværs af de tre annoncekategorier. Det betyder, at virksomhederne ikke bør spendere det samme på hver kategori, men snarere bør fordele deres annoncebudget under hensyntagen til de enkelte elasticiteter for at maksimere deres profit.

(Det bemærkes for en god ordens skyld igen, at der er tale om simuleret data, og at der derfor ikke kan drages konklusioner om faktisk firmaadfærd eller efterspørgsel på baggrund den empiriske analyse i disse øvelser).

---

#### Bonusopgave
I denne opgave vil du lære hvordan du let kan eksportere output fra statsmodels og fra pandas DataFrames til LaTeX, sådan at du kan bruge output fra Python i pæne tabeller, der er korrekt sat op i dine afleveringsopgaver.


- Brug denne kommando i Python til at printe dit regression summary som LaTeX kode:
```py
print(results.summary().as_latex())
```

- Opret et LaTeX-dokument (fx i Overleaf).

- Kopier koden ind i dit LaTeX dokument og se, hvordan tabellen ser ud.

Tilsvarende kan du konvertere ethvert Pandas DataFrame (fx deskriptiv statistik) til LaTeX med metoden `.to_latex()`. Bemærk at navngivningen af de to metoder er lidt forskellig i statsmodels og i pandas.

Prøv fx at køre koden:
```py
print(df.describe().to_latex())
```

*Tip:* Hvis du vil afrunde dit LaTeX output til fx to decimaler, kan du bruge argumentet `float_format="%.2f"` i `.to_latex()` metoden

*Tip:* Din tabel bliver automatisk flottere i LaTeX hvis du importerer LaTeX-pakken booktabs:
```\usepackage{booktabs}```

**Din kode:**

Du vil måske opleve, at det kræver lidt mere arbejde at få tabellen til at se godt ud i LaTeX. Blandt andet fordi statsmodels faktisk spytter flere tabeller af forskellig størrelse ud, når man printer et summary.

Du kan bede statsmodels om at printe tabellerne enkeltvist sådan her her. Så kan du fx vælge kun at bruge tabellen der indeholder koefficientestimaterne.

```py
print(results.summary().tables[0])
print(results.summary().tables[1])
print(results.summary().tables[2])
```

**Sidste tip til de "dovne":** Hvis du har travlt og ikke har lyst til at rode med at sætte LaTeX-tabellerne pænt op, kan du også bare kopiere de rå tekstoutput fra Python og indsætte i et verbatim miljø i LaTeX – det ser OK ud. Du skriver følgende i LaTeX:

```LaTeX
\begin{verbatim}
<Dit rå textoutput her>
\end{verbatim}
```