In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# Fra strukturel model til økonometrisk analyse
I dette problem set  skal vi arbejde med et eksempel på, hvordan man kan bruge  økonometriske værktøjer til empirisk at teste økonomisk teori. Konkret skal vi arbejde med en strukturel model, som beskriver optimal firmaadfærd når efterspørgslen kan påvirkes gennem reklame (annoncering) og prissætning.


# Del 1: Teoretiske opgaver

Nedenfor vil vi først beskrive en simpel strukturel model for, hvordan virksomheder sætter priser og vælger deres annoncebudget. Vi transformerer derefter modellen så vi opnår en lineær specifikation, således at modelparametrene kan estimeres empirisk ved hjælp af OLS. Vi formulerer herefter nogle nulhypoteser, således at vi kan teste den strukturelle models prædiktioner. Til sidst estimerer vi modellen empirisk (i del 2) og kigger på en udvidet model med flere annoncekategorier (i del 3)

## 1.1: Efterspørgselsfunktionen
Antag, at virksomhederne ved, at forbrugernes efterspørgsel efter virksomhedens varer er givet ved følgende multiplikative efterspørgselsfunktion med konstante elasticiteter (dvs. Cobb-Douglas form):


$$ Q(P,A) = K P^{-\beta} A^{\gamma} \varepsilon, \tag{1}
 $$

hvor:
- $Q$ = Mængde efterspurgt  
- $K$ = En konstant
- $P$ = Virksomhedens pris
- $A$ = Virksomhedens annonceforbrug  
- $\beta > 0$ = priselasticitet  
- $\gamma \geq 0$ = annonceelasticitet  
- $\varepsilon$ = stokastisk efterspørgselsstød 

**Opgave 1.1:**

Vis, at de marginale efterspørgselsfunktioner er

\begin{align*}
\frac{\partial Q}{\partial P} &= - \frac{\beta}{P} Q(P,A),
\\
\frac{\partial Q}{\partial A} &= \frac{\gamma}{A} Q(P,A).

\end{align*}

**Dit svar:** 

Fortolk på fortegnene. Er de som du forventer?


**Dit svar:** 

---


## 1.2. Profitmaksimering og Dorfman–Steiner reglen

Firmaet vælger prisen $P$ og annoncebudgettet $A$ sådan at deres profit maksimeres. Profitfunktionen er:

$$
\pi = P \cdot Q(P,A) - c \cdot Q(P,A) - A - F, \tag{2}
$$

med marginalomkostninger $c$ og faste omkostninger $F$.


**Opgave 1.2:**

Vis, at profitmaksimering medfører førsteordensbetingelserne:

1. **Prissætning (Lerner betingelsen):**
$$
\frac{P-c}{P} = \frac{1}{\beta} \equiv L, \tag{3}
$$

2. **Annoncering (Dorfman–Steiner betingelsen):**
$$
\frac{A}{P \cdot Q} = \gamma \frac{P-c}{P} = \gamma L. \tag{4}
$$

(Hint: Brug produktreglen samt de marginale efterspørgselsfunktioner fra opgave 1 i din udledning)

**Dit svar:** 


PS:
$L \equiv \frac{1}{\beta}$ kaldes Lerner indekset (eller markup'en). De udledte førsteordensbetingelser illustrerer den såkaldte **Dorfman–Steiner regel**: optimal annonceringsintensitet (dvs. annonceandelen af salget, venstresiden i ligning 4) er proportional med annonceelasticiteten $\gamma$ og markup'en $L \equiv \frac{P-c}{P}$ (højresiden).


---

## 1.3. Fra teori til empirisk specifikation

Vi ønsker empirisk at undersøge, om virksomhederne følger Dorfman-Steiner reglen; dvs. om virksomhedernes valg af priser og annoncebudgetter stemmer overens med de teoretiske forudsigelser om optimal profitmaksimerende adfærd.

For at kunne bruge lineær regressionsanalyse skal vores model være lineær i parametrene. Det kan vi opnå ved at bruge logaritmetransformationen.



**Opgave 1.3:** 

Vis, at vi ved at tage logaritmen i efterspørgselsfunktionen (ligning 1) og Dorfman-Steiner-betingelsen (ligning 4) kan få følgende lineære specifikationer: 


**Log efterspørgsel:**
$$
\log Q = \alpha - \beta \log P + \gamma \log A + u, \tag{5}
$$
hvor $u \equiv \log \varepsilon$ og $\alpha \equiv \log K$

og 

**Log Dorfman-Steiner:**
$$
\log \left(\frac{A}{P \cdot Q} \right) = \delta + \log L. \tag{6}
$$

hvor $ \delta \equiv \log \gamma $ og $L = \frac{P-C}{P}$


**Dit svar:** 

---

## 1.4. Nul- og alternativhypoteser 

Antag, at du har et datasæt til rådighed, hvor vi observerer $N$ virksomheder der hver sælger et enkelt produkt. For hver virksomhed $i$ observeres virksomhedens solgte mængde $Q_i$, pris $P_i$, annoncebudget $A_i$ og marginalomkostninger $c_i$. Med udgangspunkt i de lineære specifikationer i ligning (5) og (6) vil det da være muligt at estimere parametrene $\alpha$, $\beta$, $\gamma$, $\delta$ og $\theta$ i følgende regressionsspecifikationer

\begin{align*}
\log Q_i &= \alpha + \eta \log P_i + \gamma \log A_i + u_i \tag{7} \\
\log Adv\_share_i &= \delta + \theta \log L_i + \epsilon_i \tag{8}
\end{align*}

hvor: 
- $\eta \equiv -\beta$
- $Adv\_share_i \equiv  \left(\frac{A_i}{P_i Q_i} \right)$
- $L_i = \frac{P_i - c_i}{P_i}$

**Opgave 1.4a:**

Hvordan kan du teste Dorfman-Steiner hypotesen? Er der en parameterrestriktion på $\theta$, som kan hjælpe os med at teste om firmaernes adfærd stemmer overens med teorien? Formulér formelt den relevante nul- og alternativhypotese.

**Dit svar:**

**Opgave 1.4b:**

Vi kan også bruge datasættet og vores lineære specifikationer til at teste andre, simplere hypoteser. Lad os eksempelvis antage, at prisen er ligegyldig for efterspørgslen. Hvad er den relevante nul- og alternativhypotese da? Og hvad er den relevante nul- og alternativhypotese for, at annoncering er ligegyldig for efterspørgslen?



## Del 2: Regressionsanalyse i Python

Vi skal nu teste, om de teoretiske forudsigelser understøttes af empirien. Til det formål anvender vi datasættet `advertising.dta`. 

Bemærk at der er tale om simuleret data, og at der derfor **ikke** kan drages konklusioner om faktisk firmaadfærd på baggrund af analysen.

Datasættet rummer 500 observationer af virksomheders salg, priser, marginalomkostninger og annoncebudgetter. Variablene er defineret således:

| Variabel       | Beskrivelse                                                                 |
|----------------|-----------------------------------------------------------------------------|
| `sales`        | Antallet af solgte enheder                                                  |
| `price`        | Virksomhedens valgte enhedspris                                             |
| `costs`        | Marginalomkostningerne                                                      |
| `adv`          | Det totale annoncebudget                                                    |
| `adv_trad`     | Annoncebudgettet til traditionelle kanaler (avis, TV, radio etc.)           |
| `adv_infl`     | Annoncebudgettet til influencer-markedsføring                               |
| `adv_podcasts` | Annoncebudgettet til podcast-reklamer                                       |

**Opgave 2.1**

Indlæs datasættet og estimer først den simple specifikation

$$\log Q_i = \alpha + \eta \log P_i + u_i$$

Sammenlign specifikationen med ligning 7. Hvad har vi implicit antaget om $\gamma$ (dvs. effekten af annoncering)? 

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne for $\eta$ og $\gamma$.

_Hint:_ Husk at tilføje et konstantled.

_Hint:_ Husk at du skal logaritmetransformere dine variable med `np.log()`

**Din kode:**

In [None]:
# Indlæs datasættet
df = ...

# Tilføj et konstantled
df['const'] = ...

# Transformer dine variable
df['log_Q'] = ...
df['log_P'] = ...
df['log_A'] = ...
df['log_c'] = ...

# Estimer med OLS (brug enten din egen implementation af OLS, koden fra forelæsningen eller statsmodels).
y = ...
X = ...

...

**Dit svar:** (Fortolk dine resultater)

---

**Opgave 2.2**

Estimer nu den fulde specifikation fra ligning 7, hvor vi medtager effekten af annoncering:

$$\log Q_i = \alpha + \eta \log P_i + \gamma \log A_i + u_i$$

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne for $\eta$ og $\gamma$. Sammenlign estimatet af priselasticiteten med resultatet fra forrige opgave.


**Din kode:** 

In [None]:
y = ...
X = ...

...

**Dit svar:** (Fortolk dine resultater)

---

**Opgave 2.3**
Vi skal nu undersøge, om virksomhederne overholder Dorfman-Steiner betingelsen for profitmaksimering under annoncering.

Konstruer først de to variable $Adv\_share_i \equiv  \left(\frac{A_i}{P_i Q_i} \right)$ og $L_i = \frac{P_i - C_i}{P_i}$.

Estimer herefter ligning 8 med OLS (husk, at du igen skal bruge en log-transformation):

$$
\log Adv\_share_i = \delta + \theta \log L_i + \epsilon_i
$$

Rapporter og fortolk parameterestimaterne, standardfejlene og konfidensintervallerne $\delta$ og $\theta$.

Test formelt din nulhypotese fra opgave 1.4 vedr. Dorfman-Steiner hypotesen. Hvilket test skal du bruge? (_Hint:_ Der er tale om en enkelt parameterrestriktion). Hvad er resultatet af dit test?

**Din kode:**

In [None]:
# Konstruer og transformer de nødvendige variable
...

# Estimer med OLS
...

In [None]:
# Test om Dorfman-Steiner betingelsen holder ved hjælp af det relevante test
...

**Dit svar:** (Fortolk dine resultater)

## Del 3: Flere annoncekategorier
Betragt nu følgende udvidede teoretiske model, hvor der indgår $m$ annoncekategorier (fx TV, bannerannoncer, influencers, avisreklamer, busreklamer, radio, podcasts, sponsorering af sportshold osv.). Hver kategori $j \in \{1,2,...,m\}$ har sit eget annoncebudget $A_j$ og sin egen annonceelasticitet $\gamma_j$. Under antagelse af, at annoncekategorierne er multiplikative komplementer, får vi følgende efterspørgselsfunktion:

\begin{align*}
Q(P,A_1, A_2, ..., A_m) &= K P^{-\beta} A_1^{\gamma_1} A_2^{\gamma_2} \cdots A_m^{\gamma_m}  \varepsilon \\
                        &= K P^{-\beta} \prod_{j=1}^m A_j^{\gamma_i}  \varepsilon \tag{9}
\end{align*}

mens profitfunktionen er

\begin{align*}
\pi &= P Q - c Q - A_1 - A_2 - ... - A_m - F \\
    &= P Q - c Q - \sum_{j=1}^m A_j - F \tag{10}
\end{align*}

hvor $Q = Q(P, A_1, A_2, ..., A_m)$.

Profitmaksimering medfører samme førsteordensbetingelser som i opgave 1.2, blot hører der nu en Dorfman-Steiner betingelse til hver af de $m$ annoncekategorier på formen:

$$
\frac{A_j}{P \cdot Q} = \gamma_j  \frac{P-c}{P} = \gamma_j  L, \quad \forall j \leq m
$$

(Vis evt. selv dette; brug samme fremgangsmåde som i opgave 1.2, men profitmaksimer blot mht. $P$ og $A_j$).

**Opgave 3.1**

Vores datasæt rummer tre variable, som angiver annoncebudgettet fordelt på specifikke kategorier. Estimer med udgangspunkt i ligning (5) følgende lineære specifikation:


$$
\log Q_i = \alpha + \eta \log P_i + \gamma_1 \log A_{1i} + \gamma_2 \log A_{2i} + \gamma_3 \log A_{3i} + u_i \tag{11}
$$ 

hvor
- $A_1$ er annonceforbrug på traditionelle markedsføringskanaler (_adv\_trad_)
- $A_2$ er annonceforbrug på influencers (_adv\_infl_)
- $A_3$ er annonceforbrug på podcasts (_adv\_podcasts_)

Rapporter og fortolk dine resultater. 

**Din kode**

In [None]:
# Transformer de relevante variable
...

# Estimer med OLS
...

**Dit svar** (Fortolk dine resultater)

---

Vi skal nu bruge et F-test til at undersøge hypotesen

\begin{align*}
H_0: &\quad \gamma_1 = \gamma_2 = \gamma_3 \\
\iff & \quad \gamma_1 - \gamma_2 = 0 \land \gamma_2 - \gamma_3 = 0 \\ \\
H_A: &\quad \gamma_1 - \gamma_2 \neq 0 \lor \gamma_2 - \gamma_3 \neq 0
\end{align*}

**Opgave 3.2a**
Hvad er den økonomiske fortolkning af denne hypotese?


**Dit svar**

For at beregne F-test-statistikken skal vi estimere en urestrikteret model og en restrikteret model. 

_Den urestrikterede model_ har vi estimeret ovenfor i opgave 3.1. Denne model er urestrikteret, fordi vi her estimerer $\gamma_1, \gamma_2$ og $\gamma_3$ separat og altså tillader, at parameterne varierer frit. 

Udfordringen er at estimere _den restrikterede model_. Det kræver en omformulering af vores regressionsspecifikation.

**Opgave 3.2b**
Vis, at vi under nulhypotesen kan omskrive ligning 11 til følgende lineære form:
$$
\log Q_i = \alpha + \eta \log P_i + \gamma_1 (\log A_{1i} + \log A_{2i} + \log A_{3i}) + u_i \tag{12}
$$ 

**Dit Svar:**

**Opgave 3.2c** Konstruer variablen $(\log A_{1i} + \log A_{2i} + \log A_{3i})$ og estimér den restrikterede model i ligning 12 med OLS

In [None]:
# Konstruer variablen
...

# Estimer med OLS
...

**Opgave 3.2d** Udfør nu dit F-test ved at bruge formlen:

1. **F-statistik**:
   $$
   F = \frac{(RSS_r - RSS_{ur}) / q}{RSS_{ur} / (n - k_{ur})} \sim F(q, n - k_{ur})
   $$
   hvor:
   - $RSS_r$: RSS for den restrikterede model
   - $RSS_{ur}$: RSS for den fulde model
   - $q$: antal restriktioner
   - $n$: antal observationer
   - $k_{ur}$: antal parametre i den urestrikterede model, inklusive konstantledet
2. **P-værdi**:
   P-værdien beregnes som:
   $$
   p = 1 - F_{\text{cdf}}(F_{\text{stat}}, q, n - k_{ur})
   $$
   hvor $F_{\text{cdf}}$ er kumulativ fordelingsfunktion for F-fordelingen, og $F_{\text{stat}}$ er den beregnede F-statistik.

- _Hint_: Der er $q=2$ lineære restriktioner, hvilket kan ses af omformuleringen af nul- og alternativhypotesen over opgave 3.2a
- _Hint_: Hvis du bruger statsmodels, kan du tilgå RRS i dit modelresultat-objekt med kommandoen `results.ssr`
- _Hint_: Du kan finde $F_{\text{cdf}} ( F_\text{stat}, q, n - k_{ur})$ med følgende kode:
```py
from scipy import stats
stats.f.cdf(F_stat, q, n - k_ur)
```

**Din kode:** 

In [None]:
RSSr = ... 
RSSur = ...
q = ...
n = ...
k_ur = ...

F_stat = ...

p = ...

print(f'{F_stat = :.4f}')
print(f'{p = :.4f}')

**Opgave 3.2e** Fortolk dine resultater. Kan vi afvise nulhypotesen eller ej? Hvad er den økonomiske fortolkning?

**Dit svar:**

(Det bemærkes for en god ordens skyld igen, at der er tale om simuleret data, og at der derfor ikke kan drages konklusioner om faktisk firmaadfærd eller efterspørgsel på baggrund den empiriske analyse i disse øvelser).

---

#### Bonusopgave
I denne opgave vil du lære hvordan du let kan eksportere output fra statsmodels og fra pandas DataFrames til LaTeX, sådan at du kan bruge output fra Python i pæne tabeller, der er korrekt sat op i dine afleveringsopgaver.


- Brug denne kommando i Python til at printe dit regression summary som LaTeX kode:
```py
print(results.summary().as_latex())
```

- Opret et LaTeX-dokument (fx i Overleaf).

- Kopier koden ind i dit LaTeX dokument og se, hvordan tabellen ser ud.

Tilsvarende kan du konvertere ethvert Pandas DataFrame (fx deskriptiv statistik) til LaTeX med metoden `.to_latex()`. Bemærk at navngivningen af de to metoder er lidt forskellig i statsmodels og i pandas.

Prøv fx at køre koden:
```py
print(df.describe().to_latex())
```

*Tip:* Hvis du vil afrunde dit LaTeX output til fx to decimaler, kan du bruge argumentet `float_format="%.2f"` i `.to_latex()` metoden

*Tip:* Din tabel bliver automatisk flottere i LaTeX hvis du importerer LaTeX-pakken booktabs:
```\usepackage{booktabs}```

**Din kode:**

Du vil måske opleve, at det kræver lidt mere arbejde at få tabellen til at se godt ud i LaTeX. Blandt andet fordi statsmodels faktisk spytter flere tabeller af forskellig størrelse ud, når man printer et summary.

Du kan bede statsmodels om at printe tabellerne enkeltvist sådan her her. Så kan du fx vælge kun at bruge tabellen der indeholder koefficientestimaterne.

```py
print(results.summary().tables[0])
print(results.summary().tables[1])
print(results.summary().tables[2])
```

**Sidste tip til de "dovne":** Hvis du har travlt og ikke har lyst til at rode med at sætte LaTeX-tabellerne pænt op, kan du også bare kopiere de rå tekstoutput fra Python og indsætte i et verbatim miljø i LaTeX – det ser OK ud. Du skriver følgende i LaTeX:

```LaTeX
\begin{verbatim}
<Dit rå textoutput her>
\end{verbatim}
```