In [61]:
import pandas as pd
import statsmodels.formula.api as smf
from statsmodels.iolib.summary2 import summary_col

# === Last inn data ===
df = pd.read_csv("data/processed/summary_statistics.csv", sep=";")
df.columns = df.columns.str.strip()

# Konverter dato og trekk ut måned
df['Dato'] = pd.to_datetime(df['Dato'], errors='coerce')
df = df.dropna(subset=['Dato'])
df['måned'] = df['Dato'].dt.to_period('M')

#Fra 2017-2024
#df = df[(df['Dato'] >= "2017-01-01") & (df['Dato'] <= "2024-12-31")]

# Lag lagget rensefiskandel (per PO)
df = df.sort_values(['PO', 'måned'])
df['% Rensefisk_lag1'] = df.groupby('PO')['% Rensefisk'].shift(1)

# Kvadrert temperatur
df["Temperatur2"] = df["Temperature"]**2

# Drop rader med NaN i nødvendige kolonner
relevante_kolonner = [
    "% Dødfisk", "Temperature", "Temperatur2", "Tetthet", "BA_ano", "% FORFORBRUK",
    "% Rensefisk_lag1", "badebehandling", "mekanisk behandling", "termisk behandling", "PO"
]
df = df.dropna(subset=relevante_kolonner)

# Antall observasjoner etter filtrering
print(f"Antall observasjoner brukt i analysen: {len(df)}")

# === Definer modeller ===
f1 = 'Q("% Dødfisk") ~ Q("Temperature") + C(PO)'
f2 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Temperatur2") + C(PO)'
f3 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Temperatur2") + Q("Tetthet") + Q("BA_ano") + Q("% FORFORBRUK") + C(PO)'
f4 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Temperatur2") + Q("Tetthet") + Q("BA_ano") + Q("% FORFORBRUK") + Q("% Rensefisk_lag1") + Q("badebehandling") + Q("mekanisk behandling") + Q("termisk behandling") + C(PO)'

# === Estimer modeller ===
model1 = smf.ols(f1, data=df).fit(cov_type='HC3')
model2 = smf.ols(f2, data=df).fit(cov_type='HC3')
model3 = smf.ols(f3, data=df).fit(cov_type='HC3')
model4 = smf.ols(f4, data=df).fit(cov_type='HC3')

# Antall observasjoner per modell
print(f"Observasjoner i modell 1: {int(model1.nobs)}")
print(f"Observasjoner i modell 2: {int(model2.nobs)}")
print(f"Observasjoner i modell 3: {int(model3.nobs)}")
print(f"Observasjoner i modell 4: {int(model4.nobs)}")

# === Lag regresjonstabell ===
summary = summary_col(
    [model1, model2, model3, model4],
    stars=True,
    float_format='%0.4f',
    model_names=["(1)", "(2)", "(3)", "(4)"],
    info_dict={
        'R-squared': lambda x: f"{x.rsquared:.3f}",
        'N': lambda x: f"{int(x.nobs)}"
    },
    regressor_order=[
        'Intercept',
        'Q("Temperature")',
        'Q("Temperatur2")',
        'Q("Tetthet")',
        'Q("BA_ano")',
        'Q("% FORFORBRUK")',
        'Q("% Rensefisk_lag1")',
        'Q("badebehandling")',
        'Q("mekanisk behandling")',
        'Q("termisk behandling")',
    ]
)

# === Vis resultat ===
print(summary)
# === Lagre som LaTeX-fil ===
with open("data/processed/regresjonsresultater_2012_2024.tex", "w") as f:
    f.write(summary.as_latex())


Antall observasjoner brukt i analysen: 1813
Observasjoner i modell 1: 1813
Observasjoner i modell 2: 1813
Observasjoner i modell 3: 1813
Observasjoner i modell 4: 1813

                            (1)        (2)        (3)        (4)    
--------------------------------------------------------------------
Intercept                0.8474***  1.1957***  1.0392***  1.0387*** 
                         (0.0512)   (0.0779)   (0.0749)   (0.0757)  
Q("Temperature")         0.0091***  -0.0868*** 0.0103     0.0182    
                         (0.0028)   (0.0143)   (0.0193)   (0.0193)  
Q("Temperatur2")                    0.0049***  0.0023***  0.0019**  
                                    (0.0008)   (0.0008)   (0.0008)  
Q("Tetthet")                                   0.0286***  0.0248*** 
                                               (0.0052)   (0.0052)  
Q("BA_ano")                                    -0.0273*** -0.0239** 
                                               (0.0099)   (0.0100)  
Q("

Nærmest Eirik sin: 

In [55]:
import pandas as pd
import statsmodels.formula.api as smf
from statsmodels.iolib.summary2 import summary_col

# === Last inn data ===
df = pd.read_csv("data/processed/summary_statistics.csv", sep=";")
df.columns = df.columns.str.strip()

# Konverter dato og trekk ut måned
df['Dato'] = pd.to_datetime(df['Dato'], errors='coerce')
df = df.dropna(subset=['Dato'])
df['måned'] = df['Dato'].dt.to_period('M')

# Lag lagget rensefiskandel (per PO)
df = df.sort_values(['PO', 'måned'])
df['% Rensefisk_lag1'] = df.groupby('PO')['% Rensefisk'].shift(1)

# Kvadrert temperatur
df["Temperatur2"] = df["Temperature"]**2

# Drop rader med NaN i nødvendige kolonner
relevante_kolonner = [
    "% Dødfisk", "Temperature", "Temperatur2", "Tetthet", "BA_ano",
    "% FORFORBRUK", "% Rensefisk_lag1", "badebehandling", 
    "mekanisk behandling", "termisk behandling", "PO"
]
df = df.dropna(subset=relevante_kolonner)

# === Definer modeller ===
f1 = 'Q("% Dødfisk") ~ Q("Temperature") + C(PO)'
f2 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Tetthet") + Q("BA_ano") + Q("% FORFORBRUK") + C(PO)'
f3 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Tetthet") + Q("Temperatur2") + Q("BA_ano") + Q("% FORFORBRUK") + C(PO)'
f4 = 'Q("% Dødfisk") ~ Q("Temperature") + Q("Tetthet") + Q("Temperatur2") + Q("BA_ano") + Q("% FORFORBRUK") + Q("% Rensefisk_lag1") + Q("badebehandling") + Q("mekanisk behandling") + Q("termisk behandling") + C(PO)'

# === Estimer modeller ===
model1 = smf.ols(f1, data=df).fit(cov_type='HC3')
model2 = smf.ols(f2, data=df).fit(cov_type='HC3')
model3 = smf.ols(f3, data=df).fit(cov_type='HC3')
model4 = smf.ols(f4, data=df).fit(cov_type='HC3')

# === Lag regresjonstabell ===
summary = summary_col(
    [model1, model2, model3, model4],
    stars=True,
    float_format='%0.4f',
    model_names=["(1)", "(2)", "(3)", "(4)"],
    info_dict={
        'R-squared': lambda x: f"{x.rsquared:.3f}",
        'N': lambda x: f"{int(x.nobs)}"
    },
    regressor_order=[
        'Intercept',
        'Q("Temperature")',
        'Q("Temperatur2")',
        'Q("Tetthet")',
        'Q("BA_ano")',
        'Q("% FORFORBRUK")',
        'Q("% Rensefisk_lag1")',
        'Q("badebehandling")',
        'Q("mekanisk behandling")',
        'Q("termisk behandling")',
    ]
)

# === Print resultater ===
print(summary)

df_clean = df.dropna(subset=relevante_kolonner)
print(len(df_clean))



                            (1)        (2)        (3)        (4)    
--------------------------------------------------------------------
Intercept                0.8474***  0.8975***  1.0392***  1.0387*** 
                         (0.0512)   (0.0530)   (0.0749)   (0.0757)  
Q("Temperature")         0.0091***  0.0650***  0.0103     0.0182    
                         (0.0028)   (0.0070)   (0.0193)   (0.0193)  
Q("Temperatur2")                               0.0023***  0.0019**  
                                               (0.0008)   (0.0008)  
Q("Tetthet")                        0.0273***  0.0286***  0.0248*** 
                                    (0.0052)   (0.0052)   (0.0052)  
Q("BA_ano")                         -0.0346*** -0.0273*** -0.0239** 
                                    (0.0097)   (0.0099)   (0.0100)  
Q("% FORFORBRUK")                   -0.0367*** -0.0309*** -0.0336***
                                    (0.0035)   (0.0039)   (0.0039)  
Q("% Rensefisk_lag1")            