In [5]:
# --- SET PROJECT ROOT IN JUPYTER NOTEBOOK ---
import os
import sys

# Start from the current working directory instead of __file__
root_dir = os.getcwd()

# Traverse upwards until the .project_root file is found or until reaching system root
while not os.path.exists(os.path.join(root_dir, '.project_root')) and root_dir != '/':
    root_dir = os.path.dirname(root_dir)

# Make sure the .project_root file is found
assert root_dir != '/', "The .project_root file was not found. Make sure it exists in your project root."

# Append project root to sys.path
if root_dir not in sys.path:
    sys.path.append(root_dir)

# Now imports should work correctly
import pandas as pd
from python import src
from python.src import lookup
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm


In [6]:
# Load your data
lisa_df = pd.read_stata(os.path.join(root_dir, 'test/lisa.dta'))

# Apply labels automatically
lisa_df.rs.autolabel(domain='scb', lang='swe')
lisa_df.rs.autolabel(label_type='values', domain='scb', lang='swe')


✓ Applied variable labels to 28776 variables



Parsing value labels: 100%|██████████| 13351/13351 [00:06<00:00, 2143.11it/s]


✓ Applied value labels to 13351 variables (0 errors)






In [13]:
lisa_df.rs[['astsni2007']]

Unnamed: 0,"Näringsgren för statistiken, huvudsaklig"
0,Smågrisuppfödare
1,Mjölkproducenter
2,Odlare av prydnadsväxter i växthus
3,Mjölkproducenter
4,Potatisodlare
...,...
995,Stuterier och andra hästuppfödare m.fl.
996,Odlare av övriga ett- och tvååriga växter
997,Mjölkproducenter
998,Odlare av grönsaker på friland


In [14]:
# Labeled DataFrame usage
print(lisa_df.rs.head())


    lopnr1  ku3cfarnrlopnr1  ku2cfarnrlopnr1  ku1cfarnrlopnr1  cfarnrlopnr1  \
0   8042.0     4.453566e+09     4.453861e+09     4.453979e+09  4.452928e+09   
1  11835.0     4.452388e+09     4.454182e+09     4.454254e+09  4.453636e+09   
2  16151.0     4.453710e+09     4.452687e+09     4.453376e+09  4.452802e+09   
3  10219.0     4.453022e+09     4.452837e+09     4.453977e+09  4.452566e+09   
4  15551.0     4.453534e+09     4.453350e+09     4.453615e+09  4.452249e+09   

   ku3peorgnrlopnr1  ku2peorgnrlopnr1  ku1peorgnrlopnr1  peorgnrlopnr1  \
0      1.888033e+10      1.887997e+10      1.888096e+10   1.888044e+10   
1      1.888045e+10      1.888063e+10      1.888060e+10   1.887993e+10   
2      1.888086e+10      1.888150e+10      1.888058e+10   1.888145e+10   
3      1.888093e+10      1.887988e+10      1.888069e+10   1.888131e+10   
4      1.888159e+10      1.888033e+10      1.888073e+10   1.888078e+10   

   Konsumtionsenhet enligt 2004 års definition  ...  \
0                        

In [15]:
# Direct labeled column access
print(lisa_df.rs.astsni2007.value_counts())

Näringsgren för statistiken, huvudsaklig
Odlare av grönsaker på friland                              79
Odlare av plantskoleväxter i växthus                        78
Uppfödare av sällskapsdjur                                  77
Smågrisuppfödare                                            76
Stuterier och andra hästuppfödare m.fl.                     75
Får- och getuppfödare                                       75
Potatisodlare                                               73
Odlare av spannmål (utom ris), baljväxter och oljeväxter    73
Odlare av plantskoleväxter m.m. på friland                  72
Odlare av prydnadsväxter i växthus                          71
0                                                           71
Odlare av övriga ett- och tvååriga växter                   67
Mjölkproducenter                                            59
Okänd                                                       54
Name: count, dtype: int64


In [None]:

sns.scatterplot(data=lisa_df.rs, x='ssyk3', y='ssyk4', hue='astsni2007')
plt.title("Labeled Plot Example")
plt.show()

In [19]:
# lookup
lookup(['astsni2007', 'carb'], domain='scb', lang='swe')

------------------------------------------------------------------------------------------
| VARIABLE:     [1mastsni2007[0m
| LABEL:        Näringsgren för statistiken, huvudsaklig
| DEFINITION:   Huvudsaklig näringsgren enligt Svensk näringsgrensindelning (SNI), sat
|               t för statistiska ändamål.¶
| VALUE LABELS: 00000: Okänd
|               01110: Odlare av spannmål (utom ris), baljväxter och oljeväxter
|               01120: Risodlare
|               01131: Potatisodlare
|               01132: Sockerbetsodlare
|               01133: Odlare av grönsaker på friland
|               01134: Odlare av grönsaker i växthus
|               01135: Svampodlare m.fl.
|               (and 814 more labels)
------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------
| VARIABLE:     [1mcarb[0m
| LABEL:        Arbetsinkomst
| DEFINITION:   Summan av lön, företagar

In [17]:

# Use lisa_df.rs directly with original column names
X = lisa_df.rs[['dispinkfam04']]  # This will return a DataFrame with labeled column
y = lisa_df.rs['dispink04']       # This will return a Series with label as name

X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())


                                                OLS Regression Results                                               
Dep. Variable:     Delkomponent till disponibel inkomst, 2004 års definition   R-squared:                       0.000
Model:                                                                   OLS   Adj. R-squared:                 -0.001
Method:                                                        Least Squares   F-statistic:                    0.1111
Date:                                                       Sat, 15 Mar 2025   Prob (F-statistic):              0.739
Time:                                                               09:40:28   Log-Likelihood:                -12557.
No. Observations:                                                       1000   AIC:                         2.512e+04
Df Residuals:                                                            998   BIC:                         2.513e+04
Df Model:                                               