### Importing Libaries

In [106]:
import pandas as pd
import numpy as np

### Loeading data

In [107]:
df = pd.read_csv("tasutud_maksud_2024_iv_kvartal.csv", delimiter=";")

### Data overview

In [108]:
def clean_data(df):

    missing_count = df.isnull().sum().sum()
    duplicate_count = df.duplicated().sum()

    print(f"Missing values in dataset: {missing_count}")
    print(f"Duplicate rows in dataset: {duplicate_count}")

    return df


df = clean_data(df)
df.head()

Missing values in dataset: 292914
Duplicate rows in dataset: 0


Unnamed: 0,Registrikood,Nimi,Liik,Registreeritud käibemaksukohustuslaste registrisse,"EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga",Maakond,Riiklikud Maksud,Tööjõumaksud Ja Maksed,Kaive,Tootajaid
0,1834575,"KUNDERI 24, GARAAŽIKOOPERATIIV",Äriühing,ei,,Harju ( Tallinn ),26757,0,,
1,10000018,AMSERV AUTO OSAÜHING,Äriühing,jah,HULGI- JA JAEKAUBANDUS; MOOTORSÕIDUKITE JA MOO...,Harju ( Tallinn ),159997873,116226212,4077515323.0,239.0
2,10000024,"EESTI RAAMAT, OÜ",Äriühing,jah,INFO JA SIDE,Harju ( Tallinn ),3912085,3208372,26014192.0,11.0
3,10000062,ALDO KOPPEL,FIE,jah,"PÕLLUMAJANDUS, METSAMAJANDUS JA KALAPÜÜK",Ida-Viru ( Lüganuse vald ),31921,0,328932.0,
4,10000127,"ARAVETE APTEEK, TÜ",Äriühing,jah,HULGI- JA JAEKAUBANDUS; MOOTORSÕIDUKITE JA MOO...,Järva ( Järva vald ),1208003,802103,19864563.0,2.0


In [109]:
def show_missing():
    missing = df.columns[df.isnull().any()].tolist()
    return missing


print("Missing Data Count")
print(df[show_missing()].isnull().sum().sort_values(ascending=False))
print("--" * 15)
print("Missing Data Percentage")
print(
    round(
        df[show_missing()].isnull().sum().sort_values(ascending=False) / len(df) * 100,
        2,
    )
)

Missing Data Count
Tootajaid                                                                  101274
Kaive                                                                       67514
Riiklikud Maksud                                                            36370
Tööjõumaksud Ja Maksed                                                      36370
Maakond                                                                     30476
EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga     20910
dtype: int64
------------------------------
Missing Data Percentage
Tootajaid                                                                  53.42
Kaive                                                                      35.61
Riiklikud Maksud                                                           19.18
Tööjõumaksud Ja Maksed                                                     19.18
Maakond                                                                    16.07
EMTAK tegevusval

### Data Cleaning

Renaming columns "Kaive" and "Tootajad" to correct names

In [110]:
df.rename(columns={"Tootajaid": "Töötajad"}, inplace=True)
df.rename(columns={"Kaive": "Käive"}, inplace=True)

Column "registrikood" - adjusting column for visualisations, Registrikood isn't needed for visualization and is dropped from dataframe.

In [111]:
df.drop(columns=["Registrikood"], inplace=True)

Adjusting column "EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga"

In [None]:
df["EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga"] = df[
    "EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga"
].str.capitalize()

df["EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga"] = df[
    "EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga"
].fillna("määramata")

Column "maakond" - adjusting column for visualisations
- Split column to "maakond" and "keskus"

In [113]:
df["Maakond keskusega"] = df["Maakond"]
df[["Maakond", "Keskus"]] = df["Maakond"].str.extract(r"(.+?)\s*\(\s*(.+?)\s*\)")

print(df.head())

                             Nimi      Liik  \
0  KUNDERI 24, GARAAŽIKOOPERATIIV  Äriühing   
1            AMSERV AUTO OSAÜHING  Äriühing   
2                EESTI RAAMAT, OÜ  Äriühing   
3                     ALDO KOPPEL       FIE   
4              ARAVETE APTEEK, TÜ  Äriühing   

  Registreeritud käibemaksukohustuslaste registrisse  \
0                                                 ei   
1                                                jah   
2                                                jah   
3                                                jah   
4                                                jah   

  EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga  \
0                                          määramata                        
1  Hulgi- ja jaekaubandus; mootorsõidukite ja moo...                        
2                                       Info ja side                        
3           Põllumajandus, metsamajandus ja kalapüük                    

In [114]:
df["Maakond"] = df["Maakond"].fillna("määramata")

print(df.head())

                             Nimi      Liik  \
0  KUNDERI 24, GARAAŽIKOOPERATIIV  Äriühing   
1            AMSERV AUTO OSAÜHING  Äriühing   
2                EESTI RAAMAT, OÜ  Äriühing   
3                     ALDO KOPPEL       FIE   
4              ARAVETE APTEEK, TÜ  Äriühing   

  Registreeritud käibemaksukohustuslaste registrisse  \
0                                                 ei   
1                                                jah   
2                                                jah   
3                                                jah   
4                                                jah   

  EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga  \
0                                          määramata                        
1  Hulgi- ja jaekaubandus; mootorsõidukite ja moo...                        
2                                       Info ja side                        
3           Põllumajandus, metsamajandus ja kalapüük                    

Normalize column names to avoid hidden characters and replace commas and convert to float

In [115]:
print(df.columns.tolist())
df.columns = df.columns.str.strip().str.replace("\xa0", " ").str.replace(" ", " ")

for col in ["Tööjõumaksud Ja Maksed", "Käive", "Riiklikud Maksud"]:
    df[col] = df[col].astype(str).str.replace(",", ".")
    df[col] = pd.to_numeric(df[col], errors="coerce")

print(df.head())

['Nimi', 'Liik', 'Registreeritud käibemaksukohustuslaste registrisse', 'EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga', 'Maakond', 'Riiklikud Maksud', 'Tööjõumaksud Ja Maksed', 'Käive', 'Töötajad', 'Maakond keskusega', 'Keskus']
                             Nimi      Liik  \
0  KUNDERI 24, GARAAŽIKOOPERATIIV  Äriühing   
1            AMSERV AUTO OSAÜHING  Äriühing   
2                EESTI RAAMAT, OÜ  Äriühing   
3                     ALDO KOPPEL       FIE   
4              ARAVETE APTEEK, TÜ  Äriühing   

  Registreeritud käibemaksukohustuslaste registrisse  \
0                                                 ei   
1                                                jah   
2                                                jah   
3                                                jah   
4                                                jah   

  EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga  \
0                                          määra

In [116]:
df["Brutopalk kvartalis"] = np.where(
    (df["Tööjõumaksud Ja Maksed"].notna()) & (df["Tööjõumaksud Ja Maksed"] > 0),
    df["Tööjõumaksud Ja Maksed"] / 1.338,
    np.nan,  # If Tööjõumaksud is blank or 0, set result as NaN
)

# Keskmine brutokuupalk: Handling cases where Töötajad is NaN or 0
df["Keskmine brutokuupalk"] = np.where(
    (df["Brutopalk kvartalis"].notna())
    & (df["Töötajad"].notna())
    & (df["Töötajad"] > 0),
    df["Brutopalk kvartalis"] / (3 * df["Töötajad"]),
    np.nan,  # If Brutopalk kvartalis or Töötajad is blank or 0, set result as NaN
)
df = df[df["Keskmine brutokuupalk"] > 0].dropna(subset=["Keskmine brutokuupalk"])
print(df.head())

                           Nimi      Liik  \
1          AMSERV AUTO OSAÜHING  Äriühing   
2              EESTI RAAMAT, OÜ  Äriühing   
4            ARAVETE APTEEK, TÜ  Äriühing   
5         KIVIÕLI KAUBAHOOV, AS  Äriühing   
6  ITW CONSTRUCTION PRODUCTS OÜ  Äriühing   

  Registreeritud käibemaksukohustuslaste registrisse  \
1                                                jah   
2                                                jah   
4                                                jah   
5                                                jah   
6                                                jah   

  EMTAK tegevusvaldkond, mis on EMTAKi struktuuris tähistatud tähtkoodiga  \
1  Hulgi- ja jaekaubandus; mootorsõidukite ja moo...                        
2                                       Info ja side                        
4  Hulgi- ja jaekaubandus; mootorsõidukite ja moo...                        
5  Hulgi- ja jaekaubandus; mootorsõidukite ja moo...                        
6  Hulg

### Saving cleaned data

In [117]:
df.to_csv(
    "tasutud_maksud_2024_iv_kvartal_cleaned.csv", sep=";", decimal=".", index=False
)