In [1]:
import pandas as pd
import gdown
import os

### Importing and cleaning BDL data

In [2]:
# Importing BDL data.

cena_mieszkan = pd.DataFrame()
mediana_wieku = pd.DataFrame()
saldo_migracji = pd.DataFrame() # dotyczy osób w wieku produkcyjnym
wsp_feminizacji = pd.DataFrame()
wydatki_powiat = pd.DataFrame() # w złotówkach
wynagrodzenia = pd.DataFrame() # w złotówkach

bdl_dfs_list = [
    cena_mieszkan,
    mediana_wieku,
    saldo_migracji,
    wsp_feminizacji,
    wydatki_powiat,
    wynagrodzenia
]

file_ids = {
    "cena_mieszkan": "12UWwTtqRazIEctdzxib34fs8I_-ZUOD7",
    "mediana_wieku": "1D8jvho56cqn5dNGhMPaHujF3tmoQ1L6K",
    "saldo_migracji": "1sVL3iXGzc9D2k38ogErl84mVIzl6SzIP",
    "wsp_feminizacji": "163IRO4q5iU-MdyN3kYXkFHDavpyr353f",
    "wydatki_powiat": "1YMXflzDmozNqxQLpcd6oc1e1vtUVyUtS",
    "wynagrodzenia": "104z3VjCcv66e2L034D-o3vJY2wROJwCY"
}

for i in range(len(file_ids)):
    url = f"https://drive.google.com/uc?id={list(file_ids.values())[i]}"
    file_extension = "downloaded_file.csv"
    gdown.download(url, file_extension, quiet=False)
    bdl_dfs_list[i] = pd.read_csv(file_extension, sep=";", on_bad_lines='skip')

Downloading...
From: https://drive.google.com/uc?id=12UWwTtqRazIEctdzxib34fs8I_-ZUOD7
To: C:\Users\Konrad\Desktop\Magisterka\Kod\2024-mgr-sluzba-cywilna\Python\Code\downloaded_file.csv
100%|██████████| 204k/204k [00:00<00:00, 4.30MB/s]
Downloading...
From: https://drive.google.com/uc?id=1D8jvho56cqn5dNGhMPaHujF3tmoQ1L6K
To: C:\Users\Konrad\Desktop\Magisterka\Kod\2024-mgr-sluzba-cywilna\Python\Code\downloaded_file.csv
100%|██████████| 144k/144k [00:00<00:00, 2.28MB/s]
Downloading...
From: https://drive.google.com/uc?id=1sVL3iXGzc9D2k38ogErl84mVIzl6SzIP
To: C:\Users\Konrad\Desktop\Magisterka\Kod\2024-mgr-sluzba-cywilna\Python\Code\downloaded_file.csv
100%|██████████| 259k/259k [00:00<00:00, 4.05MB/s]
Downloading...
From: https://drive.google.com/uc?id=163IRO4q5iU-MdyN3kYXkFHDavpyr353f
To: C:\Users\Konrad\Desktop\Magisterka\Kod\2024-mgr-sluzba-cywilna\Python\Code\downloaded_file.csv
100%|██████████| 176k/176k [00:00<00:00, 3.81MB/s]
Downloading...
From: https://drive.google.com/uc?id=1YMX

In [3]:
# Removing unnecessary columns.

unique_columns_to_delete = [
    ["Transakcje rynkowe", "Powierzchnia użytkowa lokali mieszkalnych"],
    ["Mirgacje", "Wiek"],
    ["Ogółem"],
    ["Wskaźniki"],
    ["Wyszczególnienie"]
]

for i in range(len(bdl_dfs_list)):
    try:
        bdl_dfs_list[i].drop(["Nazwa", "Jednostka miary", "Atrybut"], axis=1, inplace=True)
        bdl_dfs_list[i] = bdl_dfs_list[i].iloc[:, :-1] # the last column has a different name in every df and is always unnecessary.
    except:
        pass

    # Columns unique for single dataframes.
    for columns in unique_columns_to_delete:
        try:
            bdl_dfs_list[i].drop(columns, axis=1, inplace=True)
        except:
            pass

In [4]:
cena_mieszkan = bdl_dfs_list[0].copy()
mediana_wieku = bdl_dfs_list[1].copy()
saldo_migracji = bdl_dfs_list[2].copy()
wsp_feminizacji = bdl_dfs_list[3].copy()
wydatki_powiat = bdl_dfs_list[4].copy()
wynagrodzenia = bdl_dfs_list[5].copy()

In [9]:
saldo_migracji["Kod"].unique()

array([      0,  200000,  201000,  202000,  203000,  204000,  205000,
        206000,  207000,  208000,  209000,  210000,  211000,  212000,
        213000,  214000,  215000,  216000,  217000,  218000,  219000,
        220000,  221000,  222000,  223000,  224000,  225000,  226000,
        261000,  262000,  264000,  265000,  400000,  401000,  402000,
        403000,  404000,  405000,  406000,  407000,  408000,  409000,
        410000,  411000,  412000,  413000,  414000,  415000,  416000,
        417000,  418000,  419000,  461000,  462000,  463000,  464000,
        600000,  601000,  602000,  603000,  604000,  605000,  606000,
        607000,  608000,  609000,  610000,  611000,  612000,  613000,
        614000,  615000,  616000,  617000,  618000,  619000,  620000,
        661000,  662000,  663000,  664000,  800000,  801000,  802000,
        803000,  804000,  805000,  806000,  807000,  808000,  809000,
        810000,  811000,  812000,  861000,  862000, 1000000, 1001000,
       1002000, 1003

In [11]:
main_df["voivodeship"].unique()

array([16,  4, 12, 14,  2, 18, 32, 10, 28,  6, 20, 22, 24,  8, 26, 30])

### Merging main with BDL

In [5]:
# Importing main data.
file_id = "1IlyXO5rXkLi28Z-o-WWCjaFa_rLDrKls"
url = f"https://drive.google.com/uc?id={file_id}"
file_extension = "downloaded_file.csv"
gdown.download(url, file_extension, quiet=False)
main_df = pd.read_csv(file_extension, sep=",")
main_df.head()

Downloading...
From (original): https://drive.google.com/uc?id=1IlyXO5rXkLi28Z-o-WWCjaFa_rLDrKls
From (redirected): https://drive.google.com/uc?id=1IlyXO5rXkLi28Z-o-WWCjaFa_rLDrKls&confirm=t&uuid=78125a7c-08e2-4494-882a-d0fb811ca3c9
To: C:\Users\Konrad\Desktop\Magisterka\Kod\2024-mgr-sluzba-cywilna\Python\Code\downloaded_file.csv
100%|██████████| 253M/253M [00:04<00:00, 58.0MB/s] 


Unnamed: 0,ad_id,result,job_field,position_category,position,education_level,work_time,vacancies,city,institution,...,year_announced,promocja,kandydaci,salary_for_position,offer_salary,women_percentage,fluctuation,employment_contract,voivodeship,district
0,130994,1,vet,stanowiska samodzielne,inspektor weterynaryjny,3,0.5,1,Olesno,Powiatowy Inspektorat Weterynarii w Oleśnie,...,2023,1.0,1.0,,nie podano wynagrodzenia,0.666667,0.064683,1.19,16,8
1,130970,0,tech/construction,stanowiska samodzielne,starszy specjalista,3,1.0,1,Bydgoszcz,Wojewódzki Inspektorat Nadzoru Budowlanego w B...,...,2023,0.0,4.0,,nie podano wynagrodzenia,0.580645,0.03601,0.5,4,61
2,130898,1,vet,stanowiska samodzielne,asystent,2,1.0,1,Chrzanów,Powiatowy Inspektorat Weterynarii w Chrzanowie,...,2023,0.0,18.0,,"4400,00 zł brutto",0.833333,0.101215,,12,3
3,130919,0,uniformed services,stanowiska samodzielne,specjalista,4,1.0,1,Warszawa,Komenda Stołeczna Policji w Warszawie,...,2023,,,,"4940,34 zł brutto",,,,14,65
4,130837,1,vet,stanowiska samodzielne,inspektor weterynaryjny,3,1.0,1,Świdnica,Powiatowy Inspektorat Weterynarii w Świdnicy,...,2023,1.0,2.0,10268.888889,nie podano wynagrodzenia,0.833333,0.0,3.0,2,19


In [None]:
merged_bdl = main_df.copy()

for i in range(len(bdl_dfs_list)):
    merged_bdl = pd.merge(main_df, bdl_dfs_list[i], left="district", right="", how="left", on="Nazwa")