### 1. Wczytanie podstawowych bibliotek i danych

Oryginalne pliki z danymi pobrane z Banku Danych Lokalnych GUS:
1. **'LUDN_2137_CTAB_20250611140516.csv'** - Liczba ludności
2. **'LUDN_1342_CTAB_20250611204236.csv'** - Liczba ludności w wieku produkcyjnym
3. **'RYNE_2392_CTAB_20250415214228.csv'** - Stopa bezrobocia rejestrowanego
4. **'WYNA_2497_CTAB_20250416065527.csv'** - Przeciętne miesięczne wynagrodzenia brutto
5. **'RYNE_3787_CTAB_20250415214859.csv'** - Mediana cen za 1 m2 lokali mieszkalnych sprzedanych w ramach transakcji rynkowych
6. **'RYNE_3783_CTAB_20250415214532.csv'** - Liczba lokali mieszkalnych sprzedanych w ramach transakcji rynkowych
7. **'GOSP_2430_CTAB_20250611223828.csv'** - Przeciętna powierzchnia użytkowa mieszkania na 1 osobę

In [None]:
!python -m venv venv
!venv\Scripts\activate

!pip install pandas numpy matplotlib seaborn ydata-profiling scikit-learn linearmodels statsmodels
!pip freeze > requirements.txt


In [2]:
import pandas as pd
import numpy as np
import os

%matplotlib inline

In [4]:
# Zmiana nazw plików z oryginalnych na prostsze do zrozumienia

os.rename('dane/LUDN_2137_CTAB_20250611140516.csv', 'dane/populacja.csv')
os.rename('dane/LUDN_1342_CTAB_20250611204236.csv', 'dane/produkcyjny.csv')
os.rename('dane/RYNE_2392_CTAB_20250501142713.csv', 'dane/bezrobocie.csv')
os.rename('dane/WYNA_2497_CTAB_20250501142314.csv', 'dane/wynagrodzenia.csv')
os.rename('dane/RYNE_3787_CTAB_20250501142511.csv', 'dane/mediana.csv')
os.rename('dane/RYNE_3783_CTAB_20250501142637.csv', 'dane/sprzedaz.csv')
os.rename('dane/GOSP_2430_CTAB_20250611223828.csv', 'dane/powierzchnia.csv')

In [6]:
# Wczytanie wszystkich danych i utworzenie dataframów

populacja = pd.read_csv('dane/populacja.csv', sep=';', decimal=',', encoding='utf-8')
produkcyjny = pd.read_csv('dane/produkcyjny.csv', sep=';', decimal=',', encoding='utf-8')
bezrobocie = pd.read_csv('dane/bezrobocie.csv', sep=';', decimal=',', encoding='utf-8')
wynagrodzenia = pd.read_csv('dane/wynagrodzenia.csv', sep=';', decimal=',', encoding='utf-8')
mediana = pd.read_csv('dane/mediana.csv', sep=';', decimal=',', encoding='utf-8')
sprzedaz = pd.read_csv('dane/sprzedaz.csv', sep=';', decimal=',', encoding='utf-8')
powierzchnia = pd.read_csv('dane/powierzchnia.csv', sep=';', decimal=',', encoding='utf-8')

In [8]:
populacja

Unnamed: 0,Kod,Nazwa,ogółem;ogółem;2013;[osoba],ogółem;ogółem;2014;[osoba],ogółem;ogółem;2015;[osoba],ogółem;ogółem;2016;[osoba],ogółem;ogółem;2017;[osoba],ogółem;ogółem;2018;[osoba],ogółem;ogółem;2019;[osoba],ogółem;ogółem;2020;[osoba],ogółem;ogółem;2021;[osoba],ogółem;ogółem;2022;[osoba],ogółem;ogółem;2023;[osoba],Unnamed: 13
0,201000,Powiat bolesławiecki,90306,90346,90199,90180,90173,90200,90103,88524,88275,87922,87642,
1,202000,Powiat dzierżoniowski,104613,104075,103349,102649,102077,101437,100813,97985,96884,95863,94740,
2,203000,Powiat głogowski,90302,90222,90205,89989,89933,89541,89102,86797,86376,85689,85043,
3,204000,Powiat górowski,36391,36236,35940,35715,35473,35182,34870,33376,33027,32738,32459,
4,205000,Powiat jaworski,52070,51796,51451,51176,50947,50545,50116,48626,48029,47584,47213,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,54597,54348,54207,54013,53738,53462,53039,51165,50729,50388,50003,
376,3218000,Powiat łobeski,37966,37804,37691,37638,37401,37104,36696,34575,34094,33762,33394,
377,3261000,Powiat m. Koszalin,109170,108605,107970,107680,107670,107321,107048,106152,104891,104239,105540,
378,3262000,Powiat m. Szczecin,408172,407180,405657,404878,403883,402465,401907,397289,394482,391566,389066,


In [10]:
populacja.columns 

Index(['Kod', 'Nazwa', 'ogółem;ogółem;2013;[osoba]',
       'ogółem;ogółem;2014;[osoba]', 'ogółem;ogółem;2015;[osoba]',
       'ogółem;ogółem;2016;[osoba]', 'ogółem;ogółem;2017;[osoba]',
       'ogółem;ogółem;2018;[osoba]', 'ogółem;ogółem;2019;[osoba]',
       'ogółem;ogółem;2020;[osoba]', 'ogółem;ogółem;2021;[osoba]',
       'ogółem;ogółem;2022;[osoba]', 'ogółem;ogółem;2023;[osoba]',
       'Unnamed: 13'],
      dtype='object')

In [12]:
# Korekta kolumn (zmiana nazwy i usunięcie ostatniej - zbędnej)

lista_zbiorow = [populacja, produkcyjny, bezrobocie, wynagrodzenia, mediana, sprzedaz, powierzchnia]

for i in lista_zbiorow:
    i.columns = ['Kod', 'Nazwa', '2013', '2014', '2015',
       '2016', '2017', '2018',
       '2019', '2020', '2021',
       '2022', '2023', 'Unnamed: 13']
    i.drop('Unnamed: 13', axis=1, inplace=True)

In [14]:
populacja.columns

Index(['Kod', 'Nazwa', '2013', '2014', '2015', '2016', '2017', '2018', '2019',
       '2020', '2021', '2022', '2023'],
      dtype='object')

In [16]:
populacja

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,90306,90346,90199,90180,90173,90200,90103,88524,88275,87922,87642
1,202000,Powiat dzierżoniowski,104613,104075,103349,102649,102077,101437,100813,97985,96884,95863,94740
2,203000,Powiat głogowski,90302,90222,90205,89989,89933,89541,89102,86797,86376,85689,85043
3,204000,Powiat górowski,36391,36236,35940,35715,35473,35182,34870,33376,33027,32738,32459
4,205000,Powiat jaworski,52070,51796,51451,51176,50947,50545,50116,48626,48029,47584,47213
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,54597,54348,54207,54013,53738,53462,53039,51165,50729,50388,50003
376,3218000,Powiat łobeski,37966,37804,37691,37638,37401,37104,36696,34575,34094,33762,33394
377,3261000,Powiat m. Koszalin,109170,108605,107970,107680,107670,107321,107048,106152,104891,104239,105540
378,3262000,Powiat m. Szczecin,408172,407180,405657,404878,403883,402465,401907,397289,394482,391566,389066


In [18]:
produkcyjny

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,58101,57614,57119,56465,55786,55216,54676,52714,52260,51621,51095
1,202000,Powiat dzierżoniowski,66669,65661,64422,63250,62094,60894,59700,56948,55833,54806,53771
2,203000,Powiat głogowski,58315,57404,56450,55341,54476,53452,52515,50193,49474,48778,48205
3,204000,Powiat górowski,23166,22895,22578,22340,21955,21605,21237,19825,19457,19149,18938
4,205000,Powiat jaworski,33749,33263,32791,32258,31729,31002,30338,28643,27985,27512,27107
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,35249,34823,34435,33922,33381,32884,32360,30490,30011,29662,29275
376,3218000,Powiat łobeski,24352,24010,23755,23440,23083,22703,22162,20258,19859,19555,19183
377,3261000,Powiat m. Koszalin,68889,67321,65752,64519,63421,62239,61004,60754,59631,58893,59328
378,3262000,Powiat m. Szczecin,258846,254941,250253,245921,241525,237683,234415,234584,231478,227971,225340


In [20]:
bezrobocie

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,12.6,8.9,7.6,5.7,4.2,3.8,3.8,5.6,5.1,3.1,2.8
1,202000,Powiat dzierżoniowski,20.2,15.8,11.9,10.0,7.4,6.1,5.2,6.8,5.5,5.2,5.6
2,203000,Powiat głogowski,14.9,13.6,12.5,10.5,9.1,8.9,7.1,7.8,7.7,6.4,6.5
3,204000,Powiat górowski,28.3,23.4,22.2,18.5,16.5,15.3,14.2,15.7,18.3,13.8,14.2
4,205000,Powiat jaworski,24.3,18.6,17.3,15.8,13.5,12.4,10.6,11.3,10.8,10.2,9.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,19.9,16.9,14.8,12.5,9.7,8.7,8.7,9.8,8.9,8.5,9.0
376,3218000,Powiat łobeski,28.7,25.3,23.9,23.7,21.2,20.3,19.0,18.3,16.0,15.2,15.9
377,3261000,Powiat m. Koszalin,12.1,10.3,8.4,6.8,5.4,5.0,4.3,6.1,5.5,5.1,4.3
378,3262000,Powiat m. Szczecin,10.6,9.3,6.8,4.7,3.1,2.6,2.4,3.9,3.3,3.1,3.6


In [22]:
wynagrodzenia

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,3231.49,3422.90,3548.69,3666.19,3901.94,4214.66,4545.34,4887.95,5461.94,6181.60,6871.28
1,202000,Powiat dzierżoniowski,3156.11,3299.96,3406.18,3562.63,3825.15,4024.94,4484.28,4690.20,5127.97,5723.65,6459.49
2,203000,Powiat głogowski,3320.48,3460.12,3615.99,3723.59,3918.42,4077.69,4427.98,4763.21,5171.28,5856.76,6660.00
3,204000,Powiat górowski,3066.83,3142.52,3242.71,3386.93,3484.31,3815.89,3978.78,4432.40,4862.88,5423.11,6060.11
4,205000,Powiat jaworski,3040.71,3142.45,3323.37,3546.24,3756.46,4029.64,4408.00,4932.98,5554.54,6142.84,7059.41
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,3228.77,3336.50,3447.21,3557.62,3761.59,4045.65,4363.14,4678.73,5224.57,5886.05,6651.30
376,3218000,Powiat łobeski,3122.22,3289.68,3419.11,3594.16,3662.40,4083.38,4321.83,4713.45,4962.09,5630.58,6257.92
377,3261000,Powiat m. Koszalin,3492.03,3568.03,3644.39,3820.63,3999.59,4184.46,4625.35,4973.23,5496.02,6054.77,6828.27
378,3262000,Powiat m. Szczecin,4029.51,4176.65,4381.58,4539.15,4732.93,5007.48,5408.91,5695.84,6244.67,6943.84,7933.31


In [24]:
mediana

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,2650,2758,2756,2749,2824,2818,3566,4188,4467,5283,5872
1,202000,Powiat dzierżoniowski,2118,2121,1861,1918,1923,2248,2114,2244,2621,2934,4381
2,203000,Powiat głogowski,3022,3154,3107,3195,3276,3550,3506,4043,4515,4592,5000
3,204000,Powiat górowski,0,998,2113,2829,3090,1678,1809,1724,2127,2373,2500
4,205000,Powiat jaworski,2205,1923,2331,2067,2270,2625,2852,3309,3868,4220,5734
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,1866,2158,2222,2358,2331,2747,2995,3566,3596,3931,4480
376,3218000,Powiat łobeski,1831,1620,1625,1616,1600,1704,1764,2597,2545,2186,3591
377,3261000,Powiat m. Koszalin,3448,3333,3216,3360,3687,3922,4558,0,0,0,6750
378,3262000,Powiat m. Szczecin,4301,4201,4375,4452,4575,4893,5366,5573,6566,7505,8434


In [26]:
sprzedaz

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,229,117,310,559,581,589,560,420,609,571,500
1,202000,Powiat dzierżoniowski,270,234,330,315,325,414,539,549,724,567,514
2,203000,Powiat głogowski,456,438,391,507,498,578,501,486,760,471,525
3,204000,Powiat górowski,0,3,13,6,7,31,54,77,90,76,79
4,205000,Powiat jaworski,85,73,89,119,138,136,126,159,201,180,225
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,114,130,175,149,199,191,231,244,262,198,272
376,3218000,Powiat łobeski,91,101,111,118,122,114,132,93,139,138,172
377,3261000,Powiat m. Koszalin,445,453,478,593,714,693,519,0,0,0,993
378,3262000,Powiat m. Szczecin,3172,3011,2763,3758,4178,4244,3531,230,689,155,422


In [28]:
powierzchnia

Unnamed: 0,Kod,Nazwa,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,201000,Powiat bolesławiecki,26.1,26.5,26.9,27.4,27.9,28.4,29.0,30.6,31.2,31.8,32.4
1,202000,Powiat dzierżoniowski,23.8,24.0,24.2,24.5,24.8,25.0,25.3,27.1,27.5,28.0,28.7
2,203000,Powiat głogowski,23.0,23.2,23.4,23.7,24.0,24.5,24.8,26.4,26.9,27.4,27.9
3,204000,Powiat górowski,24.7,25.0,25.4,25.8,26.2,26.7,27.1,28.5,29.0,29.7,30.2
4,205000,Powiat jaworski,24.9,25.2,25.6,25.9,26.2,26.7,27.1,28.1,28.7,29.4,29.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,3217000,Powiat wałecki,23.7,24.0,24.2,24.6,24.9,25.3,25.7,27.1,27.6,28.1,28.6
376,3218000,Powiat łobeski,22.9,23.1,23.3,23.5,23.7,24.0,24.3,26.1,26.6,27.0,27.5
377,3261000,Powiat m. Koszalin,25.8,26.3,26.8,27.2,27.5,27.9,28.3,28.4,29.1,29.7,30.6
378,3262000,Powiat m. Szczecin,26.5,26.9,27.2,27.6,28.1,28.6,29.1,29.2,29.7,30.3,30.9


### 2.1. Szukanie braków (NaN) w zbiorach danych

In [31]:
for zbior, nazwa in zip(lista_zbiorow, ['populacja', 'produkcyjny', 'bezrobocie', 'wynagrodzenia', 'mediana', 'sprzedaz', 'powierzchnia']):
    braki = zbior.iloc[:, 2:].isnull().sum() # wybieramy kolumny od trzeciej do końca (czyli same lata)
    print(f'Braki (NaN) w zbiorze {nazwa}:')
    print(braki, '\n')

Braki (NaN) w zbiorze populacja:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze produkcyjny:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze bezrobocie:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze wynagrodzenia:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze mediana:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze sprzedaz:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (NaN) w zbiorze powierzchnia:
2013    0
20

### 2.2. Szukanie braków (== 0) w zbiorach danych

In [34]:
for zbior, nazwa in zip(lista_zbiorow, ['populacja', 'produkcyjny', 'bezrobocie', 'wynagrodzenia', 'mediana', 'sprzedaz', 'powierzchnia']):
    zera = (zbior.iloc[:, 2:] == 0).sum()  # wybieramy kolumny od trzeciej do końca (czyli same lata)
    print(f'Braki (==0) w zbiorze {nazwa}:')
    print(zera, '\n')

Braki (==0) w zbiorze populacja:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (==0) w zbiorze produkcyjny:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (==0) w zbiorze bezrobocie:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    0
2023    0
dtype: int64 

Braki (==0) w zbiorze wynagrodzenia:
2013    0
2014    0
2015    0
2016    0
2017    0
2018    0
2019    0
2020    0
2021    0
2022    1
2023    1
dtype: int64 

Braki (==0) w zbiorze mediana:
2013    11
2014    10
2015     5
2016     6
2017     2
2018     2
2019     1
2020     2
2021     1
2022     2
2023     0
dtype: int64 

Braki (==0) w zbiorze sprzedaz:
2013    11
2014    10
2015     5
2016     6
2017     2
2018     2
2019     1
2020     2
2021     1
2022     2
2023     5
dtype: int64 

Braki (==0) w zbiorze powi

### 2.3. Statystyki opisowe

In [37]:
lata = [str(rok) for rok in range(2013, 2024)]

In [39]:
populacja[lata].describe().round(0)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,101304.0,101259.0,101151.0,101139.0,101141.0,101082.0,101007.0,100233.0,99757.0,99385.0,99043.0
std,116999.0,117416.0,117727.0,118177.0,118603.0,119201.0,119888.0,123850.0,123860.0,123772.0,123779.0
min,20891.0,20778.0,20606.0,20417.0,20270.0,20092.0,19914.0,19266.0,18992.0,18802.0,18645.0
25%,55722.0,55419.0,55345.0,55320.0,55311.0,55150.0,54980.0,53164.0,52510.0,51993.0,51559.0
50%,76436.0,76575.0,76238.0,76356.0,76296.0,76302.0,76007.0,74544.0,74130.0,74212.0,73723.0
75%,111942.0,112104.0,112609.0,112419.0,112496.0,112130.0,111402.0,109974.0,108921.0,108194.0,107415.0
max,1724404.0,1735442.0,1744351.0,1753977.0,1764615.0,1777972.0,1790658.0,1861774.0,1863056.0,1861975.0,1861599.0


In [41]:
produkcyjny[lata].describe().round(2)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,64268.81,63763.58,63163.6,62546.35,61888.53,61236.12,60594.54,59556.07,58908.95,58340.27,57856.47
std,72830.25,72208.36,71406.46,70647.33,69939.1,69520.14,69254.43,74446.8,74222.85,73921.89,73851.95
min,12983.0,12952.0,12838.0,12693.0,12546.0,12400.0,12204.0,11475.0,11261.0,11043.0,10885.0
25%,35218.25,34913.0,34623.75,34422.75,34093.0,33654.0,33147.5,31435.0,30938.75,30664.0,30355.25
50%,48805.5,48467.0,47884.0,47654.0,46994.0,46480.5,45927.0,44169.5,43585.5,43260.0,42773.0
75%,70885.0,70561.5,69989.75,69655.25,69154.0,68458.25,67680.5,64504.5,63488.75,62904.25,62427.25
max,1061842.0,1055936.0,1046632.0,1037150.0,1030060.0,1027633.0,1025577.0,1117515.0,1116294.0,1113241.0,1113357.0


In [43]:
bezrobocie[lata].describe().round(2)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,16.52,14.11,12.27,10.57,8.64,7.8,7.06,8.15,8.06,7.26,7.17
std,6.27,5.68,5.27,4.91,4.34,4.07,3.85,3.86,4.44,3.99,3.93
min,4.2,3.1,2.4,1.9,1.4,1.2,1.0,1.7,1.6,1.0,1.0
25%,12.0,9.8,8.3,6.9,5.5,4.8,4.28,5.3,4.9,4.4,4.3
50%,15.7,13.4,11.65,9.8,7.8,6.9,6.2,7.3,7.1,6.35,6.3
75%,20.9,17.82,15.45,13.82,11.32,10.3,9.4,10.52,10.5,9.6,9.4
max,38.7,34.4,30.8,28.5,25.7,24.3,23.3,23.7,26.3,24.6,24.1


In [45]:
wynagrodzenia[lata].describe().round(2)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,3298.52,3421.17,3532.31,3661.15,3874.45,4142.14,4442.93,4773.94,5211.63,5802.92,6560.32
std,471.62,482.57,493.39,497.98,518.26,561.98,586.55,581.3,639.61,748.95,839.04
min,2456.46,2544.18,2568.52,2658.47,2960.24,3183.34,3537.58,3872.06,4244.56,0.0,0.0
25%,3030.18,3142.5,3242.39,3353.96,3561.35,3794.48,4089.14,4430.58,4837.56,5407.18,6105.14
50%,3194.15,3310.3,3414.34,3547.4,3747.28,4017.17,4305.48,4638.18,5070.22,5665.68,6415.45
75%,3410.6,3541.78,3676.58,3808.68,4048.41,4314.81,4629.97,4966.74,5407.17,6027.15,6827.92
max,6641.4,6807.05,6955.85,7170.21,7515.99,8121.08,8443.25,8920.41,10076.64,11361.51,12804.03


In [47]:
mediana[lata].describe().round(1)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,2707.9,2728.4,2753.1,2835.8,2976.8,3184.9,3463.5,3877.3,4305.5,4964.4,5520.8
std,991.8,1053.7,1002.5,996.2,1025.3,1101.2,1126.6,1292.2,1372.7,1602.8,1728.2
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2373.0
25%,2210.2,2193.2,2201.0,2279.8,2352.8,2521.8,2756.8,3078.0,3513.5,4097.0,4565.2
50%,2586.0,2605.5,2620.0,2689.0,2778.0,2995.5,3340.5,3753.5,4111.5,4788.5,5315.0
75%,3111.5,3088.0,3102.0,3234.0,3376.0,3632.0,3893.5,4401.2,4824.0,5501.2,6061.8
max,8204.0,8454.0,10340.0,8744.0,9836.0,11161.0,10703.0,12029.0,14233.0,15079.0,15717.0


In [49]:
sprzedaz[lata].describe().round(2)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,342.46,343.37,394.49,432.39,473.87,535.79,549.31,524.52,643.87,593.55,634.94
std,1118.56,1123.24,1476.16,1640.87,1602.82,1688.74,1684.22,1520.15,1823.92,1776.01,1856.99
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,44.0,45.0,51.0,58.5,68.75,79.0,81.0,76.75,99.5,96.0,98.0
50%,114.0,119.5,126.5,150.0,162.5,190.0,208.0,200.0,245.5,223.0,239.0
75%,254.75,254.0,273.25,312.25,363.25,383.25,412.25,422.5,503.0,470.0,466.5
max,12947.0,13937.0,21912.0,24731.0,23289.0,23192.0,22916.0,21691.0,21286.0,22754.0,23564.0


In [51]:
powierzchnia[lata].describe().round(2)

Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
count,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0,380.0
mean,25.93,26.25,26.6,26.95,27.31,27.71,28.15,29.4,29.95,30.54,31.11
std,2.76,2.8,2.85,2.89,2.94,2.99,3.05,2.8,2.84,2.9,2.96
min,21.2,21.4,21.7,21.9,22.2,22.5,22.7,24.3,24.6,25.0,25.4
25%,23.9,24.28,24.58,24.9,25.2,25.6,26.0,27.4,27.9,28.58,29.2
50%,25.5,25.85,26.2,26.5,26.9,27.3,27.75,29.1,29.65,30.3,30.8
75%,27.6,27.8,28.2,28.52,28.9,29.22,29.7,31.02,31.6,32.12,32.8
max,39.5,40.1,40.7,41.2,42.0,42.5,43.4,42.0,42.3,43.2,43.7


### 3. Przekształcenie szerokiej tabeli na długą (long)

In [54]:
lista_zbiorow = [populacja, produkcyjny, bezrobocie, wynagrodzenia, mediana, sprzedaz, powierzchnia]
nazwy_zbiorow = ['populacja', 'produkcyjny', 'bezrobocie', 'wynagrodzenia', 'mediana', 'sprzedaz', 'powierzchnia']

for df, nazwa in zip(lista_zbiorow, nazwy_zbiorow):
    df_long = df.melt(id_vars=['Kod', 'Nazwa'], 
                      var_name='Rok', 
                      value_name=nazwa.capitalize())
    df_long['Rok'] = df_long['Rok'].astype(int)
    
    # Przypisanie do zmiennej o nazwie np. populacja_long
    globals()[f"{nazwa}_long"] = df_long

In [56]:
populacja_long

Unnamed: 0,Kod,Nazwa,Rok,Populacja
0,201000,Powiat bolesławiecki,2013,90306
1,202000,Powiat dzierżoniowski,2013,104613
2,203000,Powiat głogowski,2013,90302
3,204000,Powiat górowski,2013,36391
4,205000,Powiat jaworski,2013,52070
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003
4176,3218000,Powiat łobeski,2023,33394
4177,3261000,Powiat m. Koszalin,2023,105540
4178,3262000,Powiat m. Szczecin,2023,389066


In [58]:
# Przekształcenie szerokiej tabeli na długą (long)

populacja_long = populacja.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Populacja')
# Zamiana roku na liczbę

populacja_long['Rok'] = populacja_long['Rok'].astype(int)

populacja_long

Unnamed: 0,Kod,Nazwa,Rok,Populacja
0,201000,Powiat bolesławiecki,2013,90306
1,202000,Powiat dzierżoniowski,2013,104613
2,203000,Powiat głogowski,2013,90302
3,204000,Powiat górowski,2013,36391
4,205000,Powiat jaworski,2013,52070
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003
4176,3218000,Powiat łobeski,2023,33394
4177,3261000,Powiat m. Koszalin,2023,105540
4178,3262000,Powiat m. Szczecin,2023,389066


In [60]:
# Przekształcenie szerokiej tabeli na długą (long)

produkcyjny_long = produkcyjny.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Produkcyjny')
# Zamiana roku na liczbę

produkcyjny_long['Rok'] = produkcyjny_long['Rok'].astype(int)

produkcyjny_long

Unnamed: 0,Kod,Nazwa,Rok,Produkcyjny
0,201000,Powiat bolesławiecki,2013,58101
1,202000,Powiat dzierżoniowski,2013,66669
2,203000,Powiat głogowski,2013,58315
3,204000,Powiat górowski,2013,23166
4,205000,Powiat jaworski,2013,33749
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,29275
4176,3218000,Powiat łobeski,2023,19183
4177,3261000,Powiat m. Koszalin,2023,59328
4178,3262000,Powiat m. Szczecin,2023,225340


In [62]:
# Przekształcenie szerokiej tabeli na długą (long)

bezrobocie_long = bezrobocie.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Bezrobocie')
# Zamiana roku na liczbę

bezrobocie_long['Rok'] = bezrobocie_long['Rok'].astype(int)

bezrobocie_long

Unnamed: 0,Kod,Nazwa,Rok,Bezrobocie
0,201000,Powiat bolesławiecki,2013,12.6
1,202000,Powiat dzierżoniowski,2013,20.2
2,203000,Powiat głogowski,2013,14.9
3,204000,Powiat górowski,2013,28.3
4,205000,Powiat jaworski,2013,24.3
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,9.0
4176,3218000,Powiat łobeski,2023,15.9
4177,3261000,Powiat m. Koszalin,2023,4.3
4178,3262000,Powiat m. Szczecin,2023,3.6


In [64]:
# Przekształcenie szerokiej tabeli na długą (long)

wynagrodzenia_long = wynagrodzenia.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Wynagrodzenia')
# Zamiana roku na liczbę

wynagrodzenia_long['Rok'] = wynagrodzenia_long['Rok'].astype(int)

wynagrodzenia_long

Unnamed: 0,Kod,Nazwa,Rok,Wynagrodzenia
0,201000,Powiat bolesławiecki,2013,3231.49
1,202000,Powiat dzierżoniowski,2013,3156.11
2,203000,Powiat głogowski,2013,3320.48
3,204000,Powiat górowski,2013,3066.83
4,205000,Powiat jaworski,2013,3040.71
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,6651.30
4176,3218000,Powiat łobeski,2023,6257.92
4177,3261000,Powiat m. Koszalin,2023,6828.27
4178,3262000,Powiat m. Szczecin,2023,7933.31


In [66]:
# Przekształcenie szerokiej tabeli na długą (long)

mediana_long = mediana.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Mediana')
# Zamiana roku na liczbę

mediana_long['Rok'] = mediana_long['Rok'].astype(int)

mediana_long

Unnamed: 0,Kod,Nazwa,Rok,Mediana
0,201000,Powiat bolesławiecki,2013,2650
1,202000,Powiat dzierżoniowski,2013,2118
2,203000,Powiat głogowski,2013,3022
3,204000,Powiat górowski,2013,0
4,205000,Powiat jaworski,2013,2205
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,4480
4176,3218000,Powiat łobeski,2023,3591
4177,3261000,Powiat m. Koszalin,2023,6750
4178,3262000,Powiat m. Szczecin,2023,8434


In [68]:
# Przekształcenie szerokiej tabeli na długą (long)

sprzedaz_long = sprzedaz.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Sprzedaz')
# Zamiana roku na liczbę

sprzedaz_long['Rok'] = sprzedaz_long['Rok'].astype(int)

sprzedaz_long

Unnamed: 0,Kod,Nazwa,Rok,Sprzedaz
0,201000,Powiat bolesławiecki,2013,229
1,202000,Powiat dzierżoniowski,2013,270
2,203000,Powiat głogowski,2013,456
3,204000,Powiat górowski,2013,0
4,205000,Powiat jaworski,2013,85
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,272
4176,3218000,Powiat łobeski,2023,172
4177,3261000,Powiat m. Koszalin,2023,993
4178,3262000,Powiat m. Szczecin,2023,422


In [70]:
# Przekształcenie szerokiej tabeli na długą (long)

powierzchnia_long = powierzchnia.melt(id_vars=['Kod', 'Nazwa'], 
                                        var_name='Rok', 
                                        value_name='Powierzchnia')
# Zamiana roku na liczbę

powierzchnia_long['Rok'] = powierzchnia_long['Rok'].astype(int)

powierzchnia_long

Unnamed: 0,Kod,Nazwa,Rok,Powierzchnia
0,201000,Powiat bolesławiecki,2013,26.1
1,202000,Powiat dzierżoniowski,2013,23.8
2,203000,Powiat głogowski,2013,23.0
3,204000,Powiat górowski,2013,24.7
4,205000,Powiat jaworski,2013,24.9
...,...,...,...,...
4175,3217000,Powiat wałecki,2023,28.6
4176,3218000,Powiat łobeski,2023,27.5
4177,3261000,Powiat m. Koszalin,2023,30.6
4178,3262000,Powiat m. Szczecin,2023,30.9


### 4. Łączenie zbiorów (merging)

In [73]:
merged = populacja_long.merge(produkcyjny_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')
merged = merged.merge(bezrobocie_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')
merged = merged.merge(wynagrodzenia_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')
merged = merged.merge(mediana_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')
merged = merged.merge(sprzedaz_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')
merged = merged.merge(powierzchnia_long, on=['Kod', 'Nazwa', 'Rok'], how='inner')


In [75]:
merged

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,201000,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,229,26.1
1,202000,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,270,23.8
2,203000,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,456,23.0
3,204000,Powiat górowski,2013,36391,23166,28.3,3066.83,0,0,24.7
4,205000,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,85,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,272,28.6
4176,3218000,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,172,27.5
4177,3261000,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,993,30.6
4178,3262000,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,422,30.9


In [121]:
merged.to_csv('merged.csv', index=False, encoding='utf-8')

### 5. Imputacja danych metodą KNN (uzupełnienie braków - nieprawdopodobnych zer)

In [124]:
from sklearn.impute import KNNImputer
from sklearn.preprocessing import StandardScaler

# Identyfikacja i zamiana nieprawdopodobnych zer
for column in ['Populacja', 'Produkcyjny', 'Bezrobocie', 'Wynagrodzenia', 'Mediana', 'Sprzedaz', 'Powierzchnia']:
    merged[column] = merged[column].replace(0, np.nan)

# Przygotowanie danych do imputacji
numeric_columns = ['Rok', 'Populacja', 'Produkcyjny', 'Bezrobocie', 'Wynagrodzenia', 'Mediana', 'Sprzedaz', 'Powierzchnia']
scaler = StandardScaler()
scaled_data = scaler.fit_transform(merged[numeric_columns])

# Imputacja KNN
imputer = KNNImputer(n_neighbors=5, weights='distance')
imputed_data = imputer.fit_transform(scaled_data)

# Przywrócenie oryginalnej skali i formatu
merged_imputed = pd.DataFrame(scaler.inverse_transform(imputed_data), 
                         columns=numeric_columns)

# Zaokrąglenie wartości
merged_imputed[['Bezrobocie', 'Wynagrodzenia']] = merged_imputed[['Bezrobocie', 'Wynagrodzenia']].round(2)
merged_imputed[['Powierzchnia']] = merged_imputed[['Powierzchnia']].round(1)
merged_imputed[['Rok', 'Mediana', 'Sprzedaz', 'Populacja', 'Produkcyjny']] = merged_imputed[['Rok', 'Mediana', 'Sprzedaz', 'Populacja', 'Produkcyjny']].round(0).astype(int)

# Połączenie z kolumnami tekstowymi
merged_imputed = pd.concat([merged[['Kod', 'Nazwa']], merged_imputed], axis=1)

# Weryfikacja i eksport
dtypes = merged_imputed.dtypes               # Pobiera typy danych
zeros_count = (merged_imputed == 0).sum()    # Oblicza liczbę zer w każdej kolumnie (dla kolumn numerycznych)
print(pd.DataFrame({'Typ danych': dtypes, 'Liczba zer': zeros_count}))

merged_imputed.to_csv('merged_imputed.csv', index=False)

              Typ danych  Liczba zer
Kod                int64           0
Nazwa             object           0
Rok                int32           0
Populacja          int32           0
Produkcyjny        int32           0
Bezrobocie       float64           0
Wynagrodzenia    float64           0
Mediana            int32           0
Sprzedaz           int32           0
Powierzchnia     float64           0


In [131]:
merged_imputed

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,201000,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,229,26.1
1,202000,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,270,23.8
2,203000,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,456,23.0
3,204000,Powiat górowski,2013,36391,23166,28.3,3066.83,2089,88,24.7
4,205000,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,85,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,272,28.6
4176,3218000,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,172,27.5
4177,3261000,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,993,30.6
4178,3262000,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,422,30.9


### 6. Przekształcenie zmiennej **"Sprzedaz"** z bezwzględnej na liczbę przypadającą na 1 tys. mieszkańców

In [137]:
merged_imputed = pd.read_csv('merged_imputed.csv', sep=',', decimal='.', encoding='utf-8')

In [139]:
merged_imputed

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,201000,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,229,26.1
1,202000,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,270,23.8
2,203000,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,456,23.0
3,204000,Powiat górowski,2013,36391,23166,28.3,3066.83,2089,88,24.7
4,205000,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,85,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,272,28.6
4176,3218000,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,172,27.5
4177,3261000,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,993,30.6
4178,3262000,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,422,30.9


In [141]:
# Przelicz Sprzedaz na 10 tys. mieszkańców i zaokrąglij do dwóch miejsc po przecinku
merged_imputed['Sprzedaz'] = (merged_imputed['Sprzedaz'] / merged_imputed['Populacja'] * 1000).round(2)


In [143]:
merged_imputed

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,201000,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,2.54,26.1
1,202000,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,2.58,23.8
2,203000,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,5.05,23.0
3,204000,Powiat górowski,2013,36391,23166,28.3,3066.83,2089,2.42,24.7
4,205000,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,1.63,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,5.44,28.6
4176,3218000,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,5.15,27.5
4177,3261000,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,9.41,30.6
4178,3262000,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,1.08,30.9


### 7. Skrócenie kodów TERYT do 4 cyfr

In [145]:
merged_imputed

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,201000,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,2.54,26.1
1,202000,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,2.58,23.8
2,203000,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,5.05,23.0
3,204000,Powiat górowski,2013,36391,23166,28.3,3066.83,2089,2.42,24.7
4,205000,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,1.63,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217000,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,5.44,28.6
4176,3218000,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,5.15,27.5
4177,3261000,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,9.41,30.6
4178,3262000,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,1.08,30.9


In [147]:
# Konwersja na typ tekstowy
merged_imputed['Kod'] = merged_imputed['Kod'].astype(str)

# Dodanie zera na początku dla kodów 6-cyfrowych
merged_imputed['Kod'] = merged_imputed['Kod'].apply(lambda x: '0' + x if len(x) == 6 else x)

# Usunięcie trzech ostatnich zer z każdego kodu
merged_imputed['Kod'] = merged_imputed['Kod'].apply(lambda x: x[:-3])


merged_imputed

Unnamed: 0,Kod,Nazwa,Rok,Populacja,Produkcyjny,Bezrobocie,Wynagrodzenia,Mediana,Sprzedaz,Powierzchnia
0,0201,Powiat bolesławiecki,2013,90306,58101,12.6,3231.49,2650,2.54,26.1
1,0202,Powiat dzierżoniowski,2013,104613,66669,20.2,3156.11,2118,2.58,23.8
2,0203,Powiat głogowski,2013,90302,58315,14.9,3320.48,3022,5.05,23.0
3,0204,Powiat górowski,2013,36391,23166,28.3,3066.83,2089,2.42,24.7
4,0205,Powiat jaworski,2013,52070,33749,24.3,3040.71,2205,1.63,24.9
...,...,...,...,...,...,...,...,...,...,...
4175,3217,Powiat wałecki,2023,50003,29275,9.0,6651.30,4480,5.44,28.6
4176,3218,Powiat łobeski,2023,33394,19183,15.9,6257.92,3591,5.15,27.5
4177,3261,Powiat m. Koszalin,2023,105540,59328,4.3,6828.27,6750,9.41,30.6
4178,3262,Powiat m. Szczecin,2023,389066,225340,3.6,7933.31,8434,1.08,30.9


### 8. Zapisanie gotowego zbioru do nowego pliku

In [149]:
merged_imputed.to_csv('complete.csv', index=False)