## Data preprocessing

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# global data
years = [2022, 2023]

In [3]:
def find_columns_names(file_path, max_num_if_empty_lines=1):
    column_names = []
    with open(file_path) as fp:
        lines = fp.readlines()
        empty_lines_counter = 0
        for line in lines:
            # print(line)
            if line in ['\n', '\r\n']:
                empty_lines_counter += 1
                if empty_lines_counter > max_num_if_empty_lines:
                    break
                else:
                    continue
            title_end = line.index('  ')
            column_names.append(line[:title_end])
    return column_names

#### Dane meteorologiczne - wykaz stacji

In [6]:
weather_station_columns = ["kod stacji", "nazwa stacji", "kod pięcioznakowy stacji"]
weather_station_list = pd.read_csv("dane\meteorologiczne\wykaz_stacji.csv", header=None, encoding="ISO-8859-1", names=weather_station_columns)

weather_station_list.head()

Unnamed: 0,kod stacji,nazwa stacji,kod pięcioznakowy stacji
0,250180460,ADAMOWICE,95414
1,254230010,ALEKSANDRÓWKA,91908
2,250190430,ALWERNIA,95506
3,250210030,ANNOPOL,95751
4,249199978,ANTA£ÓWKA,6522


#### Dane meteorologiczne - klimat

FORMAT: k_m_d_rok:
* Kod stacji                                         9
* Nazwa stacji                                      30
* Rok                                                4
* Miesiąc                                            2
* Absolutna temperatura maksymalna [°C]              5/1
* Status pomiaru TMAX                                1
* Średnia temperatura maksymalna [°C]                6/1
* Status pomiaru TMXS                                1
* Absolutna temperatura minimalna [°C]               5/1
* Status pomiaru TMIN                                1
* Średnia temperatura minimalna  [°C]                6/1
* Status pomiaru TMNS                                1
* Średnia temperatura miesięczna  [°C]               6/1
* Status pomiaru STM                                 1
* Minimalna temperatura przy gruncie [°C]            5/1
* Status pomiaru TMNG                                1
* Miesieczna suma opadów  [mm]                       7/1
* Status pomiaru SUMM                                1
* Maksymalna dobowa suma opadów [mm]                 6/1
* Status pomiaru OPMX                                1
* Pierwszy dzień wystapienia opadu maksymalnego      2
* Ostatni dzień wystąpienia opadu maksymalnego       2
* Maksymalna wysokość pokrywy śnieżnej [cm]          4
* Status pomiaru PKSN                                1
* Liczba dni z pokrywą śnieżną                       3
* Liczba dni z opadem deszczu                        3
* Liczba dni z opadem śniegu                         3


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>
Wartość "0" w kolumnie "Maksymalna wysokość pokrywy śnieżnej", jeżeli nie jest doprecyzowana wartością kolumny status, oznacza, że pokrywa nie występowała w danym miesiącu lub nie można ustalić wartości maksymalnej </br>

In [4]:
climate_kmd_columns = find_columns_names('dane\meteorologiczne\klimat\k_m_d_format.txt')
print(climate_kmd_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Absolutna temperatura maksymalna [°C]', 'Status pomiaru TMAX', 'Średnia temperatura maksymalna [°C]', 'Status pomiaru TMXS', 'Absolutna temperatura minimalna [°C]', 'Status pomiaru TMIN', 'Średnia temperatura minimalna', 'Status pomiaru TMNS', 'Średnia temperatura miesięczna', 'Status pomiaru STM', 'Minimalna temperatura przy gruncie [°C]', 'Status pomiaru TMNG', 'Miesieczna suma opadów', 'Status pomiaru SUMM', 'Maksymalna dobowa suma opadów [mm]', 'Status pomiaru OPMX', 'Pierwszy dzień wystapienia opadu maksymalnego', 'Ostatni dzień wystąpienia opadu maksymalnego', 'Maksymalna wysokość pokrywy śnieżnej [cm]', 'Status pomiaru PKSN', 'Liczba dni z pokrywą śnieżną', 'Liczba dni z opadem deszczu', 'Liczba dni z opadem śniegu']


In [5]:
climate_kmd = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\klimat\k_m_d_{year}.csv"
    climate_kmd_year = pd.read_csv(relative_path, header=None, encoding="ISO-8859-1")
    climate_kmd = pd.concat([climate_kmd, climate_kmd_year])
climate_kmd.columns = climate_kmd_columns
climate_kmd.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Absolutna temperatura maksymalna [°C],Status pomiaru TMAX,Średnia temperatura maksymalna [°C],Status pomiaru TMXS,Absolutna temperatura minimalna [°C],Status pomiaru TMIN,...,Status pomiaru SUMM,Maksymalna dobowa suma opadów [mm],Status pomiaru OPMX,Pierwszy dzień wystapienia opadu maksymalnego,Ostatni dzień wystąpienia opadu maksymalnego,Maksymalna wysokość pokrywy śnieżnej [cm],Status pomiaru PKSN,Liczba dni z pokrywą śnieżną,Liczba dni z opadem deszczu,Liczba dni z opadem śniegu
0,249180010,PSZCZYNA,2022,1,12.3,,3.7,,-12.2,,...,,8.8,,3,,10,,9,7,13
1,249180010,PSZCZYNA,2022,2,12.9,,7.5,,-5.2,,...,,9.6,,17,,2,,1,13,6
2,249180010,PSZCZYNA,2022,3,20.3,,9.7,,-7.2,,...,,12.6,,31,,0,,0,8,0
3,249180010,PSZCZYNA,2022,4,21.8,,11.4,,-3.8,,...,,12.6,,8,,6,,3,11,4
4,249180010,PSZCZYNA,2022,5,26.8,,20.7,,1.9,,...,,8.1,,27,,0,,0,12,0


FORMAT: k_m_t_rok:
* Kod stacji                                       9
* Nazwa stacji                                    30
* Rok                                              4
* Miesiąc                                          2
* Średnia miesięczna temperatura [°C]              5/1
* Status pomiaru TEMP                              1
* Średnia miesięczna wilgotność względna [%]       8/1
* Status pomiaru WLGS                              1
* Średnia miesięczna prędkość wiatru [m/s]         6/1
* Status pomiaru FWS                               1
* Średnie miesięczne zachmurzenie ogólne [oktanty] 6/1
* Status pomiaru NOS                               1
   
Status "8" brak pomiaru

In [6]:
climate_kmt_columns = find_columns_names('dane\meteorologiczne\klimat\k_m_t_format.txt')
print(climate_kmt_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnia miesięczna temperatura [°C]', 'Status pomiaru TEMP', 'Średnia miesięczna wilgotność względna [%]', 'Status pomiaru WLGS', 'Średnia miesięczna prędkość wiatru [m/s]', 'Status pomiaru FWS', 'Średnie miesięczne zachmurzenie ogólne [oktanty]', 'Status pomiaru NOS']


In [7]:
climate_kmt = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\klimat\k_m_t_{year}.csv"
    climate_kmt_year = pd.read_csv(relative_path, header=None, encoding="ISO-8859-1")
    climate_kmt = pd.concat([climate_kmt, climate_kmt_year])
climate_kmt.columns = climate_kmt_columns
climate_kmt.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia miesięczna temperatura [°C],Status pomiaru TEMP,Średnia miesięczna wilgotność względna [%],Status pomiaru WLGS,Średnia miesięczna prędkość wiatru [m/s],Status pomiaru FWS,Średnie miesięczne zachmurzenie ogólne [oktanty],Status pomiaru NOS
0,249180010,PSZCZYNA,2022,1,0.3,,0.0,8.0,0.0,8.0,6.2,
1,249180010,PSZCZYNA,2022,2,3.3,,0.0,8.0,0.0,8.0,5.3,
2,249180010,PSZCZYNA,2022,3,3.1,,0.0,8.0,0.0,8.0,0.0,8.0
3,249180010,PSZCZYNA,2022,4,6.4,,0.0,8.0,0.0,8.0,5.7,
4,249180010,PSZCZYNA,2022,5,14.5,,0.0,8.0,0.0,8.0,4.4,


#### Dane meteorologiczne - opady

FORMAT: o_m_rok:
* Kod stacji                                        9
* Nazwa stacji                                     30
* Rok                                               4
* Miesiąc                                           2
* Miesięczna suma opadów [mm]                       8/1
* Status pomiaru SUMM                               1
* Liczba dni z opadem śniegu                        5
* Status pomiaru LDS                                1
* Opad maksymalny [mm]                              8/1
* Status pomiaru MAXO                               1
* Dzień pierwszy wystąpienia opadu maksymalnego     2
* Dzień ostatni wystąpienia opadu maksymalnego      2
* Liczba dni z pokrywą śnieżną                      5
* Status pomiaru LDPS                               1

Status "8" brak pomiaru
Status "9" brak zjawiska

In [8]:
fall_om_columns = find_columns_names('dane\meteorologiczne\opad\o_m_format.txt')
print(fall_om_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Miesięczna suma opadów [mm]', 'Status pomiaru SUMM', 'Liczba dni z opadem śniegu', 'Status pomiaru LDS', 'Opad maksymalny [mm]', 'Status pomiaru MAXO', 'Dzień pierwszy wystąpienia opadu maksymalnego', 'Dzień ostatni wystąpienia opadu maksymalnego', 'Liczba dni z pokrywą śnieżną', 'Status pomiaru LDPS']


In [9]:
fall_om = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\opad\o_m_{year}.csv"
    fall_om_year = pd.read_csv(relative_path, header=None, encoding="ISO-8859-1")
    fall_om = pd.concat([fall_om, fall_om_year])
fall_om.columns = fall_om_columns
fall_om.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Miesięczna suma opadów [mm],Status pomiaru SUMM,Liczba dni z opadem śniegu,Status pomiaru LDS,Opad maksymalny [mm],Status pomiaru MAXO,Dzień pierwszy wystąpienia opadu maksymalnego,Dzień ostatni wystąpienia opadu maksymalnego,Liczba dni z pokrywą śnieżną,Status pomiaru LDPS
0,249180020,WARSZOWICE,2022,1,47.7,,10,,8.2,,3.0,,0,
1,249180020,WARSZOWICE,2022,2,42.0,,8,,7.0,,17.0,,0,
2,249180020,WARSZOWICE,2022,3,29.4,,2,,12.0,,31.0,,0,
3,249180020,WARSZOWICE,2022,4,43.8,,2,,11.4,,8.0,,0,
4,249180020,WARSZOWICE,2022,5,47.2,,0,,12.8,,25.0,,0,


#### Dane meteorologiczne - synoptyczne

FORMAT: s_m_d_rok:
* Kod stacji                                        9
* Nazwa stacji                                     30
* Rok                                               4
* Miesiąc                                           2
* Absolutna temperatura maksymalna [°C]             5/1
* Status pomiaru TMAX                               1
* Średnia temperatura maksymalna [°C]               6/1
* Status pomiaru TMXS                               1
* Absolutna temperatura minimalna [°C]              5/1
* Status pomiaru TMIN                               1
* Średnia temperatura minimalna [°C]                6/1
* Status pomiaru TMNS                               1
* Średnia temperatura miesięczna [°C]               6/1
* Status pomiaru STM                                1
* Minimalna temperatura przy gruncie [°C]           5/1
* Status pomiaru TMNG                               1
* Miesięczna suma opadów [mm]                       7/1
* Status pomiaru SUMM                               1
* Maksymalna dobowa suma opadów  [mm]               6/1
* Status pomiaru OPMX                               1
* Pierwszy dzień wystąpienia opadu maksymalnego     2
* Ostatni dzień wystąpienia opadu maksymalnego      2
* Miesięczna suma usłonecznienia  [godziny]         7/1
* Status pomiaru SUUS                               1
* Maksymalna wysokość pokrywy śnieżnej [cm]         4
* Status pomiaru PKSN                               1
* Liczba dni z pokrywą śnieżną                      3
* Status pomiaru PSDN                               1
* Liczba dni z opadem deszczu                       3
* Status pomiaru DESD                               1
* Liczba dni z opadem śniegu                        3
* Status pomiaru SNID                               1
* Liczba dni z opadem deszczu ze śniegiem           3
* Status pomiaru DSND                               1
* Liczba dni z gradem                               3
* Status pomiaru GRDD                               1
* Liczba dni z mgłą                                 3
* Status pomiaru MGLD                               1
* Liczba dni z zamgleniem                           3
* Status pomiaru ZAMD                               1
* Liczba dni z sadzią                               3
* Status pomiaru SADD                               1
* Liczba dni z gołoledzią                           3
* Status pomiaru GOLD                               1
* Liczba dni z zamiecią śnieżną niską               3
* Status pomiaru ZAND                               1
* Liczba dni z zamiecią śnieżną wysoką              3
* Status pomiaru ZAWD                               1
* Liczba dni ze zmętnieniem                         3
* Status pomiaru ZMED                               1
* Liczba dni z wiatrem >= 10m/s                     3
* Status pomiaru W10D                               1
* Liczba dni z wiatrem >15m/s                       3
* Status pomiaru W15D                               1
* Liczba dni z burzą                                3
* Status pomiaru BURD                               1
* Liczba dni z rosą                                 3
* Status pomiaru ROSD                               1
* Liczba dni ze szronem                             3
* Status pomiaru SZRD                               1


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>
Dla agregacji typu "Liczba dni z" status "9" oznacza brak pomiaru zjawisk na stacji. </br>

In [10]:
synoptic_smd_columns = find_columns_names('dane\meteorologiczne\synop\s_m_d_format.txt')
print(synoptic_smd_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Absolutna temperatura maksymalna [°C]', 'Status pomiaru TMAX', 'Średnia temperatura maksymalna [°C]', 'Status pomiaru TMXS', 'Absolutna temperatura minimalna [°C]', 'Status pomiaru TMIN', 'Średnia temperatura minimalna [°C]', 'Status pomiaru TMNS', 'Średnia temperatura miesięczna [°C]', 'Status pomiaru STM', 'Minimalna temperatura przy gruncie [°C]', 'Status pomiaru TMNG', 'Miesięczna suma opadów [mm]', 'Status pomiaru SUMM', 'Maksymalna dobowa suma opadów', 'Status pomiaru OPMX', 'Pierwszy dzień wystąpienia opadu maksymalnego', 'Ostatni dzień wystąpienia opadu maksymalnego', 'Miesięczna suma usłonecznienia', 'Status pomiaru SUUS', 'Maksymalna wysokość pokrywy śnieżnej [cm]', 'Status pomiaru PKSN', 'Liczba dni z pokrywą śnieżną', 'Status pomiaru PSDN', 'Liczba dni z opadem deszczu', 'Status pomiaru DESD', 'Liczba dni z opadem śniegu', 'Status pomiaru SNID', 'Liczba dni z opadem deszczu ze śniegiem', 'Status pomiaru DSND', 'Liczba dni z 

In [11]:
synoptic_smd = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\synop\s_m_d_{year}.csv"
    synoptic_smd_year = pd.read_csv(relative_path, header=None, encoding="ISO-8859-1")
    synoptic_smd = pd.concat([synoptic_smd, synoptic_smd_year])
synoptic_smd.columns = synoptic_smd_columns
synoptic_smd.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Absolutna temperatura maksymalna [°C],Status pomiaru TMAX,Średnia temperatura maksymalna [°C],Status pomiaru TMXS,Absolutna temperatura minimalna [°C],Status pomiaru TMIN,...,Liczba dni z wiatrem >= 10m/s,Status pomiaru W10D,Liczba dni z wiatrem >15m/s,Status pomiaru W15D,Liczba dni z burzą,Status pomiaru BURD,Liczba dni z rosą,Status pomiaru ROSD,Liczba dni ze szronem,Status pomiaru SZRD
0,349190600,BIELSKO-BIA£A,2022,1,12.4,,3.2,,-12.5,,...,0,9.0,0,9.0,0,9.0,0,9.0,0,9.0
1,349190600,BIELSKO-BIA£A,2022,2,11.3,,6.6,,-5.1,,...,0,9.0,0,9.0,0,9.0,0,9.0,0,9.0
2,349190600,BIELSKO-BIA£A,2022,3,19.5,,8.8,,-7.4,,...,0,9.0,0,9.0,0,9.0,0,9.0,0,9.0
3,349190600,BIELSKO-BIA£A,2022,4,21.4,,10.9,,-3.1,,...,0,9.0,0,9.0,0,9.0,0,9.0,0,9.0
4,349190600,BIELSKO-BIA£A,2022,5,26.5,,19.8,,3.3,,...,0,9.0,0,9.0,0,9.0,0,9.0,0,9.0


FORMAT: s_m_t_rok:
* Kod stacji                                            9
* Nazwa stacji                                         30
* Rok                                                   4
* Miesiąc                                               2
* Średnie miesięczne zachmurzenie ogólne [oktanty]      6/1
* Status pomiaru NOS                                    1
* Średnia miesięczna prędkość wiatru [m/s]              6/1
* Status pomiaru FWS                                    1
* Średnia miesięczna temperatura [°C]                   5/1
* Status pomiaru TEMP                                   1
* Średnie miesięczne ciśnienie pary wodnej [hPa]        5/1
* Status pomiaru CPW                                    1
* Średnia miesięczna wilgotność względna [%]            8/1
* Status pomiaru WLGS                                   1
* Średnie miesięczne ciśnienie na poziomie stacji [hPa] 7/1
* Status pomiaru PPPS                                   1
* Średnie miesięczne ciśnienie na pozimie morza [hPa]   7/1
* Status pomiaru PPPM                                   1
* Suma opadu dzień [mm]                                 8/1
* Status pomiaru WODZ                                   1
* Suma opadu noc   [mm]                                 8/1
* Status pomiaru WONO                                   1


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>

In [12]:
synoptic_smt_columns = find_columns_names('dane\meteorologiczne\synop\s_m_t_format.txt')
print(synoptic_smt_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnie miesięczne zachmurzenie ogólne [oktanty]', 'Status pomiaru NOS', 'Średnia miesięczna prędkość wiatru [m/s]', 'Status pomiaru FWS', 'Średnia miesięczna temperatura [°C]', 'Status pomiaru TEMP', 'Średnie miesięczne ciśnienie pary wodnej [hPa]', 'Status pomiaru CPW', 'Średnia miesięczna wilgotność względna [%]', 'Status pomiaru WLGS', 'Średnie miesięczne ciśnienie na poziomie stacji [hPa]', 'Status pomiaru PPPS', 'Średnie miesięczne ciśnienie na pozimie morza [hPa]', 'Status pomiaru PPPM', 'Suma opadu dzień [mm]', 'Status pomiaru WODZ', 'Suma opadu noc', 'Status pomiaru WONO']


In [13]:
synoptic_smt = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\synop\s_m_t_{year}.csv"
    synoptic_smt_year = pd.read_csv(relative_path, header=None, encoding="ISO-8859-1")
    synoptic_smt = pd.concat([synoptic_smt, synoptic_smt_year])
synoptic_smt.columns = synoptic_smt_columns
synoptic_smt.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnie miesięczne zachmurzenie ogólne [oktanty],Status pomiaru NOS,Średnia miesięczna prędkość wiatru [m/s],Status pomiaru FWS,Średnia miesięczna temperatura [°C],Status pomiaru TEMP,...,Średnia miesięczna wilgotność względna [%],Status pomiaru WLGS,Średnie miesięczne ciśnienie na poziomie stacji [hPa],Status pomiaru PPPS,Średnie miesięczne ciśnienie na pozimie morza [hPa],Status pomiaru PPPM,Suma opadu dzień [mm],Status pomiaru WODZ,Suma opadu noc,Status pomiaru WONO
0,349190600,BIELSKO-BIA£A,2022,1,0.0,8.0,4.7,,0.6,,...,80.8,,971.9,,1021.7,,24.5,,21.9,
1,349190600,BIELSKO-BIA£A,2022,2,0.0,8.0,5.6,,3.4,,...,71.5,,968.3,,1017.4,,22.2,,15.3,
2,349190600,BIELSKO-BIA£A,2022,3,0.0,8.0,2.9,,3.4,,...,59.4,,978.0,,1027.5,,5.2,,15.6,
3,349190600,BIELSKO-BIA£A,2022,4,0.0,8.0,3.5,,6.6,,...,68.5,,966.0,,1014.4,,33.1,,26.2,
4,349190600,BIELSKO-BIA£A,2022,5,0.0,8.0,2.8,,14.4,,...,62.8,,971.1,,1018.4,,30.3,,14.5,
