## Data preprocessing

In [12]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [13]:
# global data
# years = [2022, 2023]
years = [i for i in range (2015, 2023 + 1)]
g_encoding = "utf-8" #"ISO-8859-1"

In [14]:
def find_columns_names(file_path, max_num_if_empty_lines=1, end_character='  '):
    column_names = []
    with open(file_path) as fp:
        lines = fp.readlines()
        empty_lines_counter = 0
        for line in lines:
            # print(line)
            if line in ['\n', '\r\n']:
                empty_lines_counter += 1
                if empty_lines_counter > max_num_if_empty_lines:
                    break
                else:
                    continue
            title_end = line.index(end_character)
            column_names.append(line[:title_end])
    return column_names

#### Dane meteorologiczne - wykaz stacji

In [15]:
weather_station_columns = ["kod stacji", "nazwa stacji", "kod pięcioznakowy stacji"]
weather_station_list = pd.read_csv("dane\meteorologiczne\wykaz_stacji.csv", header=None, encoding=g_encoding, names=weather_station_columns)

weather_station_list.head()

Unnamed: 0,kod stacji,nazwa stacji,kod pięcioznakowy stacji
0,250180460,ADAMOWICE,95414
1,254230010,ALEKSANDRÓWKA,91908
2,250190430,ALWERNIA,95506
3,250210030,ANNOPOL,95751
4,249199978,ANTAŁÓWKA,6522


In [47]:
columnns_to_search = ["kod stacji", "kod pięcioznakowy stacji"]
temp_df = weather_station_list[columnns_to_search]
matrix_to_search = temp_df.to_numpy()
matrix_to_search

array([[250180460,     95414],
       [254230010,     91908],
       [250190430,     95506],
       ...,
       [254220010,     91820],
       [249199975,     96597],
       [249199992,      6509]], dtype=int64)

In [48]:
values_to_find = np.array([[254230010, 91908], [249199992, 6509]])
values_to_find

array([[254230010,     91908],
       [249199992,      6509]])

In [50]:
x = np.argwhere(np.isin(matrix_to_search, values_to_find).all(axis=1))

In [52]:
print(x)
print(x.tolist())

[[   1]
 [2143]]
[[1], [2143]]


In [None]:
matrix_to_search

#### Dane meteorologiczne - klimat

FORMAT: k_m_d_rok:
* Kod stacji                                         9
* Nazwa stacji                                      30
* Rok                                                4
* Miesiąc                                            2
* Absolutna temperatura maksymalna [°C]              5/1
* Status pomiaru TMAX                                1
* Średnia temperatura maksymalna [°C]                6/1
* Status pomiaru TMXS                                1
* Absolutna temperatura minimalna [°C]               5/1
* Status pomiaru TMIN                                1
* Średnia temperatura minimalna  [°C]                6/1
* Status pomiaru TMNS                                1
* Średnia temperatura miesięczna  [°C]               6/1
* Status pomiaru STM                                 1
* Minimalna temperatura przy gruncie [°C]            5/1
* Status pomiaru TMNG                                1
* Miesieczna suma opadów  [mm]                       7/1
* Status pomiaru SUMM                                1
* Maksymalna dobowa suma opadów [mm]                 6/1
* Status pomiaru OPMX                                1
* Pierwszy dzień wystapienia opadu maksymalnego      2
* Ostatni dzień wystąpienia opadu maksymalnego       2
* Maksymalna wysokość pokrywy śnieżnej [cm]          4
* Status pomiaru PKSN                                1
* Liczba dni z pokrywą śnieżną                       3
* Liczba dni z opadem deszczu                        3
* Liczba dni z opadem śniegu                         3


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>
Wartość "0" w kolumnie "Maksymalna wysokość pokrywy śnieżnej", jeżeli nie jest doprecyzowana wartością kolumny status, oznacza, że pokrywa nie występowała w danym miesiącu lub nie można ustalić wartości maksymalnej </br>

In [5]:
climate_kmd_columns = find_columns_names('dane\meteorologiczne\klimat\k_m_d_format.txt')
print(climate_kmd_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Absolutna temperatura maksymalna [°C]', 'Status pomiaru TMAX', 'Średnia temperatura maksymalna [°C]', 'Status pomiaru TMXS', 'Absolutna temperatura minimalna [°C]', 'Status pomiaru TMIN', 'Średnia temperatura minimalna', 'Status pomiaru TMNS', 'Średnia temperatura miesięczna', 'Status pomiaru STM', 'Minimalna temperatura przy gruncie [°C]', 'Status pomiaru TMNG', 'Miesieczna suma opadów', 'Status pomiaru SUMM', 'Maksymalna dobowa suma opadów [mm]', 'Status pomiaru OPMX', 'Pierwszy dzień wystapienia opadu maksymalnego', 'Ostatni dzień wystąpienia opadu maksymalnego', 'Maksymalna wysokość pokrywy śnieżnej [cm]', 'Status pomiaru PKSN', 'Liczba dni z pokrywą śnieżną', 'Liczba dni z opadem deszczu', 'Liczba dni z opadem śniegu']


In [6]:
climate_kmd = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\klimat\k_m_d_{year}.csv"
    climate_kmd_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    climate_kmd = pd.concat([climate_kmd, climate_kmd_year])
climate_kmd.columns = climate_kmd_columns
climate_kmd.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Absolutna temperatura maksymalna [°C],Status pomiaru TMAX,Średnia temperatura maksymalna [°C],Status pomiaru TMXS,Absolutna temperatura minimalna [°C],Status pomiaru TMIN,...,Status pomiaru SUMM,Maksymalna dobowa suma opadów [mm],Status pomiaru OPMX,Pierwszy dzień wystapienia opadu maksymalnego,Ostatni dzień wystąpienia opadu maksymalnego,Maksymalna wysokość pokrywy śnieżnej [cm],Status pomiaru PKSN,Liczba dni z pokrywą śnieżną,Liczba dni z opadem deszczu,Liczba dni z opadem śniegu
0,249180010,PSZCZYNA,2015,1,12.4,,4.0,,-13.0,,...,,11.6,,30.0,,10,,15,7,12
1,249180010,PSZCZYNA,2015,2,11.8,,4.1,,-8.0,,...,,11.5,,25.0,,18,,21,7,6
2,249180010,PSZCZYNA,2015,3,18.3,,10.1,,-6.0,,...,,15.2,,27.0,,1,,1,10,4
3,249180010,PSZCZYNA,2015,4,24.4,,14.1,,-2.6,,...,,8.7,,2.0,,0,,0,8,6
4,249180010,PSZCZYNA,2015,5,24.9,,17.8,,0.5,,...,,18.6,,20.0,,0,,0,17,0


In [7]:
climate_kmd['Kod stacji'].unique().size

120

FORMAT: k_m_t_rok:
* Kod stacji                                       9
* Nazwa stacji                                    30
* Rok                                              4
* Miesiąc                                          2
* Średnia miesięczna temperatura [°C]              5/1
* Status pomiaru TEMP                              1
* Średnia miesięczna wilgotność względna [%]       8/1
* Status pomiaru WLGS                              1
* Średnia miesięczna prędkość wiatru [m/s]         6/1
* Status pomiaru FWS                               1
* Średnie miesięczne zachmurzenie ogólne [oktanty] 6/1
* Status pomiaru NOS                               1
   
Status "8" brak pomiaru

In [8]:
climate_kmt_columns = find_columns_names('dane\meteorologiczne\klimat\k_m_t_format.txt')
print(climate_kmt_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnia miesięczna temperatura [°C]', 'Status pomiaru TEMP', 'Średnia miesięczna wilgotność względna [%]', 'Status pomiaru WLGS', 'Średnia miesięczna prędkość wiatru [m/s]', 'Status pomiaru FWS', 'Średnie miesięczne zachmurzenie ogólne [oktanty]', 'Status pomiaru NOS']


In [9]:
climate_kmt = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\klimat\k_m_t_{year}.csv"
    climate_kmt_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    climate_kmt = pd.concat([climate_kmt, climate_kmt_year])
climate_kmt.columns = climate_kmt_columns
climate_kmt.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia miesięczna temperatura [°C],Status pomiaru TEMP,Średnia miesięczna wilgotność względna [%],Status pomiaru WLGS,Średnia miesięczna prędkość wiatru [m/s],Status pomiaru FWS,Średnie miesięczne zachmurzenie ogólne [oktanty],Status pomiaru NOS
0,249180010,PSZCZYNA,2015,1,1.2,,0.0,8.0,2.6,,7.0,
1,249180010,PSZCZYNA,2015,2,0.0,,0.0,8.0,1.6,,5.2,
2,249180010,PSZCZYNA,2015,3,4.3,,0.0,8.0,2.1,,4.6,
3,249180010,PSZCZYNA,2015,4,8.3,,0.0,8.0,2.1,,4.4,
4,249180010,PSZCZYNA,2015,5,12.6,,0.0,8.0,1.3,,5.5,


#### Dane meteorologiczne - opady

FORMAT: o_m_rok:
* Kod stacji                                        9
* Nazwa stacji                                     30
* Rok                                               4
* Miesiąc                                           2
* Miesięczna suma opadów [mm]                       8/1
* Status pomiaru SUMM                               1
* Liczba dni z opadem śniegu                        5
* Status pomiaru LDS                                1
* Opad maksymalny [mm]                              8/1
* Status pomiaru MAXO                               1
* Dzień pierwszy wystąpienia opadu maksymalnego     2
* Dzień ostatni wystąpienia opadu maksymalnego      2
* Liczba dni z pokrywą śnieżną                      5
* Status pomiaru LDPS                               1

Status "8" brak pomiaru
Status "9" brak zjawiska

In [10]:
fall_om_columns = find_columns_names('dane\meteorologiczne\opad\o_m_format.txt')
print(fall_om_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Miesięczna suma opadów [mm]', 'Status pomiaru SUMM', 'Liczba dni z opadem śniegu', 'Status pomiaru LDS', 'Opad maksymalny [mm]', 'Status pomiaru MAXO', 'Dzień pierwszy wystąpienia opadu maksymalnego', 'Dzień ostatni wystąpienia opadu maksymalnego', 'Liczba dni z pokrywą śnieżną', 'Status pomiaru LDPS']


In [11]:
fall_om = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\opad\o_m_{year}.csv"
    fall_om_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    fall_om = pd.concat([fall_om, fall_om_year])
fall_om.columns = fall_om_columns
fall_om.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Miesięczna suma opadów [mm],Status pomiaru SUMM,Liczba dni z opadem śniegu,Status pomiaru LDS,Opad maksymalny [mm],Status pomiaru MAXO,Dzień pierwszy wystąpienia opadu maksymalnego,Dzień ostatni wystąpienia opadu maksymalnego,Liczba dni z pokrywą śnieżną,Status pomiaru LDPS
0,249180020,WARSZOWICE,2015,1.0,67.2,,13.0,,10.3,,24.0,,0.0,
1,249180020,WARSZOWICE,2015,2.0,37.0,,5.0,,11.2,,9.0,,0.0,
2,249180020,WARSZOWICE,2015,3.0,39.4,,4.0,,5.8,,29.0,,0.0,
3,249180020,WARSZOWICE,2015,4.0,27.1,,5.0,,13.3,,28.0,,0.0,
4,249180020,WARSZOWICE,2015,5.0,84.8,,0.0,,18.3,,26.0,,0.0,


#### Dane meteorologiczne - synoptyczne

FORMAT: s_m_d_rok:
* Kod stacji                                        9
* Nazwa stacji                                     30
* Rok                                               4
* Miesiąc                                           2
* Absolutna temperatura maksymalna [°C]             5/1
* Status pomiaru TMAX                               1
* Średnia temperatura maksymalna [°C]               6/1
* Status pomiaru TMXS                               1
* Absolutna temperatura minimalna [°C]              5/1
* Status pomiaru TMIN                               1
* Średnia temperatura minimalna [°C]                6/1
* Status pomiaru TMNS                               1
* Średnia temperatura miesięczna [°C]               6/1
* Status pomiaru STM                                1
* Minimalna temperatura przy gruncie [°C]           5/1
* Status pomiaru TMNG                               1
* Miesięczna suma opadów [mm]                       7/1
* Status pomiaru SUMM                               1
* Maksymalna dobowa suma opadów  [mm]               6/1
* Status pomiaru OPMX                               1
* Pierwszy dzień wystąpienia opadu maksymalnego     2
* Ostatni dzień wystąpienia opadu maksymalnego      2
* Miesięczna suma usłonecznienia  [godziny]         7/1
* Status pomiaru SUUS                               1
* Maksymalna wysokość pokrywy śnieżnej [cm]         4
* Status pomiaru PKSN                               1
* Liczba dni z pokrywą śnieżną                      3
* Status pomiaru PSDN                               1
* Liczba dni z opadem deszczu                       3
* Status pomiaru DESD                               1
* Liczba dni z opadem śniegu                        3
* Status pomiaru SNID                               1
* Liczba dni z opadem deszczu ze śniegiem           3
* Status pomiaru DSND                               1
* Liczba dni z gradem                               3
* Status pomiaru GRDD                               1
* Liczba dni z mgłą                                 3
* Status pomiaru MGLD                               1
* Liczba dni z zamgleniem                           3
* Status pomiaru ZAMD                               1
* Liczba dni z sadzią                               3
* Status pomiaru SADD                               1
* Liczba dni z gołoledzią                           3
* Status pomiaru GOLD                               1
* Liczba dni z zamiecią śnieżną niską               3
* Status pomiaru ZAND                               1
* Liczba dni z zamiecią śnieżną wysoką              3
* Status pomiaru ZAWD                               1
* Liczba dni ze zmętnieniem                         3
* Status pomiaru ZMED                               1
* Liczba dni z wiatrem >= 10m/s                     3
* Status pomiaru W10D                               1
* Liczba dni z wiatrem >15m/s                       3
* Status pomiaru W15D                               1
* Liczba dni z burzą                                3
* Status pomiaru BURD                               1
* Liczba dni z rosą                                 3
* Status pomiaru ROSD                               1
* Liczba dni ze szronem                             3
* Status pomiaru SZRD                               1


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>
Dla agregacji typu "Liczba dni z" status "9" oznacza brak pomiaru zjawisk na stacji. </br>

In [12]:
synoptic_smd_columns = find_columns_names('dane\meteorologiczne\synop\s_m_d_format.txt')
print(synoptic_smd_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Absolutna temperatura maksymalna [°C]', 'Status pomiaru TMAX', 'Średnia temperatura maksymalna [°C]', 'Status pomiaru TMXS', 'Absolutna temperatura minimalna [°C]', 'Status pomiaru TMIN', 'Średnia temperatura minimalna [°C]', 'Status pomiaru TMNS', 'Średnia temperatura miesięczna [°C]', 'Status pomiaru STM', 'Minimalna temperatura przy gruncie [°C]', 'Status pomiaru TMNG', 'Miesięczna suma opadów [mm]', 'Status pomiaru SUMM', 'Maksymalna dobowa suma opadów', 'Status pomiaru OPMX', 'Pierwszy dzień wystąpienia opadu maksymalnego', 'Ostatni dzień wystąpienia opadu maksymalnego', 'Miesięczna suma usłonecznienia', 'Status pomiaru SUUS', 'Maksymalna wysokość pokrywy śnieżnej [cm]', 'Status pomiaru PKSN', 'Liczba dni z pokrywą śnieżną', 'Status pomiaru PSDN', 'Liczba dni z opadem deszczu', 'Status pomiaru DESD', 'Liczba dni z opadem śniegu', 'Status pomiaru SNID', 'Liczba dni z opadem deszczu ze śniegiem', 'Status pomiaru DSND', 'Liczba dni z 

In [13]:
synoptic_smd = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\synop\s_m_d_{year}.csv"
    synoptic_smd_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    synoptic_smd = pd.concat([synoptic_smd, synoptic_smd_year])
synoptic_smd.columns = synoptic_smd_columns
synoptic_smd.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Absolutna temperatura maksymalna [°C],Status pomiaru TMAX,Średnia temperatura maksymalna [°C],Status pomiaru TMXS,Absolutna temperatura minimalna [°C],Status pomiaru TMIN,...,Liczba dni z wiatrem >= 10m/s,Status pomiaru W10D,Liczba dni z wiatrem >15m/s,Status pomiaru W15D,Liczba dni z burzą,Status pomiaru BURD,Liczba dni z rosą,Status pomiaru ROSD,Liczba dni ze szronem,Status pomiaru SZRD
0,349190600,BIELSKO-BIAŁA,2015,1,12.3,,4.2,,-11.5,,...,15,,1,,0,,3,,1,
1,349190600,BIELSKO-BIAŁA,2015,2,11.4,,4.2,,-7.2,,...,2,,0,,0,,0,,0,
2,349190600,BIELSKO-BIAŁA,2015,3,19.0,,9.6,,-4.7,,...,7,,1,,1,,6,,11,
3,349190600,BIELSKO-BIAŁA,2015,4,24.0,,13.5,,-1.7,,...,2,,0,,3,,9,,0,
4,349190600,BIELSKO-BIAŁA,2015,5,25.1,,17.3,,2.7,,...,4,,0,,4,,19,,0,


FORMAT: s_m_t_rok:
* Kod stacji                                            9
* Nazwa stacji                                         30
* Rok                                                   4
* Miesiąc                                               2
* Średnie miesięczne zachmurzenie ogólne [oktanty]      6/1
* Status pomiaru NOS                                    1
* Średnia miesięczna prędkość wiatru [m/s]              6/1
* Status pomiaru FWS                                    1
* Średnia miesięczna temperatura [°C]                   5/1
* Status pomiaru TEMP                                   1
* Średnie miesięczne ciśnienie pary wodnej [hPa]        5/1
* Status pomiaru CPW                                    1
* Średnia miesięczna wilgotność względna [%]            8/1
* Status pomiaru WLGS                                   1
* Średnie miesięczne ciśnienie na poziomie stacji [hPa] 7/1
* Status pomiaru PPPS                                   1
* Średnie miesięczne ciśnienie na pozimie morza [hPa]   7/1
* Status pomiaru PPPM                                   1
* Suma opadu dzień [mm]                                 8/1
* Status pomiaru WODZ                                   1
* Suma opadu noc   [mm]                                 8/1
* Status pomiaru WONO                                   1


Status "8" brak pomiaru </br>
Status "9" brak zjawiska </br>

In [14]:
synoptic_smt_columns = find_columns_names('dane\meteorologiczne\synop\s_m_t_format.txt')
print(synoptic_smt_columns)

['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnie miesięczne zachmurzenie ogólne [oktanty]', 'Status pomiaru NOS', 'Średnia miesięczna prędkość wiatru [m/s]', 'Status pomiaru FWS', 'Średnia miesięczna temperatura [°C]', 'Status pomiaru TEMP', 'Średnie miesięczne ciśnienie pary wodnej [hPa]', 'Status pomiaru CPW', 'Średnia miesięczna wilgotność względna [%]', 'Status pomiaru WLGS', 'Średnie miesięczne ciśnienie na poziomie stacji [hPa]', 'Status pomiaru PPPS', 'Średnie miesięczne ciśnienie na pozimie morza [hPa]', 'Status pomiaru PPPM', 'Suma opadu dzień [mm]', 'Status pomiaru WODZ', 'Suma opadu noc', 'Status pomiaru WONO']


In [15]:
synoptic_smt = pd.DataFrame()
for year in years:
    relative_path = f"dane\meteorologiczne\synop\s_m_t_{year}.csv"
    synoptic_smt_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    synoptic_smt = pd.concat([synoptic_smt, synoptic_smt_year])
synoptic_smt.columns = synoptic_smt_columns
synoptic_smt.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnie miesięczne zachmurzenie ogólne [oktanty],Status pomiaru NOS,Średnia miesięczna prędkość wiatru [m/s],Status pomiaru FWS,Średnia miesięczna temperatura [°C],Status pomiaru TEMP,...,Średnia miesięczna wilgotność względna [%],Status pomiaru WLGS,Średnie miesięczne ciśnienie na poziomie stacji [hPa],Status pomiaru PPPS,Średnie miesięczne ciśnienie na pozimie morza [hPa],Status pomiaru PPPM,Suma opadu dzień [mm],Status pomiaru WODZ,Suma opadu noc,Status pomiaru WONO
0,349190600,BIELSKO-BIAŁA,2015,1,6.7,,4.3,,1.5,,...,78.7,,966.6,,1015.8,,27.0,,44.7,
1,349190600,BIELSKO-BIAŁA,2015,2,5.2,,2.4,,0.7,,...,77.1,,968.8,,1018.2,,23.9,,28.2,
2,349190600,BIELSKO-BIAŁA,2015,3,4.7,,3.1,,4.8,,...,69.9,,972.2,,1021.1,,44.1,,19.1,
3,349190600,BIELSKO-BIAŁA,2015,4,5.4,,2.8,,8.6,,...,62.4,,970.3,,1018.3,,41.2,,12.6,
4,349190600,BIELSKO-BIAŁA,2015,5,5.9,,2.1,,12.6,,...,73.1,,968.9,,1016.2,,66.3,,63.0,


#### Dane hydrologiczne

Pliki ze średnimi i ekstremami miesięcznymi zawierają w kolejnych polach następujące informacje:

* Kod stacji
* Nazwa stacji
* Nazwa rzeki/jeziora
* Rok hydrologiczny
* Wskaźnik miesiąca w roku hydrologicznym
* Wskaźnik ekstremum
* Stan wody [cm]
* Przepływ [m^3/s]
* Temperatura wody [st. C]
* Miesiąc kalendarzowy


Wskaźnik ekstremum może przyjmować następujące wartości:
1 - minimum,
2 - wartość średnia,
3 - maksimum.



Stan wody 9999 oznacza brak danych w bazie lub przerwy w obserwacjach w danym miesiącu i stąd brak możliwości obliczenia charakterystyk.
Przepływ 99999.999 oznacza brak danych lub przerwy w obserwacjach w danym miesiącu i stąd brak możliwości obliczenia charakterystyk.
Temperatura wody 99.9 oznacza brak danych lub przerwy w obserwacjach w danym miesiącu i stąd brak możliwości obliczenia charakterystyk.



In [16]:
hydrological_columns = find_columns_names('dane\hydrologiczne\mies_info.txt', end_character='\n')
print(hydrological_columns)

['Kod stacji', 'Nazwa stacji', 'Nazwa rzeki/jeziora', 'Rok hydrologiczny', 'Wskaźnik miesiąca w roku hydrologicznym', 'Wskaźnik ekstremum', 'Stan wody [cm]', 'Przepływ [m^3/s]', 'Temperatura wody [st. C]', 'Miesiąc kalendarzowy']


In [17]:
hydrological_data_all = pd.DataFrame()
years = years[:-1]
for year in years:
    relative_path = f"dane\hydrologiczne\mies_{year}.csv"
    hydrological_year = pd.read_csv(relative_path, header=None, encoding=g_encoding)
    hydrological_data_all = pd.concat([hydrological_data_all, hydrological_year])
hydrological_data_all.columns = hydrological_columns
hydrological_data_all.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Nazwa rzeki/jeziora,Rok hydrologiczny,Wskaźnik miesiąca w roku hydrologicznym,Wskaźnik ekstremum,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C],Miesiąc kalendarzowy
0,149180020,CHAŁUPKI,Odra (1),2015,1,1,110,20.1,99.9,11
1,149180020,CHAŁUPKI,Odra (1),2015,1,2,129,31.7,99.9,11
2,149180020,CHAŁUPKI,Odra (1),2015,1,3,211,95.2,99.9,11
3,149180020,CHAŁUPKI,Odra (1),2015,2,1,95,13.9,99.9,12
4,149180020,CHAŁUPKI,Odra (1),2015,2,2,116,23.4,99.9,12


# Selekcja danych

### Wyselekcjonowane dane:

* Średnia temperatura maksymalna [°C]
* Średnia temperatura minimalna  [°C]
* Minimalna temperatura przy gruncie
* Miesieczna suma opadów
* Liczba dni z opadem deszczu
---------------------------------
* Średnia miesięczna wilgotność względna [%]
---------------------------------
* Opad maksymalny [mm] / Maksymalna dobowa suma opadów [mm]
---------------------------------
* Miesięczna suma usłonecznienia  [godziny]
---------------------------------
* Stan wody [cm]
* Przepływ [m^3/s]
* Temperatura wody [st. C]

In [18]:
selected_climate_data_1 = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnia temperatura maksymalna [°C]', 'Średnia temperatura minimalna','Minimalna temperatura przy gruncie [°C]', 'Miesieczna suma opadów', 'Liczba dni z opadem deszczu']
climate_data_1 = climate_kmd[selected_climate_data_1]
climate_data_1.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna,Minimalna temperatura przy gruncie [°C],Miesieczna suma opadów,Liczba dni z opadem deszczu
0,249180010,PSZCZYNA,2015,1,4.0,-1.6,-18.9,65.5,7
1,249180010,PSZCZYNA,2015,2,4.1,-3.3,-14.9,35.2,7
2,249180010,PSZCZYNA,2015,3,10.1,-0.3,-9.4,41.9,10
3,249180010,PSZCZYNA,2015,4,14.1,2.5,-6.9,24.3,8
4,249180010,PSZCZYNA,2015,5,17.8,7.2,-3.0,89.9,17


In [19]:
selected_climate_data_2 = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnia miesięczna wilgotność względna [%]']
climate_data_2 = climate_kmt[selected_climate_data_2]
climate_data_2.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia miesięczna wilgotność względna [%]
0,249180010,PSZCZYNA,2015,1,0.0
1,249180010,PSZCZYNA,2015,2,0.0
2,249180010,PSZCZYNA,2015,3,0.0
3,249180010,PSZCZYNA,2015,4,0.0
4,249180010,PSZCZYNA,2015,5,0.0


In [20]:
selected_fall_data = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Opad maksymalny [mm]']
fall_data = fall_om[selected_fall_data]
fall_data.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Opad maksymalny [mm]
0,249180020,WARSZOWICE,2015,1.0,10.3
1,249180020,WARSZOWICE,2015,2.0,11.2
2,249180020,WARSZOWICE,2015,3.0,5.8
3,249180020,WARSZOWICE,2015,4.0,13.3
4,249180020,WARSZOWICE,2015,5.0,18.3


In [21]:
selected_synoptic_data_1 = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Miesięczna suma usłonecznienia']
synoptic_data_1 = synoptic_smd[selected_synoptic_data_1]
synoptic_data_1.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Miesięczna suma usłonecznienia
0,349190600,BIELSKO-BIAŁA,2015,1,0.0
1,349190600,BIELSKO-BIAŁA,2015,2,0.0
2,349190600,BIELSKO-BIAŁA,2015,3,0.0
3,349190600,BIELSKO-BIAŁA,2015,4,161.7
4,349190600,BIELSKO-BIAŁA,2015,5,148.3


In [22]:
selected_synoptic_data_2 = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc', 'Średnia temperatura maksymalna [°C]',
                            'Średnia temperatura minimalna [°C]', 'Minimalna temperatura przy gruncie [°C]',
                            'Miesięczna suma opadów [mm]', 'Miesięczna suma usłonecznienia', 'Liczba dni z opadem deszczu']
synoptic_data_2 = synoptic_smd[selected_synoptic_data_2]
synoptic_data_2.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
0,349190600,BIELSKO-BIAŁA,2015,1,4.2,-1.0,-16.6,71.7,0.0,5
1,349190600,BIELSKO-BIAŁA,2015,2,4.2,-2.2,-11.9,52.1,0.0,3
2,349190600,BIELSKO-BIAŁA,2015,3,9.6,0.9,-7.4,63.2,0.0,4
3,349190600,BIELSKO-BIAŁA,2015,4,13.5,3.9,-3.0,53.8,161.7,8
4,349190600,BIELSKO-BIAŁA,2015,5,17.3,8.5,0.6,129.3,148.3,20


In [23]:
selected_hydrological_data = ['Kod stacji', 'Nazwa stacji', 'Rok hydrologiczny', 'Miesiąc kalendarzowy', 'Stan wody [cm]', 'Przepływ [m^3/s]', 'Temperatura wody [st. C]', 'Nazwa rzeki/jeziora']
hydrological_data = hydrological_data_all[selected_hydrological_data]
hydrological_data.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok hydrologiczny,Miesiąc kalendarzowy,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C],Nazwa rzeki/jeziora
0,149180020,CHAŁUPKI,2015,11,110,20.1,99.9,Odra (1)
1,149180020,CHAŁUPKI,2015,11,129,31.7,99.9,Odra (1)
2,149180020,CHAŁUPKI,2015,11,211,95.2,99.9,Odra (1)
3,149180020,CHAŁUPKI,2015,12,95,13.9,99.9,Odra (1)
4,149180020,CHAŁUPKI,2015,12,116,23.4,99.9,Odra (1)


#### Część wspólna dla wyselekcjonowanych danych

In [24]:
param_to_compare = 'Nazwa stacji'
print(len(set(climate_data_1[param_to_compare]) & set(climate_data_2[param_to_compare])))
print(len(set(climate_data_1[param_to_compare]) & set(fall_data[param_to_compare])))
print(len(set(climate_data_1[param_to_compare]) & set(synoptic_data_1[param_to_compare])))
print(len(set(climate_data_1[param_to_compare]) & set(synoptic_data_2[param_to_compare])))
print(len(set(climate_data_1[param_to_compare]) & set(hydrological_data[param_to_compare])))
print(len(set(synoptic_data_2[param_to_compare]) & set(hydrological_data[param_to_compare])))

120
35
2
2
32
16


## Tworzenie zbiorów danych 

In [25]:
month_range = (5, 8) # maj - sierpień

### Zbiór nr 1

In [26]:
dataset_1 = synoptic_data_2
dataset_1.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
0,349190600,BIELSKO-BIAŁA,2015,1,4.2,-1.0,-16.6,71.7,0.0,5
1,349190600,BIELSKO-BIAŁA,2015,2,4.2,-2.2,-11.9,52.1,0.0,3
2,349190600,BIELSKO-BIAŁA,2015,3,9.6,0.9,-7.4,63.2,0.0,4
3,349190600,BIELSKO-BIAŁA,2015,4,13.5,3.9,-3.0,53.8,161.7,8
4,349190600,BIELSKO-BIAŁA,2015,5,17.3,8.5,0.6,129.3,148.3,20


In [27]:
dataset_1 = dataset_1[dataset_1['Miesiąc'].between(month_range[0], month_range[1])]
dataset_1.describe()

Unnamed: 0,Kod stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
count,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0
mean,351716300.0,2019.021154,6.5,22.291827,11.653125,3.34125,71.889663,220.455865,12.717788
std,1652894.0,2.576681,1.118303,4.88025,3.490274,3.924036,49.344311,100.172823,4.30339
min,349190600.0,2015.0,5.0,0.0,-2.5,-8.2,2.6,0.0,1.0
25%,350190600.0,2017.0,5.75,19.875,9.075,0.0,38.5,198.15,10.0
50%,351220500.0,2019.0,6.5,23.5,12.7,4.0,60.4,247.5,13.0
75%,353180200.0,2021.0,7.25,25.5,14.1,6.3,92.325,282.8,16.0
max,354220200.0,2023.0,8.0,30.5,18.1,13.4,443.0,397.0,27.0


In [28]:
column_names_to_mean = dataset_1.columns[4:]
dataset1 = dataset_1.groupby(['Kod stacji', 'Nazwa stacji', 'Rok'])[column_names_to_mean].mean()
dataset1.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
Kod stacji,Nazwa stacji,Rok,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
349190600,BIELSKO-BIAŁA,2015,23.6,9.15,4.375,77.95,145.325,12.5
349190600,BIELSKO-BIAŁA,2016,22.375,12.225,4.9,108.375,198.25,13.75
349190600,BIELSKO-BIAŁA,2017,23.225,12.9,4.3,79.425,208.475,14.5
349190600,BIELSKO-BIAŁA,2018,23.55,13.25,4.625,101.95,174.475,13.5
349190600,BIELSKO-BIAŁA,2019,23.175,13.025,4.975,140.975,240.675,13.75


In [29]:
dataset1.isnull().values.any()

False

In [30]:
dataset1.dropna(inplace=True)

In [31]:
dataset1.isnull().values.any()

False

In [32]:
dataset1.reset_index().to_csv('dataset1.csv', encoding='utf-8-sig')

### Zbiór nr 2

In [33]:
dataset_2_p1 = climate_data_1
dataset_2_p2 = climate_data_2

dataset_2_p1 = dataset_2_p1[dataset_2_p1['Miesiąc'].between(month_range[0], month_range[1])]
dataset_2_p2 = dataset_2_p2[dataset_2_p2['Miesiąc'].between(month_range[0], month_range[1])]

In [34]:
dataset_2_p1.describe()

Unnamed: 0,Kod stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna,Minimalna temperatura przy gruncie [°C],Miesieczna suma opadów,Liczba dni z opadem deszczu
count,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0
mean,250743500.0,2018.632535,6.487614,22.900041,10.98142,1.585879,83.270107,12.926094
std,1605197.0,2.575498,1.118566,3.918807,3.169407,3.372841,56.946702,4.766752
min,249180000.0,2015.0,5.0,0.0,-0.5,-12.5,0.0,0.0
25%,249200500.0,2016.0,5.0,20.6,8.8,0.0,44.8,10.0
50%,250210100.0,2018.0,6.0,23.8,11.8,0.0,72.1,13.0
75%,252180100.0,2021.0,7.0,25.6,13.2,4.1,108.4,16.0
max,254220100.0,2023.0,8.0,30.9,17.9,12.7,521.0,27.0


In [35]:
dataset_2_p2

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia miesięczna wilgotność względna [%]
4,249180010,PSZCZYNA,2015,5,0.0
5,249180010,PSZCZYNA,2015,6,0.0
6,249180010,PSZCZYNA,2015,7,0.0
7,249180010,PSZCZYNA,2015,8,0.0
18,249180160,BRENNA,2015,5,0.0
...,...,...,...,...,...
514,254200080,LIDZBARK WARMIŃSKI,2023,8,75.3
521,254220090,OLECKO,2023,5,0.0
522,254220090,OLECKO,2023,6,0.0
523,254220090,OLECKO,2023,7,0.0


In [36]:
common_keys = ['Kod stacji', 'Nazwa stacji', 'Rok', 'Miesiąc']
dataset_2 = pd.merge(dataset_2_p1, dataset_2_p2, on=common_keys)
dataset_2.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna,Minimalna temperatura przy gruncie [°C],Miesieczna suma opadów,Liczba dni z opadem deszczu,Średnia miesięczna wilgotność względna [%]
0,249180010,PSZCZYNA,2015,5,17.8,7.2,-3.0,89.9,17,0.0
1,249180010,PSZCZYNA,2015,6,22.9,11.1,3.3,38.1,11,0.0
2,249180010,PSZCZYNA,2015,7,27.2,13.8,4.7,41.9,11,0.0
3,249180010,PSZCZYNA,2015,8,29.3,14.2,4.4,30.3,5,0.0
4,249180160,BRENNA,2015,5,17.4,8.3,-0.6,130.6,22,0.0


In [37]:
dataset_2.describe()

Unnamed: 0,Kod stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna,Minimalna temperatura przy gruncie [°C],Miesieczna suma opadów,Liczba dni z opadem deszczu,Średnia miesięczna wilgotność względna [%]
count,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0,2422.0
mean,250743500.0,2018.632535,6.487614,22.900041,10.98142,1.585879,83.270107,12.926094,26.329521
std,1605197.0,2.575498,1.118566,3.918807,3.169407,3.372841,56.946702,4.766752,35.084318
min,249180000.0,2015.0,5.0,0.0,-0.5,-12.5,0.0,0.0,0.0
25%,249200500.0,2016.0,5.0,20.6,8.8,0.0,44.8,10.0,0.0
50%,250210100.0,2018.0,6.0,23.8,11.8,0.0,72.1,13.0,0.0
75%,252180100.0,2021.0,7.0,25.6,13.2,4.1,108.4,16.0,69.175
max,254220100.0,2023.0,8.0,30.9,17.9,12.7,521.0,27.0,90.4


In [38]:
column_names_to_mean = dataset_2.columns[4:]
dataset2 = dataset_2.groupby(['Kod stacji', 'Nazwa stacji', 'Rok'])[column_names_to_mean].mean()
dataset2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna,Minimalna temperatura przy gruncie [°C],Miesieczna suma opadów,Liczba dni z opadem deszczu,Średnia miesięczna wilgotność względna [%]
Kod stacji,Nazwa stacji,Rok,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
249180010,PSZCZYNA,2015,24.3,11.575,2.35,50.05,11.0,0.0
249180010,PSZCZYNA,2016,23.325,10.55,3.125,97.375,14.0,0.0
249180010,PSZCZYNA,2017,24.2,11.925,2.575,79.625,14.25,0.0
249180010,PSZCZYNA,2018,24.9,13.225,3.925,91.575,12.0,0.0
249180010,PSZCZYNA,2019,24.575,11.675,4.575,84.8,13.5,0.0


In [39]:
dataset2.isnull().values.any()

False

In [40]:
dataset2.reset_index().to_csv('dataset2.csv', encoding='utf-8-sig')

### Zbiór nr 3

In [41]:
dataset_3_p1 = synoptic_data_2
dataset_3_p2 = hydrological_data

In [42]:
dataset_3_p1.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
0,349190600,BIELSKO-BIAŁA,2015,1,4.2,-1.0,-16.6,71.7,0.0,5
1,349190600,BIELSKO-BIAŁA,2015,2,4.2,-2.2,-11.9,52.1,0.0,3
2,349190600,BIELSKO-BIAŁA,2015,3,9.6,0.9,-7.4,63.2,0.0,4
3,349190600,BIELSKO-BIAŁA,2015,4,13.5,3.9,-3.0,53.8,161.7,8
4,349190600,BIELSKO-BIAŁA,2015,5,17.3,8.5,0.6,129.3,148.3,20


In [43]:
dataset_3_p2 = dataset_3_p2.rename(columns = {'Rok hydrologiczny':'Rok', 'Miesiąc kalendarzowy': 'Miesiąc'})

dataset_3_p2.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C],Nazwa rzeki/jeziora
0,149180020,CHAŁUPKI,2015,11,110,20.1,99.9,Odra (1)
1,149180020,CHAŁUPKI,2015,11,129,31.7,99.9,Odra (1)
2,149180020,CHAŁUPKI,2015,11,211,95.2,99.9,Odra (1)
3,149180020,CHAŁUPKI,2015,12,95,13.9,99.9,Odra (1)
4,149180020,CHAŁUPKI,2015,12,116,23.4,99.9,Odra (1)


In [44]:
dataset_3_p1 = dataset_3_p1[dataset_3_p1['Miesiąc'].between(month_range[0], month_range[1])]
dataset_3_p2 = dataset_3_p2[dataset_3_p2['Miesiąc'].between(month_range[0], month_range[1])]

In [45]:
dataset_3_p1.describe()

Unnamed: 0,Kod stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu
count,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0,2080.0
mean,351716300.0,2019.021154,6.5,22.291827,11.653125,3.34125,71.889663,220.455865,12.717788
std,1652894.0,2.576681,1.118303,4.88025,3.490274,3.924036,49.344311,100.172823,4.30339
min,349190600.0,2015.0,5.0,0.0,-2.5,-8.2,2.6,0.0,1.0
25%,350190600.0,2017.0,5.75,19.875,9.075,0.0,38.5,198.15,10.0
50%,351220500.0,2019.0,6.5,23.5,12.7,4.0,60.4,247.5,13.0
75%,353180200.0,2021.0,7.25,25.5,14.1,6.3,92.325,282.8,16.0
max,354220200.0,2023.0,8.0,30.5,18.1,13.4,443.0,397.0,27.0


In [46]:
dataset_3_p2.describe()

Unnamed: 0,Kod stacji,Rok,Miesiąc,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C]
count,79335.0,79335.0,79335.0,79335.0,79335.0,79335.0
mean,151557000.0,2018.519153,6.498847,247.169585,18251.520612,88.941607
std,1631906.0,2.282085,1.118024,895.608766,38594.942601,27.925137
min,149180000.0,2015.0,5.0,-18.0,0.0,0.4
25%,150180200.0,2017.0,5.0,89.0,0.83,99.9
50%,151210100.0,2019.0,6.0,139.0,3.68,99.9
75%,153170100.0,2021.0,7.0,210.0,55.5,99.9
max,154230000.0,2022.0,8.0,9999.0,99999.999,99.9


In [47]:
common_keys = ['Nazwa stacji', 'Rok', 'Miesiąc']
dataset_3 = pd.merge(dataset_3_p1, dataset_3_p2.drop('Kod stacji', axis=1), on=common_keys)
dataset_3.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Miesiąc,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C],Nazwa rzeki/jeziora
0,349200660,NOWY SĄCZ,2015,5,18.7,8.1,0.3,109.0,166.5,22,92,56.4,99.9,Dunajec (214)
1,349200660,NOWY SĄCZ,2015,5,18.7,8.1,0.3,109.0,166.5,22,121,125.0,99.9,Dunajec (214)
2,349200660,NOWY SĄCZ,2015,5,18.7,8.1,0.3,109.0,166.5,22,210,415.0,99.9,Dunajec (214)
3,349200660,NOWY SĄCZ,2015,5,18.7,8.1,0.3,109.0,166.5,22,85,0.84,99.9,Kamienica (21432)
4,349200660,NOWY SĄCZ,2015,5,18.7,8.1,0.3,109.0,166.5,22,101,4.64,99.9,Kamienica (21432)


In [48]:
dataset_3.columns[4:]

Index(['Średnia temperatura maksymalna [°C]',
       'Średnia temperatura minimalna [°C]',
       'Minimalna temperatura przy gruncie [°C]',
       'Miesięczna suma opadów [mm]', 'Miesięczna suma usłonecznienia',
       'Liczba dni z opadem deszczu', 'Stan wody [cm]', 'Przepływ [m^3/s]',
       'Temperatura wody [st. C]', 'Nazwa rzeki/jeziora'],
      dtype='object')

In [49]:
column_names_to_mean = dataset_3.columns[4:-1]
dataset3 = dataset_3.groupby(['Kod stacji', 'Nazwa stacji', 'Rok', 'Nazwa rzeki/jeziora'])[column_names_to_mean].mean()
dataset3.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C]
Kod stacji,Nazwa stacji,Rok,Nazwa rzeki/jeziora,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
349200660,NOWY SĄCZ,2015,Dunajec (214),24.675,12.0,4.375,51.25,252.225,13.5,98.833333,88.383333,99.9
349200660,NOWY SĄCZ,2015,Kamienica (21432),24.675,12.0,4.375,51.25,252.225,13.5,102.416667,7.583333,99.9
349200660,NOWY SĄCZ,2015,Łubinka (21434),24.675,12.0,4.375,51.25,252.225,13.5,211.916667,1.620833,99.9
349200660,NOWY SĄCZ,2016,Dunajec (214),23.875,11.85,3.75,92.35,260.075,13.75,109.5,119.116667,99.9
349200660,NOWY SĄCZ,2016,Kamienica (21432),23.875,11.85,3.75,92.35,260.075,13.75,110.833333,10.680833,99.9


In [50]:
dataset3 = dataset3.reset_index()

In [51]:
dataset3.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Nazwa rzeki/jeziora,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C]
0,349200660,NOWY SĄCZ,2015,Dunajec (214),24.675,12.0,4.375,51.25,252.225,13.5,98.833333,88.383333,99.9
1,349200660,NOWY SĄCZ,2015,Kamienica (21432),24.675,12.0,4.375,51.25,252.225,13.5,102.416667,7.583333,99.9
2,349200660,NOWY SĄCZ,2015,Łubinka (21434),24.675,12.0,4.375,51.25,252.225,13.5,211.916667,1.620833,99.9
3,349200660,NOWY SĄCZ,2016,Dunajec (214),23.875,11.85,3.75,92.35,260.075,13.75,109.5,119.116667,99.9
4,349200660,NOWY SĄCZ,2016,Kamienica (21432),23.875,11.85,3.75,92.35,260.075,13.75,110.833333,10.680833,99.9


In [52]:
dataset3 = dataset3[[col for col in dataset3.columns if col != 'Nazwa rzeki/jeziora'] + ['Nazwa rzeki/jeziora']]

In [53]:
dataset3.head()

Unnamed: 0,Kod stacji,Nazwa stacji,Rok,Średnia temperatura maksymalna [°C],Średnia temperatura minimalna [°C],Minimalna temperatura przy gruncie [°C],Miesięczna suma opadów [mm],Miesięczna suma usłonecznienia,Liczba dni z opadem deszczu,Stan wody [cm],Przepływ [m^3/s],Temperatura wody [st. C],Nazwa rzeki/jeziora
0,349200660,NOWY SĄCZ,2015,24.675,12.0,4.375,51.25,252.225,13.5,98.833333,88.383333,99.9,Dunajec (214)
1,349200660,NOWY SĄCZ,2015,24.675,12.0,4.375,51.25,252.225,13.5,102.416667,7.583333,99.9,Kamienica (21432)
2,349200660,NOWY SĄCZ,2015,24.675,12.0,4.375,51.25,252.225,13.5,211.916667,1.620833,99.9,Łubinka (21434)
3,349200660,NOWY SĄCZ,2016,23.875,11.85,3.75,92.35,260.075,13.75,109.5,119.116667,99.9,Dunajec (214)
4,349200660,NOWY SĄCZ,2016,23.875,11.85,3.75,92.35,260.075,13.75,110.833333,10.680833,99.9,Kamienica (21432)


In [54]:
dataset3.isnull().values.any()

False

In [55]:
dataset3.reset_index().to_csv('dataset3.csv', encoding='utf-8-sig', index = False)