### Funkcje bo charted nie działa

In [19]:
import geopandas as gpd
def get_hydro_metadata() -> gpd.GeoDataFrame:
    """
    Wczytuje metadane hydrologiczne ze wskazanego URL (np. API IMGW)
    i zwraca je jako GeoDataFrame w układzie EPSG:2180 (PUWG 1992).
    """
    hydro_url = "http://danepubliczne.imgw.pl/api/data/hydro2/"
    hydro_stat = pd.read_json(hydro_url)
    df = hydro_stat.iloc[:, 0:4]
    
    # Tworzenie geometrii
    gdf = gpd.GeoDataFrame(
        df,
        geometry=gpd.points_from_xy(df["lon"], df["lat"]),
        crs="EPSG:4326"
    )
    gdf.columns = ['Station Code','Station Name','Lon','Lat','geometry']
    # Konwersja do układu PL (PUWG 1992)
    gdf = gdf.to_crs("EPSG:2180")
    
    return gdf
def get_meteo_metadata() -> gpd.GeoDataFrame:
    """
    Wczytuje metadane meteorologiczne ze wskazanego URL (np. API IMGW)
    i zwraca je jako GeoDataFrame w układzie EPSG:2180 (PUWG 1992).
    """
    meteo_url = "http://danepubliczne.imgw.pl/api/data/meteo/"
    meteo_stat = pd.read_json(meteo_url)
    df = meteo_stat.iloc[:, 0:4]
    
    # Tworzenie geometrii
    gdf = gpd.GeoDataFrame(
        df,
        geometry=gpd.points_from_xy(df["lon"], df["lat"]),
        crs="EPSG:4326"
    )
    gdf.columns = ['Station Code','Station Name','Lon','Lat','geometry']
    # Konwersja do układu PL (PUWG 1992)
    gdf = gdf.to_crs("EPSG:2180")
    
    return gdf

# Preprocessing

## Dane Hydrologiczne

In [62]:
import pandas as pd

df = pd.read_parquet("hydro_data.parquet.gzip", engine="pyarrow")

Dane Pomiarowe

In [63]:
print("Shape: ", df.shape)
print("Ilość stacji hydro w danych pomiarowych: ",df["Station Code"].nunique())
df.head()


Shape:  (4273340, 10)
Ilość stacji hydro w danych pomiarowych:  917


Unnamed: 0,Station Code,Station Name,Name,Hydro Year,Hydro Month,Day,Water Level,Flow,Water Temp,Calendar Month
0,149180020,CHA£UPKI,Odra (1),2010,1,1,158,30.8,99.9,11
1,149180020,CHA£UPKI,Odra (1),2010,1,2,154,28.5,99.9,11
2,149180020,CHA£UPKI,Odra (1),2010,1,3,150,26.0,99.9,11
3,149180020,CHA£UPKI,Odra (1),2010,1,4,149,25.4,99.9,11
4,149180020,CHA£UPKI,Odra (1),2010,1,5,149,25.9,99.9,11


Dane Meta

In [64]:
gdf = get_hydro_metadata()
print("Shape: ", gdf.shape)
print("Ilość stacji hydro w meta danych: ",gdf["Station Code"].nunique())
gdf.head()

Shape:  (859, 5)
Ilość stacji hydro w meta danych:  859


Unnamed: 0,Station Code,Station Name,Lon,Lat,geometry
0,150160330,SZCZYTNA,16.443056,50.415556,POINT (318401.478 286283.506)
1,150160340,SARNY,16.465833,50.547778,POINT (320520.661 300923.221)
2,150160350,SZALEJÓW GÓRNY,16.537222,50.418333,POINT (325098.752 286366.241)
3,150160360,STARKÓW,16.58,50.3775,POINT (327988.637 281728.229)
4,150160370,TOPOLICE,16.609167,50.366944,POINT (330023.848 280487.958)


## Wstępna selekcja danych hydrologicznych

Wybieramy stacje które:

1. Rozpoczęły pomiary przed lub w 2010 roku.
2. Można zmapować do ich lokalizacji.

In [65]:
print("Ile stacji rozpoczęło pomiary przed lub w 2010 roku:",(df.groupby("Station Code")["Hydro Year"].min() == 2010).mean() * 100,"%")

Ile stacji rozpoczęło pomiary przed lub w 2010 roku: 92.80261723009815 %


Odcinamy stacje z pierszwego warunku.

In [66]:
valid_stations = df.groupby("Station Code")["Hydro Year"].min()
valid_stations = valid_stations[valid_stations == 2010].index

# Step 2: Filter the DataFrame to include only those stations
filtered_df = df[df["Station Code"].isin(valid_stations)]

Odcinamy stacje z drugiego warunku.

In [67]:
valid_stations = gdf['Station Code']

# Step 3: Filter the DataFrame to include only those stations
filtered_df_2 = filtered_df[filtered_df["Station Code"].isin(valid_stations)]

In [68]:
print("Shape: ", filtered_df_2.shape)
print("Ilość stacji w odfiltrowanych hydro danych: ",filtered_df_2["Station Code"].nunique())

Shape:  (3533386, 10)
Ilość stacji w odfiltrowanych hydro danych:  697


In [74]:
filtered_df_2

Unnamed: 0,Station Code,Station Name,Name,Hydro Year,Hydro Month,Day,Water Level,Flow,Water Temp,Calendar Month
0,149180020,CHA£UPKI,Odra (1),2010,1,1,158,30.80,99.9,11
1,149180020,CHA£UPKI,Odra (1),2010,1,2,154,28.50,99.9,11
2,149180020,CHA£UPKI,Odra (1),2010,1,3,150,26.00,99.9,11
3,149180020,CHA£UPKI,Odra (1),2010,1,4,149,25.40,99.9,11
4,149180020,CHA£UPKI,Odra (1),2010,1,5,149,25.90,99.9,11
...,...,...,...,...,...,...,...,...,...,...
301989,149190250,JABŁONKA,Piekielnik (82224),2023,12,27,155,2.32,99.9,10
301990,149190250,JABŁONKA,Piekielnik (82224),2023,12,28,174,5.64,99.9,10
301991,149190250,JABŁONKA,Piekielnik (82224),2023,12,29,158,2.87,99.9,10
301992,149190250,JABŁONKA,Piekielnik (82224),2023,12,30,150,1.48,99.9,10


### Dane Meteorologiczne

- wartość "R" ?

In [28]:
df_2 = pd.read_parquet("meteo_data.parquet.gzip", engine="pyarrow")
print("Shape: ", df_2.shape)
print("Ilość stacji meteo w danych pomiarowych: ",df_2["Station Code"].nunique())
df_2.head()

Shape:  (294627, 65)
Ilość stacji hydro w danych pomiarowych:  61


Unnamed: 0,Station Code,Station Name,Year,Month,Day,Max Daily Temp,TMAX Status,Min Daily Temp,TMIN Status,Avg Daily Temp,...,Snow Cover Status,Lightning Occurrence,Lightning Status,Ground Condition,Lower Isotherm,Lower Isotherm Status,Upper Isotherm,Upper Isotherm Status,Actinometry,Actinometry Status
0,354150100,KO£OBRZEG,2010,1,1,-0.2,,-2.5,,-1.1,...,,0,,,0,8.0,0,8.0,0,8.0
1,354150100,KO£OBRZEG,2010,1,2,0.5,,-2.1,,-1.1,...,,0,,,0,8.0,0,8.0,0,8.0
2,354150100,KO£OBRZEG,2010,1,3,-0.5,,-3.5,,-1.9,...,,0,,,0,8.0,0,8.0,0,8.0
3,354150100,KO£OBRZEG,2010,1,4,-2.5,,-6.5,,-5.1,...,,0,,,0,8.0,0,8.0,0,8.0
4,354150100,KO£OBRZEG,2010,1,5,-3.0,,-6.0,,-4.3,...,,0,,,0,8.0,0,8.0,0,8.0


In [31]:
gdf_2 = get_meteo_metadata()
print("Shape: ", gdf_2.shape)
print("Ilość stacji meteo w meta danych: ",gdf_2["Station Code"].nunique())
gdf_2.head()

Shape:  (761, 5)
Ilość stacji meteo w meta danych:  761


Unnamed: 0,Station Code,Station Name,Lon,Lat,geometry
0,252210290,RYBIENKO,21.429167,52.577778,POINT (664545.901 526326.119)
1,351230497,WŁODAWA,23.529444,51.553333,POINT (813865.629 419371.773)
2,352220385,SIEDLCE,22.244722,52.181111,POINT (721755.946 484409.713)
3,250240010,STRZYŻÓW,24.035556,50.84,POINT (854357.945 342430.384)
4,352230399,TERESPOL,23.621944,52.078611,POINT (816563.802 478131.955)
