Projekt bazuje na informacjach udosptepnionych na stronie https://openweathermap.org/api przez firme **OpenWeather**.

Na potrzeby projektu ze wzgledu na przewidywane koszty zdecydowano nie laczyc sie bezposrednio z API strony tylko wybrano dane historyczne z okresu: ***01.01.1971 do 31.12.2023*** dla trzech przykladowych lokalizacji:
1. Bozanka, woj. pomorskie, gmina Szemud
2.
3.

### Parametry danych:

- **city_name** Nazwa miasta
- **lat** Geograficzne współrzędne lokalizacji (szerokość geograficzna)
- **lon** Geograficzne współrzędne lokalizacji (długość geograficzna)
- **main**
    - **main.temp** Temperatura [Celsjusz]
    - **main.temp_min** Minimalna temperatura w danym momencie. Jest to odchylenie od temperatury możliwej dla dużych miast i megalopolis geograficznie rozszerzonych (użyj tego parametru opcjonalnie) [Celsjusz].
    - **main.temp_max** Maksymalna temperatura w danym momencie. Jest to odchylenie od temperatury możliwej dla dużych miast i megalopolis geograficznie rozszerzonych (użyj tego parametru opcjonalnie) [Celsjusz].
    - **main.feels_like** Ten parametr temperatury uwzględnia ludzkie odczucie pogody [Celsjusz]
    - **main.pressure** Ciśnienie atmosferyczne (na poziomie morza), [hPa]
    - **main.humidity** Wilgotność, [%]
    - **main.dew_point** Temperatura atmosferyczna (zmieniająca się zgodnie z ciśnieniem i wilgotnością), poniżej której krople wody zaczynają kondensować się i tworzy się rosa. Jednostki – domyślnie: [Celsjusz]
- **wind**
    - **wind.speed** Prędkość wiatru. Jednostki – domyślnie: [metr/sek]
    - **wind.deg** Kierunek wiatru, [stopnie] (meteorologiczne)
    - **wind.gust** Poryw wiatru. Jednostki – domyślnie: [metr/sek]
- **clouds**
    - **clouds.all** Zachmurzenie, [%]
- **rain**
    - **rain.1h** Ilość opadów deszczu za ostatnią godzinę, [mm]
    - **rain.3h** Ilość opadów deszczu za ostatnie 3 godziny, [mm]
- **snow**
    - **snow.1h** Ilość opadów śniegu za ostatnią godzinę, [mm] (w stanie ciekłym)
    - **snow.3h** Ilość opadów śniegu za ostatnie 3 godziny, [mm] (w stanie ciekłym)
- **weather** (więcej informacji Kody stanu pogody) [-]
    - **weather.id** Identyfikator warunków pogodowych [-]
    - **weather.main** Grupa parametrów pogodowych (Deszcz, Śnieg, Ekstremalne itp.) [-]
    - **weather.description** Opis warunków pogodowych w grupie. Więcej informacji znajdziesz tutaj [-]
    - **weather.icon** Identyfikator ikony pogodowej [-]
- **visibility** Średnia widoczność, metry. Maksymalna wartość widoczności to 10km [m]
- **dt** Czas obliczenia danych, unix, UTC
- **dt_iso** Data i czas w formacie UTC 
- **timezone** Przesunięcie w sekundach względem UTC



In [28]:
import pandas as pd
import os

Ten skrypt najpierw tworzy listę wszystkich plików CSV w danym folderze, a następnie ładuje każdy z nich do osobnej ramki danych. Dodatkowo, przykład pokazuje, jak można dodać nazwę miasta do każdego zestawu danych na podstawie nazwy pliku. Po przetworzeniu wszystkich plików, ramki danych są łączone w jedną dużą ramkę, którą można następnie zapisać lub dalej przetwarzać.

Jeśli każdy plik CSV zawiera dane z innej lokalizacji i chcesz to uwzględnić, kod powyżej już dodaje nazwę miasta do każdego zbioru danych. Możesz dostosować ten proces do swoich potrzeb, na przykład przetwarzając nazwy plików w bardziej złożony sposób lub dodając inne metadane

In [29]:
# Ścieżka do folderu zawierającego pliki CSV
folder_path = '../2. Data/raw/'

# Lista plików CSV w folderze
csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

# Lista do przechowywania danych z każdego pliku
all_data = []

for file in csv_files:
    file_path = os.path.join(folder_path, file)
    # Wczytanie danych z pliku
    df = pd.read_csv(file_path)
    
    # Możesz dodać tutaj dodatkową obróbkę danych dla każdego pliku, np. oczyszczanie danych
    # Przykład dodania nazwy miasta na podstawie nazwy pliku
    city_name = file.replace('.csv', '')  # Usunięcie rozszerzenia pliku z nazwy
    df['city_name'] = city_name  # Dodanie kolumny z nazwą miasta
    
    # Dodanie DataFrame do listy
    all_data.append(df)

# Połączenie wszystkich DataFrame w jedną
combined_data = pd.concat(all_data, ignore_index=True)

# Zapisanie połączonych danych do nowego pliku CSV
#combined_data.to_csv('../2. Data/processed/combined_data.csv', index=False)
combined_data.to_csv('../2. Data/processed/combined_data.csv', index=False, compression='gzip')

In [30]:
df_weather = pd.read_csv("../2. Data/processed/combined_data.csv", compression='gzip')

In [31]:
df_weather.head(5)

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,wind_gust,rain_1h,rain_3h,snow_1h,snow_3h,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00 +0000 UTC,3600,Baden_Baden,48.76564,8.228524,0.04,,0.04,-5.39,...,,,,,,100,804,Clouds,overcast clouds,04n
1,284000400,1979-01-01 01:00:00 +0000 UTC,3600,Baden_Baden,48.76564,8.228524,-5.65,,-6.25,-11.7,...,,,,,,100,804,Clouds,overcast clouds,04n
2,284004000,1979-01-01 02:00:00 +0000 UTC,3600,Baden_Baden,48.76564,8.228524,-6.31,,-7.65,-12.34,...,,,,,,100,804,Clouds,overcast clouds,04n
3,284007600,1979-01-01 03:00:00 +0000 UTC,3600,Baden_Baden,48.76564,8.228524,-10.64,,-12.58,-17.37,...,,,,,,100,804,Clouds,overcast clouds,04n
4,284011200,1979-01-01 04:00:00 +0000 UTC,3600,Baden_Baden,48.76564,8.228524,-10.35,,-12.56,-16.87,...,,,,,,100,804,Clouds,overcast clouds,04n


In [32]:
df_weather["city_name"].unique()

array(['Baden_Baden', 'Bozanska', 'Walcz_Drugi'], dtype=object)

In [33]:
#Spradzenie ogolnych informacji na temat danych.
df_weather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1203071 entries, 0 to 1203070
Data columns (total 28 columns):
 #   Column               Non-Null Count    Dtype  
---  ------               --------------    -----  
 0   dt                   1203071 non-null  int64  
 1   dt_iso               1203071 non-null  object 
 2   timezone             1203071 non-null  int64  
 3   city_name            1203071 non-null  object 
 4   lat                  1203071 non-null  float64
 5   lon                  1203071 non-null  float64
 6   temp                 1203071 non-null  float64
 7   visibility           559686 non-null   float64
 8   dew_point            1203071 non-null  float64
 9   feels_like           1203071 non-null  float64
 10  temp_min             1203071 non-null  float64
 11  temp_max             1203071 non-null  float64
 12  pressure             1203071 non-null  int64  
 13  sea_level            0 non-null        float64
 14  grnd_level           0 non-null        float64
 15

In [34]:
# Sprawdzenie pustych wartosci

missing_data = df_weather.isnull().sum()
missing_data

dt                           0
dt_iso                       0
timezone                     0
city_name                    0
lat                          0
lon                          0
temp                         0
visibility              643385
dew_point                    0
feels_like                   0
temp_min                     0
temp_max                     0
pressure                     0
sea_level              1203071
grnd_level             1203071
humidity                     0
wind_speed                   0
wind_deg                     0
wind_gust              1163556
rain_1h                1015568
rain_3h                1203071
snow_1h                1166688
snow_3h                1203071
clouds_all                   0
weather_id                   0
weather_main                 0
weather_description          0
weather_icon                 0
dtype: int64

### Z przedstawionego zestawienia dla DataFrame df_weather wynika, że liczba brakujących danych w poszczególnych kolumnach jest następująca:

- **visibility**: Brakuje danych w 84,956 wierszach.
- **sea_level**: Wszystkie 406,897 danych są puste.
- **grnd_level**: Wszystkie 406,897 danych są puste.
- **wind_gust**: Brakuje danych w 380,497 wierszach.
- **rain_1h**: Brakuje danych w 354,089 wierszach.
- **rain_3h**: Wszystkie 406,897 danych są puste.
- **snow_1h**: Brakuje danych w 391,325 wierszach.
- **snow_3h**: Wszystkie 406,897 danych są puste.

Pozostałe kolumny mają pełne zestawienie danych bez braków.

Na tej podstawie można podjąć kilka działań w celu przygotowania zestawu danych do analizy:

- Kolumny **sea_level**, **grnd_level**, **rain_3h**, **snow_3h**: Ponieważ wszystkie dane w tych kolumnach są puste, najprawdopodobniej najlepszym rozwiązaniem będzie ich usunięcie, nie jest planowane ich wypełnienie danymi z innego źródła na tym etapie projektu.

- Kolumny z dużą ilością brakujących danych **wind_gust**, **rain_1h**, **snow_1h**: Jeżeli te dane są kluczowe dla analizy, można rozważyć ich uzupełnienie, na przykład przez interpolację, użycie średnich z innych kolumn, lub całkowite usunięcie wierszy, w których brak danych. Na tym etapie projektu zostala podjete deczyja o usunieciu tych kolumn.

- Kolumna **visibility**: Możliwe, że brakujące dane można uzupełnić, jeśli mają one wpływ na przeprowadzaną analizę, lub można te wiersze usunąć, jeżeli nie są one kluczowe. Na typ etapie proejktu zostala podjeta decyzja po uzupelniniu brakujacych danych. Do dyspozycji sa nastepujace metody:

**Imputacja średnią**:
Jeżeli brakujące dane są przypadkowe i nie mają wyraźnego wzorca, możliwym rozwiązaniem jest imputacja, czyli wypełnienie brakujących wartości średnią lub medianą z dostępnych danych dla visibility. W przypadku bardziej złożonych danych można zastosować modelowanie predykcyjne (na przykład regresję liniową) bazujące na innych zmiennych w zestawie danych, które mogą korelować z widocznością.

**Interpolacja**:
Jeśli dane są szeregami czasowymi, interpolacja może być dobrą metodą na oszacowanie brakujących wartości. Możesz użyć liniowej interpolacji, która wypełni brakujące wartości na podstawie wartości sąsiadujących w czasie, lub zastosować bardziej zaawansowane metody interpolacji, jak interpolacja splajnowa.

**Uzupełnienie na podstawie grupowania**:
Jeśli brakujące wartości visibility mogą być różne dla różnych warunków pogodowych lub innych zmiennych, możesz uzupełnić brakujące dane średnią lub medianą dla odpowiednich grup. Na przykład, jeśli widoczność jest zwykle niższa podczas opadów deszczu, możesz obliczyć średnią widoczność dla dni deszczowych i dni bez deszczu oddzielnie i użyć tych wartości do wypełnienia braków.

**Zastosowanie wartości z najbliższego sąsiedztwa (k-nearest neighbors - KNN)**:
Metoda ta polega na znajdowaniu 'k' najbliższych sąsiadów danej obserwacji z brakującymi danymi i wypełnieniu braku na podstawie wartości widoczności tych sąsiadów.

**Na potrzeby naszego proejktu uzyto metody imputacji sredniej.**

In [35]:
# Imputacja średnią dla kolumny 'visibility'
mean_visibility = df_weather['visibility'].mean()
df_weather['visibility'].fillna(mean_visibility, inplace=True)

In [36]:
# Usunięcie kolumn z pustymi danymi
columns_to_drop = ['sea_level', 'grnd_level', 'wind_gust', 'rain_1h', 'rain_3h', 'snow_1h', 'snow_3h']
df_weather.drop(columns=columns_to_drop, inplace=True)

In [37]:
#Ponowne sprawdzenie pustych wartosci
missing_data = df_weather.isnull().sum()
missing_data

dt                     0
dt_iso                 0
timezone               0
city_name              0
lat                    0
lon                    0
temp                   0
visibility             0
dew_point              0
feels_like             0
temp_min               0
temp_max               0
pressure               0
humidity               0
wind_speed             0
wind_deg               0
clouds_all             0
weather_id             0
weather_main           0
weather_description    0
weather_icon           0
dtype: int64

In [38]:
df_weather.describe()

Unnamed: 0,dt,timezone,lat,lon,temp,visibility,dew_point,feels_like,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id
count,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0,1203071.0
mean,997435200.0,5565.113,52.16861,14.3546,8.835101,8334.118,5.28813,6.90852,8.134368,9.461117,1015.569,80.32772,3.730818,183.9869,57.64809,736.4974
std,409249600.0,1792.412,2.459909,4.397806,8.198271,1937.173,6.849121,9.721335,8.192291,8.211828,9.570091,15.55454,2.175492,98.94613,38.94005,119.2258
min,283996800.0,3600.0,48.76564,8.228524,-27.64,2.0,-29.57,-33.01,-30.12,-25.49,933.0,12.0,0.0,0.0,0.0,200.0
25%,643690800.0,3600.0,48.76564,8.228524,2.63,8334.118,0.33,-0.67,1.92,3.15,1010.0,72.0,2.1,103.0,20.0,701.0
50%,1000202000.0,7200.0,53.25704,16.5212,8.75,8334.118,5.5,6.83,7.99,9.35,1016.0,85.0,3.38,207.0,75.0,801.0
75%,1351498000.0,7200.0,54.47303,18.30218,14.83,9999.0,10.7,14.42,14.11,15.45,1022.0,93.0,5.0,260.0,98.0,803.0
max,1704064000.0,7200.0,54.47303,18.30218,38.54,10000.0,25.83,41.13,37.72,38.99,1051.0,100.0,34.0,360.0,100.0,804.0


In [39]:
# Najpierw usunięcie "+0000 UTC" z końca stringów
df_weather['dt_iso'] = pd.to_datetime(df_weather['dt_iso'].str.replace(r' \+\d{4} UTC', '', regex=True))

In [40]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Baden_Baden,48.76564,8.228524,0.04,8334.117605,0.04,-5.39,...,3.02,989,100,5.98,297,100,804,Clouds,overcast clouds,04n
1,284000400,1979-01-01 01:00:00,3600,Baden_Baden,48.76564,8.228524,-5.65,8334.117605,-6.25,-11.7,...,-2.39,995,95,4.61,311,100,804,Clouds,overcast clouds,04n
2,284004000,1979-01-01 02:00:00,3600,Baden_Baden,48.76564,8.228524,-6.31,8334.117605,-7.65,-12.34,...,-5.04,998,89,4.37,311,100,804,Clouds,overcast clouds,04n
3,284007600,1979-01-01 03:00:00,3600,Baden_Baden,48.76564,8.228524,-10.64,8334.117605,-12.58,-17.37,...,-9.54,1001,84,4.02,309,100,804,Clouds,overcast clouds,04n
4,284011200,1979-01-01 04:00:00,3600,Baden_Baden,48.76564,8.228524,-10.35,8334.117605,-12.56,-16.87,...,-9.28,1002,82,3.87,312,100,804,Clouds,overcast clouds,04n


In [41]:
# Następnie konwersja do datetime bez informacji o strefie czasowej
df_weather['dt_iso'] = pd.to_datetime(df_weather['dt_iso'], format='%Y-%m-%d %H:%M:%S', errors='coerce')

In [42]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Baden_Baden,48.76564,8.228524,0.04,8334.117605,0.04,-5.39,...,3.02,989,100,5.98,297,100,804,Clouds,overcast clouds,04n
1,284000400,1979-01-01 01:00:00,3600,Baden_Baden,48.76564,8.228524,-5.65,8334.117605,-6.25,-11.7,...,-2.39,995,95,4.61,311,100,804,Clouds,overcast clouds,04n
2,284004000,1979-01-01 02:00:00,3600,Baden_Baden,48.76564,8.228524,-6.31,8334.117605,-7.65,-12.34,...,-5.04,998,89,4.37,311,100,804,Clouds,overcast clouds,04n
3,284007600,1979-01-01 03:00:00,3600,Baden_Baden,48.76564,8.228524,-10.64,8334.117605,-12.58,-17.37,...,-9.54,1001,84,4.02,309,100,804,Clouds,overcast clouds,04n
4,284011200,1979-01-01 04:00:00,3600,Baden_Baden,48.76564,8.228524,-10.35,8334.117605,-12.56,-16.87,...,-9.28,1002,82,3.87,312,100,804,Clouds,overcast clouds,04n


In [43]:
df_weather['city_name'] = df_weather['city_name'].replace('Custom location', 'Bozanska')

In [44]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Baden_Baden,48.76564,8.228524,0.04,8334.117605,0.04,-5.39,...,3.02,989,100,5.98,297,100,804,Clouds,overcast clouds,04n
1,284000400,1979-01-01 01:00:00,3600,Baden_Baden,48.76564,8.228524,-5.65,8334.117605,-6.25,-11.7,...,-2.39,995,95,4.61,311,100,804,Clouds,overcast clouds,04n
2,284004000,1979-01-01 02:00:00,3600,Baden_Baden,48.76564,8.228524,-6.31,8334.117605,-7.65,-12.34,...,-5.04,998,89,4.37,311,100,804,Clouds,overcast clouds,04n
3,284007600,1979-01-01 03:00:00,3600,Baden_Baden,48.76564,8.228524,-10.64,8334.117605,-12.58,-17.37,...,-9.54,1001,84,4.02,309,100,804,Clouds,overcast clouds,04n
4,284011200,1979-01-01 04:00:00,3600,Baden_Baden,48.76564,8.228524,-10.35,8334.117605,-12.56,-16.87,...,-9.28,1002,82,3.87,312,100,804,Clouds,overcast clouds,04n


In [45]:
# Grupowanie danych po dniu (zignorowanie godziny)
#df_weather['date'] = df_weather['dt_iso'].dt.date
#daily_weather = df_weather.groupby('date').agg({
    # Agregacja danych pogodowych, np. średnia temperatura, suma opadów, maksymalne zachmurzenie itp.
#    'city_name': 'first',
#    'lat': 'first',
#    'lon': 'first',
#    'temp': 'mean',
#    'feels_like': 'mean',
#    'temp_min': 'min',
#    'temp_max': 'max',
#    'pressure': 'mean',
#    'humidity': 'mean',
#    'wind_speed': 'mean',
    #'rain_1h': 'sum',
    #'rain_3h': 'sum',
    #'snow_1h': 'sum',
    #'snow_3h': 'sum',
#    'clouds_all': 'max',
#    'weather_main': lambda x: x.mode()[0] if not x.mode().empty else 'Unknown'  # Najczęstsze zjawisko pogodowe
#}).reset_index()

In [46]:
#daily_weather.head(11)

In [47]:
# Przekształcenie kolumny 'dt_iso' na typ daty, zignorowanie czasu
df_weather['date'] = pd.to_datetime(df_weather['dt_iso']).dt.date

# Grupowanie danych po mieście i dacie
daily_weather = df_weather.groupby(['date','city_name']).agg({
    'lat': 'first',
    'lon': 'first',
    'temp': 'mean',
    'feels_like': 'mean',
    'temp_min': 'min',
    'temp_max': 'max',
    'pressure': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean',
    'clouds_all': 'max',
    'weather_main': lambda x: x.mode()[0] if not x.mode().empty else 'Unknown'
}).reset_index()

In [48]:
daily_weather.head() 

Unnamed: 0,date,city_name,lat,lon,temp,feels_like,temp_min,temp_max,pressure,humidity,wind_speed,clouds_all,weather_main
0,1979-01-01,Baden_Baden,48.76564,8.228524,-10.442083,-16.532917,-16.18,3.02,1013.666667,81.916667,3.681667,100,Snow
1,1979-01-01,Bozanska,54.473028,18.302179,-14.1,-20.6175,-19.14,-9.46,1002.416667,82.0,6.157917,100,Snow
2,1979-01-01,Walcz_Drugi,53.257039,16.521203,-16.437083,-23.3225,-21.26,-9.57,1003.708333,82.416667,3.682083,100,Clouds
3,1979-01-02,Baden_Baden,48.76564,8.228524,-8.856667,-14.874167,-15.82,-3.96,1024.25,84.208333,4.524583,100,Snow
4,1979-01-02,Bozanska,54.473028,18.302179,-9.037917,-15.179167,-14.14,-7.4,1004.791667,85.375,4.449583,100,Clouds


Zapisanie ramki do pliku po przetworzeniu:

In [49]:
daily_weather.to_csv('../2. Data/processed/combined_data_processed.csv')