Projekt bazuje na informacjach udosptepnionych na stronie https://openweathermap.org/api przez firme **OpenWeather**.

Na potrzeby projektu ze wzgledu na przewidywane koszty zdecydowano nie laczyc sie bezposrednio z API strony tylko wybrano dane historyczne z okresu: ***01.01.1971 do 31.12.2023*** dla trzech przykladowych lokalizacji:
1. Bozanka, woj. pomorskie, gmina Szemud
2.
3.

### Parametry danych:

- **city_name** Nazwa miasta
- **lat** Geograficzne współrzędne lokalizacji (szerokość geograficzna)
- **lon** Geograficzne współrzędne lokalizacji (długość geograficzna)
- **main**
    - **main.temp** Temperatura [Celsjusz]
    - **main.temp_min** Minimalna temperatura w danym momencie. Jest to odchylenie od temperatury możliwej dla dużych miast i megalopolis geograficznie rozszerzonych (użyj tego parametru opcjonalnie) [Celsjusz].
    - **main.temp_max** Maksymalna temperatura w danym momencie. Jest to odchylenie od temperatury możliwej dla dużych miast i megalopolis geograficznie rozszerzonych (użyj tego parametru opcjonalnie) [Celsjusz].
    - **main.feels_like** Ten parametr temperatury uwzględnia ludzkie odczucie pogody [Celsjusz]
    - **main.pressure** Ciśnienie atmosferyczne (na poziomie morza), [hPa]
    - **main.humidity** Wilgotność, [%]
    - **main.dew_point** Temperatura atmosferyczna (zmieniająca się zgodnie z ciśnieniem i wilgotnością), poniżej której krople wody zaczynają kondensować się i tworzy się rosa. Jednostki – domyślnie: [Celsjusz]
- **wind**
    - **wind.speed** Prędkość wiatru. Jednostki – domyślnie: [metr/sek]
    - **wind.deg** Kierunek wiatru, [stopnie] (meteorologiczne)
    - **wind.gust** Poryw wiatru. Jednostki – domyślnie: [metr/sek]
- **clouds**
    - **clouds.all** Zachmurzenie, [%]
- **rain**
    - **rain.1h** Ilość opadów deszczu za ostatnią godzinę, [mm]
    - **rain.3h** Ilość opadów deszczu za ostatnie 3 godziny, [mm]
- **snow**
    - **snow.1h** Ilość opadów śniegu za ostatnią godzinę, [mm] (w stanie ciekłym)
    - **snow.3h** Ilość opadów śniegu za ostatnie 3 godziny, [mm] (w stanie ciekłym)
- **weather** (więcej informacji Kody stanu pogody) [-]
    - **weather.id** Identyfikator warunków pogodowych [-]
    - **weather.main** Grupa parametrów pogodowych (Deszcz, Śnieg, Ekstremalne itp.) [-]
    - **weather.description** Opis warunków pogodowych w grupie. Więcej informacji znajdziesz tutaj [-]
    - **weather.icon** Identyfikator ikony pogodowej [-]
- **visibility** Średnia widoczność, metry. Maksymalna wartość widoczności to 10km [m]
- **dt** Czas obliczenia danych, unix, UTC
- **dt_iso** Data i czas w formacie UTC 
- **timezone** Przesunięcie w sekundach względem UTC



In [10]:
import pandas as pd
import os

Ten skrypt najpierw tworzy listę wszystkich plików CSV w danym folderze, a następnie ładuje każdy z nich do osobnej ramki danych. Dodatkowo, przykład pokazuje, jak można dodać nazwę miasta do każdego zestawu danych na podstawie nazwy pliku. Po przetworzeniu wszystkich plików, ramki danych są łączone w jedną dużą ramkę, którą można następnie zapisać lub dalej przetwarzać.

Jeśli każdy plik CSV zawiera dane z innej lokalizacji i chcesz to uwzględnić, kod powyżej już dodaje nazwę miasta do każdego zbioru danych. Możesz dostosować ten proces do swoich potrzeb, na przykład przetwarzając nazwy plików w bardziej złożony sposób lub dodając inne metadane

In [11]:
# Ścieżka do folderu zawierającego pliki CSV
folder_path = '../2. Data/raw/'

# Lista plików CSV w folderze
csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

# Lista do przechowywania danych z każdego pliku
all_data = []

for file in csv_files:
    file_path = os.path.join(folder_path, file)
    # Wczytanie danych z pliku
    df = pd.read_csv(file_path)
    
    # Możesz dodać tutaj dodatkową obróbkę danych dla każdego pliku, np. oczyszczanie danych
    # Przykład dodania nazwy miasta na podstawie nazwy pliku
    city_name = file.replace('.csv', '')  # Usunięcie rozszerzenia pliku z nazwy
    df['city_name'] = city_name  # Dodanie kolumny z nazwą miasta
    
    # Dodanie DataFrame do listy
    all_data.append(df)

# Połączenie wszystkich DataFrame w jedną
combined_data = pd.concat(all_data, ignore_index=True)

# Zapisanie połączonych danych do nowego pliku CSV
combined_data.to_csv('../2. Data/processed/combined_data.csv', index=False)

In [12]:
df_weather = pd.read_csv("../2. Data/processed/combined_data.csv")

In [13]:
df_weather.head(10)

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,wind_gust,rain_1h,rain_3h,snow_1h,snow_3h,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.81,600.0,-17.67,-22.81,...,,,,0.26,,100,601,Snow,snow,13n
1,284000400,1979-01-01 01:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.84,,-18.22,-22.84,...,,,,0.21,,100,600,Snow,light snow,13n
2,284004000,1979-01-01 02:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.97,,-18.35,-22.97,...,,,,0.19,,100,600,Snow,light snow,13n
3,284007600,1979-01-01 03:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-16.29,,-18.66,-23.29,...,,,,0.18,,100,600,Snow,light snow,13n
4,284011200,1979-01-01 04:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-16.04,,-18.28,-23.04,...,,,,0.17,,100,600,Snow,light snow,13n
5,284014800,1979-01-01 05:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.9,,-18.02,-22.9,...,,,,0.17,,100,600,Snow,light snow,13n
6,284018400,1979-01-01 06:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.92,1000.0,-17.78,-22.92,...,,,,0.18,,100,601,Snow,snow,13n
7,284022000,1979-01-01 07:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.5,,-17.5,-22.5,...,,,,0.2,,100,600,Snow,light snow,13n
8,284025600,1979-01-01 08:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-15.31,,-17.31,-22.31,...,,,,0.21,,100,600,Snow,light snow,13d
9,284029200,1979-01-01 09:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,-16.01,,-18.52,-23.01,...,,,,0.22,,100,600,Snow,light snow,13d


In [14]:
df_weather.tail(10)

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,wind_gust,rain_1h,rain_3h,snow_1h,snow_3h,clouds_all,weather_id,weather_main,weather_description,weather_icon
406887,1704031200,2023-12-31 14:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.6,650.0,1.58,-1.46,...,,,,,,100,741,Fog,fog,50d
406888,1704034800,2023-12-31 15:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.36,150.0,1.49,-1.76,...,,,,,,100,741,Fog,fog,50n
406889,1704038400,2023-12-31 16:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,1.95,150.0,1.24,-2.27,...,,,,,,100,741,Fog,fog,50n
406890,1704042000,2023-12-31 17:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.11,100.0,1.39,-2.85,...,,,,,,100,741,Fog,fog,50n
406891,1704045600,2023-12-31 18:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.11,200.0,1.39,-2.61,...,,,,,,100,741,Fog,fog,50n
406892,1704049200,2023-12-31 19:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,1.86,300.0,1.15,-2.93,...,,,,,,100,741,Fog,fog,50n
406893,1704052800,2023-12-31 20:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,1.71,1700.0,1.0,-3.12,...,,,,,,100,701,Mist,mist,50n
406894,1704056400,2023-12-31 21:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,1.86,3600.0,1.0,-2.93,...,,,,,,100,701,Mist,mist,50n
406895,1704060000,2023-12-31 22:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.11,4100.0,1.25,-2.61,...,,,,,,100,701,Mist,mist,50n
406896,1704063600,2023-12-31 23:00:00 +0000 UTC,3600,Bozanska,54.473028,18.302179,2.11,4600.0,1.25,-2.35,...,,,,,,100,701,Mist,mist,50n


In [15]:
#Spradzenie ogolnych informacji na temat danych.
df_weather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406897 entries, 0 to 406896
Data columns (total 28 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   dt                   406897 non-null  int64  
 1   dt_iso               406897 non-null  object 
 2   timezone             406897 non-null  int64  
 3   city_name            406897 non-null  object 
 4   lat                  406897 non-null  float64
 5   lon                  406897 non-null  float64
 6   temp                 406897 non-null  float64
 7   visibility           321941 non-null  float64
 8   dew_point            406897 non-null  float64
 9   feels_like           406897 non-null  float64
 10  temp_min             406897 non-null  float64
 11  temp_max             406897 non-null  float64
 12  pressure             406897 non-null  int64  
 13  sea_level            0 non-null       float64
 14  grnd_level           0 non-null       float64
 15  humidity         

In [16]:
missing_data = df_weather.isnull().sum()
missing_data

dt                          0
dt_iso                      0
timezone                    0
city_name                   0
lat                         0
lon                         0
temp                        0
visibility              84956
dew_point                   0
feels_like                  0
temp_min                    0
temp_max                    0
pressure                    0
sea_level              406897
grnd_level             406897
humidity                    0
wind_speed                  0
wind_deg                    0
wind_gust              380497
rain_1h                354089
rain_3h                406897
snow_1h                391325
snow_3h                406897
clouds_all                  0
weather_id                  0
weather_main                0
weather_description         0
weather_icon                0
dtype: int64

### Z przedstawionego zestawienia dla DataFrame df_weather wynika, że liczba brakujących danych w poszczególnych kolumnach jest następująca:

- **visibility**: Brakuje danych w 84,956 wierszach.
- **sea_level**: Wszystkie 406,897 danych są puste.
- **grnd_level**: Wszystkie 406,897 danych są puste.
- **wind_gust**: Brakuje danych w 380,497 wierszach.
- **rain_1h**: Brakuje danych w 354,089 wierszach.
- **rain_3h**: Wszystkie 406,897 danych są puste.
- **snow_1h**: Brakuje danych w 391,325 wierszach.
- **snow_3h**: Wszystkie 406,897 danych są puste.

Pozostałe kolumny mają pełne zestawienie danych bez braków.

Na tej podstawie można podjąć kilka działań w celu przygotowania zestawu danych do analizy:

- Kolumny **sea_level**, **grnd_level**, **rain_3h**, **snow_3h**: Ponieważ wszystkie dane w tych kolumnach są puste, najprawdopodobniej najlepszym rozwiązaniem będzie ich usunięcie, nie jest planowane ich wypełnienie danymi z innego źródła na tym etapie projektu.

- Kolumny z dużą ilością brakujących danych **wind_gust**, **rain_1h**, **snow_1h**: Jeżeli te dane są kluczowe dla analizy, można rozważyć ich uzupełnienie, na przykład przez interpolację, użycie średnich z innych kolumn, lub całkowite usunięcie wierszy, w których brak danych. Na tym etapie projektu zostala podjete deczyja o usunieciu tych kolumn.

- Kolumna **visibility**: Możliwe, że brakujące dane można uzupełnić, jeśli mają one wpływ na przeprowadzaną analizę, lub można te wiersze usunąć, jeżeli nie są one kluczowe. Na typ etapie proejktu zostala podjeta decyzja po uzupelniniu brakujacych danych. Do dyspozycji sa nastepujace metody:

**Imputacja średnią**:
Jeżeli brakujące dane są przypadkowe i nie mają wyraźnego wzorca, możliwym rozwiązaniem jest imputacja, czyli wypełnienie brakujących wartości średnią lub medianą z dostępnych danych dla visibility. W przypadku bardziej złożonych danych można zastosować modelowanie predykcyjne (na przykład regresję liniową) bazujące na innych zmiennych w zestawie danych, które mogą korelować z widocznością.

**Interpolacja**:
Jeśli dane są szeregami czasowymi, interpolacja może być dobrą metodą na oszacowanie brakujących wartości. Możesz użyć liniowej interpolacji, która wypełni brakujące wartości na podstawie wartości sąsiadujących w czasie, lub zastosować bardziej zaawansowane metody interpolacji, jak interpolacja splajnowa.

**Uzupełnienie na podstawie grupowania**:
Jeśli brakujące wartości visibility mogą być różne dla różnych warunków pogodowych lub innych zmiennych, możesz uzupełnić brakujące dane średnią lub medianą dla odpowiednich grup. Na przykład, jeśli widoczność jest zwykle niższa podczas opadów deszczu, możesz obliczyć średnią widoczność dla dni deszczowych i dni bez deszczu oddzielnie i użyć tych wartości do wypełnienia braków.

**Zastosowanie wartości z najbliższego sąsiedztwa (k-nearest neighbors - KNN)**:
Metoda ta polega na znajdowaniu 'k' najbliższych sąsiadów danej obserwacji z brakującymi danymi i wypełnieniu braku na podstawie wartości widoczności tych sąsiadów.

**Na potrzeby naszego proejktu uzyto metody imputacji sredniej.**

In [17]:
# Imputacja średnią dla kolumny 'visibility'
mean_visibility = df_weather['visibility'].mean()
df_weather['visibility'].fillna(mean_visibility, inplace=True)

In [18]:
# Usunięcie kolumn z pustymi danymi
columns_to_drop = ['sea_level', 'grnd_level', 'wind_gust', 'rain_1h', 'rain_3h', 'snow_1h', 'snow_3h']
df_weather.drop(columns=columns_to_drop, inplace=True)

In [19]:
missing_data = df_weather.isnull().sum()
missing_data

dt                     0
dt_iso                 0
timezone               0
city_name              0
lat                    0
lon                    0
temp                   0
visibility             0
dew_point              0
feels_like             0
temp_min               0
temp_max               0
pressure               0
humidity               0
wind_speed             0
wind_deg               0
clouds_all             0
weather_id             0
weather_main           0
weather_description    0
weather_icon           0
dtype: int64

In [20]:
df_weather.describe()

Unnamed: 0,dt,timezone,lat,lon,temp,visibility,dew_point,feels_like,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id
count,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0,406897.0
mean,1001183000.0,5565.283598,54.47303,18.30218,7.659756,8250.477103,4.43356,5.322721,6.540989,8.615582,1014.273303,81.485194,4.401298,198.04061,48.325205,732.194219
std,408658300.0,1792.39762,6.394892e-14,1.776359e-14,7.990468,2655.097211,6.974908,9.714363,7.891047,8.05111,10.145607,14.52419,2.451244,96.420851,38.407317,118.168751
min,283996800.0,3600.0,54.47303,18.30218,-27.64,2.0,-29.57,-30.04,-30.12,-21.25,933.0,12.0,0.0,0.0,0.0,200.0
25%,649202400.0,3600.0,54.47303,18.30218,1.67,8250.477103,-0.42,-2.31,0.86,2.35,1008.0,74.0,2.64,130.0,0.0,701.0
50%,1006171000.0,7200.0,54.47303,18.30218,7.44,9999.0,4.47,4.92,6.28,8.34,1015.0,86.0,4.1,227.0,60.0,800.0
75%,1354464000.0,7200.0,54.47303,18.30218,13.84,10000.0,10.02,13.37,12.77,14.8,1021.0,93.0,6.0,270.0,75.0,803.0
max,1704064000.0,7200.0,54.47303,18.30218,33.65,10000.0,25.83,34.7,32.62,36.66,1050.0,100.0,34.0,360.0,100.0,804.0


In [21]:
# Najpierw usunięcie "+0000 UTC" z końca stringów
df_weather['dt_iso'] = pd.to_datetime(df_weather['dt_iso'].str.replace(r' \+\d{4} UTC', '', regex=True))

In [22]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Bozanska,54.473028,18.302179,-15.81,600.0,-17.67,-22.81,...,-14.61,998,84,9.0,70,100,601,Snow,snow,13n
1,284000400,1979-01-01 01:00:00,3600,Bozanska,54.473028,18.302179,-15.84,8250.477103,-18.22,-22.84,...,-14.67,999,80,10.66,83,100,600,Snow,light snow,13n
2,284004000,1979-01-01 02:00:00,3600,Bozanska,54.473028,18.302179,-15.97,8250.477103,-18.35,-22.97,...,-14.78,999,80,10.04,84,100,600,Snow,light snow,13n
3,284007600,1979-01-01 03:00:00,3600,Bozanska,54.473028,18.302179,-16.29,8250.477103,-18.66,-23.29,...,-15.07,1000,80,9.58,83,100,600,Snow,light snow,13n
4,284011200,1979-01-01 04:00:00,3600,Bozanska,54.473028,18.302179,-16.04,8250.477103,-18.28,-23.04,...,-14.79,1000,81,9.41,82,100,600,Snow,light snow,13n


In [23]:
# Następnie konwersja do datetime bez informacji o strefie czasowej
df_weather['dt_iso'] = pd.to_datetime(df_weather['dt_iso'], format='%Y-%m-%d %H:%M:%S', errors='coerce')

In [24]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Bozanska,54.473028,18.302179,-15.81,600.0,-17.67,-22.81,...,-14.61,998,84,9.0,70,100,601,Snow,snow,13n
1,284000400,1979-01-01 01:00:00,3600,Bozanska,54.473028,18.302179,-15.84,8250.477103,-18.22,-22.84,...,-14.67,999,80,10.66,83,100,600,Snow,light snow,13n
2,284004000,1979-01-01 02:00:00,3600,Bozanska,54.473028,18.302179,-15.97,8250.477103,-18.35,-22.97,...,-14.78,999,80,10.04,84,100,600,Snow,light snow,13n
3,284007600,1979-01-01 03:00:00,3600,Bozanska,54.473028,18.302179,-16.29,8250.477103,-18.66,-23.29,...,-15.07,1000,80,9.58,83,100,600,Snow,light snow,13n
4,284011200,1979-01-01 04:00:00,3600,Bozanska,54.473028,18.302179,-16.04,8250.477103,-18.28,-23.04,...,-14.79,1000,81,9.41,82,100,600,Snow,light snow,13n


In [25]:
df_weather['city_name'] = df_weather['city_name'].replace('Custom location', 'Bozanska')

In [26]:
df_weather.head()

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,temp_max,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon
0,283996800,1979-01-01 00:00:00,3600,Bozanska,54.473028,18.302179,-15.81,600.0,-17.67,-22.81,...,-14.61,998,84,9.0,70,100,601,Snow,snow,13n
1,284000400,1979-01-01 01:00:00,3600,Bozanska,54.473028,18.302179,-15.84,8250.477103,-18.22,-22.84,...,-14.67,999,80,10.66,83,100,600,Snow,light snow,13n
2,284004000,1979-01-01 02:00:00,3600,Bozanska,54.473028,18.302179,-15.97,8250.477103,-18.35,-22.97,...,-14.78,999,80,10.04,84,100,600,Snow,light snow,13n
3,284007600,1979-01-01 03:00:00,3600,Bozanska,54.473028,18.302179,-16.29,8250.477103,-18.66,-23.29,...,-15.07,1000,80,9.58,83,100,600,Snow,light snow,13n
4,284011200,1979-01-01 04:00:00,3600,Bozanska,54.473028,18.302179,-16.04,8250.477103,-18.28,-23.04,...,-14.79,1000,81,9.41,82,100,600,Snow,light snow,13n


In [27]:
# Grupowanie danych po dniu (zignorowanie godziny)
df_weather['date'] = df_weather['dt_iso'].dt.date
daily_weather = df_weather.groupby('date').agg({
    # Agregacja danych pogodowych, np. średnia temperatura, suma opadów, maksymalne zachmurzenie itp.
    'city_name': 'first',
    'lat': 'first',
    'lon': 'first',
    'temp': 'mean',
    'feels_like': 'mean',
    'temp_min': 'min',
    'temp_max': 'max',
    'pressure': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean',
    #'rain_1h': 'sum',
    #'rain_3h': 'sum',
    #'snow_1h': 'sum',
    #'snow_3h': 'sum',
    'clouds_all': 'max',
    'weather_main': lambda x: x.mode()[0] if not x.mode().empty else 'Unknown'  # Najczęstsze zjawisko pogodowe
}).reset_index()

In [28]:
df_weather.head(10)

Unnamed: 0,dt,dt_iso,timezone,city_name,lat,lon,temp,visibility,dew_point,feels_like,...,pressure,humidity,wind_speed,wind_deg,clouds_all,weather_id,weather_main,weather_description,weather_icon,date
0,283996800,1979-01-01 00:00:00,3600,Bozanska,54.473028,18.302179,-15.81,600.0,-17.67,-22.81,...,998,84,9.0,70,100,601,Snow,snow,13n,1979-01-01
1,284000400,1979-01-01 01:00:00,3600,Bozanska,54.473028,18.302179,-15.84,8250.477103,-18.22,-22.84,...,999,80,10.66,83,100,600,Snow,light snow,13n,1979-01-01
2,284004000,1979-01-01 02:00:00,3600,Bozanska,54.473028,18.302179,-15.97,8250.477103,-18.35,-22.97,...,999,80,10.04,84,100,600,Snow,light snow,13n,1979-01-01
3,284007600,1979-01-01 03:00:00,3600,Bozanska,54.473028,18.302179,-16.29,8250.477103,-18.66,-23.29,...,1000,80,9.58,83,100,600,Snow,light snow,13n,1979-01-01
4,284011200,1979-01-01 04:00:00,3600,Bozanska,54.473028,18.302179,-16.04,8250.477103,-18.28,-23.04,...,1000,81,9.41,82,100,600,Snow,light snow,13n,1979-01-01
5,284014800,1979-01-01 05:00:00,3600,Bozanska,54.473028,18.302179,-15.9,8250.477103,-18.02,-22.9,...,1000,82,9.34,81,100,600,Snow,light snow,13n,1979-01-01
6,284018400,1979-01-01 06:00:00,3600,Bozanska,54.473028,18.302179,-15.92,1000.0,-17.78,-22.92,...,1000,84,5.0,130,100,601,Snow,snow,13n,1979-01-01
7,284022000,1979-01-01 07:00:00,3600,Bozanska,54.473028,18.302179,-15.5,8250.477103,-17.5,-22.5,...,1001,83,8.42,79,100,600,Snow,light snow,13n,1979-01-01
8,284025600,1979-01-01 08:00:00,3600,Bozanska,54.473028,18.302179,-15.31,8250.477103,-17.31,-22.31,...,1002,83,8.02,77,100,600,Snow,light snow,13d,1979-01-01
9,284029200,1979-01-01 09:00:00,3600,Bozanska,54.473028,18.302179,-16.01,8250.477103,-18.52,-23.01,...,1002,79,7.67,75,100,600,Snow,light snow,13d,1979-01-01


In [29]:
daily_weather.head(11)

Unnamed: 0,date,city_name,lat,lon,temp,feels_like,temp_min,temp_max,pressure,humidity,wind_speed,clouds_all,weather_main
0,1979-01-01,Bozanska,54.473028,18.302179,-14.1,-20.6175,-19.14,-9.46,1002.416667,82.0,6.157917,100,Snow
1,1979-01-02,Bozanska,54.473028,18.302179,-9.037917,-15.179167,-14.14,-7.4,1004.791667,85.375,4.449583,100,Clouds
2,1979-01-03,Bozanska,54.473028,18.302179,-10.78,-16.679167,-16.33,-6.84,1004.5,87.041667,3.805833,100,Clouds
3,1979-01-04,Bozanska,54.473028,18.302179,-15.627083,-20.06375,-21.14,-9.08,1008.916667,86.083333,2.34625,100,Clouds
4,1979-01-05,Bozanska,54.473028,18.302179,-5.102083,-11.9475,-11.22,-2.42,1014.5,84.75,6.470417,100,Snow
5,1979-01-06,Bozanska,54.473028,18.302179,-6.948333,-13.03375,-13.14,-2.08,1027.666667,87.291667,4.37875,93,Clouds
6,1979-01-07,Bozanska,54.473028,18.302179,-7.670833,-14.644583,-13.43,-1.46,1024.958333,82.25,9.538333,100,Clouds
7,1979-01-08,Bozanska,54.473028,18.302179,0.0625,-5.922083,-3.14,0.92,1014.5,95.583333,7.611667,100,Clouds
8,1979-01-09,Bozanska,54.473028,18.302179,-0.335417,-5.145417,-1.49,0.69,1009.541667,95.458333,4.7625,100,Clouds
9,1979-01-10,Bozanska,54.473028,18.302179,-1.374167,-7.14375,-4.29,0.16,999.291667,91.708333,6.07875,100,Clouds


Zapisanie ramki do pliku po przetworzeniu:

In [30]:
daily_weather.to_csv('../2. Data/processed/combined_data_processed.csv')