In [38]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

from sklearn.model_selection import TimeSeriesSplit

In [34]:
df_weather_events = pd.read_csv(f"data/4_all_data_preprocessed/all_hourly_weather_events_v2.csv", sep=";", parse_dates=['day_datetime'])
df_isw = pd.read_csv(f"data/4_all_data_preprocessed/all_isw.csv", sep=";")

In [35]:
# Sort data by date
df_weather_events = df_weather_events.sort_values(by='day_datetime')

In [36]:
df_weather_events.head()

Unnamed: 0,city_resolvedAddress,day_datetime,day_datetimeEpoch,day_tempmax,day_tempmin,day_temp,day_dew,day_humidity,day_precip,day_precipcover,...,event_holiday_is_near,event_start_time,event_end_time,event_start_hour,event_end_hour,event_day_date,event_start_hour_datetimeEpoch,event_end_hour_datetimeEpoch,event_hour_level_event_time,event_hour_level_event_datetimeEpoch
0,"Луцьк, Луцький район, Україна",2022-02-24,1645653600,4.9,0.7,2.6,0.0,83.7,0.118,4.17,...,,,,,,,,,,
137871,"Тернопіль, Україна",2022-02-24,1645653600,3.8,-0.2,1.6,-1.0,83.8,2.0,4.17,...,,,,,,,,,,
8050,"Кропивницький, Україна",2022-02-24,1645653600,6.2,-1.3,2.2,-1.2,78.9,0.0,0.0,...,,,,,,,,,,
8051,"Кропивницький, Україна",2022-02-24,1645653600,6.2,-1.3,2.2,-1.2,78.9,0.0,0.0,...,,,,,,,,,,
8052,"Кропивницький, Україна",2022-02-24,1645653600,6.2,-1.3,2.2,-1.2,78.9,0.0,0.0,...,,,,,,,,,,


In [37]:
df_weather_events.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 195084 entries, 0 to 195083
Data columns (total 63 columns):
 #   Column                                Non-Null Count   Dtype         
---  ------                                --------------   -----         
 0   city_resolvedAddress                  195084 non-null  object        
 1   day_datetime                          195084 non-null  datetime64[ns]
 2   day_datetimeEpoch                     195084 non-null  int64         
 3   day_tempmax                           195084 non-null  float64       
 4   day_tempmin                           195084 non-null  float64       
 5   day_temp                              195084 non-null  float64       
 6   day_dew                               195084 non-null  float64       
 7   day_humidity                          195084 non-null  float64       
 8   day_precip                            195084 non-null  float64       
 9   day_precipcover                       195084 non-null  floa

In [21]:
tss = TimeSeriesSplit(n_splits=2)

train_splits, test_splits = tss.split(df_weather_events)
train_split = train_splits[1]
test_split = test_splits[1]

print("Train Split:", train_split)
print("Test Split:", test_split)

Train Split: [ 65028  65029  65030 ... 130053 130054 130055]
Test Split: [130056 130057 130058 ... 195081 195082 195083]


In [25]:
train_df = df_weather_events.iloc[train_split, :]
test_df = df_weather_events.iloc[test_split, :]

print("Train:", train_df.city_resolvedAddress.unique())
print("Test:", test_df.city_resolvedAddress.unique())
print("Train:", train_df.day_datetime.min(), train_df.day_datetime.max())
print("Test:", test_df.day_datetime.min(), test_df.day_datetime.max())

Train: ['Одеса, Україна' 'Миколаїв, Україна' 'Харків, Україна'
 'Хмельницька область, Україна' 'Донецьк, Україна'
 'Ужгород, Ужгородський район, Україна' 'Запоріжжя, Україна'
 'Рівне, Україна' 'Житомир, Україна']
Test: ['Житомир, Україна' 'Тернопіль, Україна' 'Полтава, Україна'
 'Львів, Україна' 'Івано-Франківськ, Україна' 'Черкаси, Україна'
 'Суми, Україна' 'Вінниця, Україна']
Train: 2022-02-24 00:00:00 2023-01-20 00:00:00
Test: 2022-02-24 00:00:00 2023-01-20 00:00:00


In [27]:
min_date = df_weather_events.day_datetime.min()
max_date = df_weather_events.day_datetime.max()
print("Min:", min_date, "Max:", max_date)

Min: 2022-02-24 00:00:00 Max: 2023-01-20 00:00:00


In [28]:
train_percent = .75
time_between = max_date - min_date
train_cutoff = min_date + train_percent*time_between
train_cutoff

Timestamp('2022-10-29 12:00:00')

In [30]:
train_df = df_weather_events[df_weather_events.day_datetime <= train_cutoff]
test_df = df_weather_events[df_weather_events.day_datetime > train_cutoff]

print("Train:", train_df.city_resolvedAddress.unique())
print("Test:", test_df.city_resolvedAddress.unique())
print("Train:", train_df.day_datetime.min(), train_df.day_datetime.max())
print("Test:", test_df.day_datetime.min(), test_df.day_datetime.max())

Train: ['Луцьк, Луцький район, Україна' 'Кропивницький, Україна'
 'Дніпро, Україна' 'Київ, Україна' 'Херсон, Україна' 'Чернівці, Україна'
 'Чернігів, Україна' 'Одеса, Україна' 'Миколаїв, Україна'
 'Харків, Україна' 'Хмельницька область, Україна' 'Донецьк, Україна'
 'Ужгород, Ужгородський район, Україна' 'Запоріжжя, Україна'
 'Рівне, Україна' 'Житомир, Україна' 'Тернопіль, Україна'
 'Полтава, Україна' 'Львів, Україна' 'Івано-Франківськ, Україна'
 'Черкаси, Україна' 'Суми, Україна' 'Вінниця, Україна']
Test: ['Луцьк, Луцький район, Україна' 'Кропивницький, Україна'
 'Дніпро, Україна' 'Київ, Україна' 'Херсон, Україна' 'Чернівці, Україна'
 'Чернігів, Україна' 'Одеса, Україна' 'Миколаїв, Україна'
 'Харків, Україна' 'Хмельницька область, Україна' 'Донецьк, Україна'
 'Ужгород, Ужгородський район, Україна' 'Запоріжжя, Україна'
 'Рівне, Україна' 'Житомир, Україна' 'Тернопіль, Україна'
 'Полтава, Україна' 'Львів, Україна' 'Івано-Франківськ, Україна'
 'Черкаси, Україна' 'Суми, Україна' 'Вінниця, У

In [31]:
days_between = time_between / np.timedelta64(1, 'D')
days_between

330.0

In [32]:
train_days = 273
train_cutoff = min_date + pd.DateOffset(train_days)

In [33]:
train_df = df_weather_events[df_weather_events.day_datetime <= train_cutoff]
test_df = df_weather_events[df_weather_events.day_datetime > train_cutoff]

print("Train:", train_df.city_resolvedAddress.unique())
print("Test:", test_df.city_resolvedAddress.unique())
print("Train:", train_df.day_datetime.min(), train_df.day_datetime.max())
print("Test:", test_df.day_datetime.min(), test_df.day_datetime.max())

Train: ['Луцьк, Луцький район, Україна' 'Кропивницький, Україна'
 'Дніпро, Україна' 'Київ, Україна' 'Херсон, Україна' 'Чернівці, Україна'
 'Чернігів, Україна' 'Одеса, Україна' 'Миколаїв, Україна'
 'Харків, Україна' 'Хмельницька область, Україна' 'Донецьк, Україна'
 'Ужгород, Ужгородський район, Україна' 'Запоріжжя, Україна'
 'Рівне, Україна' 'Житомир, Україна' 'Тернопіль, Україна'
 'Полтава, Україна' 'Львів, Україна' 'Івано-Франківськ, Україна'
 'Черкаси, Україна' 'Суми, Україна' 'Вінниця, Україна']
Test: ['Луцьк, Луцький район, Україна' 'Кропивницький, Україна'
 'Дніпро, Україна' 'Київ, Україна' 'Херсон, Україна' 'Чернівці, Україна'
 'Чернігів, Україна' 'Одеса, Україна' 'Миколаїв, Україна'
 'Харків, Україна' 'Хмельницька область, Україна' 'Донецьк, Україна'
 'Ужгород, Ужгородський район, Україна' 'Запоріжжя, Україна'
 'Рівне, Україна' 'Житомир, Україна' 'Тернопіль, Україна'
 'Полтава, Україна' 'Львів, Україна' 'Івано-Франківськ, Україна'
 'Черкаси, Україна' 'Суми, Україна' 'Вінниця, У