## **Лабораторна робота 2. Базові алгоритми прогнозування та GEO візуалізація**

## Мета роботи

Дана лабораторна робота присвячена вивченню базових алгоритмів аналізу великих обсягів даних на прикладі поширення COVID-19 у світі. Буде розглянуто прогнозування на основі лінійної регресії, obtain staistics and та створення інтерактивної карти, що показує динаміку поширення вірусу.

## Виконання


Сьогодні існує багато відкритих даних про поширення COVID-19 у світі. Однак представлено небагато інструментів для прогнозування та візуалізації цих процесів. Ця лабораторна робота покаже, як ви можете завантажувати дані з відкритих джерел, виконувати попередній аналіз даних, перетворювати та очищати дані, обчислювати кореляцію та аналізувати лаги.

Далі будуть розглянуті 2 різні математичні підходи до розрахунку прогнозу на основі лінійної регресії.

Для цього буде продемонстровано поділ набору даних на навчальні та тестові набори. Буде показано, як будувати моделі за допомогою двох різних фреймворків. Наступним кроком є побудова прогнозу та аналіз точності та адекватності отриманих моделей.

Наприкінці лабораторної роботи буде продемонстровано, як візуалізувати динаміку поширення COVID -інфекції на інтерактивних картах.

## Матеріали та методи


У цій лабораторіній роботі ми вивчимо основні методи прогнозування часових рядів та їх візуалізації на інтерактивних картах. Лабораторна робота складається з трьох етапів:

1. Завантаження та попередній аналіз даних
2. Прогнозування
3. Інтерактивні карти

На першому етапі  завантажуємо дані та реалізуємо підготовку даних до аналізу:
* завантажити дані
* змінити типи даних стовпців
* групування даних
* перетворення набору даних
* усунення відсутніх даних

На етапі прогнозування будуть продемонстровані методи побудови та встановлення моделей, автоматизація розрахунку статистичної інформації, зокрема:
* вибір гіпотез 
* розбиття набору даних на навчальні та тестові вибірки
* побудова моделі за допомогою 2 різних фреймворків
* розрахунок основних статистичних показників
* прогнозування часових рядів

At the stage of interactive maps the build will show how to display statistical information on interactive maps:
* data transformation for mapping
* downloads polygons of maps
* building of interactive maps
На етапі інтерактивних карт навчимося, як відображати статистичну інформацію на інтерактивних картах:
* перетворення даних для відображення
* завантаження полігону карт
* створення інтерактивних карт


Статистичні дані отримані з https://ourworldindata.org/coronavirus на основі Creative Commons BY license.

## Середовища виконання
* Python,
* [Pandas,](https://pandas.pydata.org)
* [SeaBorn,](https://seaborn.pydata.org)
* Statistics,
* [Plotly](https://plotly.com)

## Отримані навики 

Після виконання даної лабораторної роботи отримуються навики:

* Завантаження даних з  *.csv файлів
* Автоматична зміна даних 
* Перетворення таблиці даних
* Візуалізація даних на основі pandas and seaborn
* Побудова прогнозу 
* Побудова інтерактивних карт

## Завантаження та попередній аналіз даних

In [None]:
### Завантаження даних

Перш ніж розпочати, деякі бібліотеки потрібно імпортувати

In [1]:
import pandas as pd
import numpy as np

Наступним кроком є завантаження даних файлу з відкритого сховища, створеного компанією [ Our World in Data з використанням  Creative Commons BY license](https://ourworldindata.org/coronavirus) by the **[read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)**

In [3]:
covid_word = pd.read_csv('Lab2_data.csv')
covid_word

Unnamed: 0,zvit_date,registration_area,registration_region,registration_settlement,registration_settlement_lng,registration_settlement_lat,new_susp,new_confirm,active_confirm,new_death,new_recover
0,1/1/2020,Донецька,Мангушський район,Мелекіне,37.394099,46.957301,0,0,0,1,0
1,1/7/2020,Донецька,Краматорськ,Краматорськ,37.584350,48.738967,0,0,0,1,0
2,1/12/2020,Запорізька,Запоріжжя,Запоріжжя,35.139567,47.838800,0,0,0,1,0
3,1/19/2020,Закарпатська,Берегівський район,Берегуйфалу,22.807531,48.279628,0,0,0,1,0
4,1/22/2020,Донецька,Українськ,Українськ,37.362549,48.096803,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...
1048570,12/3/2020,Черкаська,Уманський район,Краснопілка,30.249593,48.860909,0,0,1,0,0
1048571,12/3/2020,Черкаська,Уманський район,Вільшана-Слобідка,30.453567,48.609810,0,0,1,0,0
1048572,12/3/2020,Черкаська,Шполянський район,Мар'янівка,31.464540,49.020017,0,0,2,0,0
1048573,12/3/2020,Черкаська,Драбівський район,Погреби,32.192496,50.093403,1,0,4,0,0


Розглянемо отриманий набір даних. Як бачимо, набір даних складається з 86202 рядків × 59 стовпців. Перші 3 стовпці - Геоінформація. 4 колонка - дата вимірювання. Ще 55 - дані Covid. Також у DataSet спостерігаються деякі відсутні дані. Ми повинні бути впевнені, що python правильно розпізнав типи даних. Для цього нам слід використовувати **[pandas.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html?highlight=info#pandas.DataFrame.info)**.

In [None]:
covid_word.info()

Як бачимо, 54 стовпці даних Covid прочитано належним чином (float64). Перші 4 стовпці та test_units були розпізнані як: об’єкти. Давайте дослідимо їх:

In [None]:
fields = ['iso_code', 'continent', 'location', 'tests_units']
covid_word[fields]

In [None]:
covid_word['date']

### Зміна типи даних стовпців

Бачимо, що колонки: 'iso_code', 'continent', 'location', 'tests_units' мають багато повторів і повинні бути віднесені до категорійних полів **([pandas.astype()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html?highlight=astype#pandas.DataFrame.astype))**.
Поле 'data' -необхідно конвертувати у DataTime type **([pandas.to_datetime()](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html))**. Щоб побачити результати, використаємо**[pandas.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe)**.

In [None]:
fields = ['iso_code', 'continent', 'location', 'tests_units']
covid_word[fields] = covid_word[fields].astype('category')
covid_word.loc[:, 'date'] = pd.to_datetime(covid_word['date'])
covid_word[fields].describe()

Набір даних містить інформацію про 6 континентів та про 219 країн. Поле 'tests_units' містить 4 категорії. Щоб показати це,  можна використовувати **[pandas.Series.cat.categories](https://pandas.pydata.org/docs/reference/api/pandas.Series.cat.categories.html)**

In [None]:
covid_word['tests_units'].cat.categories

### Групування даних

Давайте визначимо, скільки записів кожної категорії є в наборі даних **[pandas.Series.value_counts()](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html)** та покажемо результат у таблиці **[pandas.Series.to_frame()](https://pandas.pydata.org/docs/reference/api/pandas.Series.to_frame.html)**

In [None]:
covid_word['tests_units'].value_counts().to_frame()

Як показано вище, набір даних містить 54 статистичних поля, які можна використовувати для будь -якого аналізу. Для простоти виберем найбільш інформативне - **total cases**. Давайте визначимо, скільки хворих належить до кожної з категорій,  використовуючи
 **[pandas.DataFrame.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby)** та сортуючи у порядку спадання. **[pandas.DataFrame.sort_values()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)**

In [None]:
covid_word.groupby('tests_units')['total_cases'].sum().sort_values(ascending=False).to_frame()

Для зручності відображення даних з плаваючою комою можна вказати загальний формат виводу  DataFrame за допомогою **[pandas.options.display.float_format](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)**. Ці налаштування будуть активними протягом усього сеансу  використаня бібліотеки pandas.

In [None]:
pd.options.display.float_format = '{:,.0f}'.format
covid_word.groupby('tests_units')['total_cases'].sum().sort_values(ascending=False).to_frame()

 Як бачимо, найбільша кількість хворих належить до категорії "samples tested". Переходимо до наступного кроку 

### Перетворення набору даних

Спробуємо передбачити поширення COVID-19 на різних континентах. Для цього нам потрібно перетворити наш набір даних. Зокрема, як індексне поле для використання дат вимірювання, так і як стовпці повинні бути дані про загальну кількість випадків залежно від континенту. Для цього слід використати зведену таблицю: **[pivot_table()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot_table.html?highlight=pivot_table#pandas.DataFrame.pivot_table)**

In [None]:
p_covid = pd.pivot_table(covid_word, values= 'total_cases', index= ['date'], columns=['continent'], aggfunc='sum', margins=False)
p_covid

Ми створили новий набір даних, який буде використовуватися для прогнозування. Давайте візуалізуємо ці дані за допомогою **[pandas.DataFrame.plot()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html?highlight=plot#pandas.DataFrame.plot)**.  Слід зазначити, що pandas інкапсулює matplotlib бібліотеку та наслідує функцію  plot(). Тому для коректного відображення бібліотеку matplotlib необхідно імпортувати та застосувати функцію **[matplotlib.pyplot.show()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.show.html)**

In [None]:
p_covid.plot()
import matplotlib.pyplot as plt
plt.show()

### Усунення відсутніх даних

 Як бачимо, на графіку правильно відображаються відсутні дані. Однак не всі математичні методи коректно працюють з такими даними. Тому необхідно усунути всі пропущені дані. У нашому випадку достатньо видалити рядки, що їх містять, за допомогою функції **[pandas.DataFrame.dropna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)**

In [None]:
p_covid = p_covid.dropna()
p_covid

## Прогнозування

### Вибір гіпотез

Перш ніж будувати прогноз, необхідно спочатку визначити цільове (вихідне) поле, для якого буде побудований прогноз. Наступним кроком є створення гіпотези, яка передбачає визначення вхідних полів, від яких залежить прогноз. Спробуємо спрогнозувати загальну кількість випадків зараження африканців. Ми можемо запропонувати дві гіпотези:

1. Загальна кількість випадків зараження африканців залежить від загальної кількості випадків на інших континентах.
2. Загальна кількість випадків зараження африканців не залежить від загальної кількості випадків на інших континентах .

Щоб перевірити першу гіпотезу, нам слід провести кореляційний аналіз за допомогою**[pandas.DataFrame.corr()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html?highlight=corr#pandas-dataframe-corr)**

In [None]:
pd.options.display.float_format = '{:,.2f}'.format
p_covid.corr()

Кожна клітинка містить коефіцієнти кореляції між двома стовпцями. Тому елементи діагоналі рівні одиниці. Як видно зі стовпця Африки (або рядка), усі коефіцієнти кореляції більше 0,9. Це може бути підтвердженням першої гіпотези. Коефіцієнти кореляції, близькі до одиниці, означають  сильну лінійну залежність між полями. Тому для перевірки першої гіпотези зручно використовувати лінійні моделі.

### Розбиття набору даних на навчальні та тестові вибірки

Для встановлення та перевірки моделі необхідно розділити набір даних на навчальні та тестові набори. Можна реалізувати це за допомогою класичних інструментів Python, таких як зрізи, або скористатися спеціальною функцією, яка має багато гнучких налаштувань (**[sklearn.model_selection.train_test_split()](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)**).
За тестовий набір  візьмемо 30% загальних даних.

In [None]:
proportion_train_test = 0.7
l = int(proportion_train_test * len(p_covid))
col = p_covid.columns

In [None]:
# Slises:
X_train, X_test, y_train, y_test = p_covid[col[1:]][:l], p_covid[col[1:]][l:], p_covid[col[0]][:l], p_covid[col[0]][l:]

<details><summary>Click <b>here</b> for the solution</summary> 
p_covid[col[1:]][:l], p_covid[col[1:]][l:], p_covid[col[0]][:l], p_covid[col[0]][l:]
</details>

In [None]:
# sklearn function
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(p_covid[col[1:]], p_covid[col[0]], test_size=0.3, shuffle=False)

### Створення моделей за допомогою sklearn

Для побудови лінійної моделі необхідно створити саму лінійну модель, підігнати її, протестувати та зробити прогноз. Для цього використаємо **[sklearn.linear_model.LinearRegression()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)**

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_pred_test = regressor.predict(X_test)
y_pred_train = regressor.predict(X_train)

### Розрахунок основних статистичних показників

є у **y_pred_test** та **y_pred_train** змінних. Після цього ми можемо перевірити адекватність та точність моделі за допомогою **[sklearn.metrics](https://scikit-learn.org/stable/modules/model_evaluation.html)**. Також ми можемо отримати параметри лінійної моделі

In [None]:
from sklearn import metrics
print("Correlation train", regressor.score(X_train, y_train))
print("Correlation test", regressor.score(X_test, y_test))
print("Coefficients:", regressor.coef_)
# pair the feature names with the coefficients
print('Pair the feature names with the coefficients:')
for s in zip(col[1:], regressor.coef_):
    print(s[0], ":", s[1])
print("Intercept", regressor.intercept_)
print('Mean Absolute Error (train):', metrics.mean_absolute_error(y_train, y_pred_train))
print('Mean Absolute Error (test):', metrics.mean_absolute_error(y_test, y_pred_test))
print('Mean Squared Error (train):', metrics.mean_squared_error(y_train, y_pred_train))
print('Mean Squared Error (test):', metrics.mean_squared_error(y_test, y_pred_test))
print('Root Mean Squared Error (train):', np.sqrt(metrics.mean_squared_error(y_train, y_pred_train)))
print('Root Mean Squared Error (test):', np.sqrt(metrics.mean_squared_error(y_test, y_pred_test)))

### Створення моделей за допомогою statsmodels

Як бачимо,  є велика різниця в точності між  результатами тестування для навчальної та тестової вибірки. Це означає, що ця гіпотеза не правильна. Також ця структура не може генерувати зведений звіт. Для цього можемо використовувати **[statsmodels.api](https://www.statsmodels.org/stable/index.html)** framework

In [None]:
import statsmodels.api as sm
model = sm.OLS(y_train, X_train)
results = model.fit()
y_pred_test_OLS = results.predict(X_test)
y_pred_train_OLS = results.predict(X_train)
print(results.summary())

Як бачимо, у цій структурі використовуються ті ж принципи для створення та підгонки моделей. Це дозволяє складати зведений звіт, а також можна отримати всі інші коефіцієнти статистики таким же чином:

In [None]:
print('coefficient of determination:', results.rsquared)
print('adjusted coefficient of determination:', results.rsquared_adj)
print('regression coefficients:', results.params, sep = '\n')

Необхідно об'єднати результати, щоб порівняти ці дві моделі **[pandas.DataFrame.join()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)**:

In [None]:
df_test = pd.DataFrame({'Actual_test': y_test, 'Predicted_test': y_pred_test, 'Predicted_test_OLS': y_pred_test_OLS})
df_train = pd.DataFrame({'Actual_train': y_train, 'Predicted_train': y_pred_train, 'Predicted_train_OLS': y_pred_train_OLS})
df = df_train.join(df_test, how='outer')
df

 Як бачимо, pandas автоматично приєднує і впорядковує дані відповідно відповідно до поля індексу. Тому дуже важливо перевірити тип даних поля індексу, особливо, коли  маємо справу з часовим полем .

Давайте візуалізуємо дані

In [None]:
df.plot()
plt.show()

 Ви можете бачити, що результати цих двох моделей однакові. Ви також можете побачити, що прогнозування на тестовій вибірці не є ідеальним. Ми можемо подивитися різницю між прогнозними та реальними даними використавши**[seaborn.pairplot()](https://seaborn.pydata.org/generated/seaborn.pairplot.html)**

In [None]:
import seaborn as sns
sns.pairplot(df_test, x_vars=['Actual_test'], y_vars='Predicted_test',  kind='reg', height = 8)
plt.show()

Значення реальних даних наносяться на горизонтальну вісь, а передбачені - на вертикальну. Чим ближче точки результату до діагоналі, тим краще прогноз моделі. Цей графік підтверджує наш висновок, про поганий прогноз відповідно до цієї гіпотези.
Більше того, щоб зробити прогноз на майбутнє, ви повинні знати майбутні дані для іншого континенту.

### Прогнозування часових рядів

Спробуємо перевірити другу гіпотезу. Відповідно до цього, потрібно враховувати лише один часовий ряд. У нашому випадку - Африка. Єдине припущення, яке можна зробити - дані на сьогодні залежать від значень попередніх днів. Щоб перевірити наявність залежностей, необхідно провести кореляційний аналіз між ними. Для цього потрібно:
1. дублювати часові ряди даних і переміщати їх вертикально вниз на певну кількість днів (lag)
2. видалити відсутні дані на початку та в кінці (вони формуються вертикальним зсувом) 
(**[pandas.DataFrame.shift()])(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html)**
3. обчислити коефіцієнт кореляції між отриманими рядами

Оскільки цю операцію необхідно виконувати для різних значень відставання, зручно створити окрему функцію:

In [None]:
def lag_correlation_ts(y, x, lag):
    """
    Lag correlation для 2 DateSeries
    :param y: fixed
    :param x: shifted
    :param lag: lag for shifting
    :return: DataFrame of lags correlation coefficients
    """
    r = [0] * (lag + 1)
    y = y.copy()
    x = x.copy()
    y.name = "y"
    x.name = "x"

    for i in range(0, lag + 1):
        ds = y.copy().to_frame()
        ds = ds.join(x.shift(i), how='outer')
        r[i] = ds.corr().values[0][1]
    r = pd.DataFrame(r)
    r.index.names = ['Lag']
    r.columns = ['Correlation']
    return r

In [None]:
y_dataset = p_covid[col[0]]
y_dataset

Протестуймо 30 -денний лаг

In [None]:
pd.options.display.float_format = '{:,.4f}'.format
l = pd.DataFrame(lag_correlation_ts(y_dataset, y_dataset, 30))
l

As you can see, the time series data is very much dependent on the data of the previous period. Even between 30 days ago, there is a close linear relationship.

To build a linear model of type input - target, the target must be the data of the original time series, and the input values are given for the previous days.

To automate this process, let's create a universal time series transformation function to a dataset structure.
Як бачимо, дані часових рядів дуже сильно залежать від даних попереднього періоду. Навіть між минулими 30 днями  існує тісна лінійна залежність.

Щоб побудувати лінійну модель типу input - target, ціллю мають бути дані вихідного часового ряду, а вхідні значення наведені за попередні дні.

Щоб автоматизувати цей процес, давайте створимо універсальну функцію перетворення часових рядів у структуру набору даних.

In [None]:
def series_to_supervised(in_data, tar_data, n_in=1, dropnan=True, target_dep=False):
    """
    Transformation into a training sample taking into account the lag
     : param in_data: Input fields
     : param tar_data: Output field (single)
     : param n_in: Lag shift
     : param dropnan: Do destroy empty lines
     : param target_dep: Whether to take into account the lag of the input field If taken into account, the input will start with lag 1
     : return: Training sample. The last field is the source
    """

    n_vars = in_data.shape[1]
    cols, names = list(), list()
    # input sequence (t-n, ... t-1)
    # for i in range(n_in, -1, -1):
    if target_dep:
        i_start = 1
    else:
        i_start = 0
    for i in range(i_start, n_in + 1):
        cols.append(in_data.shift(i))
        names += [('%s(t-%d)' % (in_data.columns[j], i)) for j in range(n_vars)]

    if target_dep:
        for i in range(n_in, -1, -1):
            cols.append(tar_data.shift(i))
            names += [('%s(t-%d)' % (tar_data.name, i))]
    else:
        # put it all together
        cols.append(tar_data)
        # print(tar_data.name)
        names.append(tar_data.name)
    agg = pd.concat(cols, axis=1)
    agg.columns = names

    # drop rows with NaN values
    if dropnan:
        agg.dropna(inplace=True)

    return agg

In [None]:
dataset = series_to_supervised(pd.DataFrame(y_dataset), y_dataset, 30)
dataset

Як бачите, перший і останній стовпці містять однакові цільові дані. Тому, подібно до попередньої моделі, ми будемо формувати навчальні та тестові набори даних, підбирати та порівнювати результати

In [None]:
col_2 = dataset.columns
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(dataset[col_2[1:-2]], dataset[col_2[-1]], test_size=0.3, shuffle=False)
regressor2 = LinearRegression()
regressor2.fit(X_train_2, y_train_2)
y_pred_test_2 = regressor2.predict(X_test_2)

In [None]:
print("Correlation train", regressor2.score(X_train_2, y_train_2))
print("Correlation test", regressor2.score(X_test_2, y_test_2))
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test_2, y_pred_test_2))
print('Mean Squared Error:', metrics.mean_squared_error(y_test_2, y_pred_test_2))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test_2, y_pred_test_2)))

Як бачимо, результати прогнозу набору тестових даних набагато кращі, ніж у попередній моделі. Давайте візуалізуємо ці 2 результати:

In [None]:
y_pred_test_2 = pd.DataFrame(y_pred_test_2, columns = ['Predicted_test time series'])
y_pred_test_2.index = y_test_2.index
df_2 = pd.DataFrame({'Actual_test': y_test, 'Predicted_test': y_pred_test, })
df_2 = df_2.join(y_pred_test_2, how='outer')
df_2.plot()
plt.show()

Як бачимо, друга модель продукує ідеальний прогноз

## Інтерактивні мапи

### Перетворення даних для  mapping

Зручно відобразити поширення вірусної інфекції на карті, щоб це візуалізувати. Для цього існує кілька бібліотек. Зручно користуватися бібліотекою **[plotly.express](https://plotly.com/python/plotly-express/)** для відображення динаміки COVID-19.

In [None]:
import plotly.express as px
import json

Побудуємо динаміку поширення COVID-19 (загальна кількість випадків) для європейських країн. Щоб зробити це:
:
1. Відфільтруйте початковий набір даних, щоб залишити лише європейські країни .
2. Залиште колонки тільки з необхідними даними GEO o ("location", "date", "total_cases") відсортованими за "location" та "date"

In [None]:
covid_EU = covid_word[covid_word.continent == "Europe"]
covid_EU = covid_EU[["location", "date", "total_cases"]].sort_values(["location", "date"])
covid_EU

Перед візуалізацією ми повинні видалити дані NaN:

In [None]:
modified_confirmed_EU = covid_EU[np.isnan(covid_EU.total_cases) == False]
modified_confirmed_EU

Ми повинні змінити тип стовпця total_cases на int64, щоб виправити  порівняння кольорів карти

In [None]:
c = 'total_cases'
modified_confirmed_EU.loc[:, c] = modified_confirmed_EU[c].astype('int64')
modified_confirmed_EU.info()

Давайте згрупуємо дані за країнами. 
Для кожної країни рядки мають бути впорядковані за датою вимірювання.

In [None]:
modified_confirmed_EU=modified_confirmed_EU.set_index('date').groupby('location')

Як ми бачимо, DataSet складається з 20052 рядків. Це занадто багато для картографування GEO. Нам потрібно скоротити їх кількість. Наприклад, відображати не по днях, а по тижнях. Для цього вам потрібно скористатися функцією**[pandas.DataFrame.resample()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html)**

In [None]:
modified_confirmed_EU = modified_confirmed_EU.resample('W-MON').sum()
print(modified_confirmed_EU)

Для коректного відображення на карті нам потрібно відновити дані в полі "location" та дублювати поле "Data", перетворивши їх на тип даних str. Це необхідно для правильного відображення дат інтерактивної карти на смузі прокрутки

In [None]:
modified_confirmed_EU.loc[:,'location'] = modified_confirmed_EU.index.get_level_values(0)
modified_confirmed_EU.loc[:,'Date'] = modified_confirmed_EU.index.get_level_values(1).astype('str')

print(modified_confirmed_EU)

In [None]:
# covid_word=pd.read_csv('owid-covid-data.csv')
# c = 'continent'
# covid_word.loc[:, c] = covid_word[c].astype('category')
# print(covid_word[c])

# covid_EU = covid_word[covid_word.continent == "Europe"]
# covid_EU = covid_EU[["location", "date", "total_cases"]].sort_values(["location", "date"])
# modified_confirmed_EU = covid_EU[np.isnan(covid_EU.total_cases) == False]
# c = 'total_cases'
# modified_confirmed_EU.loc[:, c] = modified_confirmed_EU[c].astype('int64')

# c = 'date'
# c2 = 'Date'
# modified_confirmed_EU.loc[:, c2] = pd.to_datetime(modified_confirmed_EU[c])


# modified_confirmed_EU=modified_confirmed_EU.set_index('Date').groupby('location')
# print(modified_confirmed_EU)
# modified_confirmed_EU = modified_confirmed_EU.resample('W-MON').sum()


# c = 'Date'
# modified_confirmed_EU = modified_confirmed_EU[modified_confirmed_EU[c] >= pd.Timestamp(2021, 1, 1)]
# modified_confirmed_EU = modified_confirmed_EU.resample
# print(modified_confirmed_EU)
# modified_confirmed_EU.loc[:,'location'] = modified_confirmed_EU.index.get_level_values(0)
# modified_confirmed_EU.loc[:,'date'] = modified_confirmed_EU.index.get_level_values(1).astype('str')

# print(modified_confirmed_EU)


### Завантаження полігонів карти 

Наступним кроком є завантаження полігонів карти. Вони є загальнодоступними: https://data.opendatasoft.com/explore/dataset/european-union-countries%40public/information/
Також на цьому сайті представлені схеми набору даних.
Ви можете побачити, що ключ "NAME" цього json підключено до поля "location" у нашому наборі даних

In [None]:
import json
with open("european-union-countries.geojson", encoding="utf8") as json_file:
    EU_map = json.load(json_file)

Наступний крок - створення інтерактивної карти за допомогою plotly.express.choropleth (). **[plotly.express.choropleth()](https://plotly.com/python/mapbox-county-choropleth/)**.  Як  вхідні параметри, ми повинні надіслати:

1. Полігони країн: geojson = EU_map,
2. Поля порівняння країн у наборі даних: locations = 'location',
3. Поле ключа у файлі json, яке буде порівняно з адресами: featureidkey = 'properties.name',
4. Колір країн: color = 'total_cases',
5. Інформація для легенди: hover_name = 'location', hover_data = ['location', 'total_cases'],
6. Поле анімації: animation_frame = 'Дата',
7. Колірна гамма: color_continuous_scale = px.colors.diverging.RdYlGn [::-1]

In [None]:
fig = px.choropleth(
    modified_confirmed_EU[::-1],
    geojson=EU_map,
    locations='location',
    featureidkey='properties.name',    
    color= 'total_cases', 
    scope='europe',
    hover_name= 'location',
    hover_data= ['location', 'total_cases'],
    animation_frame= 'Date', 
    color_continuous_scale=px.colors.diverging.RdYlGn[::-1]
)

Потім ми повинні змінити деякі особливості карти. Наприклад: showcountries, showcoastline, showland, fitbouns у функції: plotly.express.update_geos ()  plotly.express.update_layout **[plotly.express.update_geos()](https://plotly.com/python/map-configuration/)**
Також ми можемо змінити макет карти: **[plotly.express.update_layout](https://plotly.com/python/creating-and-updating-figures/)**

In [None]:
fig.update_geos(showcountries=False, showcoastlines=False, showland=False, fitbounds="locations")

fig.update_layout(
    title_text ="COVID-19 Spread EU",
    title_x = 0.5,
    geo= dict(
        showframe= False,
        showcoastlines= False,
        projection_type = 'equirectangular'
    ),
    margin={"r":0,"t":0,"l":0,"b":0}
)


Щоб показати карту, ми повинні зберегти її у *.html* -файлі та відкрити: **[plotly.express.write_html](https://plotly.github.io/plotly.py-docs/generated/plotly.io.write_html.html)**

In [None]:
fig.write_html('first_figure.html', auto_open=True)

## Висновки 


У цій лабораторній роботі ми навчилися будувати гіпотези для моделей прогнозування, перетворення наборів даних для моделей введення-виведення. Навчилися розподіляти набори даних на навчальні та тестові. Також було показано, як передбачити моделі часових рядів, використовуючи перетворення лагів. Наприкінці лабораторної роботи ми відобразили набір даних на динамічній інтерактивній карті у форматі * .html

## Індивідуальне завдання

In [None]:
Для файлу даних по світу
1. Реалізувати прогнозування поширення COVID-19 у групі скандинавських країн. Візуалізувати поширення на інтерактивній мапі.
2. Реалізувати прогнозування поширення COVID-19 у групі  країн Benelux. Візуалізувати поширення на інтерактивній мапі.
3. Реалізувати прогнозування поширення COVID-19 у групі  країн Європейського Союзу. Візуалізувати поширення на інтерактивній мапі.
4. Реалізувати прогнозування поширення COVID-19 у групі  країн, що повністю розташовані на Аравійському півострові. Візуалізувати поширення на інтерактивній мапі.
5. Реалізувати прогнозування поширення COVID-19 у групі  країн Південна Корея, Гонконг, Сінгапур, Тайвань. Візуалізувати поширення на інтерактивній мапі.
6. Реалізувати прогнозування поширення COVID-19 у групі  країн Монголія, Китай і Вєтнам. Візуалізувати поширення на інтерактивній мапі.
7. Реалізувати прогнозування поширення COVID-19 у групі  Африканських країн, що повністю лежать у північній півкулі. Візуалізувати поширення на інтерактивній мапі.
8. Реалізувати прогнозування поширення COVID-19 у групі  Африканських країн, що повністю лежать у південній півкулі. Візуалізувати поширення на інтерактивній мапі. 
9. Реалізувати прогнозування поширення COVID-19 у групі країн Індія, Непал, Пакистан. Візуалізувати поширення на інтерактивній мапі.
10. Реалізувати прогнозування поширення COVID-19 у групі країн Південної Америки. Візуалізувати поширення на інтерактивній мапі.
11. Реалізувати прогнозування поширення COVID-19 у групі прибалтійських  країн. Візуалізувати поширення на інтерактивній мапі.
12. Реалізувати прогнозування поширення COVID-19 у групі  балканських країн. Візуалізувати поширення на інтерактивній мапі.
13. Реалізувати прогнозування поширення COVID-19 у групі країн Польща, Угорщина, Чехія, Словаччина, Словенія, Хорватія, Литва, Латвія й Естонія. Візуалізувати поширення на інтерактивній мапі.
14. Реалізувати прогнозування поширення COVID-19 у групі країн Болгарія, Румунія, Україна, Албанія, Македонія. Візуалізувати поширення на інтерактивній мапі.
15. Реалізувати прогнозування поширення COVID-19 у групі країн Канада, США, Мексика. Візуалізувати поширення на інтерактивній мапі.
Для файлу даних по Україні
1. Реалізувати прогнозування поширення COVID-19 у Волинській та Рівненській областях. Візуалізувати поширення на інтерактивній мапі.
2. Реалізувати прогнозування поширення COVID-19 у Київській області та місті Київ. Візуалізувати поширення на інтерактивній мапі.
3. Реалізувати прогнозування поширення COVID-19 у Закарпатській та Львівській областях. Візуалізувати поширення на інтерактивній мапі.
4. Реалізувати прогнозування поширення COVID-19 у Івано-Франківській та Чернівецькій областях. Візуалізувати поширення на інтерактивній мапі.
5. Реалізувати прогнозування поширення COVID-19 у Волинській та Рівненській областях. Візуалізувати поширення на інтерактивній мапі.
6.  Реалізувати прогнозування поширення COVID-19 у Львівській та Тернопільській областях. Візуалізувати поширення на інтерактивній мапі.
7. Реалізувати прогнозування поширення COVID-19 у Львівській та Івано-Франківській областях. Візуалізувати поширення на інтерактивній мапі.
8. Реалізувати прогнозування поширення COVID-19 у Львівській, Тернопільській та Івано-Франківській областях. Візуалізувати поширення на інтерактивній мапі.
9. Реалізувати прогнозування поширення COVID-19 у Хмельницькій та Вінницькій. Візуалізувати поширення на інтерактивній мапі.
10. Реалізувати прогнозування поширення COVID-19 у Черкаській та Кропивницькій, областях. Візуалізувати поширення на інтерактивній мапі.
11. Реалізувати прогнозування поширення COVID-19 у Волинській, Житомирській та Рівненській областях. Візуалізувати поширення на інтерактивній мапі.
12. Реалізувати прогнозування поширення COVID-19 у Чернігівській та Сумській областях. Візуалізувати поширення на інтерактивній мапі.
13. Реалізувати прогнозування поширення COVID-19 у Миколаївській та Одеській областях. Візуалізувати поширення на інтерактивній мапі.
14. Реалізувати прогнозування поширення COVID-19 у Вінницькій та Черкаській областях. Візуалізувати поширення на інтерактивній мапі.
15. Реалізувати прогнозування поширення COVID-19 у Харківській та Луганській областях. Візуалізувати поширення на інтерактивній мапі.
16. Реалізувати прогнозування поширення COVID-19 у Дніпровській та Донецькій областях. Візуалізувати поширення на інтерактивній мапі.
17. Реалізувати прогнозування поширення COVID-19 у Запорізькій таХерсонській областях. Візуалізувати поширення на інтерактивній мапі.
18. Реалізувати прогнозування поширення COVID-19 у Харківській, Полтавській та Сумській областях. Візуалізувати поширення на інтерактивній мапі.


[Yaroslav Vyklyuk, prof., PhD., DrSc](http://vyklyuk.bukuniver.edu.ua/en/)