# 1.1 Парсинг данных

### Импорт библиотек для загрузки данных

In [1]:
# Импорт модуля pandas
import pandas as pd
import numpy as np
# Игнорирование предупреждений
import warnings
warnings.filterwarnings('ignore')

Изучив репозиторий GitHub я нашёл не только owid-covid-data.csv датасет, но и последние обновлённые данные для этого датасета  с именем owid-covid-latest.csv
Будем использовать их для более подробного изучения.

### Загрузим данные с GitHub owid-covid-data.csv и последние данные owid-covid-latest.csv для работы

In [2]:
# Загрузка данных owid-covid-data.csv
URL1 = 'https://github.com/owid/covid-19-data/blob/master/public/data/owid-covid-data.csv?raw=true'
# Загрузка последних известных данных owid-covid-latest.csv
URL2 = 'https://github.com/owid/covid-19-data/blob/master/public/data/latest/owid-covid-latest.csv?raw=true'

# Чтение данных pandas
df1 = pd.read_csv(URL1, index_col=0)
df2 = pd.read_csv(URL2, index_col=0)

После загрузки данных два датасета необходимо объединить в один. Для этого проверим шейпом их размеры

In [3]:
# Проверка размера owid-covid-data.csv
df1.shape

(79880, 58)

In [4]:
# Проверка размера owid-covid-latest.csv
df2.shape

(210, 58)

Убедившись в схожести размеров и данных без риска объединяем. 

In [5]:
# Объединение двух датасетов в один
df = df1.append(df2)
# Проверка размера после объединения
df.shape

(80090, 59)

После объединения у нас появился дополнительный столбец last_updated_date, который показывает нам целых 200 зарегестрированных случаев заражения COVID в апреле месяца. Мало, но пригодится

In [6]:
# Объединение двух датасетов в один
df = df1.append(df2)

In [7]:
# Вывод датасета
df

Unnamed: 0_level_0,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,total_cases_per_million,...,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,last_updated_date
iso_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AFG,Asia,Afghanistan,2020-02-24,1.0,1.0,,,,,0.026,...,,597.029,9.59,,,37.746,0.500,64.83,0.511,
AFG,Asia,Afghanistan,2020-02-25,1.0,0.0,,,,,0.026,...,,597.029,9.59,,,37.746,0.500,64.83,0.511,
AFG,Asia,Afghanistan,2020-02-26,1.0,0.0,,,,,0.026,...,,597.029,9.59,,,37.746,0.500,64.83,0.511,
AFG,Asia,Afghanistan,2020-02-27,1.0,0.0,,,,,0.026,...,,597.029,9.59,,,37.746,0.500,64.83,0.511,
AFG,Asia,Afghanistan,2020-02-28,1.0,0.0,,,,,0.026,...,,597.029,9.59,,,37.746,0.500,64.83,0.511,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
VNM,Asia,Vietnam,,2648.0,11.0,7.714,35.0,0.0,0.000,27.204,...,2.0,245.465,6.00,1.000,45.900,85.847,2.600,75.40,0.704,2021-04-06
OWID_WRL,,World,,132418956.0,605318.0,600833.000,2872435.0,11881.0,9857.714,16988.117,...,10.0,233.070,8.51,6.434,34.635,60.130,2.705,72.58,0.737,2021-04-06
YEM,Asia,Yemen,,4975.0,94.0,104.000,976.0,21.0,13.429,166.801,...,18.8,495.003,5.35,7.600,29.200,49.542,0.700,66.12,0.470,2021-04-06
ZMB,Africa,Zambia,,89071.0,62.0,124.571,1224.0,2.0,3.143,4845.040,...,57.5,234.499,3.94,3.100,24.700,13.938,2.000,63.89,0.584,2021-04-06


# 1.2 Предобработка данных и выделение значимых атрибутов

Даже без визуализации данных видно, что в большинстве столбцов есть пропущенные данные. Но всё же визуализацию сделать надо :)

In [None]:
# Импортируем библиотеку для быстрого анализа и визуализации данных в датасете
from pandas_profiling import ProfileReport
# Ввод переменной с параметрами анализа БД
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
# Вывод виджета
profile.to_widgets()

# Сохранение отчёта анализа БД
profile.to_file("Pandas Profiling Report.html")

#### Возможно, виджет не отобразится в моём отчёте HTML, поэтому в папке с отчётом можно будеть открыть его отдельно.

Во-первых, удалим все индексы, потому что индекс не несёт в себе полезной информации и служит лишь для обозначения чего-либо

In [8]:
df.drop(['stringency_index'], axis = 1, inplace = True)
df.drop(['human_development_index'], axis = 1, inplace = True)

Во-вторых, уберём все признаки, где есть слово **total**, потому что для задания нам нужны данные на момент планирования поездки, а не за всё время. (иначе моделька всё время показывала бы красный сигнал)

In [9]:
# Удаляем признаки total
df.drop(['total_tests'], axis = 1, inplace = True)
df.drop(['total_tests_per_thousand'], axis = 1, inplace = True)
df.drop(['total_vaccinations'], axis = 1, inplace = True)
df.drop(['total_vaccinations_per_hundred'], axis = 1, inplace = True)
df.drop(['total_cases'], axis = 1, inplace = True)
df.drop(['total_deaths'], axis = 1, inplace = True)
df.drop(['total_cases_per_million'], axis = 1, inplace = True)
df.drop(['total_deaths_per_million'], axis = 1, inplace = True)

####  *Изучаем отчёт...*
В отчёте видно, что такие признаки как: **location** и **date** имеют очень большой разброс данных. Для нашей будущей модели эти данные не будут нести никакой полезной информации, потому что большой разброс никак не поможет нам найти закономерности и модель будет получать только шумы. Поэтому можно смело удалять их

In [10]:
df.drop(['location'], axis = 1, inplace = True)
df.drop(['date'], axis = 1, inplace = True)

#### *Изучаем отчёт дальше...*
У нас есть признаки с пропусками. Что можно с ними сделать?

- Можно заполнить их наиболее повторяющимися данными;
- Можно удалить их;
- Можно взять среднюю среди соседей.

Будем поступать самым на мой взгляд способом - те данные, у которых пропуск будет более 15% будем удалять, а соответственно данные с меньшим пропуском будем заполнять наиболее повторяющимися значениями.
**handwashing_facilities** - пропуск 54%;
**male_smokers** - пропуск 29,2%;
**female_smokers** - пропуск 28,1%;
**extreme_poverty** - пропуск 38,1%;
**new_vaccinations_smoothed_per_million** - пропуск 87,1%;
**people_fully_vaccinated_per_hundred** - пропуск 94,8%;
**people_vaccinated_per_hundred** - пропуск 92,5%;
**total_vaccinations_per_hundred** - пропуск 91,7%;
**new_vaccinations_smoothed** - пропуск 87,1%
**new_vaccinations** - пропуск 93%;
**people_fully_vaccinated** - пропуск 94,8%;
**people_vaccinated** - пропуск 92,5%
**total_vaccinations** - пропуск 91,7%
**tests_units** - пропуск 45,9%
**tests_per_case** - пропуск 50%
**positive_rate** - пропуск 49,3%
**new_tests_smoothed_per_thousand** - пропуск 47,6%
**new_tests_smoothed** - пропуск 47,6%
**new_tests_per_thousand** - пропуск 54,2%
**total_tests_per_thousand** - пропуск 54,5%
**total_tests** - пропуск 54,5%
**new_tests** - пропуск 54,2%
**weekly_hosp_admissions_per_million** - пропуск 98,3%
**weekly_hosp_admissions** - пропуск 98,3%
**weekly_icu_admissions_per_million** - пропуск 99,1%
**weekly_icu_admissions** - пропуск 99,1%
**hosp_patients_per_million** - пропуск 87,5%
**hosp_patients** - пропуск 87,5%
**icu_patients_per_million** - пропуск 89,6%
**icu_patients** - пропуск 89,6%
**reproduction_rate** - пропуск 19,4%

In [11]:
# Удалем данные с пропусками
df.drop(['icu_patients'], axis = 1, inplace = True)
df.drop(['icu_patients_per_million'], axis = 1, inplace = True)
df.drop(['hosp_patients'], axis = 1, inplace = True)
df.drop(['hosp_patients_per_million'], axis = 1, inplace = True)
df.drop(['weekly_icu_admissions'], axis = 1, inplace = True)
df.drop(['weekly_icu_admissions_per_million'], axis = 1, inplace = True)
df.drop(['weekly_hosp_admissions'], axis = 1, inplace = True)
df.drop(['weekly_hosp_admissions_per_million'], axis = 1, inplace = True)
df.drop(['new_tests'], axis = 1, inplace = True)
df.drop(['new_tests_per_thousand'], axis = 1, inplace = True)
df.drop(['new_tests_smoothed'], axis = 1, inplace = True)
df.drop(['new_tests_smoothed_per_thousand'], axis = 1, inplace = True)
df.drop(['positive_rate'], axis = 1, inplace = True)
df.drop(['tests_per_case'], axis = 1, inplace = True)
df.drop(['tests_units'], axis = 1, inplace = True)
df.drop(['people_vaccinated'], axis = 1, inplace = True)
df.drop(['people_fully_vaccinated'], axis = 1, inplace = True)
df.drop(['new_vaccinations'], axis = 1, inplace = True)
df.drop(['new_vaccinations_smoothed'], axis = 1, inplace = True)
df.drop(['people_vaccinated_per_hundred'], axis = 1, inplace = True)
df.drop(['people_fully_vaccinated_per_hundred'], axis = 1, inplace = True)
df.drop(['new_vaccinations_smoothed_per_million'], axis = 1, inplace = True)
df.drop(['extreme_poverty'], axis = 1, inplace = True)
df.drop(['female_smokers'], axis = 1, inplace = True)
df.drop(['male_smokers'], axis = 1, inplace = True)
df.drop(['handwashing_facilities'], axis = 1, inplace = True)

*Конечно, можно заполнить это всё наиболее повторяющимися значениями, но я больше за достоверность данных, нежели их полноту (с небольшими корректировками)*

####  *Изучаем отчёт дальше...*
Видим ещё признаки, которые хорошо коррелируют с остальными, а значит они несут одни и те же данные. Можем смело удалять их. Честно можем, ведь одинаковые.. **life_expectancy**, **new_cases_smoothed**, **new_deaths_smoothed**, **median_age** и **aged_70_older** (аналог age 65), **new_deaths_smoothed_per_million**, **new_cases_smoothed_per_million**

In [12]:
# Удаляем корреляционные данные
df.drop(['new_deaths'], axis = 1, inplace = True)
df.drop(['new_cases_smoothed'], axis = 1, inplace = True)
df.drop(['new_deaths_smoothed'], axis = 1, inplace = True)
df.drop(['new_cases_smoothed_per_million'], axis = 1, inplace = True)
df.drop(['new_deaths_smoothed_per_million'], axis = 1, inplace = True)
df.drop(['life_expectancy'], axis = 1, inplace = True)
df.drop(['median_age'], axis = 1, inplace = True)
df.drop(['aged_70_older'], axis = 1, inplace = True)

# 1.3 Описание структуры данных

Теперь можем обработать пустые значения и расшифровать данные для более понятного анализа

In [35]:
# Заполняем пустые значения медианами
df = df.fillna(df.median(axis=0), axis=0)

Проверим, что значения и в правду заполнились

In [13]:
# Проверка заполнения
df.count(axis=0)

continent                     76186
new_cases                     78493
new_cases_per_million         78067
new_deaths_per_million        68773
reproduction_rate             64574
population                    79592
population_density            74654
aged_65_older                 71585
gdp_per_capita                72708
cardiovasc_death_rate         73305
diabetes_prevalence           74279
hospital_beds_per_thousand    67004
last_updated_date               210
dtype: int64

Проблемка, данные в continent не удалось восстановить. Ничего страшного. Удалим строки с недостающими данными в continent. Можно было бы их восстановить повторяющимися значениями, но как было сказано ранее, лучше достоверность, чем полнота)

In [37]:
df.drop(['last_updated_date'], axis = 1, inplace = True)
df = df.dropna(axis=0)

In [38]:
# Проверка размера
df.shape

(76186, 12)

In [39]:
X = df.drop(('continent'), axis=1)  # Выбрасываем столбец 'class'.
y = df['continent']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 11)
feature_names = X.columns

from sklearn import ensemble
rf = ensemble.RandomForestClassifier(n_estimators=100, random_state=11)
rf.fit(X_train, y_train)

importances = rf.feature_importances_
indices = np.argsort(importances)[::-1]

print("Feature importances:")
for f, idx in enumerate(indices):
    print("{:2d}. feature '{:5s}' ({:.4f})".format(f + 1, feature_names[idx], importances[idx]))

Feature importances:
 1. feature 'aged_65_older' (0.2300)
 2. feature 'diabetes_prevalence' (0.1532)
 3. feature 'gdp_per_capita' (0.1415)
 4. feature 'hospital_beds_per_thousand' (0.1159)
 5. feature 'cardiovasc_death_rate' (0.1146)
 6. feature 'population_density' (0.1078)
 7. feature 'population' (0.1054)
 8. feature 'new_cases_per_million' (0.0115)
 9. feature 'new_deaths_per_million' (0.0106)
10. feature 'new_cases' (0.0087)
11. feature 'reproduction_rate' (0.0009)


Наиболее важные признаки для целевой переменной - **aged_65_older**, **diabetes_prevalence**, **gdp_per_capita**, **hospital_beds_per_thousand**, **cardiovasc_death_rate**, **population**, **population_density**. Признаки: **reproduction_rate**, **new_cases**, **new_deaths_per_million**, **new_cases_per_million** не так значимы

In [40]:
# Удаляем ненужные столбцы
df.drop(['reproduction_rate'], axis = 1, inplace = True)
df.drop(['new_cases'], axis = 1, inplace = True)
df.drop(['new_deaths_per_million'], axis = 1, inplace = True)
df.drop(['new_cases_per_million'], axis = 1, inplace = True)

#### Описание признаков
- continent (континент)
- population (популяция людей)
- aged_65_older (люди старше 65)
- gdp_per_capita (внутренний продукт на душу населения)
- cardiovasc_death_rate (смерть от сердечнососуд заболеваний)
- diabetes_prevalence (диабетики)
- hospital_beds_per_thousand (кол-во коек в госпитале на 1000 людей)

# 1.5 Кластеризация

In [41]:
df.drop(['continent'], axis = 1, inplace = True)

In [42]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters = 10, random_state = 0)
clusters = kmeans.fit_predict(df)
kmeans.cluster_centers_.shape

(10, 7)

In [None]:
#Импорт библиотек
from sklearn import metrics
from sklearn import datasets
import pandas as pd
from sklearn.cluster import KMeans, AgglomerativeClustering, AffinityPropagation, SpectralClustering

#Ввод переменных за X и Y
X, y = df.drop(['population'], axis=1), df['population']

#Применение 4-х алгоритмов класстеризации - KMeans, Affinity, Spectral и Agglomerative
algorithms = []
algorithms.append(KMeans(n_clusters=10, random_state=1))
algorithms.append(AffinityPropagation())
algorithms.append(SpectralClustering(n_clusters=10, random_state=1,
                                     affinity='nearest_neighbors'))
algorithms.append(AgglomerativeClustering(n_clusters=10))

#Тесты с использованием различных метрик
df = []
for algo in algorithms:
    algo.fit(X)
    df.append(({
        'ARI': metrics.adjusted_rand_score(y, algo.labels_),
        'AMI': metrics.adjusted_mutual_info_score(y, algo.labels_),
        'Homogenity': metrics.homogeneity_score(y, algo.labels_),
        'Completeness': metrics.completeness_score(y, algo.labels_),
        'V-measure': metrics.v_measure_score(y, algo.labels_),
        'Silhouette': metrics.silhouette_score(X, algo.labels_)}))

results = pd.DataFrame(df=df, columns=['ARI', 'AMI', 'Homogenity',
                                           'Completeness', 'V-measure', 
                                           'Silhouette'],
                       index=['K-means', 'Affinity', 
                              'Spectral', 'Agglomerative'])

results

### Из всех методов  лучшим оказался метод KMeans - 0.183. На втором месте Spectral - 0.179, на третьем Agglomerative - 0.177, и на четвёртом - Affinity - 0.175. Из результата алгоритмов будем использовать алгоритм KMeans, потому что он показал лучший результат среди остальных 4

# 1.6 Отчёт

К отчёту прилагаю
1. Код
2. Обработанную БД
3. HTML отчёт работы
4. HTML Анализ БД
5. Результат класстеризации

In [None]:
# Сохранение отчёта анализа БД
profile.to_file("Pandas Profiling Report.html")

In [21]:
# Сохранение БД
df.to_csv('data.csv')

In [None]:
#Сохранение в HTML
!jupyter nbconvert C8_M1.ipynb --to html