In [1]:
import pandas as pd
import numpy as np

### 1) Обоснование данных

In [36]:
data = pd.read_csv('covid_19_2022.csv', index_col=False)
data

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.939110,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.153300,20.168300,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.033900,1.659600,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.506300,1.521800,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.202700,17.873900,2020-01-22,0,0,0,0,Africa
...,...,...,...,...,...,...,...,...,...,...
214889,,West Bank and Gaza,31.952200,35.233200,2022-03-04,649971,5557,0,644414,Eastern Mediterranean
214890,,Winter Olympics 2022,39.904200,116.407400,2022-03-04,530,0,0,530,
214891,,Yemen,15.552727,48.516388,2022-03-04,11774,2135,0,9639,Eastern Mediterranean
214892,,Zambia,-13.133897,27.849332,2022-03-04,313613,3958,0,309655,Africa


<p>Новый коронавирус, получивший обозначение 2019-nCoV, был впервые выявлен в Ухане, столице китайской провинции Хубэй.<br>
У людей развилась пневмония без ясной причины, для которой существующие вакцины или методы лечения оказались неэффективными..<br>
Вирус показал доказательства передачи от человека к человеку.<br>
Скорость передачи (уровень заражения), по-видимому, увеличилась в середине января 2020 г..<br>
По состоянию на 30 января 2020 г. было подтверждено около 8 243 случаев..<br>
Во время пандемии очень важно следить за статистикой, она помагает выявлять неочевидные закономернности, тем самым спасая множество жизней.<br>
С помощью этих данных мы можем контролировать развитие вируса и предотвращать опасности.</p>

### 2) Элементарные статистики

<p>Сразу видно, что в данных есть пропущенные значения</p>

In [40]:
print(data.isnull().sum())

Province/State    0
Country/Region    0
Lat               0
Long              0
Date              0
Confirmed         0
Deaths            0
Recovered         0
Active            0
WHO Region        0
dtype: int64
Province/State    0
Country/Region    0
Lat               0
Long              0
Date              0
Confirmed         0
Deaths            0
Recovered         0
Active            0
WHO Region        0
dtype: int64


In [43]:
data = data.dropna()
print(data.isnull().sum())
data

Province/State    0
Country/Region    0
Lat               0
Long              0
Date              0
Confirmed         0
Deaths            0
Recovered         0
Active            0
WHO Region        0
dtype: int64


Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
9,Australian Capital Territory,Australia,-35.473500,149.012400,2020-01-22,0,0,0,0,Western Pacific
10,New South Wales,Australia,-33.868800,151.209300,2020-01-22,0,0,0,0,Western Pacific
11,Northern Territory,Australia,-12.463400,130.845600,2020-01-22,0,0,0,0,Western Pacific
12,Queensland,Australia,-27.469800,153.025100,2020-01-22,0,0,0,0,Western Pacific
13,South Australia,Australia,-34.928500,138.600700,2020-01-22,0,0,0,0,Western Pacific
...,...,...,...,...,...,...,...,...,...,...
214878,Guernsey,United Kingdom,49.448196,-2.589490,2022-03-04,14434,31,0,14403,Europe
214879,Isle of Man,United Kingdom,54.236100,-4.548100,2022-03-04,23328,80,0,23248,Europe
214880,Jersey,United Kingdom,49.213800,-2.135800,2022-03-04,38480,113,0,38367,Europe
214881,Montserrat,United Kingdom,16.742498,-62.187366,2022-03-04,164,2,0,162,Europe


<p>Посмотрим какой тип данных хранится в каждом признаке</p>

<p>Найдем категориальные и числовые признаки (часть индивидуального задания)</p>

In [74]:
columns_numeric = data.select_dtypes(include=['float64', 'int64']).columns
columns_categorical = data.select_dtypes(include='object').columns

<p>Найдем максимум среди числовых признаков</p>

In [77]:
data[columns_numeric].max()

Lat          7.170690e+01
Long         1.656180e+02
Confirmed    1.361680e+06
Deaths       1.405600e+04
Recovered    6.443500e+04
Active       1.359744e+06
dtype: float64

<p>Найдем минимум среди числовых признаков</p>

In [78]:
data[columns_numeric].min()

Lat           -51.7963
Long         -178.1165
Confirmed       0.0000
Deaths          0.0000
Recovered       0.0000
Active      -8322.0000
dtype: float64

<p>Найдем среднее среди числовых признаков</p>

In [79]:
data[columns_numeric].mean()

Lat             24.537150
Long            31.341850
Confirmed    17508.427360
Deaths         305.506866
Recovered     1186.254041
Active       16016.666454
dtype: float64

<p>Найдем медиану среди числовых признаков</p>

In [80]:
data[columns_numeric].median()

Lat           30.9756
Long          88.0924
Confirmed    618.0000
Deaths         3.0000
Recovered      3.0000
Active        55.0000
dtype: float64

<p>Найдем Standard deviation среди числовых признаков</p>

In [81]:
data[columns_numeric].std()

Lat             28.537223
Long            97.901982
Confirmed    82136.386229
Deaths        1370.871180
Recovered     6094.749701
Active       81084.610973
dtype: float64

<p>Также в pandas есть вспомогательная функция, с помощью которой можно одной строчкой подсчитать элементарные статистики</p>

In [82]:
data.describe(include='all')

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
count,64159,64159,64159.0,64159.0,64159,64159.0,64159.0,64159.0,64159.0,64159
unique,83,9,,,773,,,,,3
top,Australian Capital Territory,China,,,2020-01-22,,,,,Western Pacific
freq,773,25509,,,83,,,,,32466
mean,,,24.53715,31.34185,,17508.43,305.506866,1186.254041,16016.67,
std,,,28.537223,97.901982,,82136.39,1370.87118,6094.749701,81084.61,
min,,,-51.7963,-178.1165,,0.0,0.0,0.0,-8322.0,
25%,,,16.742498,-63.0686,,122.5,0.0,0.0,1.0,
50%,,,30.9756,88.0924,,618.0,3.0,3.0,55.0,
75%,,,44.682,116.1306,,2241.0,22.0,405.0,1289.0,


### 3) Распределение категориальных данных

In [83]:
for col_categorical in columns_categorical:
    print(f'{data[col_categorical].value_counts()}\n')

Australian Capital Territory    773
Reunion                         773
Mayotte                         773
Martinique                      773
Guadeloupe                      773
                               ... 
Guangdong                       773
Gansu                           773
Fujian                          773
Chongqing                       773
Turks and Caicos Islands        773
Name: Province/State, Length: 83, dtype: int64

China             25509
Canada            10049
United Kingdom     9276
France             8503
Australia          6184
Netherlands        2319
Denmark             773
Greenland           773
New Zealand         773
Name: Country/Region, dtype: int64

2020-01-22    83
2021-05-20    83
2021-06-15    83
2021-06-16    83
2021-06-17    83
              ..
2020-10-08    83
2020-10-09    83
2020-10-10    83
2020-10-11    83
2022-03-04    83
Name: Date, Length: 773, dtype: int64

Western Pacific    32466
Europe             21644
Americas           10049
Nam