### dataset 출처
1. 코로나 19 백신 접종 현황 : https://www.kaggle.com/gpreda/covid-world-vaccination-progress
2. 코로나 19 확산 현황 : https://www.kaggle.com/josephassaker/covid19-global-dataset/

1번 데이터는 Our World in Data, 2번 데이터는 worldometers.info 에서 수집된 정보입니다.

### 변수 설명

1. Summary Data
- country: designates the Country in which the the row's data was observed.
- continent: designates the Continent of the observed country.
- total_confirmed: designates the total number of confirmed cases in the observed country.
- total_deaths: designates the total number of confirmed deaths in the observed country.
- total_recovered: designates the total number of confirmed recoveries in the observed country.
- active_cases: designates the number of active cases in the observed country.
- serious_or_critical: designates the estimated number of cases in serious or critical conditions in the observed country.
- total_cases_per_1m_population: designates the number of total cases per 1 million population in the observed country.
- total_deaths_per_1m_population: designates the number of total deaths per 1 million population in the observed country.
- total_tests: designates the number of total tests done in the observed country.
- total_tests_per_1m_population: designates the number of total test done per 1 million population in the observed country.
- population: designates the population count in the observed country.

2. Daily Data
- date: designates the date of observation of the row's data in YYYY-MM-DD format.
- country: designates the Country in which the the row's data was observed.
- cumulative_total_cases: designates the cumulative number of confirmed cases as of the row's date, for the row's country.
- daily_new_cases: designates the daily new number of confirmed cases on the row's date, for the row's country.
- active_cases: designates the number of active cases (i.e., confirmed cases that still didn't recover nor die) on the row's date, for the row's country.
- cumulative_total_deaths: designates the cumulative number of confirmed deaths as of the row's date, for the row's country.
- daily_new_deaths: designates the daily new number of confirmed deaths on the row's date, for the row's country.

3. Vaccination Data

- Country- this is the country for which the vaccination information is provided;
- Country ISO Code - ISO code for the country;
- Date - date for the data entry; for some of the dates we have only the daily vaccinations, for others, only the (cumulative) total;
- Total number of vaccinations - this is the absolute number of total immunizations in the country;
- Total number of people vaccinated - a person, depending on the immunization scheme, will receive one or more (typically 2) vaccines; at a certain moment, the number of vaccination might be larger than the number of people;
- Total number of people fully vaccinated - this is the number of people that received the entire set of immunization according to the immunization scheme (typically 2); at a certain moment in time, there might be a certain number of people that received one vaccine and another number (smaller) of people that received all vaccines in the scheme;
- Daily vaccinations (raw) - for a certain data entry, the number of vaccination for that date/country;
- Daily vaccinations - for a certain data entry, the number of vaccination for that date/country;
- Total vaccinations per hundred - ratio (in percent) between vaccination number and total population up to the date in the country;
- Total number of people vaccinated per hundred - ratio (in percent) between population immunized and total population up to the date in the country;
- Total number of people fully vaccinated per hundred - ratio (in percent) between population fully immunized and total population up to the date in the country;
- Number of vaccinations per day - number of daily vaccination for that day and country;
- Daily vaccinations per million - ratio (in ppm) between vaccination number and total population for the current date in the country;
- Vaccines used in the country - total number of vaccines used in the country (up to date);
- Source name - source of the information (national authority, international organization, local organization etc.);
- Source website - website of the source of information;

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import seaborn as sns # Visualization
import matplotlib.pyplot as plt # Visualization
import plotly.express as ex
import plotly.graph_objects as go
import plotly.offline as pyo
from datetime import datetime
pyo.init_notebook_mode()
%matplotlib inline

import warnings # Supress warnings 
warnings.filterwarnings('ignore')

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

## Introduction

Corona-19는 그 이름이 가리키는 2019년 처음 바이러스 감염이 보고되었고, 2020년 1월 중국 우한 지역을 시작으로 본격적으로 전세계에 확산되어 세상을 멈추게 한 지 1년이 훌쩍 넘었습니다.
그러나 2021년 5월 22일 현재 아직도 하루 50만명 이상이 새로 확진되고, 1만명 이상이 코로나 19로 사망하고 있습니다. 많은 전문가들이 이 바이러스가 인간의 삶과 사고 방식을 바꾸었고, 다시는 과거로 완벽히 돌아갈 수 없을 것이라고 말합니다.

한편, 이 전염병을 극복하려는 인간의 노력 또한 끊임없이 계속되고 있습니다. 바이러스에 대한 본격적인 연구가 시작된지 채 1년이 되기 전에 여러 제약 업체에서 백신을 제작에 성공했을 뿐 아니라 대량 생산, 배포를 시작하였습니다. 2021년 들어서는 발빠르게 백신을 확보한 일부 선진국들을 중심으로 본격적으로 바이러스의 확산을 막기 위한 vaccine 접종이 시작되었습니다.

본 노트에서는 세계 백신 접종 현황에 대한 데이터를 보다 한 눈에 보기 좋게 시각화해서 살펴보고 빠른 백신 접종과 코로나 확산세가 관련이 있는지 살펴보려고 합니다.

In [None]:
vacc = pd.read_csv("../input/covid-world-vaccination-progress/country_vaccinations.csv")
summary = pd.read_csv("/kaggle/input/covid19-global-dataset/worldometer_coronavirus_summary_data.csv")
daily = pd.read_csv("/kaggle/input/covid19-global-dataset/worldometer_coronavirus_daily_data.csv")

In [None]:
summary.info()

In [None]:
summary.head().append(summary.tail())

In [None]:
summary.sort_values(by='population',ascending=False)

In [None]:
daily.info()

In [None]:
daily.country.value_counts()

In [None]:
vacc.info()

In [None]:
vacc.country.value_counts()

## Data preprocessing
1. 국가명 변수

이 데이터셋은 기본적으로 각 국가별 데이터를 모아서 비교하여 볼 수 있는 구조의 데이터입니다. 그런데 때로는 같은 국가임에도 country value에 다른 값으로 표기될 수 있습니다. 예를 들어 우리 나라를 영어로 표기할 때, 'South Korea' 라고 표기하는 경우도, 'Republic of Korea' 라고 표기하는 경우도 있습니다. 이런 경우는 같은 나라로 묶어서 데이터를 봐야겠죠.


In [None]:
# Identify the differences of Country Names

print([x for x in daily.country.unique() if x not in summary.country.unique()])
#There is no difference between Daily Data and Summary Data

In [None]:
print("Countries in the Vaccination Data not in Summary Data")
print([x for x in vacc.country.unique() if x not in summary.country.unique()])

In [None]:
print("the number of counties in Vaccine Data: ",len(vacc.country.unique()), 
      "the number of countries in Summarn Data: ",len(summary.country.unique()))

Summary Data의 국가 갯수가 더 많음에도 불구하고, Summary Data에는 없으나 Vaccine Data에는 있는 국가 명이 많이 있었습니다. 같은 국가를 다르게 표기했을 가능성이 높기 때문에 비교해보고 같은 이름으로 통일합니다.

In [None]:
# Unify the names according to Summary Data
vacc.country = vacc.country.replace().replace({
    "Czechia": "Czech Republic", 
    "United States": "USA", 
    "United Kingdom": "UK", 
    "Isle of Man": "Isle Of Man",
    "Republic of Ireland": "Ireland",
    "Northern Cyprus" : "Cyprus"
})

# drop England, Scotland, Wales, Northern Ireland since they are included in UK 
vacc = vacc[vacc.country.apply(lambda x: x not in ['England', 'Scotland', 'Wales', 'Northern Ireland'])]

In [None]:
# function to easily agrregate columns
def aggregate(df: pd.Series, agg_col: str) -> pd.DataFrame:
    
    data = df.groupby("country")[agg_col].max()
    data = pd.DataFrame(data)
    
    return data

2. Summary Data에 백신 접종 현황 추가하기

Summray Data는 국가별 corona 19 누적 확진자, 치료자, 사망자, 진단 검사에 대한 데이터를 가지고 있습니다.
여기에 vaccine 현황 누적 데이터를 추가해 봅시다.

In [None]:
daily.date.max()

In [None]:
daily.daily_new_cases.sum()

In [None]:
summary.total_confirmed.sum()

In [None]:
vacc.date.max()

daily 자료의 가장 최근 날짜와 vaccine 자료의 가장 최근 자료가 2일 밖에 차이 나지 않고, summary의 총 확진자 수가 daily의 확진자수 더한 것 보다 미세하게 많기 때문에 vaccine 데이터의 sum 자료를 summary 데이터에 붙여도 날짜적 불일치는 거의 없을 거라고 보입니다.

In [None]:
# 먼저 백신 데이터를 국가별로 묶어서 봅시다.
data = vacc.groupby("country").max()
data = pd.DataFrame(data)
data.info()

In [None]:
# define the columns we want to summarize
cols_to_summarize = ['people_vaccinated', 
                     'people_vaccinated_per_hundred', 
                     'people_fully_vaccinated', 
                     'people_fully_vaccinated_per_hundred', 
                     'total_vaccinations_per_hundred', 
                     'total_vaccinations']

summary = summary.set_index("country")
vaccines = vacc[['country', 'vaccines']].drop_duplicates().set_index('country')
summary = summary.join(vaccines)

for col in cols_to_summarize:   
    summary = summary.join(aggregate(vacc, col))

summary['percentage_vaccinated'] = summary.total_vaccinations / summary.population * 100
summary['tested_positive'] = summary.total_confirmed / summary.total_tests * 100


In [None]:
#합친 새로운 데이터를 봅시다.
summary.head()

In [None]:
summary.info()

데이터에 결측치가 상당히 있습니다.

In [None]:
sns.heatmap(summary.isnull(),cbar=False)

특히 현재 양성 반응을 나타내는 환자의 수를 나타내는 변수 active_cases와, 백신 접종자 중에서도 2회, 3회 등 그 백신이 요구하는 접종 횟수를 모두 채운 접종자의 수를 나태는 변수 people_fully_vaccinated가 결측치가 많습니다. 이와 같은 변수는 사용할 때 유의해야 합니다.  
백신 접종과 관련된 변수 중에서 비교적 null값이 적은 total_vaccination, 지금까지 백신을 맞은 인구 수 변수의 결측치를 더 자세히 살펴보겠습니다.
이 변수에 결측이 있는 국가들 중에 주요 국가가 있는지 살펴보려고 합니다.

In [None]:
summary = summary.reset_index()

In [None]:
summary_total_vacc = summary[['country','total_vaccinations']]

In [None]:
summary_total_vacc[summary_total_vacc['total_vaccinations']==0]

In [None]:
summary['country'][pd.isnull(summary_total_vacc).any(axis=1)]

결측이 있는 국가 들 중에 인구 100만 이상인 국가들을 보고 있습니다. 백신 접종 수가 0인 국가는 없고, null인 국가만 있으며, 이 국가들이 대부분 아프리카, 동남 아시아, 오세아니아 등의 저개발 국가임을 감안하면, 아직 백신 접종을 시작하지 못한 국가일 확률이 높은 것 같습니다. 

## EDA

### 1. 국가별 확진자 / 백신 접종 현황 (Top 20)

In [None]:
fig = ex.treemap(summary, path=["country"], values="total_confirmed", height = 750,
                 title="<b>Total Coronavirus Confirmed Cases Breakdown by Country</b>",
                 color_discrete_sequence = ex.colors.qualitative.Set3)

fig.update_traces(textinfo = "label+text+value")
fig.show()

In [None]:
fig = ex.area(daily[daily.country.isin(daily[daily['date'] == daily['date'].max()].sort_values("active_cases", ascending=False).iloc[:20].country)].sort_values("active_cases", ascending=False),
              x="date", y="active_cases", color="country", template="plotly_dark")#, groupnorm='percent')

fig.update_traces(line={"width":1.25})
fig.update_layout(title = f"Top 20 Countries with Most Active Cases on {daily['date'].max()}",
                  xaxis={"title": ""},
                  yaxis={"title":"Active Cases"})

In [None]:
fig = ex.area(vacc[vacc.country.isin(vacc[vacc['date'] == vacc['date'].max()].sort_values("total_vaccinations", ascending=False).iloc[:20].country)].sort_values("total_vaccinations", ascending=False),
              x="date", y="total_vaccinations", color="country", template="plotly_dark")#, groupnorm='percent')

fig.update_traces(line={"width":1.25})
fig.update_layout(title = f"Top 20 Countries with Most Vaccinated on {vacc['date'].max()}",
                  xaxis={"title": "date"},
                  yaxis={"title": "total vaccinations" })

In [None]:
# helper functions 
def get_multi_line_title(title:str, subtitle:str):
    return f"{title}<br><sub>{subtitle}</sub>"

def visualize_column(data: pd.DataFrame, xcolumn: str, ycolumn:str, title:str, colors:str, ylabel="Count", n=None):
    hovertemplate ='<br><b>%{x}</b>'+f'<br><b>{ylabel}: </b>'+'%{y}<br><extra></extra>'    
    data = data.sort_values(ycolumn, ascending=False).dropna(subset=[ycolumn])        
    
    if n is not None: 
        data = data.iloc[:n]
    else:
        n = ""
    fig = go.Figure(go.Bar(
                    hoverinfo='skip',
                     x=data[xcolumn], 
                     y=data[ycolumn], 
                     hovertemplate = hovertemplate,
                     marker=dict(
                         color = data[ycolumn],
                         colorscale=colors,
                        ),
                    ),
                )
    fig.update_layout(
        title=title,
        xaxis_title=f"Top {n} {xcolumn.title()}",
        yaxis_title=ylabel,
        plot_bgcolor='rgba(0,0,0,0)',
        hovermode="x"
    )
    
    fig.show()

먼저 총 확진자 수를 보면, 미국, 인도, 브라질,
총 사망자 수를 보면, 미국, 브라질, 인도 순이었습니다.
절대적인 수로는 이 세 국가가 가장 많은 인구가 코로나 19 바이러스에 감염되었고, 많은 피해를 입은 것으로 보입니다.  
이 세 국가는 전 세계적으로 가장 인구 수가 많은 국가들이기도 합니다.  
전세계에서 인구수도 제일 많고, covid-19 바이러스가 처음 발견되어 확산되기 시작한 중국은 1년 이상 지난 2021년 현재 확진자/ 사망자 top 20 안에도 들지 않는다는 점이 인상적입니다.

In [None]:
title = get_multi_line_title("People Confirmed", "Individuals who tested positive")
visualize_column(summary, 'country', "total_confirmed", title, "Blugrn", n=20 )

In [None]:
title = get_multi_line_title("Most Deaths", "Number of People who Died of Covid-19")
visualize_column(summary, 'country', "total_deaths", title, "Blugrn", n=20 )

그런데, 절대적인 수로는 아무래도 인구수가 많은 국가들이 높게 마련입니다. 그런데 가장 크게 피해를 입은 국가는 절대적인 인구수보다 상대적 비율, 즉, 같은 인구수 대비 감염율이 높은 국가들일 수도 있습니다. 단위 인구당 확진자 수를 기준으로 Top 20 국가를 살펴보겠습니다.

In [None]:
title = get_multi_line_title("Cases per 1M", "Number of the confirmed per 1 million people")
visualize_column(summary, 'country', "total_cases_per_1m_population", title, "Blugrn", n=20 )


In [None]:
summary[['continent','total_cases_per_1m_population']][summary['total_cases_per_1m_population'] >=85844].groupby('continent').count()

In [None]:
title = get_multi_line_title("Deaths per 1M", "Number of the diceased out of covid per 1 million people")
visualize_column(summary, 'country', "total_deaths_per_1m_population", title, "Blugrn", n=20 )

In [None]:
summary[['continent','total_cases_per_1m_population']][summary['total_deaths_per_1m_population'] >=1695].groupby('continent').count()

인구 1백만명 당 확진자 수와 사망자 수를 볼 경우, 유럽 대륙의 소국가들이 상위권에 대거 포함되어 있음을 알 수 있습니다. 유럽 대륙의 코로나 19 피해가 특별히 더 심각했음을 알 수 있습니다. 

그렇다면, 백신 접종 현황은 어떨까요?

In [None]:
title = get_multi_line_title("People Vaccinated", "Individuals who received at least the first dose of the vaccine")
visualize_column(summary, 'country', "total_vaccinations", title, "Blugrn", n=20 )

백신 접종을 받은 인구 수는 중국, 미국, 인도, 영국, 브라질 순입니다.
중국을 제외하고는 확진자 수에서 상위권을 차지했던 인구 대국들이 상위권에 들어있습니다.
그런데 확진자 현황과 마찬가지로 절대적인 인구수의 영향이 크므로, 인구 백명 당 접종자 수를 살펴보도록 하겠습니다.

In [None]:
title = get_multi_line_title("People Vaccinated per 100", "the number of people who received the vaccine per 100")
visualize_column(summary, 'country', "people_vaccinated_per_hundred", title, "Blugrn", n=20 )

In [None]:
title = get_multi_line_title("People Fully Vaccinated per 100", "the number of people who finished their second dose  per 100")
visualize_column(summary, 'country', "people_fully_vaccinated_per_hundred", title, "Blugrn", n=20 )

단위 인구당 접종자 수를 확인했더니 역시 확진자 현황과 비슷하게 유럽에 소국가들이 상위권을 차지했는데, 어느 정도 규모가 있는 국가 중에서는 이스라엘이 굉장히 빠르게 백신 접종을 실시하고 있음을 알 수 있습니다.

### 2. geographical presentation of data
지역별 현황 분포를 한 눈에 보고, 지역별 특성과 차이를 파악하기 위해, 지도 그래프로 살펴보겠습니다.

In [None]:
title = get_multi_line_title("Confirmed Rates", "The number of confirmed cases per total confirmed cases")
data = summary
data['confirmed_rate'] =  data['total_confirmed']*100/data['population']
data = data.dropna(subset=['confirmed_rate'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="confirmed_rate",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

In [None]:
title = get_multi_line_title("Death Rates", "Percentage of people have died from Covid-19 per total confirmed cases")
data = summary
data['death_rate'] =  data['total_deaths']*100/data['total_confirmed']
data = data.dropna(subset=['death_rate'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="death_rate",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

In [None]:
title = get_multi_line_title("Death Rates", "Percentage of people have died from Covid-19 per total population")
data = summary
data['death_rate2'] =  data['total_deaths']*100/data['population']
data = data.dropna(subset=['death_rate2'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="death_rate2",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

In [None]:
title = get_multi_line_title("Active Cases Rates", "The number of active cases on 2021-05-17 per population")
data = summary
data['active_cases_rate'] =  data['active_cases']*100/data['population']
data = data.dropna(subset=['active_cases_rate'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="active_cases_rate",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

In [None]:
title = get_multi_line_title("Serious Rates", "The number of serious cases per population")
data = summary
data['serious_rate'] =  data['serious_or_critical']*100/data['population']
data = data.dropna(subset=['serious_rate'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="serious_rate",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

전체 인구 수당 확진자 비율이나 사망자 비율은 아메리카/유럽/중동 지역이 높았던 것에 비해,
확진자 수 대비 사망자 비율은 아프리카 지역이 특히 높은 것을 관찰할 수 있습니다.   
아프리카 지역의 의료 시스템 미비, 혹은 코로나 치료 능력 부재를 생각해 볼 수 있습니다.  
전체 치명율, 확진률 모두에서 중동을 제외한 아시아 지역은 눈에 띄지 않았습니다.  
코로나 19의 발병과 확산은 동아시아 지역에서 시작되었지만, 초기 대응에 성공하여, 확산 1년 이상 지난 현재 시점에서는 상대적으로 코로나로 인한 피해가 적은 지역이 되었습니다. 

In [None]:
title = get_multi_line_title("Vaccinated Rates", "The number of vaccinated people per population")
data = summary
data = data.dropna(subset=['percentage_vaccinated'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="percentage_vaccinated",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

In [None]:
title = get_multi_line_title("Fully Vaccinated Rates", "The number of fully vaccinated people per population")
data = summary
data['fully_vaccintated_rate'] =  data['people_fully_vaccinated']*100/data['population']
data = data.dropna(subset=['fully_vaccintated_rate'])
fig = ex.scatter_geo(data, locations="country", color="continent",
                     locationmode='country names',
                     hover_name="country", size="fully_vaccintated_rate",
                     projection="natural earth")
fig.update_layout(title=title, title_x=0.45)
fig.show()

백신접종률은 역시 확진자율이 높았던 아메리카, 유럽, 중동 지역에서 높은 편이었습니다.  
그러나 전체 확진자수 대비 사망률, 중환자 비율이 높았던 아프리카 지역의 백신 접종이 잘 이루어지지 않고 있다는 점이 눈에 띕니다.


### 3. Covid over Time

코로나 19가 본격적으로 확산된지 1년 반이라는 긴 시간이 흘렀습니다.  
코로나 확산의 양상도 시간이 흐름에 따라 변화하였습니다.  
지금부터는 시간의 흐름에 주목하면서 데이터를 살펴보도록 하겠습니다.

In [None]:
from datetime import timedelta
import datetime as dt

In [None]:
def draw_mapplot():
    # Numerical columns of DATA
    cols_dd = ['total_confirmed', 'total_deaths','total_recovered', 'active_cases']
    # Define which trade will be visible:
    visible = np.array(cols_dd)
    
    # Define traces and buttons:
    traces = []
    buttons = []
    for value in cols_dd:
        traces.append(go.Choropleth(locations=summary['country']
                                    , locationmode='country names'
                                    , z=summary[value].astype(float)
                                    , colorbar_title=value
                                    , visible= True if value==cols_dd[0] else False
                                    , colorscale='RdBu'
                                    , reversescale=True
                                )
                    )

        buttons.append(dict(label=value
                            , method='update'
                            , args=[{'visible':list(visible==value)}
                            , {'title':f"<b>{value}</b>"}]))

    updatemenus = [{'active':0
                    ,'buttons':buttons
                }]


    # Show figure
    fig = go.Figure(data=traces,
                    layout=dict(updatemenus=updatemenus))
    # This is in order to get the first title displayed correctly
    first_title = cols_dd[0]
    fig.update_layout(title=f"<b>{first_title}</b>")

    return fig.show()

In [None]:
draw_mapplot()

In [None]:
daily = daily.dropna()

daily

In [None]:
daily.sort_values(by="date", inplace=True)

In [None]:
daily["date"] = pd.to_datetime(daily["date"], format ='%Y-%m-%d')


In [None]:
fig = ex.choropleth(daily, locations="country", 
                    color=np.log(daily["daily_new_cases"]),
                    locationmode='country names', hover_name="country", 
                    animation_frame=daily["date"].dt.strftime('%Y-%m-%d'),
                    title='Daily New Cases', color_continuous_scale=ex.colors.sequential.matter)
fig.show()

초반에는 중국 내에서 급속도로 확산되었다가, 스페인, 이탈리아를 중심으로 한 유럽-> 미국-> 브라질-> 인도 등으로 위기 지역이 시간의 흐름에 따라 변하는 것을 관찰할 수 있습니다.

In [None]:
data = vacc[['country','date','daily_vaccinations']]

In [None]:
data = data.dropna(axis=0)
data


In [None]:
data.sort_values(by='date',inplace=True)

In [None]:
data["date"] = pd.to_datetime(data["date"], format ='%Y-%m-%d')


In [None]:
fig = ex.choropleth(data, locations="country", 
                    color=np.log(data["daily_vaccinations"]),
                    locationmode='country names', hover_name="country", 
                    animation_frame = data['date'].dt.strftime('%Y-%m-%d') ,
                    title='Daily Vaccinations', color_continuous_scale=ex.colors.sequential.matter)
fig.show()

백신 접종의 양상 역시 중국과 유럽의 일부에서 시작되어 아메리카, 중동 지역으로 확산되는 것을 볼 수 있습니다.

In [None]:
summary.to_csv("summary.csv")
daily.to_csv("daily.csv")
vacc.to_csv("vacc.csv")

In [None]:
vacc.info()