## **本ノートブックの内容**

- 時系列データの取得
- 時系列データの期間指定
- 時系列データの比較

In [None]:
import json
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import datetime as dt

pd.set_option('display.max_columns', None) # pandasオプション：列データを全て表示

# データフレームdfにOur World in Dataのデータを読み込む
df = pd.read_json("https://covid.ourworldindata.org/data/owid-covid-data.json")
df = df[df.columns.drop(list(df.filter(regex='OWID')))] # OWIDデータを除外

In [None]:
# 解析対象の国名コードを指定
country_code1 = 'USA'

# 国のデータをcountry1へ格納
country1 = pd.DataFrame(df[country_code1]['data'])
country1['date'] = pd.to_datetime(country1['date']) # 日付フォーマットを一括変換
country1.set_index('date',inplace = True) # dateをindexに設定

# 日にちデータの表示
country1

# 行に日にち，列にデータ名となっていることを確認せよ

In [None]:
# country1が有するcolumn情報の確認
country1.info()

In [None]:
# データの可視化
# y軸に'new_cases'（新規感染者数）
country1.plot(y='new_cases')

In [None]:
# このテーブルではrow名（行名）に日にち（datetime形式）を採用している
country1.index

In [None]:
# （データベースは一度さておき...）datetime形式について
# 日にちはdatetime形式で書かれており，日時の情報を保持する便利な形式
print('1st date:', country1.index[100])
print('2nd date:', country1.index[107])

In [None]:
# year・month・dayと付すと年月日を配列形式で取得できる
country1.index.year

In [None]:
# 差分を計算することもできる
print('difference:', country1.index[107] - country1.index[100])
print('difference:', (country1.index[107] - country1.index[100]).days) # 日にちの差分のみ表示したい場合 .days を付す

In [None]:
# 複数のデータを比べたいとき
# 備考：列名に'smoothed'と付く場合は7日間平均
key1 = 'new_cases'
key2 = 'new_cases_smoothed'
blue = '#1f77b4'
orange = '#ff7f0e'

# keyの時系列データの表示
ax = country1.plot(y=key1, c=blue, label=key1)
country1.plot(y=key2, ax=ax, c=orange, label=key2)

In [None]:
# 複数のデータを比べたいとき，2項目の桁数が異なり比較しにくい場合：
# 2つ目の項目の軸を右側に設定することにより比較すると良い
key1 = 'new_cases'
key2 = 'new_deaths'
blue = '#1f77b4'
orange = '#ff7f0e'

# keyの時系列データの表示
ax1 = country1.plot(y=key1, c=blue, legend=False)
ax2 = ax1.twinx() # ax2はx軸を共有するが，y軸は右側を使う
country1.plot(y=key2, ax=ax2, c=orange, legend=False)

ax1.set_ylabel(key1, color=blue)
ax2.set_ylabel(key2, color=orange)
plt.show()

In [None]:
# 範囲指定
# datetime形式で開始・終了の日にちを定める
date_from = dt.datetime(2021, 10, 1)
date_to = dt.datetime(2022, 4, 1)

# dfの中から該当部分だけを抜き出し，そのまま可視化する
country1[(date_from < country1.index) & (country1.index < date_to)].plot(y='new_cases_smoothed')

In [None]:
# 複数国の比較
# 二国目を追加
country_code2 = 'FRA'

# 国のデータをcountry2へ格納
country2= pd.DataFrame(df[country_code2]['data'])
country2['date'] = pd.to_datetime(country2['date']) # 日付フォーマットを一括変換
country2.set_index('date',inplace = True) # dateをindexに設定

ax = country1.plot(y='new_cases', label=country_code1)
country2.plot(y='new_cases', ax=ax, label=country_code2)

In [None]:
# 年ごとのデータの抽出
df2020 = country1[country1.index.year == 2020]
df2021 = country1[country1.index.year == 2021]
df2022 = country1[country1.index.year == 2022]
df2023 = country1[country1.index.year == 2023]

# 新規死者数(new_deaths)について色分けして表示
key = 'new_deaths'
ax = df2020.plot(y=key, label='2020')
df2021.plot(y=key, ax=ax, label='2021')
df2022.plot(y=key, ax=ax, label='2022')
df2023.plot(y=key, ax=ax, label='2023')

In [None]:
# 上のグラフについて，各年の同時期の感染傾向を比較したい...
# ただ，datetime形式に年の情報がついているため，横軸に月・日のみで描くことができない

# 仕方ないので，indexのdatetimeの情報のうち，月・日だけを抜き出し新たに'day'と呼ばれるcolumnの作成
country1['day'] = country1.index.strftime('%m-%d')

# 年ごとのデータを改めて抽出
df2020 = country1[country1.index.year == 2020]
df2021 = country1[country1.index.year == 2021]
df2022 = country1[country1.index.year == 2022]
df2023 = country1[country1.index.year == 2023]

# 新規死者数(new_deaths)について色分けして表示
# ただし，x軸は'day'
key = 'new_deaths_smoothed'
ax = df2020.plot(x='day', y=key, label='2020')
df2021.plot(x='day', y=key, ax=ax, label='2021')
df2022.plot(x='day', y=key, ax=ax, label='2022')
df2023.plot(x='day', y=key, ax=ax, label='2023')

#### **Q4-1**． 日本のデータについて：記録上の最初の日付と，最後の日の日付はいつか．また最初・最後の間の日数をカウントせよ．

In [50]:
# A4-1


#### **Q4-2**． 日本のデータについて：新規感染者数（new_cases）は何日前からデータが存在するか

In [49]:
# A4-2


#### **Q4-3**． 日本のデータについて：左軸に新規感染者数（7日間平均），右軸に新規ワクチン接種数（7日間平均）をとりグラフとして可視化せよ

In [48]:
# A-3


#### **Q4-4**． 日本のデータについて：第7波（R4.7.1～R4.9.30; 厚生労働省定義）のデータを抜き出して，新規感染者数を可視化せよ

In [47]:
# A4-4


#### **Q4-5**． 日本のデータについて：第7波（R4.7.1～R4.9.30; 厚生労働省定義）の時系列データより，この時期の総感染者数を算出せよ
ヒント：対象の列に対する総和を求めるには `df['column_name'].sum()`

In [46]:
# A4-5


#### **Q4-6**． 日本の他に一つ国を選び，総感染者数('total_cases')を同じグラフに描き推移を比較せよ

In [44]:
# A4-6


#### **Q4-7**． 日本のデータについて：2020-2023年の月・日の新規感染者数のデータを重ねて表示し，季節ごとの傾向があるかを確認せよ

In [43]:
# A4-7


#### **Q4-8**． 難：Q4-6と同じように2カ国の総感染者数の推移をグラフで可視化せよ．ただし，縦軸は総感染者数を総人口で割った割合とする
ヒント：ある列に係数coeffを掛けたいから表示したいとき，次のような操作ができる `(df['column_name']*coeff).plot()`

In [None]:
# A4-8


#### **Q4-9**． 難：次のURLの定義に従って以下の問に答えよ．https://www.mhlw.go.jp/content/10900000/001010896.pdf
1. 第3波・第5波・第6波・第7波の期間をdataframeとしてそれぞれ抽出し，総感染者数を比較せよ
2. 日本の全期間の新規感染者数のグラフを表示した上で，第3波・第5波・第6波・第7波に該当する線を色を変えて可視化せよ
3. 難：横軸に波の開始からの経過日，縦軸に総感染者数を表示し，4つの波に類似性があるか比較せよ

In [None]:
# A4-9
