<a href="https://colab.research.google.com/github/imabari/hyougo/blob/master/hyougo_excel_check.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 検査陽性者の状況

In [0]:
import pandas as pd
import datetime

In [0]:
# ファイルをダウンロード
!wget --tries=3 https://web.pref.hyogo.lg.jp/kk03/documents/yousei.xlsx -O yousei.xlsx

--2020-03-29 11:59:31--  https://web.pref.hyogo.lg.jp/kk03/documents/yousei.xlsx
Resolving web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)... 210.130.236.38
Connecting to web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)|210.130.236.38|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11750 (11K) [application/vnd.openxmlformats-officedocument.spreadsheetml.sheet]
Saving to: ‘yousei.xlsx’


2020-03-29 11:59:39 (65.8 MB/s) - ‘yousei.xlsx’ saved [11750/11750]



In [0]:
df0 = pd.read_excel("yousei.xlsx", index_col="発表年月日")

In [0]:
df0.columns = df0.columns.map(lambda s: s.replace("（累計）", "").strip())

In [0]:
df0.to_csv("yousei.tsv", sep="\t")

## 検査陽性者の状況（EXCEL）

In [0]:
df0.tail(3)

Unnamed: 0_level_0,発表時間,検査実施人数,陽性者数,入院中,中等症以下,重症,死亡,退院
発表年月日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2020-03-26,24時,2121,120,96,88,8,7,17
2020-03-27,24時,2282,123,97,91,6,9,17
2020-03-28,24時,2382,126,99,93,6,10,17


In [0]:
df0.drop("発表時間", axis=1, inplace=True)

# PCR検査数

In [0]:
# ファイルをダウンロード
!wget --tries=3 https://web.pref.hyogo.lg.jp/kk03/documents/pcr.xlsx -O pcr.xlsx

--2020-03-29 11:59:41--  https://web.pref.hyogo.lg.jp/kk03/documents/pcr.xlsx
Resolving web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)... 210.130.236.38
Connecting to web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)|210.130.236.38|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10058 (9.8K) [application/vnd.openxmlformats-officedocument.spreadsheetml.sheet]
Saving to: ‘pcr.xlsx’


2020-03-29 11:59:46 (121 MB/s) - ‘pcr.xlsx’ saved [10058/10058]



In [0]:
df1 = pd.read_excel("pcr.xlsx", index_col="年月日").fillna(0).astype(int)

In [0]:
df1.to_csv("pcr.tsv", sep="\t")

## PCR検査日別件数（直近10件）

+ 最新日付を確認
+ 陽性患者数を確認
+ 検査実施数を確認

In [0]:
# 日別
df1.tail(10)

Unnamed: 0_level_0,PCR検査件数,陽性件数
年月日,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-19,183,2
2020-03-20,124,8
2020-03-21,84,6
2020-03-22,89,4
2020-03-23,115,2
2020-03-24,133,5
2020-03-25,176,1
2020-03-26,90,1
2020-03-27,161,3
2020-03-28,100,3


## ※PCR検査累計件数（直近10件）

+ 最新日付を確認
+ 陽性患者数を確認
+ 検査実施数を確認

In [0]:
# 累計
df1.cumsum().tail(10)

Unnamed: 0_level_0,PCR検査件数,陽性件数
年月日,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-19,1310,93
2020-03-20,1434,101
2020-03-21,1518,107
2020-03-22,1607,111
2020-03-23,1722,113
2020-03-24,1855,118
2020-03-25,2031,119
2020-03-26,2121,120
2020-03-27,2282,123
2020-03-28,2382,126


## PCR検査累計と陽性累計の確認

+ yousei.xlsxとpcr.xlsの最終行をチェック

In [0]:
df0.tail(1)

Unnamed: 0_level_0,検査実施人数,陽性者数,入院中,中等症以下,重症,死亡,退院
発表年月日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-03-28,2382,126,99,93,6,10,17


In [0]:
df1.cumsum().tail(1)

Unnamed: 0_level_0,PCR検査件数,陽性件数
年月日,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-28,2382,126


# 陽性患者情報

In [0]:
import requests
from bs4 import BeautifulSoup

In [0]:
from urllib.parse import urljoin

In [0]:
url = "https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html"

In [0]:
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"
}

In [0]:
r = requests.get(url, headers=headers)

r.raise_for_status()

soup = BeautifulSoup(r.content, "html.parser")

In [0]:
tag = soup.select_one("a.icon_excel")

s = tag.get_text(strip=True)

link = urljoin(url, tag.get("href"))

## ファイル名を確認

+ ファイル名より最新ファイルか確認

In [0]:
print(link)

https://web.pref.hyogo.lg.jp/kk03/documents/0328corona_kanjya.xlsx


In [0]:
# 上記ファイルをダウンロード
!wget --tries=3 $link -O kanja.xlsx

--2020-03-29 12:04:27--  https://web.pref.hyogo.lg.jp/kk03/documents/0328corona_kanjya.xlsx
Resolving web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)... 210.130.236.38
Connecting to web.pref.hyogo.lg.jp (web.pref.hyogo.lg.jp)|210.130.236.38|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 30040 (29K) [application/vnd.openxmlformats-officedocument.spreadsheetml.sheet]
Saving to: ‘kanja.xlsx’


2020-03-29 12:04:43 (179 KB/s) - ‘kanja.xlsx’ saved [30040/30040]



In [0]:
df_tmp = pd.read_excel("kanja.xlsx", skiprows=3)

In [0]:
df_tmp.to_csv("kanaja.tsv", sep="\t")

In [0]:
df2 = df_tmp[df_tmp["番号"].notnull()].copy()

In [0]:
# 空列を削除
df2.dropna(how="all", axis=1, inplace=True)

In [0]:
df2.columns = df2.columns.map(lambda s: s.replace("\n", ""))

In [0]:
df2["番号"] = df2["番号"].astype("int64")
df2["年代"] = df2["年代"].astype("int64")

In [0]:
df2["確認日"] = df2["確認日"].apply(lambda date: pd.to_datetime(date, unit='D', origin=pd.Timestamp('1899/12/30')))

In [0]:
df2["備考欄"] = df2["備考欄"].str.replace("\n", "")

In [0]:
df2.set_index("番号", inplace=True)

## ※陽性患者数集計（累計）

+ 陽性患者の属性の累計を確認

In [0]:
len(df2)

126

## ※陽性患者数集計（日別）

+ 最新日付を確認
+ 陽性患者数を確認

In [0]:
df2["確認日"].value_counts().sort_index().reset_index().tail(10)

Unnamed: 0,index,確認日
16,2020-03-19,1
17,2020-03-20,8
18,2020-03-21,6
19,2020-03-22,4
20,2020-03-23,2
21,2020-03-24,5
22,2020-03-25,1
23,2020-03-26,1
24,2020-03-27,3
25,2020-03-28,3


In [0]:
# 確認用
df1.tail(10)

Unnamed: 0_level_0,PCR検査件数,陽性件数
年月日,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-19,183,2
2020-03-20,124,8
2020-03-21,84,6
2020-03-22,89,4
2020-03-23,115,2
2020-03-24,133,5
2020-03-25,176,1
2020-03-26,90,1
2020-03-27,161,3
2020-03-28,100,3


## 陽性患者の属性（10件）

+ Noを最大値を確認（陽性患者数の合計と一致）
+ 陽性患者の属性を確認
+ 陽性患者数が10件以上の場合は20人に変更　head(20)、tail(20)に変更

In [0]:
# 降順の場合
df2.loc[:, ["確認日", "居住地", "年代", "性別", "備考欄"]].head(10)

Unnamed: 0_level_0,確認日,居住地,年代,性別,備考欄
番号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
126,2020-03-28,宝塚市,30,男性,オランダからの帰国者
125,2020-03-28,伊丹健康福祉事務所管内,50,男性,大阪府が3月26日に公表した患者(40代男性・会社員・大阪市居住)の濃厚接触者
124,2020-03-28,姫路市,40,男性,行動歴調査中
123,2020-03-27,東京都,30,女性,行動歴調査中
122,2020-03-27,神戸市,10,女性,海外からの帰国者
121,2020-03-27,神戸市,50,女性,行動歴調査中
120,2020-03-26,伊丹市,70,女性,NO.22介護老人保健施設グリーンアルス伊丹デイケア利用者の濃厚接触者
119,2020-03-25,宝塚市,20,女性,NO.27、64、77、78宝塚第一病院患者の濃厚接触者
118,2020-03-24,西宮市,80,男性,行動歴調査中
117,2020-03-24,西宮市,20,男性,NO.21に救急外来当直として対応


## ※年代集計

+ 年代別陽性患者数の確認

In [0]:
df2["年代"].value_counts().sort_index()

10     1
20     8
30     7
40    22
50    24
60     8
70    24
80    29
90     3
Name: 年代, dtype: int64

## クラスタ確認（Excelより抽出）

+ クラスター別陽性患者数の確認

In [0]:
df3 = df_tmp[df_tmp["番号"].isnull()].copy()

# 空列を削除
df3.dropna(how='all', axis=1, inplace=True)

In [0]:
df3

Unnamed: 0,備考欄,認定こども園,北播磨医療センター,宝塚第一病院,仁恵\n病院,グリーンアルス,介護保険通所事業所,Unnamed: 17,ライブ関係,海外\n渡航者,その他,不明,Unnamed: 22
126,延べ人数,8.0,5.0,8.0,14.0,51.0,7.0,0.0,13.0,10.0,3.0,11.0,
127,うち重複,,,1.0,,1.0,3.0,,3.0,,,,）
128,退院,,,,,,,,,,,,
129,入院中（重症）,,,,,,,,,,,,
130,死亡,,,,,,,,,,,,
131,入院中(中等症以下),,,,,,,,,,,,


## ※クラスタ集計

+ クラスター別陽性患者数の確認

In [0]:
# クラスタのみを抽出
df4 = df2.loc[:, "認定こども園":].copy()

# クラスタ別にカウント
df4.notnull().sum()

認定こども園        8
北播磨医療センター     5
宝塚第一病院        8
仁恵病院         14
グリーンアルス      51
介護保険通所事業所     7
ライブ関係        13
海外渡航者        10
その他           3
不明           11
dtype: int64

## 該当なし

In [0]:
df4.isnull().all(axis=1).sum()

0

## ※重複者集計

+ クラスタ別陽性患者数の確認

In [0]:
# クラスタの〇の数をカウントして2箇所以上の人をカウント
duplication = df4.notnull().sum(axis=1) > 1
duplication.sum()

4