# データ・サイエンス	データ・サイエンス社会応用論 / ICT社会応用演習Ⅳ
## 9-3. 交通事故統計情報の分析（山形県内日次集計）

### 1. 下準備
#### 1-a) ライブラリのインポート

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime, timedelta
import jpholiday
import japanize_matplotlib

#### 1-b) 交通事故統計情報の読み込み

In [2]:
df_accident1 = pd.read_csv('data/accident/honhyo_2019.csv', encoding='SHIFT-JIS')
df_accident2 = pd.read_csv('data/accident/honhyo_2020.csv', encoding='SHIFT-JIS')
df_accident3 = pd.read_csv('data/accident/honhyo_2021.csv', encoding='SHIFT-JIS')

df_accident = pd.concat([df_accident1, df_accident2, df_accident3])
df_accident['年月日'] = pd.to_datetime({
    'year' : df_accident['発生日時　　年'], 'month' : df_accident['発生日時　　月'],
    'day' : df_accident['発生日時　　日']
})
df_accident

Unnamed: 0,資料区分,都道府県コード,警察署等コード,本票番号,事故内容,死者数,負傷者数,路線コード,上下線,地点コード,...,エアバッグの装備（当事者B）,サイドエアバッグの装備（当事者A）,サイドエアバッグの装備（当事者B）,人身損傷程度（当事者A）,人身損傷程度（当事者B）,地点　緯度（北緯）,地点　経度（東経）,曜日(発生年月日),祝日(発生年月日),年月日
0,1,10,59,1,2,0,1,40030,2,0,...,2,2,2,4,4,431412959,1414947029,6,3,2018-12-28
1,1,10,59,2,2,0,2,40020,2,0,...,2,2,2,4,4,425706029,1413039991,1,3,2019-01-06
2,1,10,59,3,2,0,1,50020,1,0,...,2,2,2,4,4,424115557,1414158530,3,3,2018-12-18
3,1,10,59,4,2,0,1,40020,2,0,...,1,2,2,4,2,425647051,1413100440,7,3,2019-01-05
4,1,10,59,5,2,0,1,40140,2,0,...,2,2,2,4,2,425606992,1420518034,2,2,2018-12-31
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
305191,1,97,114,166,2,0,4,33410,0,0,...,1,2,2,2,2,261031432,1273909676,6,3,2021-12-10
305192,1,97,114,167,2,0,1,33410,0,0,...,2,2,2,4,2,260918133,1274003673,4,3,2021-12-15
305193,1,97,114,168,2,0,1,10070,0,0,...,2,2,2,4,2,261022159,1274124558,4,3,2021-12-22
305194,1,97,114,169,2,0,1,33410,0,0,...,0,2,0,4,2,260955144,1273944244,6,3,2021-12-24


#### 1-c) 山形県内の2019年1月1日以降のデータの抽出

In [3]:
df_accident_yamagata = df_accident[df_accident['都道府県コード'] == FILL_IN_HERE]
df_accident_yamagata = df_accident_yamagata[df_accident_yamagata['年月日'] >= datetime(2019, 1, 1)]
df_accident_yamagata

NameError: name 'FILL_IN_HERE' is not defined

#### 1-d) 日毎の集計

In [None]:
df_accident_yamagata_daily = df_accident_yamagata.groupby(['年月日'], as_index=False)[['死者数', '負傷者数']].sum()
df_accident_yamagata_daily

#### 1-e) 気象データの読み込み

In [None]:
df_weather = pd.read_csv('data/weather/weather_yamagata.csv', encoding='SHIFT-JIS', header=2)
df_weather = df_weather.drop([0,1]).reset_index(drop=True)
df_weather['年月日'] = pd.to_datetime(df_weather['年月日'])
df_weather

#### 1-f) 事故データと天候データの結合

In [None]:
df_accident_weather = pd.merge(df_accident_yamagata_daily, df_weather, on='年月日', how='right').fillna(0)
df_accident_weather

#### 1-g) 曜日と休日の追加

In [None]:
df_accident_weather['曜日'] = df_accident_weather['年月日'].dt.weekday
df_accident_weather['祝日'] = df_accident_weather['年月日'].dt.date.map(jpholiday.is_holiday).astype(int)
df_accident_weather

### 2. 負傷者数の分析
#### 2-a) 傷者数と死者数の推移の可視化

In [None]:
df_accident_weather.plot(x='年月日', y=['負傷者数', '死者数'], figsize=(20,4))
plt.show()

#### 2-b) 曜日と負傷者数の関係の可視化

In [None]:
df_accident_weather.groupby('曜日')['負傷者数'].describe()

In [None]:
df_accident_weather.boxplot('負傷者数', '曜日')
plt.tight_layout()
plt.show()

#### 2-c) 移動平均の算出

In [None]:
df_accident_weather['負傷者数_移動平均'] = df_accident_weather['負傷者数'].rolling(7).mean()
df_accident_weather['死者数_移動平均'] = df_accident_weather['死者数'].rolling(7).mean()
df_accident_weather

#### 2-d) 負傷者数および死者数の移動平均の推移の可視化

In [None]:
df_accident_weather.plot(x='年月日', y=['負傷者数_移動平均', '死者数_移動平均'], figsize=(20,4))
plt.show()

### 3. 気象データと組み合わせた分析
#### 3-a) データの絞り込み

In [None]:
df_accident_weather_2019 = df_accident_weather[df_accident_weather['年月日'] <= datetime(2019, 12, 31)]
df_accident_weather_2019

#### 3-b) 降雪・降雨と負傷者数の関係

In [None]:
df_accident_weather_2019.plot.scatter('降雪量合計(cm)', '負傷者数')
plt.show()

In [None]:
df_accident_weather_2019.plot.scatter('最深積雪(cm)', '負傷者数')
plt.show()

In [None]:
df_accident_weather_2019.plot.scatter('降水量の合計(mm)', '負傷者数')
plt.show()

In [None]:
df_accident_weather_2019[['降雪量合計(cm)', '最深積雪(cm)', '降水量の合計(mm)', '負傷者数']].corr()

#### 3-c) 冬季データへの絞り込み

In [None]:
df_accident_weather_winter = df_accident_weather_2019[(df_accident_weather_2019['年月日'] < datetime(2019,5,1)) | (df_accident_weather_2019['年月日'] >= datetime(2019,12,1)) ]
df_accident_weather_winter

In [None]:
df_accident_weather_winter.plot.scatter('降雪量合計(cm)', '負傷者数')
plt.show()

In [None]:
df_accident_weather_winter[['降雪量合計(cm)', '最深積雪(cm)', '降水量の合計(mm)', '負傷者数']].corr()

#### 3-c) 降雪がある時の統計量の確認

In [None]:
df_accident_weather_nosnow = df_accident_weather_winter[df_accident_weather_winter['降雪量合計(cm)'] == 0]['負傷者数']
df_accident_weather_nosnow.describe()

#### 3-d) 降雪がある時の統計量の確認

In [None]:
df_accident_weather_snow = df_accident_weather_winter[df_accident_weather_winter['降雪量合計(cm)'] > 0]['負傷者数']
df_accident_weather_snow.describe()