# Traffic Accident Data Analysis
## 1. 소개
[공공 데이터 포털](https://www.data.go.kr/tcs/dss/selectDataSetList.do?dType=FILE&keyword=&detailKeyword=&publicDataPk=&recmSe=&detailText=&relatedKeyword=&commaNotInData=&commaAndData=&commaOrData=&must_not=&tabId=&dataSetCoreTf=&coreDataNm=&sort=inqireCo&relRadio=&orgFullName=&orgFilter=&org=&orgSearch=&currentPage=1&perPage=10&brm=&instt=&svcType=&kwrdArray=&extsn=&coreDataNmArray=&pblonsipScopeCode=)에서 제공하는 교통 사고 관련 데이터를 분석화하고 시각화 해본 프로젝트

## 2. 이용 데이터
- [도로교통공단_사고유형별 교통사고 통계](https://www.data.go.kr/data/15070282/fileData.do)
- [도로교통공단_가해운전자 연령층별 월별 교통사고 통계](https://www.data.go.kr/data/15070199/fileData.do)
- [도로교통공단_월별 교통사고 통계](https://www.data.go.kr/data/15070315/fileData.do)
- [도로교통공단_사상자 연령층별 성별 교통사고 통계](https://www.data.go.kr/data/15070293/fileData.do)

파일 이름을보면 2020년에 발생한 교통사고에 대한 자료인거 같다.

다양한 종류의 교통 사고 관련 데이터가 있지만, 위의 4개의 데이터를 이용할 예정  
공공포털에서 API를 제공하고 있지만, CSV 파일이 좀 더 이용하기 편해서 파일을 다운 받아 이용  
-> 이후에 API로 변경 될 수 있음

## 3. 목표
1. 각각의 데이터 셋에 대한 분석 및 시각화
2. 공통 항목을 가진 하나의 데이터 셋 생성
3. 종합된 데이터 셋에 대한 분석 및 시각화

## 4. 구현

### 1. 각 데이터 셋 분석 및 시각화

In [4]:
import pandas as pd
import numpy as np

#### 1. 사고 유형별 교통사고 통계

In [19]:
df_accident_type = pd.read_csv("data/도로교통공단_사고유형별 교통사고 통계_20201231.csv", encoding="cp949")

In [32]:
df_accident_type.sample(5)

Unnamed: 0,사고유형대분류,사고유형중분류,사고유형,사고건수,사망자수,중상자수,경상자수,부상신고자수
1,차대사람,차도통행중,차도통행중,3702,195,1423,2022,209
10,차량단독,전도,전도,1108,90,412,466,281
15,차량단독,도로이탈,도로이탈 기타,199,30,113,113,24
0,차대사람,횡단중,횡단중,13147,520,6417,6617,517
14,차량단독,도로이탈,도로이탈 추락,413,92,185,203,46


In [26]:
df_accident_type.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   사고유형대분류  18 non-null     object
 1   사고유형중분류  18 non-null     object
 2   사고유형     18 non-null     object
 3   사고건수     18 non-null     int64 
 4   사망자수     18 non-null     int64 
 5   중상자수     18 non-null     int64 
 6   경상자수     18 non-null     int64 
 7   부상신고자수   18 non-null     int64 
dtypes: int64(5), object(3)
memory usage: 1.2+ KB


In [27]:
df_accident_type.describe()

Unnamed: 0,사고건수,사망자수,중상자수,경상자수,부상신고자수
count,18.0,18.0,18.0,18.0,18.0
mean,11647.444444,171.166667,3364.666667,12557.555556,1088.555556
std,20111.93173,166.787025,5224.452395,24522.276934,1924.121472
min,3.0,1.0,0.0,3.0,0.0
25%,586.75,27.0,213.0,268.75,66.75
50%,3243.0,111.0,996.0,1883.5,245.0
75%,11733.75,299.25,4810.5,8005.25,674.75
max,74742.0,520.0,19893.0,88838.0,6945.0


#### 2. 가해 운전자 연령층별 월별 교통사고 통계

In [22]:
df_age_agg_driver_month = pd.read_csv("data/도로교통공단_가해운전자 연령층별 월별 교통사고 통계_12_31_2020.csv", encoding="cp949")

In [23]:
df_age_agg_driver_month.sample(5)

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
47,41-50세,12,3020,27,875,3145,257
73,65세이상,2,2167,40,670,2174,167
11,20세이하,12,534,5,131,543,78
31,31-40세,8,2604,30,735,2965,263
38,41-50세,3,2762,35,786,3010,217
66,61-64세,7,1549,26,448,1710,131
63,61-64세,4,1394,21,395,1530,106
1,20세이하,2,480,6,160,480,88
91,불명,8,266,0,28,181,79
5,20세이하,6,644,14,206,612,132


In [33]:
df_age_agg_driver_month.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   가해자연령층  96 non-null     object
 1   발생월     96 non-null     int64 
 2   사고건수    96 non-null     int64 
 3   사망자수    96 non-null     int64 
 4   중상자수    96 non-null     int64 
 5   경상자수    96 non-null     int64 
 6   부상신고자수  96 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 5.4+ KB


In [35]:
df_age_agg_driver_month.describe()

Unnamed: 0,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
count,96.0,96.0,96.0,96.0,96.0,96.0
mean,6.5,2183.895833,32.09375,630.875,2354.541667,204.104167
std,3.470174,1249.358627,21.520163,375.070022,1398.183513,91.53906
min,1.0,233.0,0.0,28.0,164.0,59.0
25%,3.75,1123.75,14.75,334.75,1166.0,114.0
50%,6.5,2502.5,32.0,717.5,2671.5,229.5
75%,9.25,2928.0,47.25,875.75,3193.0,283.0
max,12.0,4555.0,84.0,1357.0,5005.0,381.0


#### 3. 월별 교통사고 통계

In [15]:
df_monthly = pd.read_csv("data/도로교통공단_월별 교통사고 통계_20201231.csv", encoding="cp949")

In [16]:
df_monthly.sample(5)

Unnamed: 0,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
9,10,19255,309,5554,20900,1736
3,4,16186,213,4844,17459,1478
4,5,18184,254,5470,19563,1758
8,9,18124,301,5194,19001,1644
2,3,14949,239,4356,16155,1312
7,8,17616,295,5123,19410,1731
11,12,16330,216,4381,17121,1457
10,11,18438,261,5295,19832,1571
5,6,19017,254,5614,20436,1830
6,7,18302,240,5207,19933,1829


In [36]:
df_monthly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   발생월     12 non-null     int64
 1   사고건수    12 non-null     int64
 2   사망자수    12 non-null     int64
 3   중상자수    12 non-null     int64
 4   경상자수    12 non-null     int64
 5   부상신고자수  12 non-null     int64
dtypes: int64(6)
memory usage: 704.0 bytes


In [37]:
df_monthly.describe()

Unnamed: 0,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
count,12.0,12.0,12.0,12.0,12.0,12.0
mean,6.5,17471.166667,256.75,5047.0,18836.333333,1632.833333
std,3.605551,1318.657019,32.990701,444.717888,1466.32195,160.168567
min,1.0,14949.0,213.0,4356.0,16155.0,1312.0
25%,3.75,16318.75,234.75,4748.75,17512.25,1543.25
50%,6.5,17870.0,254.0,5158.5,19205.5,1663.5
75%,9.25,18336.0,281.5,5338.75,19857.25,1741.5
max,12.0,19255.0,309.0,5614.0,20900.0,1830.0


#### 4. 사상자 연령층별 성별 교통사고 통계

In [24]:
df_age_gender = pd.read_csv("data/도로교통공단_사상자 연령층별 성별 교통사고 통계_20201231.csv", encoding="cp949")

In [25]:
df_age_gender.sample(5)

Unnamed: 0,사상자연령층,사상자성별,사망자수,중상자수,경상자수,부상신고자수
8,41-50세,남,264,6597,25066,2059
0,12세이하,남,12,735,4597,637
3,13-20세,여,11,784,4132,370
5,21-30세,여,45,2266,15676,1042
6,31-40세,남,196,6214,28270,2258
7,31-40세,여,25,2100,14765,884
15,65세이상,남,852,7380,14103,1659
11,51-60세,여,124,4842,16626,944
14,65세이상,기타/불명,0,0,0,0
10,51-60세,남,426,7213,24731,2164


In [38]:
df_age_gender.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사상자연령층  20 non-null     object
 1   사상자성별   20 non-null     object
 2   사망자수    20 non-null     int64 
 3   중상자수    20 non-null     int64 
 4   경상자수    20 non-null     int64 
 5   부상신고자수  20 non-null     int64 
dtypes: int64(4), object(2)
memory usage: 1.1+ KB


In [39]:
df_age_gender.describe()

Unnamed: 0,사망자수,중상자수,경상자수,부상신고자수
count,20.0,20.0,20.0,20.0
mean,154.05,3028.2,11301.8,979.7
std,217.78707,2715.311877,9765.09374,872.628522
min,0.0,0.0,0.0,0.0
25%,11.75,649.5,4019.25,356.75
50%,57.5,2183.0,8274.5,791.0
75%,204.0,5842.0,15914.25,1521.75
max,852.0,7380.0,29486.0,3068.0


### 2. 공통 항목을 가진 하나의 데이터 셋 생성
월별 교통사고 통계를 기본 데이터로해서, 다른 데이터들을 연관 데이터로 사용하면 좋을꺼 같다는 생각으로 4가지 데이터를 이용했다.  

### 3. 종합된 데이터 셋에 대한 분석 및 시각화