## 사고유형별 고통사고 통계

In [1]:
# 사용 패키지 불러오기
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# 코랩에서 구글드라이브 마운트하여 데이터 불러오기
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# 내 드라이브 내의 파일을 불러올 때 경로 /content/drive/My Drive/를 앞에 붙여주기
# encoding='utf-8'이 안될 때는 encoding='CP949' 사용.
monthly_traffic = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/DATA/2019 monthly teaffic.csv', encoding='CP949')
monthly_traffic.head()

Unnamed: 0,사고유형대분류,사고유형중분류,사고유형,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,차대사람,횡단중,횡단중,1,1532,69,841,650,61
1,차대사람,횡단중,횡단중,2,1201,40,599,594,39
2,차대사람,횡단중,횡단중,3,1453,47,736,709,61
3,차대사람,횡단중,횡단중,4,1604,55,778,783,73
4,차대사람,횡단중,횡단중,5,1516,61,751,715,85


In [4]:
# 데이터 타입 확인
type(monthly_traffic)

pandas.core.frame.DataFrame

In [5]:
# 데이터 프레임 개요
monthly_traffic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210 entries, 0 to 209
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   사고유형대분류  210 non-null    object
 1   사고유형중분류  210 non-null    object
 2   사고유형     210 non-null    object
 3   월        210 non-null    int64 
 4   사고건수     210 non-null    int64 
 5   사망자수     210 non-null    int64 
 6   중상자수     210 non-null    int64 
 7   경상자수     210 non-null    int64 
 8   부상신고자수   210 non-null    int64 
dtypes: int64(6), object(3)
memory usage: 14.9+ KB


In [6]:
# 컬럼 명 확인
monthly_traffic.columns

Index(['사고유형대분류', '사고유형중분류', '사고유형', '월', '사고건수', '사망자수', '중상자수', '경상자수',
       '부상신고자수'],
      dtype='object')

In [7]:
# 행의 개수와 열의 개수 출력
print(monthly_traffic.shape)

(210, 9)


In [8]:
# 컬럼별 타입, 통계값 확인
monthly_traffic.dtypes

사고유형대분류    object
사고유형중분류    object
사고유형       object
월           int64
사고건수        int64
사망자수        int64
중상자수        int64
경상자수        int64
부상신고자수      int64
dtype: object

In [9]:
# isnull()를 이용해 컬럼별 NAN 값의 개수 확인
# 만약에 있다면 제거는 monthly_traffic.dropna()
monthly_traffic.isnull().sum()

사고유형대분류    0
사고유형중분류    0
사고유형       0
월          0
사고건수       0
사망자수       0
중상자수       0
경상자수       0
부상신고자수     0
dtype: int64

In [10]:
# 내용 확인
monthly_traffic.values

array([['차대사람', '횡단중', '횡단중', ..., 841, 650, 61],
       ['차대사람', '횡단중', '횡단중', ..., 599, 594, 39],
       ['차대사람', '횡단중', '횡단중', ..., 736, 709, 61],
       ...,
       ['철길건널목', '철길건널목', '철길건널목', ..., 1, 0, 0],
       ['철길건널목', '철길건널목', '철길건널목', ..., 0, 0, 0],
       ['철길건널목', '철길건널목', '철길건널목', ..., 3, 4, 0]], dtype=object)

In [11]:
# 분포 확인
monthly_traffic.describe()

Unnamed: 0,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
count,210.0,210.0,210.0,210.0,210.0,210.0
mean,6.490476,1093.333333,15.947619,344.314286,1169.161905,113.72381
std,3.446433,1795.046438,16.75869,509.755065,2206.42324,196.304494
min,1.0,1.0,0.0,0.0,0.0,0.0
25%,3.25,42.0,2.25,22.5,19.25,7.0
50%,6.5,293.5,10.0,120.0,200.5,25.0
75%,9.0,1448.5,24.75,536.75,780.75,80.75
max,12.0,7806.0,69.0,2313.0,9222.0,836.0


In [12]:
# 요청 컬럼만 Series로 출력
monthly_traffic['사고유형중분류']

0        횡단중
1        횡단중
2        횡단중
3        횡단중
4        횡단중
       ...  
205    철길건널목
206    철길건널목
207    철길건널목
208    철길건널목
209    철길건널목
Name: 사고유형중분류, Length: 210, dtype: object

In [13]:
# 행의 범위를 지정해서 출력
monthly_traffic[0:3]

Unnamed: 0,사고유형대분류,사고유형중분류,사고유형,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,차대사람,횡단중,횡단중,1,1532,69,841,650,61
1,차대사람,횡단중,횡단중,2,1201,40,599,594,39
2,차대사람,횡단중,횡단중,3,1453,47,736,709,61


In [14]:
# 범위를 특정해서 데이터 확인
monthly_traffic.loc[:,['월', '사고건수']]

Unnamed: 0,월,사고건수
0,1,1532
1,2,1201
2,3,1453
3,4,1604
4,5,1516
...,...,...
205,6,1
206,7,1
207,8,1
208,9,1


In [15]:
# 행과 열의 번호를 이용해 데이터에 바로 접근
# iloc[행, 열]
monthly_traffic.iloc[3]

사고유형대분류    차대사람
사고유형중분류     횡단중
사고유형        횡단중
월             4
사고건수       1604
사망자수         55
중상자수        778
경상자수        783
부상신고자수       73
Name: 3, dtype: object

In [16]:
# 표준편차 확인
monthly_traffic.std()

월            3.446433
사고건수      1795.046438
사망자수        16.758690
중상자수       509.755065
경상자수      2206.423240
부상신고자수     196.304494
dtype: float64

In [17]:
# by로 지정된 컬럼을 기준으로 정렬
# ascending = 내림차순, 오름차순 정렬
monthly_traffic.sort_values(by='월', ascending=True)

Unnamed: 0,사고유형대분류,사고유형중분류,사고유형,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,차대사람,횡단중,횡단중,1,1532,69,841,650,61
132,차량단독,전복,전복,1,16,3,7,9,2
120,차량단독,전도,전도,1,35,5,8,12,13
156,차량단독,주/정차차량 충돌,주/정차차량 충돌,1,3,0,2,2,0
108,차대차,기타,기타,1,3359,26,923,3762,395
...,...,...,...,...,...,...,...,...,...
166,차량단독,주/정차차량 충돌,주/정차차량 충돌,12,3,0,1,1,1
95,차대차,후진중충돌,후진중충돌,12,240,0,26,280,12
35,차대사람,길가장자리구역통행중,길가장자리구역통행중,12,223,6,60,151,16
190,차량단독,도로이탈,도로이탈 기타,12,8,1,4,3,0


In [18]:
# 월 별 사고건수 데이터 생성
month=monthly_traffic[['월','사고건수']]
month.head()

Unnamed: 0,월,사고건수
0,1,1532
1,2,1201
2,3,1453
3,4,1604
4,5,1516


In [19]:
# 월별 사고건수 데이터 행렬 축 변경
month.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,170,171,172,173,174,175,176,177,178,179,180,181,182,183,184,185,186,187,188,189,190,191,192,193,194,195,196,197,198,199,200,201,202,203,204,205,206,207,208,209
월,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,...,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,2,3,6,7,8,9,10
사고건수,1532,1201,1453,1604,1516,1364,1399,1372,1516,1716,1798,1630,353,329,419,387,421,353,364,376,390,444,487,442,210,207,283,237,216,187,182,218,239,247,256,223,175,161,200,195,...,41,48,31,32,42,38,42,34,29,16,12,17,26,19,19,13,22,15,21,12,8,298,239,340,338,403,405,406,422,428,474,395,361,1,1,1,1,1,1,2


In [20]:
# 월 기준으로 정렬
month=month.sort_values(by = ['월','사고건수'])
month.head()

Unnamed: 0,월,사고건수
156,1,3
132,1,16
179,1,16
167,1,33
120,1,35


In [24]:
# 월을 기준으로 group 화
x = month.groupby("월")
x

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc3aa6dd6a0>

In [25]:
# 데이터 분리
x.groups

{1: [156, 132, 179, 167, 120, 84, 36, 24, 144, 191, 12, 60, 48, 0, 96, 108, 72], 2: [203, 157, 180, 133, 168, 121, 37, 25, 85, 145, 192, 13, 61, 49, 1, 97, 109, 73], 3: [204, 158, 181, 134, 169, 122, 38, 86, 26, 146, 193, 14, 62, 50, 2, 98, 110, 74], 4: [159, 135, 182, 170, 123, 39, 27, 87, 147, 194, 15, 63, 51, 3, 99, 111, 75], 5: [160, 136, 183, 171, 124, 40, 28, 88, 148, 195, 16, 64, 4, 52, 100, 112, 76], 6: [205, 161, 184, 137, 172, 125, 41, 29, 89, 149, 17, 196, 65, 5, 53, 101, 113, 77], 7: [206, 162, 185, 138, 173, 126, 30, 42, 90, 150, 18, 197, 66, 6, 54, 102, 114, 78], 8: [207, 139, 186, 174, 127, 43, 31, 91, 151, 19, 198, 67, 7, 55, 103, 115, 79], 9: [208, 163, 187, 140, 175, 128, 44, 32, 92, 152, 20, 199, 68, 8, 56, 104, 116, 80], 10: [209, 164, 141, 188, 176, 129, 45, 33, 93, 153, 21, 200, 69, 9, 57, 105, 117, 81], 11: [165, 142, 189, 177, 130, 46, 34, 154, 94, 201, 22, 70, 58, 10, 106, 118, 82], 12: [166, 190, 143, 178, 131, 47, 35, 95, 155, 202, 23, 71, 11, 59, 107, 119, 8

In [26]:
# 각 데이터 갯 수 확인
x.count()

Unnamed: 0_level_0,사고건수
월,Unnamed: 1_level_1
1,17
2,18
3,18
4,17
5,17
6,18
7,18
8,17
9,18
10,18


In [33]:
monthly_traffic['사고건수'].mean()

1093.3333333333333

In [42]:
# 월 별 평균 값 구하기 (앞이 기준, 뒤가 계산)
month.groupby(['월'])['사고건수'].agg("mean").round(0)

월
1      974.0
2      820.0
3     1007.0
4     1124.0
5     1222.0
6     1054.0
7     1069.0
8     1176.0
9     1074.0
10    1205.0
11    1266.0
12    1150.0
Name: 사고건수, dtype: float64

In [43]:
# 사고건수 전체 평균
print(month['사고건수'].mean())

1093.3333333333333
