## 1. Data 가져오기

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')


In [5]:
KP_2020 = pd.read_csv('C:/Users/jihun/data/KP2020.csv',encoding='cp949')
KP_2021 = pd.read_csv('C:/Users/jihun/data/KP2021.csv',encoding='cp949')
NPA_2020 = pd.read_csv('C:/Users/jihun/data/NPA2020.csv',encoding='cp949')

|Column|Description|
|:---|:---|
|RECV_DEPT_NM|접수 부서|
|RECV_CPLT_DM|접수 완료 일시|
|NPA_CL|경찰청 구분(코드 번호)|
|EVT_STAT_CD|사건 상태 코드|
|EVT_CL_CD|사건 종별 코드|
|RPTER_SEX|성별(남:1, 여:2, 불상:3)|
|HPPN_PNU_ADDR|사건 발생 주소|
|HPPN_X|주소 좌표(경도)|
|HPPN_Y|주소 좌표(위도)|
|SME_EVT_Y|동일 사건 여부|

### NPA Column

|Column|Description|
|:---|:---|
|RECV_CPLT_DT|접수 완료 일자|
|RECV_CPLT_TM|접수 완료 시간|

## 2. Data 전처리

#### 1. KP_2020

In [7]:
### 필요없는 항목 제거 => 경찰청 이름, 시간, 사건 발생 주소
KP_2020.drop(['RECV_DEPT_NM','RECV_CPLT_DM','HPPN_PNU_ADDR'], axis=1, inplace=True)
KP_2020

Unnamed: 0,NPA_CL,EVT_STAT_CD,EVT_CL_CD,RPTER_SEX,HPPN_X,HPPN_Y,SME_EVT_YN
0,19,10,305,1.0,126.598345,36.341537,Y
1,13,10,601,3.0,127.404663,36.341685,
2,13,10,601,1.0,127.404663,36.341685,
3,19,10,606,3.0,126.524980,36.474390,N
4,19,10,401,2.0,127.137160,36.826718,
...,...,...,...,...,...,...,...
77072,19,10,302,2.0,126.571002,36.387791,
77073,19,10,501,3.0,,,
77074,19,10,604,3.0,127.000391,36.788411,
77075,13,10,302,2.0,127.373351,36.348051,Y


In [10]:
KP_2020.isnull().sum()

NPA_CL             0
EVT_STAT_CD        0
EVT_CL_CD          0
RPTER_SEX       2419
HPPN_X         16764
HPPN_Y         16764
SME_EVT_YN     63635
dtype: int64

In [11]:
### NULL 값 많은것도 그냥 삭제
KP_2020.drop(['RPTER_SEX','SME_EVT_YN'], axis=1, inplace=True)
KP_2020.head()

Unnamed: 0,NPA_CL,EVT_STAT_CD,EVT_CL_CD,HPPN_X,HPPN_Y
0,19,10,305,126.598345,36.341537
1,13,10,601,127.404663,36.341685
2,13,10,601,127.404663,36.341685
3,19,10,606,126.52498,36.47439
4,19,10,401,127.13716,36.826718


#### 2. KP_2021

In [13]:
### 필요없는 항목 제거 => 경찰청 이름, 시간, 사건 발생 주소, 주소 좌표

KP_2021.drop(['RECV_DEPT_NM','RECV_CPLT_DM','HPPN_PNU_ADDR'], axis=1, inplace=True)

In [16]:
KP_2021.isnull().sum()

NPA_CL               0
EVT_STAT_CD          0
EVT_CL_CD            0
RPTER_SEX        23894
HPPN_X          694401
HPPN_Y          694401
SME_EVT_YN     2079123
dtype: int64

In [17]:
### NULL 값 많은것도 그냥 삭제
KP_2021.drop(['RPTER_SEX','SME_EVT_YN'], axis=1, inplace=True)
KP_2021.head()

Unnamed: 0,NPA_CL,EVT_STAT_CD,EVT_CL_CD,HPPN_X,HPPN_Y
0,13,10,604,127.373676,36.350975
1,13,10,201,127.339018,36.34742
2,13,10,601,127.404663,36.341685
3,13,10,601,127.404663,36.341685
4,13,10,308,127.420455,36.330413


#### 3. NPA_2020

In [19]:
### 필요없는 항목 제거 => 사건 날짜, 접수 완료 시간, 발생 주소, 발생 좌표, 동일 사건 여부
NPA_2020.drop(['RECV_CPLT_DT','HPPN_OLD_ADDR','SME_EVT_YN','RPTER_SEX','RECV_CPLT_TM'], axis=1, inplace=True)
NPA_2020

Unnamed: 0,NPA_CL,EVT_STAT_CD,EVT_CL_CD,HPPN_X,HPPN_Y
0,13,10,501,127.409270,36.333010
1,13,10,501,127.421295,36.325575
2,13,10,501,127.404663,36.341685
3,13,10,601,0.000000,0.000000
4,13,10,601,127.404663,36.341685
...,...,...,...,...,...
1178239,19,10,501,,
1178240,13,10,601,127.404663,36.341685
1178241,19,10,601,,
1178242,19,5,301,126.516040,36.305619


#### column 통일

In [22]:
KP_2020.columns

Index(['NPA_CL', 'EVT_STAT_CD', 'EVT_CL_CD', 'HPPN_X', 'HPPN_Y'], dtype='object')

In [23]:
KP_2021.columns

Index(['NPA_CL', 'EVT_STAT_CD', 'EVT_CL_CD', 'HPPN_X', 'HPPN_Y'], dtype='object')

In [24]:
NPA_2020.columns

Index(['NPA_CL', 'EVT_STAT_CD', 'EVT_CL_CD', 'HPPN_X', 'HPPN_Y'], dtype='object')

### 3. 데이터 병합

In [25]:
# 원본데이터가 바뀌는것을 미연에 방지하기위해 다른 데이터에 복사 후 진행
k_2020 = KP_2020.copy()
k_2021 = KP_2021.copy()
n_2020 = NPA_2020.copy()

# 교통사고건만 추출 후 변수에 저장 
k_2020 = k_2020[k_2020['EVT_CL_CD']==401]
k_2021 = k_2021[k_2021['EVT_CL_CD']==401]
n_2020 = n_2020[n_2020['EVT_CL_CD']==401]

In [26]:
print('k_2020 csv 파일 교통사고 건 수 = ', len(k_2020))
print('k_2021 csv 파일 교통사고 건 수 = ', len(k_2021))
print('n_2020 csv 파일 교통사고 건 수 = ', len(n_2020))
print('\n전체 교통사고 건 수  = ', len(k_2020)+len(k_2021)+len(n_2020))

k_2020 csv 파일 교통사고 건 수 =  6207
k_2021 csv 파일 교통사고 건 수 =  164582
n_2020 csv 파일 교통사고 건 수 =  93659

전체 교통사고 건 수  =  264448


In [30]:
ALL_KP_NPA = pd.concat([k_2020,k_2021,n_2020])

#### 중복값 제거

In [32]:
All = ALL_KP_NPA
All = ALL_KP_NPA.drop_duplicates()
print('중복값 제거 후 전체 교통사고 건수 : ', len(All))

중복값 제거 후 전체 교통사고 건수 :  191655


In [35]:
All = All.fillna({'HPPN_X':All['HPPN_X'].mean()})
All = All.fillna({'HPPN_Y':All['HPPN_Y'].mean()})
All.isnull().sum()

NPA_CL         0
EVT_STAT_CD    0
EVT_CL_CD      0
HPPN_X         0
HPPN_Y         0
dtype: int64

|Column|서단(경도)|동단(경도)|북단(위도)|남단(위도)|
|:---|:------|:------|:------|:------|
|대전|127.14|127.33|36.30|36.10|
|세종|127.1|127.23|36.43|36.24|
|충남|125.3221|127.3831|37.0344|35.5830|

### 충남

In [38]:
Chungnam = All

In [39]:
#서단보다 더 경도가 낮은 데이터
#     (All[(All['HPPN_X']<125.3221)])
#동단보다 더 경도가 높은 데이터
#     All[All['HPPN_X']>127.3831]
#남단보다 위도가 더 낮은 데이터
#     All[(All['HPPN_Y']<35.5830)]
#북단보다 위도가 더 높은 데이터
#     All[(All['HPPN_Y']>37.0344)]

# 서단 관련 삭제
Chungnam = Chungnam.drop(Chungnam[(Chungnam['HPPN_X']<125.3221)].index)

#동단 삭제 
Chungnam = Chungnam.drop(Chungnam[(Chungnam['HPPN_X']>127.59)].index)

#남단 삭제 
Chungnam = Chungnam.drop(Chungnam[(Chungnam['HPPN_Y']<35.5830)].index)

#북단 삭제 
Chungnam =Chungnam.drop(Chungnam[(Chungnam['HPPN_Y']>37.0344)].index)

print('충남지역 교통사고 건수 : ', len(Chungnam))

### 대전

In [41]:
DAEJOEN = All

In [42]:
# 서단보다 더 경도가 낮은 데이터
#    (All[(All['HPPN_X']<127.14)])
# 동단보다 더 경도가 높은 데이터
#    (All[(All['HPPN_X']>127.33)])
# 북단보다 더 위도가 높은 데이터
#    (All[(All['HPPN_Y']>36.3)])
# 남단보다 더 위도가 낮은 데이터
#    (All[(All['HPPN_Y']<36.1)])

# 서단 관련 삭제
DAEJOEN = DAEJOEN.drop(DAEJOEN[(DAEJOEN['HPPN_X']<127.14)].index)

# 동단 관련 삭제
DAEJOEN = DAEJOEN.drop(DAEJOEN[(DAEJOEN['HPPN_X']>127.33)].index)

# 남단 관련 삭제
DAEJOEN = DAEJOEN.drop(DAEJOEN[(DAEJOEN['HPPN_Y']<36.10)].index)

# 북단 관련 삭제
DAEJOEN = DAEJOEN.drop(DAEJOEN[(DAEJOEN['HPPN_Y']>36.30)].index)

print('대전지역 교통사고 건수 : ', len(DAEJOEN))

### 세종

In [44]:
SEJONG = All  

In [45]:
# 서단보다 더 경도가 낮은 데이터
(All[(All['HPPN_X']<127.1)])
# 동단보다 더 경도가 높은 데이터
(All[(All['HPPN_X']>127.23)])
# 북단보다 더 위도가 높은 데이터
(All[(All['HPPN_Y']>36.43)])
# 남단보다 더 위도가 낮은 데이터
(All[(All['HPPN_Y']<36.24)])

# 서단 관련 삭제
SEJONG = SEJONG.drop(SEJONG[(SEJONG['HPPN_X']<127.1)].index)
# 동단 관련 삭제
SEJONG = SEJONG.drop(SEJONG[(SEJONG['HPPN_X']>127.23)].index)
# 남단 관련 삭제
SEJONG = SEJONG.drop(SEJONG[(SEJONG['HPPN_Y']<36.24)].index)
# 북단 관련 삭제
SEJONG = SEJONG.drop(SEJONG[(SEJONG['HPPN_Y']>36.43)].index)

print('세종지역 교통사고 건수 : ', len(SEJONG))

### 충남, 대전, 세종 병합

In [47]:
# 병합
CDS= pd.concat([SEJONG,DAEJOEN,Chungnam])
print('중복 처리 전 전체 교통사고 건수: ', len(CDS))

# 중복 값, 개수 확인
CDS[CDS.duplicated(['HPPN_X','HPPN_Y'])==True]

중복 처리 전 전체 교통사고 건수:  194252


Unnamed: 0,NPA_CL,EVT_STAT_CD,EVT_CL_CD,HPPN_X,HPPN_Y
458145,13,10,401,127.218892,36.426688
2019476,19,10,401,127.158229,36.361957
2096503,19,10,401,127.224226,36.403474
1338,19,10,401,127.143794,36.293962
1679,19,10,401,127.248420,36.283218
...,...,...,...,...,...
1177201,13,10,401,127.426272,36.375414
1177331,13,10,401,127.325422,36.392237
1177784,19,10,401,127.239511,36.288657
1177867,13,10,401,127.309846,36.228440


In [48]:
# 중복 값 제거, (HPPN_X와 HPPN_Y둘다 같아야 제거)
CDS = CDS.drop_duplicates(['HPPN_X','HPPN_Y'])

print('중복 처리 후 전체 교통사고 건수 : ', len(CDS))

중복 처리 후 전체 교통사고 건수 :  186818


### EDA

##### 13 = 대전청
##### 19 = 충남청
##### 31 = 세종

In [49]:
sample = CDS.head(10)

import folium as f

Daejeon = f.Map(location=[36.5847,126.8999],
    tiles='OpenStreetMap',
    zoom_start=10
)
Daejeon

# 관할 경찰청과 사건상태 변환 함수
name = ['없음', '접수중', '접수', '초기지령', '지령', '도착', '네비종결', '종결요청', '지령취소', '타청이첩', '종결요청']

def TransName(sample):
    for i in range(len(sample)):
        if(sample.iloc[i]['EVT_STAT_CD']==1):
            return name[1]
        elif (sample.iloc[i]['EVT_STAT_CD']==2):
            return name[2]
        elif (sample.iloc[i]['EVT_STAT_CD']==3):
            return name[3]
        elif (sample.iloc[i]['EVT_STAT_CD']==4):
            return name[4]
        elif (sample.iloc[i]['EVT_STAT_CD']==5):
            return name[5]
        elif (sample.iloc[i]['EVT_STAT_CD']==6):
            return name[6]
        elif (sample.iloc[i]['EVT_STAT_CD']==7):
            return name[7]
        elif (sample.iloc[i]['EVT_STAT_CD']==8):
            return name[8]
        elif (sample.iloc[i]['EVT_STAT_CD']==9):
            return name[9]
        elif (sample.iloc[i]['EVT_STAT_CD']==10):
            return name[10]
        else :
            print('해당없음')

def TransPolice(sample):
    for i in range(len(sample)):
        if(sample.iloc[i]['NPA_CL']==1):
            return '본청'
        elif (sample.iloc[i]['NPA_CL']==8):
            return '서울청'
        elif (sample.iloc[i]['NPA_CL']==9):
            return '부산청'
        elif (sample.iloc[i]['NPA_CL']==10):
            return '대구청'
        elif (sample.iloc[i]['NPA_CL']==11):
            return '인천청'
        elif (sample.iloc[i]['NPA_CL']==12):
            return '광주청'
        elif (sample.iloc[i]['NPA_CL']==13):
            return '대전청'
        elif (sample.iloc[i]['NPA_CL']==14):
            return '울산청'
        elif (sample.iloc[i]['NPA_CL']==15):
            return '경기남부청'
        elif (sample.iloc[i]['NPA_CL']==16):
            return '경기북부청'
        elif (sample.iloc[i]['NPA_CL']==17):
            return '강원청'
        elif (sample.iloc[i]['NPA_CL']==18):
            return '충북청'
        elif (sample.iloc[i]['NPA_CL']==19):
            return '충남청'
        elif (sample.iloc[i]['NPA_CL']==20):
            return '전북청'
        elif (sample.iloc[i]['NPA_CL']==21):
            return '전남청'
        elif (sample.iloc[i]['NPA_CL']==22):
            return '경북청'
        elif (sample.iloc[i]['NPA_CL']==23):
            return '경남청'
        elif (sample.iloc[i]['NPA_CL']==24):
            return '제주청'
        elif (sample.iloc[i]['NPA_CL']==31):
            return '세종청'
        else :
            print('해당없음')

for i in range(len(sample)):
    marker_Daejeon = f.Marker([sample.iloc[i]['HPPN_Y'],sample.iloc[i]['HPPN_X']],
    #popup=sample.iloc[i]['EVT_STAT_CD'],
    popup = "{0}, {1}".format(TransName(sample),TransPolice(sample)),
    icon = f.Icon(color='blue',icon='star'))

    marker_Daejeon.add_to(Daejeon)
Daejeon

https://m.blog.naver.com/rackhunson/222401975250

## 대전, 세종, 충남 모두

from folium import Marker
from folium.plugins import MarkerCluster

# Draw a basemap
m = f.Map(location=[36.65881035745041,126.67278633997991], tiles='openstreetmap', zoom_start=11)

# Add  points to the map
mc = MarkerCluster()
for _, row in CDS.iterrows():
    mc.add_child(    
        Marker(location = [row['HPPN_Y'], row['HPPN_X']],
        popup= "{0}, {1}".format(TransName(CDS),TransPolice(CDS)),
    )
    )
    
m.add_child(mc)
m.add_child(f.LatLngPopup()) # 클릭시 위도, 경도 출력

# Display the map
m

### 각 청에서 관리하는 교통사고 사건

In [56]:
DJPC = CDS[CDS['NPA_CL']== 13]
SJPC = CDS[CDS['NPA_CL']== 31]
CHPC = CDS[CDS['NPA_CL']== 19]

In [57]:
print('대전청에서 관리하는 교통사고 사건 : ',len(DJPC))
print('세종청에서 관리하는 교통사고 사건 : ',len(SJPC))
print('충남청에서 관리하는 교통사고 사건 : ',len(CHPC))

대전청에서 관리하는 교통사고 사건 :  67301
세종청에서 관리하는 교통사고 사건 :  7400
충남청에서 관리하는 교통사고 사건 :  111590


### 대전청에서 관리한 교통사고 사건

m = f.Map(location=[36.3504119,127.3845475], tiles='openstreetmap', zoom_start=11)

# Add  points to the map
mc = MarkerCluster()
for _, row in DJPC.iterrows():
    mc.add_child(    
        Marker(location = [row['HPPN_Y'], row['HPPN_X']],
        popup= "{0}, {1}".format(TransName(DJPC),TransPolice(DJPC)),
        )
    )
    
m.add_child(mc)
m.add_child(f.LatLngPopup()) # 클릭시 위도, 경도 출력

# Display the map
m

### 세종청에서 관리한 교통사고 사건

m = f.Map(location=[36.48,127.29], tiles='openstreetmap', zoom_start=11)

# Add  points to the map
mc = MarkerCluster()
for _, row in SJPC.iterrows():
    mc.add_child(    
        Marker(location = [row['HPPN_Y'], row['HPPN_X']],
              popup= "{0}, {1}".format(TransName(SJPC),TransPolice(SJPC)),
              )
    )
    
m.add_child(mc)
m.add_child(f.LatLngPopup()) # 클릭시 위도, 경도 출력

# Display the map
m

### 충남청에서 관리한 교통사고 사건

m = f.Map(location=[36.65881035745041,126.67278633997991], tiles='openstreetmap', zoom_start=11)

# Add  points to the map
mc = MarkerCluster()
for _, row in CHPC.iterrows():
    mc.add_child(    
        Marker(location = [row['HPPN_Y'], row['HPPN_X']],
              popup= "{0}, {1}".format(TransName(CHPC),TransPolice(CHPC)),
              )
    )
    
m.add_child(mc)
m.add_child(f.LatLngPopup()) # 클릭시 위도, 경도 출력



# Display the map
m