# 주류 출고량과 음주운전 사건 발생수의 상관관계 분석 

## 1. 비즈니스 이해 

### Background : 어떠한 문제가 존재하는지 상황에 대해 알려진 기사, 논문, 보고서 등을 인용하여 현상을 구체적으로 기술하시기 바랍니다.
- [고속도 만취 역주행 벤츠, 택시와 정면충돌 1명 사망 2명 중상](http://www.segye.com/newsView/20180530000572)
- ['만취 벤츠' 역주행 사고 난 다음날에도 '93명'이 음주 운전해 걸렸다](http://www.insight.co.kr/news/158429)
- [음주 역주행 사고 잊었나…고속도로 음주운전 무더기 적발](http://www.yonhapnews.co.kr/bulletin/2018/06/01/0200000000AKR20180601069900061.HTML?input=1195m)
- 음주운전으로 발생하는 심각한 인명사고와 단속강화 이후에도 끊이지 않는 음주운전과 사고발생으로 일반 운전자 및 보행자가 피해를 당하는 설명을 담은 기사들이다.

### Business Objectives : 기업(혹은 본인)에게 이 현상이 어떠한 이유로 분석을 해야 하는지 추상적(함축적)으로 기술하시기 바랍니다.
- 지역별 주류 출고량과 음주운전 발생 사건 수의 상관관계가 있는지 분석하고 음주운전 사고발생을 줄이는데 도움이 되고자 함. (상담)

### Business Success Criteria : 비즈니스 관점에서 분석결과의 성공기준(정량적) 또는 유용한 결과에 대한 기준(정성적)을 설명하십시오.
- 지역별 음주운전 사고 발생과 관련된 자료를 파악하고 , 지역별 음주운전을 해소하는데 도움이 되고자함. (상담)

### Analysis Goals : 비즈니스 목표에 대한 의사결정 지원을 위해 실시하는 분석의 목표를 기술합니다. 
- 뭐라쓸지 ㅁㄹ 
- 참고자료(경찰청 공공데이터, 국가통계포털 주류출고량)

## 2. 데이터의 이해 
- 지역별 주류 출고량 데이터 수집하여 활용할 수 있게 수정함.
    - 2012~2016년 지역별 주류 출고량 (KOSIS 국세통계:10.1.2 주류별 · 지역별 주세 신고 현황[2006~])
- 지방청 별 음주운전 사건 발생 수 자료를 수집하여 활용할 수 있게 수정함.
    - 사이버 경찰청 공공데이터


In [1]:
# 필요한 모듈 import
import pandas as pd
import numpy as np

In [2]:
# 데이터 로드 
음주운전건수 = pd.read_csv("drunk driving.csv", thousands=',')
음주운전건수.iloc[7,1:] = 0
음주운전건수

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
0,서울,16968,3800.0,3534.0,3344.0,3433.0,2857.0
1,인천,6539,1572.0,1383.0,1232.0,1249.0,1103.0
2,경기,30168,7106.0,6485.0,5713.0,5963.0,4901.0
3,강원,4881,1235.0,1066.0,911.0,961.0,708.0
4,대전,3967,920.0,917.0,742.0,730.0,658.0
5,충북,5418,1237.0,1174.0,1040.0,1098.0,869.0
6,충남,7813,1840.0,1608.0,1504.0,1562.0,1299.0
7,세종,0,0.0,0.0,0.0,0.0,0.0
8,광주,4776,1197.0,1051.0,905.0,861.0,762.0
9,전북,5669,2067.0,1026.0,887.0,929.0,760.0


In [3]:
주류출고현황 = pd.read_csv('liquor sale.csv', na_values=0)
주류출고현황

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
0,서울,761427,160086,153765,155452,148430,143694
1,인천,103323,18937,20598,22032,20999,20757
2,경기,4269771,784389,843829,838152,882098,921303
3,강원,2305640,548244,479642,440533,455207,382014
4,대전,192487,37401,36735,40061,40008,38282
5,충북,4330253,849506,856110,916208,844121,864308
6,충남,65437,11252,11737,13034,14694,14720
7,세종,2254,335,475,502,503,439
8,광주,884182,115398,159990,203138,198398,207258
9,전북,2173541,470848,429776,426881,450074,395962


In [4]:
주류판매점 = pd.read_csv('liquor shop.csv', na_values=0)
주류판매점.iloc[7,2] = 0
주류판매점

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
0,서울,593330,116244,116303,118569,121344,120870
1,인천,155195,29409,29456,30069,32820,33441
2,경기,708207,137496,138109,141592,143393,147617
3,강원,171137,33518,33679,34064,34524,35352
4,대전,102659,19893,19999,20524,20997,21246
5,충북,135038,26029,26121,26877,27633,28378
6,충남,175290,34892,33616,34646,35610,36526
7,세종,9888,0,1945,2289,2676,2978
8,광주,97052,18742,18892,19388,19781,20249
9,전북,133762,25729,26057,26711,27298,27967


In [5]:
# 음주운전 건수 순서로 정렬
음주운전건수.sort_values(by="소계",ascending = False)

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
2,경기,30168,7106.0,6485.0,5713.0,5963.0,4901.0
0,서울,16968,3800.0,3534.0,3344.0,3433.0,2857.0
12,경북,8362,2067.0,1728.0,1678.0,1611.0,1278.0
6,충남,7813,1840.0,1608.0,1504.0,1562.0,1299.0
15,경남,6886,1574.0,1550.0,1413.0,1378.0,971.0
1,인천,6539,1572.0,1383.0,1232.0,1249.0,1103.0
10,전남,6169,1574.0,1332.0,1167.0,1189.0,907.0
11,대구,5895,1379.0,1263.0,1205.0,1119.0,929.0
9,전북,5669,2067.0,1026.0,887.0,929.0,760.0
5,충북,5418,1237.0,1174.0,1040.0,1098.0,869.0


- 음주운전건수량 순서는 경기, 서울, 경북 순 이었음.

In [6]:
# 주류출고순으로 정렬
주류출고현황.sort_values(by="소계",ascending = False)

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
5,충북,4330253,849506,856110,916208,844121,864308
2,경기,4269771,784389,843829,838152,882098,921303
3,강원,2305640,548244,479642,440533,455207,382014
9,전북,2173541,470848,429776,426881,450074,395962
15,경남,1948741,421472,399695,386162,389413,351999
8,광주,884182,115398,159990,203138,198398,207258
0,서울,761427,160086,153765,155452,148430,143694
11,대구,592550,119217,117109,123632,117456,115136
13,부산,339497,77986,69849,70290,64573,56799
10,전남,325273,71048,64431,65628,65508,58658


In [7]:
# 주류판매점순으로 정렬
주류판매점.sort_values(by="소계", ascending = False)

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
2,경기,708207,137496,138109,141592,143393,147617
0,서울,593330,116244,116303,118569,121344,120870
15,경남,269489,51932,52360,53633,55039,56525
12,경북,224724,43732,43844,44866,45241,47041
13,부산,221242,42798,43164,44167,44997,46116
6,충남,175290,34892,33616,34646,35610,36526
3,강원,171137,33518,33679,34064,34524,35352
10,전남,161264,31438,31454,32147,32810,33415
1,인천,155195,29409,29456,30069,32820,33441
11,대구,154649,30023,30015,30649,31720,32242


In [8]:
# "지역별" 을 중심으로 합치기
data_result = pd.merge(음주운전건수, 주류출고현황, on="지역별")

In [9]:
data_result

Unnamed: 0,지역별,소계_x,2012년,2013년,2014년,2015년,2016년,소계_y,2012년.1,2013년.1,2014년.1,2015년.1,2016년.1
0,서울,16968,3800.0,3534.0,3344.0,3433.0,2857.0,761427,160086,153765,155452,148430,143694
1,인천,6539,1572.0,1383.0,1232.0,1249.0,1103.0,103323,18937,20598,22032,20999,20757
2,경기,30168,7106.0,6485.0,5713.0,5963.0,4901.0,4269771,784389,843829,838152,882098,921303
3,강원,4881,1235.0,1066.0,911.0,961.0,708.0,2305640,548244,479642,440533,455207,382014
4,대전,3967,920.0,917.0,742.0,730.0,658.0,192487,37401,36735,40061,40008,38282
5,충북,5418,1237.0,1174.0,1040.0,1098.0,869.0,4330253,849506,856110,916208,844121,864308
6,충남,7813,1840.0,1608.0,1504.0,1562.0,1299.0,65437,11252,11737,13034,14694,14720
7,세종,0,0.0,0.0,0.0,0.0,0.0,2254,335,475,502,503,439
8,광주,4776,1197.0,1051.0,905.0,861.0,762.0,884182,115398,159990,203138,198398,207258
9,전북,5669,2067.0,1026.0,887.0,929.0,760.0,2173541,470848,429776,426881,450074,395962


In [10]:
# 상관관계 분석
import numpy as np
np.corrcoef(data_result["소계_x"], data_result["소계_y"])

array([[ 1.        ,  0.51537614],
       [ 0.51537614,  1.        ]])

- 주류출고현황과 음주운전건수 간에 비교적 약한 양의 상관관계가 발견됨.
- 즉, 주류 소비량이 높은 지역일수록 음주운전건수도 비교적 높게 나타나는 것으로 확인.

In [11]:
data_result2 = pd.merge(음주운전건수, 주류판매점, on="지역별")

In [12]:
data_result2

Unnamed: 0,지역별,소계_x,2012년,2013년,2014년,2015년,2016년,소계_y,2012년.1,2013년.1,2014년.1,2015년.1,2016년.1
0,서울,16968,3800.0,3534.0,3344.0,3433.0,2857.0,593330,116244,116303,118569,121344,120870
1,인천,6539,1572.0,1383.0,1232.0,1249.0,1103.0,155195,29409,29456,30069,32820,33441
2,경기,30168,7106.0,6485.0,5713.0,5963.0,4901.0,708207,137496,138109,141592,143393,147617
3,강원,4881,1235.0,1066.0,911.0,961.0,708.0,171137,33518,33679,34064,34524,35352
4,대전,3967,920.0,917.0,742.0,730.0,658.0,102659,19893,19999,20524,20997,21246
5,충북,5418,1237.0,1174.0,1040.0,1098.0,869.0,135038,26029,26121,26877,27633,28378
6,충남,7813,1840.0,1608.0,1504.0,1562.0,1299.0,175290,34892,33616,34646,35610,36526
7,세종,0,0.0,0.0,0.0,0.0,0.0,9888,0,1945,2289,2676,2978
8,광주,4776,1197.0,1051.0,905.0,861.0,762.0,97052,18742,18892,19388,19781,20249
9,전북,5669,2067.0,1026.0,887.0,929.0,760.0,133762,25729,26057,26711,27298,27967


In [13]:
import numpy as np
np.corrcoef(data_result2["소계_x"], data_result2["소계_y"])

array([[ 1.        ,  0.95540501],
       [ 0.95540501,  1.        ]])

- 주류판매점수와 음주운전건수는 아주 강한 양의 상관관계가 나타남
- 그 이유는??

In [18]:
스트레스지수 = pd.read_csv('스트레스율.csv' ,na_values = 0, engine='python', header = 0, delimiter=',')
스트레스지수

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
0,서울,29.68,30.6,28.7,29.7,30.3,29.1
1,인천,31.0,31.5,31.2,32.3,30.5,29.5
2,경기,29.84,30.0,29.3,29.9,30.5,29.5
3,강원,25.72,26.3,25.2,25.5,26.8,24.8
4,대전,28.56,27.0,28.7,28.1,28.4,30.6
5,충북,28.32,29.1,28.9,28.2,28.5,26.9
6,충남,28.58,29.4,28.9,28.8,28.2,27.6
7,세종,,,,,,
8,광주,27.98,29.0,28.7,27.5,27.0,27.7
9,전북,25.52,28.3,25.8,26.3,24.1,23.1


In [21]:
음주율 = pd.read_csv('월간음주율.csv' ,na_values = 0, engine='python')
음주율

Unnamed: 0,지역별,소계,2012년,2013년,2014년,2015년,2016년
0,서울,60.64,59.1,60.7,60.3,61.6,61.5
1,인천,60.2,59.1,58.4,61.8,60.8,60.9
2,경기,60.72,59.4,60.2,61.4,61.6,61.0
3,강원,57.92,57.2,57.8,58.2,59.1,57.3
4,대전,58.96,58.9,58.7,58.3,59.2,59.7
5,충북,57.86,57.2,58.6,57.0,58.5,58.0
6,충남,55.08,52.3,53.0,57.0,56.6,56.5
7,세종,,,,,,
8,광주,58.48,58.5,58.2,58.9,60.2,56.6
9,전북,50.96,48.3,51.2,52.2,51.7,51.4


In [22]:
대리운전 = pd.read_csv('지역별 대리운전.csv', na_values = 0, encoding='utf-8', engine='python') #utf-8 이라는 것으로 전환해야 컴퓨터가 읽을수 있음.
대리운전

Unnamed: 0,지역별
서울,1222.0
인천,107.0
경기,1779.0
강원,524.0
대전,255.0
충북,408.0
충남,732.0
세종,
광주,104.0
전북,288.0


In [25]:
경제성장률 = pd.read_csv('경제성장률.csv', na_values=0, engine='python')
경제성장률

Unnamed: 0,지역별,소계,2014년,2015년,2016년
0,서울,2.6,2.4,3.4,2.0
1,인천,3.4,3.6,2.8,3.8
2,경기,4.57,5.4,3.6,4.7
3,강원,2.93,2.9,3.3,2.6
4,대전,2.7,3.1,1.7,3.3
5,충북,5.03,4.8,4.5,5.8
6,충남,4.27,5.1,3.8,3.9
7,세종,,,,
8,광주,1.97,3.2,1.7,1.0
9,전북,1.3,2.9,0.1,0.9


In [26]:
import folium

In [27]:
import json
geo_path = 'skorea_municipalities_geo_simple.json'
geo_str = json.load(open(geo_path, encoding='utf-8'))

In [36]:
# 살인 발생 건수로 그리기
map = folium.Map(location=[37.5502, 126.982], zoom_start=8 )
map.choropleth(geo_data = geo_str,
               data = 경제성장률['소계'], # 그림을 그릴 데이터 하나가 필요함.
               columns = [경제성장률.iloc[:,1], 경제성장률['소계']],
               fill_color = 'PuRd', #PuRd, YlGnBu
               key_on = 'feature.id')
map

In [None]:
# 데이터 내 모든 경찰서의 주소 얻기
station_addreess = []
station_lat = []
station_lng = []

for name in station_name: # 조금 전 작업한 station_name에서
    tmp = gmaps.geocode(name, language='ko') # 경찰서이름을 넣고, geocode 정보를 가져와 tmp에 저장한다.
    station_addreess.append(tmp[0].get("formatted_address")) # tmp[0]번째의 'formatted_address'를 가져와 station_address에 저장한다.
    
    tmp_loc = tmp[0].get("geometry") # tmp[0]번째의 'geometry' 정보를 tmp_loc에 저장한다.

    station_lat.append(tmp_loc['location']['lat']) # tmp_loc의 'location' 부분의 'lat'를 station_lat에 추가한다.
    station_lng.append(tmp_loc['location']['lng']) # tmp_loc의 'location' 부분의 'lng'를 station_lng에 추가한다.
    
    print(name + '-->' + tmp[0].get("formatted_address")) # 검색한 이름과 추가된 정보를 --> 로 구분하여 표현해 준다.