# 서울시 범죄현황 통계자료 분석 및 시각화
<br>

In [None]:
!pip install folium==0.5.0

In [2]:
import json
import folium

import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt
from matplotlib import font_manager, rc # rc == run configure(configuration file)

%matplotlib inline 
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name) # Mac OS : rc('font', family="AppleGothic")


df = pd.read_excel('관서별 5대범죄 발생 및 검거.xlsx', encoding='utf-8') # 엑셀 파일 읽기?

# 서울시 경찰청의 소속 구 @ https://goo.gl/MQSqXX
police_to_gu = {'서대문서': '서대문구', '수서서': '강남구', '강서서': '강서구', '서초서': '서초구',
                '서부서': '은평구', '중부서': '중구', '종로서': '종로구', '남대문서': '중구',
                '혜화서': '종로구', '용산서': '용산구', '성북서': '성북구', '동대문서': '동대문구',
                '마포서': '마포구', '영등포서': '영등포구', '성동서': '성동구', '동작서': '동작구',
                '광진서': '광진구', '강북서': '강북구', '금천서': '금천구', '중랑서': '중랑구',
                '강남서': '강남구', '관악서': '관악구', '강동서': '강동구', '종암서': '성북구', 
                '구로서': '구로구', '양천서': '양천구', '송파서': '송파구', '노원서': '노원구', 
                '방배서': '서초구', '은평서': '은평구', '도봉서': '도봉구'}
df['구별'] = df['관서명'].apply(lambda x: police_to_gu.get(x, '구 없음')) # 적용하다? 


gu_df = pd.pivot_table(df, index='구별', aggfunc=np.sum) # 피봇 테이블을 만드려면?
gu_df = gu_df.drop(['구 없음']) # 행을 삭제할 때? (Database)

gu_df['강간검거율'] = gu_df['강간(검거)']/gu_df['강간(발생)']*100
gu_df['강도검거율'] = gu_df['강도(검거)']/gu_df['강도(발생)']*100
gu_df['살인검거율'] = gu_df['살인(검거)']/gu_df['살인(발생)']*100
gu_df['절도검거율'] = gu_df['절도(검거)']/gu_df['절도(발생)']*100
gu_df['폭력검거율'] = gu_df['폭력(검거)']/gu_df['폭력(발생)']*100
gu_df['검거율'] = gu_df['소계(검거)']/gu_df['소계(발생)']*100

# 여러 줄을 한번에 수정할 때
del gu_df['강간(검거)']
del gu_df['강도(검거)']
del gu_df['살인(검거)']
del gu_df['절도(검거)']
del gu_df['폭력(검거)']
del gu_df['소계(발생)']
del gu_df['소계(검거)']

gu_df[ gu_df[['강간검거율', '강도검거율', '살인검거율', '절도검거율', '폭력검거율']] > 100] = 100

gu_df.rename(columns = {'강간(발생)':'강간',
                        '강도(발생)':'강도',
                        '살인(발생)':'살인',
                        '절도(발생)':'절도',
                        '폭력(발생)':'폭력'}, inplace=True) # inplace 옵션 == 덮어쓰기 여부


popul_df = pd.read_csv('pop_kor.csv', encoding='UTF-8', index_col='구별')
gu_df = gu_df.join(popul_df) # df1.join(df2) : df1 의 index를 기준으로 df2 의 index 중 매칭되는 값을 매김


weight_col = gu_df[['강간', '강도', '살인', '절도', '폭력']].max()
crime_count_norm = gu_df[['강간', '강도', '살인', '절도', '폭력']] / weight_col
crime_ratio = crime_count_norm.div(gu_df['인구수'], axis='index') * 100000 
crime_ratio['전체발생비율'] = crime_ratio.mean(axis=1) 


geo_path = 'skorea_municipalities_geo_simple.json'
geo_str = json.load(open(geo_path, encoding='utf-8'))


df = df.drop([0]) # "계" row를 삭제

# 경찰서 full-name column 생성하기 (구글맵스에서 좌표를 얻기 위해 경찰서 full-name으로 검색)
station_name = []
for name in df['관서명']:
    station_name.append('서울'+str(name[:-1])+'경찰서') # str(name[:-1] == ex. 중부서 -> 중부 

df['경찰서'] = station_name
df['검거율'] = df['소계(검거)']/df['소계(발생)']*100


def reRange(x, oldMin, oldMax, newMin, newMax):
    return (x - oldMin)*(newMax - newMin) / (oldMax - oldMin) + newMin 

df['점수'] = reRange(df['검거율'], min(df['검거율']), max(df['검거율']), 1, 100)

df.head()

Unnamed: 0,관서명,소계(발생),소계(검거),살인(발생),살인(검거),강도(발생),강도(검거),강간(발생),강간(검거),절도(발생),절도(검거),폭력(발생),폭력(검거),구별,경찰서,검거율,점수
1,중부서,2860,1716,2,2,3,2,105,65,1395,477,1355,1170,중구,서울중부경찰서,60.0,10.709938
2,종로서,2472,1589,3,3,6,5,115,98,1070,413,1278,1070,종로구,서울종로경찰서,64.279935,36.149027
3,남대문서,2094,1226,1,0,6,4,65,46,1153,382,869,794,중구,서울남대문경찰서,58.548233,2.080923
4,서대문서,4029,2579,2,2,5,4,154,124,1812,738,2056,1711,서대문구,서울서대문경찰서,64.010921,34.550058
5,혜화서,2233,1354,3,2,5,4,96,63,1114,424,1015,861,종로구,서울혜화경찰서,60.635916,14.489696


<br>

#### (Extra) 경찰서 위치 및 경찰서별 검거율 시각화

#### 경찰서별 좌표 데이터(위도, 경도) 받아오기 (Google Maps Geocoding API)

googlemaps library 설치 : 
- pip install googlemaps==2.4.6
- pip install --index-url=http://pypi.python.org/simple/ --trusted-host pypi.python.org googlemaps==2.4.6
- conda config --set ssl_verify false 입력 후 -> conda install googlemaps==2.4.6

In [None]:
## 개인키 미발급 / pip install googlemaps 에러 / 구글맵스 API 에러 발생 시
## 아래 2줄의 코드를 주석 풀고 실행 후 [ 경찰서별 검거율 데이터 시각화 ]부터 진행 시작

# df = pd.read_excel('관서별 5대범죄 발생 및 검거(with lat & lng).xlsx', encoding='utf-8') 
# df.head()

**googlemaps를 사용해서 각 경찰서의 위도, 경도 정보를 얻기** (구글에서 특정 장소를 검색해 위도/경도 좌표를 얻을 수 있음)

- 구글맵스 API key 받기 (영문) : https://developers.google.com/maps/documentation/geocoding/get-api-key (https://goo.gl/mU5NYK)
- 구글맵스 API key 받기 (국문) : https://goo.gl/P4dbxU 
- 구글 계정에 카드를 등록하여 결제가 가능한 상태가 되어야 합니다. 자세한 내용은 위 링크를 참고해주세요!

<br>-> GCP 콘솔 접속 @ https://console.cloud.google.com/google/maps-apis/overview
<br>-> 새 프로젝트 생성 
<br>-> API 및 서비스 > 라이브러리 > "Geocoding API" 검색 > "사용 설정" 클릭
<br>-> API 및 서비스 > 사용자 인증 정보 > "사용자 인증 정보 만들기" 클릭 > "API 키 만들기" 클릭 > key 값 복사 > "키 제한" 클릭 
<br>-> 하단 "API 제한사항" 탭 클릭 > Select API 드롭다운 메뉴에서 "Geocoding API" 를 찾아 클릭 > 저장
<br>-> 복사해 둔 key 값을 Jupyter notebook 의 googlemaps.Client 의 인자 값으로 붙여넣고 실행합니다.

In [None]:
import googlemaps
gmaps = googlemaps.Client(key="발급받으신 Google Maps API Key를 쌍따옴표 안에 넣어주세요.") # -- input your key --

tmpMap = gmaps.geocode('서울강남경찰서', language="ko")
tmpMap

# 'formatted_address': '대한민국 서울특별시 강남구 삼성동 테헤란로113길 12'
# 'location': {'lat': 37.511274, 'lng': 127.0665719}
# 'types': ['establishment', 'point_of_interest', 'police']
# AIzaSyBlernUIV0RMqCXmrgH3tNtLuE-IQ-n-iU

In [None]:
tmpMap[0].get('geometry') # 우리는 location 의 lat & lng 를 사용

In [None]:
lat = []
lng = []

for name in df['경찰서']:
    # gmaps.reverse_geocode((longitude 값, latitude 값), language="ko") == 경도 & 위도 값으로 주소값 가져오기
    # gmaps.geocode('한글 주소', language="ko") 로 위도/경도, 우편번호까지 알 수 있음
    tmpMap = gmaps.geocode(name) # ex) 서울강남경찰서
    tmpLoc = tmpMap[0].get('geometry') # 배열 형태( [~] )로 들어오기 때문에 [0]으로 호출
    lat.append(tmpLoc['location']['lat']) # dict(tmpLoc)의 데이터는 dict['key값'] 로 value 호출
    lng.append(tmpLoc['location']['lng'])
    
df['lat'] = lat
df['lng'] = lng

df.head()

#### 경찰서별 검거율 데이터 시각화

In [None]:
map = folium.Map(location=[37.5502, 126.982], zoom_start=11)

for n in df.index: # range(len(df.index)) 처럼 할 필요 없이 바로 df.index 를 순회하여 record 자체에 접근할 수 있음
    # 경찰서별로 원형 마커를 생성하여 점수를 radius 로 매겨 지도에 표시함
    # folium.Circle() 의 경우는 radius가 자동으로 meter 단위가 됩니다. (아래 CircleMarker에서의 radius는 pixel 단위)
    folium.CircleMarker ([df['lat'][n], df['lng'][n]], 
                         radius=df['점수'][n]*0.5, # circle 의 크기를 결정
                         color='#3186cc', fill=True, fill_color='#3186cc').add_to(map)

map

#### 경찰서별 검거율 데이터 & [ 인구 수 대비 5대범죄 발생 수치 평균 ] 기준 구별 데이터 시각화

In [None]:
map = folium.Map(location=[37.5502, 126.982], zoom_start=11)

map.choropleth(geo_data = geo_str,
               data = crime_ratio['전체발생비율'],
               columns = [crime_ratio.index, crime_ratio['전체발생비율']],
               fill_color = 'PuRd', #PuRd, YlGnBu
               key_on = 'feature.id')

for n in df.index:
    folium.CircleMarker([df['lat'][n], df['lng'][n]], 
                        radius=df['점수'][n]*0.7, # 0.5 -> 0.7
                        color='#3186cc', fill=True, fill_color='#3186cc').add_to(map)
    
map

In [None]:
# DF to csv file

df.to_csv('processed_data.csv', encoding='euc-kr') # 혹은 utf-8 or cp949

In [None]:
# DF to Excel file

# from pandas import ExcelWriter
# writer = ExcelWriter('file_name.xlsx')
# df.to_excel(writer)
# writer.save()

In [None]:
# Saving a folium map as an HTML file

# map.save('folium_map.html')