# Introduction to Data Science Team Project 

## CCTV는 정말로 범죄를 예방하는 효과가 있을까? 

- [CCTV 설치로 범죄율 27% 감소](https://www.boannews.com/media/view.asp?idx=63961) 검증


##### 데이터셋
- [서울시 자치구 년도별 CCTV 설치 현황](https://data.seoul.go.kr/dataList/OA-2734/C/1/datasetView.do)
- [서울시 5대 범죄 발생현황 통계](https://data.seoul.go.kr/dataList/316/C/2/datasetView.do;jsessionid=2199F74D80737F2EC64059AC30470780.new_portal-svr-11)

### Import data

In [34]:
import pandas as pd
import numpy as np

import platform
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')    

plt.rcParams['axes.unicode_minus'] = False

#### 서울시 5대 범죄 발생현황 통계 데이터

In [2]:
# 왜 thousands가 작동안할까? 
crime = pd.read_csv('서울시 5대 범죄 발생현황 통계.csv', thousands=',', encoding='utf-8')
crime.head()

Unnamed: 0,기간,자치구,합계,합계.1,살인,살인.1,강도,강도.1,강간강제추행,강간강제추행.1,절도,절도.1,폭력,폭력.1
0,기간,자치구,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거
1,2018,합계,101948,74487,143,139,143,151,6412,6046,39175,19762,56075,48389
2,2018,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
3,2018,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
4,2018,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733


In [3]:
columns_name = ['기간', '구별','합계 발생','합계 검거','살인 발생','살인 검거','강도 발생','강도 검거',
                '강간강제추행 발생', '강간강제추행 검거','절도 발생','절도 검거','폭력 발생','폭력 검거']
crime.columns = columns_name
crime.head()

Unnamed: 0,기간,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,기간,자치구,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거
1,2018,합계,101948,74487,143,139,143,151,6412,6046,39175,19762,56075,48389
2,2018,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
3,2018,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
4,2018,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733


In [4]:
crime.drop([0,1], inplace=True)
crime.drop('기간',1, inplace=True) # 모두 2018년 데이터이므로! 
crime.reset_index(drop=True, inplace=True)
crime.head()

Unnamed: 0,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
1,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
2,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733
3,성동구,2457,1787,2,2,5,8,126,102,999,487,1325,1188
4,광진구,3915,2789,7,5,2,1,229,184,1769,974,1908,1625


In [5]:
crime.shape

(25, 13)

In [6]:
crime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 13 columns):
구별           25 non-null object
합계 발생        25 non-null object
합계 검거        25 non-null object
살인 발생        25 non-null object
살인 검거        25 non-null object
강도 발생        25 non-null object
강도 검거        25 non-null object
강간강제추행 발생    25 non-null object
강간강제추행 검거    25 non-null object
절도 발생        25 non-null object
절도 검거        25 non-null object
폭력 발생        25 non-null object
폭력 검거        25 non-null object
dtypes: object(13)
memory usage: 2.7+ KB


In [7]:
# object에서 int로 변경됨! 
for column in list(crime.columns)[1:]:
    crime[column] = crime[column].str.replace(',', '').astype('int64')
crime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 13 columns):
구별           25 non-null object
합계 발생        25 non-null int64
합계 검거        25 non-null int64
살인 발생        25 non-null int64
살인 검거        25 non-null int64
강도 발생        25 non-null int64
강도 검거        25 non-null int64
강간강제추행 발생    25 non-null int64
강간강제추행 검거    25 non-null int64
절도 발생        25 non-null int64
절도 검거        25 non-null int64
폭력 발생        25 non-null int64
폭력 검거        25 non-null int64
dtypes: int64(12), object(1)
memory usage: 2.7+ KB


In [8]:
crime.head()

Unnamed: 0,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
1,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
2,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733
3,성동구,2457,1787,2,2,5,8,126,102,999,487,1325,1188
4,광진구,3915,2789,7,5,2,1,229,184,1769,974,1908,1625


#### 서울시 자치구 년도별 CCTV 현황 데이터

In [9]:
cctv = pd.read_excel('서울시 자치구 년도별 CCTV 설치 현황.xlsx')
cctv.head()

Unnamed: 0,기관명,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강 남 구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강 동 구,1879,303.0,387.0,134.0,59,144,194,273,385
2,강 북 구,1265,243.0,88.0,141.0,74,145,254,1,319
3,강 서 구,1617,219.0,155.0,118.0,230,187,190,264,254
4,관 악 구,3985,430.0,56.0,419.0,487,609,619,694,671


In [10]:
cctv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 10 columns):
기관명         25 non-null object
소계          25 non-null int64
2011년 이전    23 non-null float64
2012년       23 non-null float64
2013년       23 non-null float64
2014년       25 non-null int64
2015년       25 non-null int64
2016년       25 non-null int64
2017년       25 non-null int64
2018년       25 non-null int64
dtypes: float64(3), int64(6), object(1)
memory usage: 2.1+ KB


In [11]:
cctv = cctv.rename({'기관명': '구별'}, axis='columns')
cctv.columns.values

array(['구별', '소계', '2011년 이전', '2012년', '2013년', '2014년', '2015년',
       '2016년', '2017년', '2018년'], dtype=object)

In [12]:
def rename_gu(x): 
    gu = x.split(' ')
    gu_new = ''.join(gu)
    return gu_new 

In [13]:
# 이름 잘 정리됨. 
cctv['구별'] = cctv['구별'].apply(lambda x: rename_gu(x))
cctv['구별'].values

array(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구',
       '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구',
       '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구'], dtype=object)

In [14]:
cctv.shape

(25, 10)

In [15]:
cctv.head()

Unnamed: 0,구별,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강남구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강동구,1879,303.0,387.0,134.0,59,144,194,273,385
2,강북구,1265,243.0,88.0,141.0,74,145,254,1,319
3,강서구,1617,219.0,155.0,118.0,230,187,190,264,254
4,관악구,3985,430.0,56.0,419.0,487,609,619,694,671


이후, **구별**을 기준으로 merge 해줄 것이므로 구별이 서로 같아야함! 

In [16]:
set(cctv['구별'].unique()) - set(crime['구별'].unique())

set()

In [17]:
set(crime['구별'].unique()) - set(cctv['구별'].unique())

set()

### 탐색적 데이터 분석

#### 결측치 데이터 살피기

In [18]:
crime.isnull().sum()

구별           0
합계 발생        0
합계 검거        0
살인 발생        0
살인 검거        0
강도 발생        0
강도 검거        0
강간강제추행 발생    0
강간강제추행 검거    0
절도 발생        0
절도 검거        0
폭력 발생        0
폭력 검거        0
dtype: int64

In [19]:
cctv.isnull().sum()

구별          0
소계          0
2011년 이전    2
2012년       2
2013년       2
2014년       0
2015년       0
2016년       0
2017년       0
2018년       0
dtype: int64

In [20]:
cctv.loc[cctv.isnull()['2011년 이전'],:]

Unnamed: 0,구별,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
10,동대문구,2003,,,,1326,111,233,136,197
24,중랑구,1068,,,,770,102,121,66,9


In [21]:
# 2011년 이전 ~ 2013년 자료는 없으므로 0으로 처리 
cctv = cctv.fillna(0)
cctv.isnull().sum()

구별          0
소계          0
2011년 이전    0
2012년       0
2013년       0
2014년       0
2015년       0
2016년       0
2017년       0
2018년       0
dtype: int64

#### 5대 범죄 데이터 살펴보기

In [22]:
crime

Unnamed: 0,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
1,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
2,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733
3,성동구,2457,1787,2,2,5,8,126,102,999,487,1325,1188
4,광진구,3915,2789,7,5,2,1,229,184,1769,974,1908,1625
5,동대문구,3680,2968,2,2,5,4,145,112,1447,930,2081,1920
6,중랑구,4288,3222,4,5,3,3,174,145,1526,876,2581,2193
7,성북구,3042,2277,7,6,1,2,183,140,1164,635,1687,1494
8,강북구,3437,2743,8,6,7,7,188,135,1112,603,2122,1992
9,도봉구,2249,1676,1,1,5,3,113,117,781,431,1349,1124


In [23]:
# 구별 검거율 구하기 
crime['검거율'] = (crime['합계 검거'] / crime['합계 발생']) * 100
crime['살인검거율'] = (crime['살인 검거'] / crime['살인 발생']) * 100
crime['강도검거율'] = (crime['강도 검거'] / crime['강도 발생']) * 100
crime['강간검거율'] = (crime['강간강제추행 검거'] / crime['강간강제추행 발생']) * 100
crime['절도검거율'] = (crime['절도 검거'] / crime['절도 발생']) * 100
crime['폭력검거율'] = (crime['폭력 검거'] / crime['폭력 발생']) * 100

crime = crime.drop(['합계 발생','합계 검거','살인 검거', '강도 검거', '강간강제추행 검거','절도 검거','폭력 검거'],1)
crime.head()

Unnamed: 0,구별,살인 발생,강도 발생,강간강제추행 발생,절도 발생,폭력 발생,검거율,살인검거율,강도검거율,강간검거율,절도검거율,폭력검거율
0,종로구,6,3,236,1483,1962,106.04336,116.666667,233.333333,466.101695,65.340526,93.272171
1,중구,2,11,207,1855,1955,66.476427,100.0,100.0,55.555556,44.851752,87.928389
2,용산구,1,3,331,1096,1980,74.552917,100.0,66.666667,86.102719,47.627737,87.525253
3,성동구,2,5,126,999,1325,72.730973,100.0,160.0,80.952381,48.748749,89.660377
4,광진구,7,2,229,1769,1908,71.238825,71.428571,50.0,80.349345,55.059356,85.167715


In [29]:
crime = crime.rename({'살인 발생': '살인','강도 발생':'강도',
                      '절도 발생':'절도','폭력 발생':'폭력','강간강제추행 발생':'강간'}, axis='columns')
crime.columns.values

array(['구별', '살인', '강도', '강간', '절도', '폭력', '검거율', '살인검거율', '강도검거율',
       '강간검거율', '절도검거율', '폭력검거율'], dtype=object)

In [31]:
crime.head()

Unnamed: 0,구별,살인,강도,강간,절도,폭력,검거율,살인검거율,강도검거율,강간검거율,절도검거율,폭력검거율
0,종로구,6,3,236,1483,1962,106.04336,116.666667,233.333333,466.101695,65.340526,93.272171
1,중구,2,11,207,1855,1955,66.476427,100.0,100.0,55.555556,44.851752,87.928389
2,용산구,1,3,331,1096,1980,74.552917,100.0,66.666667,86.102719,47.627737,87.525253
3,성동구,2,5,126,999,1325,72.730973,100.0,160.0,80.952381,48.748749,89.660377
4,광진구,7,2,229,1769,1908,71.238825,71.428571,50.0,80.349345,55.059356,85.167715


In [58]:
# 전년도 발생 건수에 대한 검거도 포함하기 때문에 100%를 넘김....
crime[crime['살인검거율'] >= 100]

Unnamed: 0,구별,살인,강도,강간,절도,폭력,검거율,살인검거율,강도검거율,강간검거율,절도검거율,폭력검거율
0,종로구,6,3,236,1483,1962,106.04336,116.666667,233.333333,466.101695,65.340526,93.272171
1,중구,2,11,207,1855,1955,66.476427,100.0,100.0,55.555556,44.851752,87.928389
2,용산구,1,3,331,1096,1980,74.552917,100.0,66.666667,86.102719,47.627737,87.525253
3,성동구,2,5,126,999,1325,72.730973,100.0,160.0,80.952381,48.748749,89.660377
5,동대문구,2,5,145,1447,2081,80.652174,100.0,80.0,77.241379,64.270905,92.263335
6,중랑구,4,3,174,1526,2581,75.139925,125.0,100.0,83.333333,57.40498,84.967067
9,도봉구,1,5,113,781,1349,74.52201,100.0,60.0,103.539823,55.185659,83.320979
11,은평구,8,1,188,1278,2115,79.749304,100.0,100.0,89.893617,63.849765,88.368794
13,마포구,6,6,473,2011,2676,69.006187,100.0,116.666667,83.72093,43.858777,85.127055
14,양천구,2,4,120,1384,2005,69.957326,150.0,350.0,92.5,46.676301,84.0399


- [경찰청 5대 범죄 데이터](https://www.police.go.kr/www/open/publice/publice0202.jsp): 그런데 서울시만이 아닌 전국 데이터임!

In [36]:
from selenium import webdriver
import time

In [43]:
# 본인의 웹드라이버 위치 넣으세요! 
driver = webdriver.Chrome('/Users/harampark/Documents/chromedriver')
# 원하는 홈페이지로 슝~
driver.get("https://www.police.go.kr/www/open/publice/publice0202.jsp")

In [44]:
xpath = '//*[@id="contents2"]/div[2]/div[2]/div[4]/div/div/div[3]/div[1]/h2'
driver.find_element_by_xpath(xpath).click()

In [45]:
crime_table = {'2009' : [],
               '2010' : [],
               '2011' : [],
               '2012' : [],
               '2013' : [],    
              '2014' : [],
              '2015': [],
              '2016' : [],
              '2017' : [],
              '2018': []}

In [54]:
from bs4 import BeautifulSoup

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
table = soup.find_all('table', class_='mb10')  # table이란 태그를 찾아라! 
df = pd.read_html(str(table))
crime_pol = df[2]
crime_pol

Unnamed: 0,구 분,구 분.1,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
0,계,발생,590366,585637,617910,624956,606362,579057,574021,535898,501978.0,488288
1,계,검거,485406,415704,383538,382248,383357,384034,411328,412462,395.798,381385
2,살인 주1),발생,1374,1251,1204,984,918,907,919,906,818.0,791
3,살인 주1),검거,1341,1228,1154,960,903,895,899,902,820.0,777
4,강도,발생,6346,4409,3994,2586,1978,1586,1445,1149,965.0,818
5,강도,검거,5895,3866,3385,2239,1856,1546,1456,1168,975.0,818
6,강간·강제추행주2),발생,10215,18220,19491,19619,22292,21045,21280,22193,24106.0,23467
7,강간·강제추행주2),검거,9167,16104,16399,16581,19755,20026,20519,21451,23284.0,22633
8,절도,발생,256590,269410,281359,290055,287704,266059,245121,202874,183565.0,176613
9,절도,검거,177771,145968,112849,106060,118074,119354,126703,118476,113625.0,106535


In [55]:
crime_pol.to_csv('경찰통계자료 5대범죄.csv', encoding='utf-8', sep=',')
driver.close()