# Introduction to Data Science Team Project 

## CCTV는 정말로 범죄를 예방하는 효과가 있을까? 

- [CCTV 설치로 범죄율 27% 감소](https://www.boannews.com/media/view.asp?idx=63961) 검증


##### 데이터셋
- [서울시 자치구 년도별 CCTV 설치 현황](https://data.seoul.go.kr/dataList/OA-2734/C/1/datasetView.do)
- [서울시 5대 범죄 발생현황 통계](https://data.seoul.go.kr/dataList/316/C/2/datasetView.do;jsessionid=2199F74D80737F2EC64059AC30470780.new_portal-svr-11)

### Import data

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
%matplotlib inline 

#### 서울시 5대 범죄 발생현황 통계 데이터

In [2]:
# 왜 thousands가 작동안할까? 
crime = pd.read_csv('서울시 5대 범죄 발생현황 통계.csv', thousands=',', encoding='utf-8')
crime.head()

Unnamed: 0,기간,자치구,합계,합계.1,살인,살인.1,강도,강도.1,강간강제추행,강간강제추행.1,절도,절도.1,폭력,폭력.1
0,기간,자치구,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거
1,2018,합계,101948,74487,143,139,143,151,6412,6046,39175,19762,56075,48389
2,2018,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
3,2018,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
4,2018,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733


In [3]:
columns_name = ['기간', '구별','합계 발생','합계 검거','살인 발생','살인 검거','강도 발생','강도 검거',
                '강간강제추행 발생', '강간강제추행 검거','절도 발생','절도 검거','폭력 발생','폭력 검거']
crime.columns = columns_name
crime.head()

Unnamed: 0,기간,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,기간,자치구,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거
1,2018,합계,101948,74487,143,139,143,151,6412,6046,39175,19762,56075,48389
2,2018,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
3,2018,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
4,2018,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733


In [4]:
crime.drop([0,1], inplace=True)
crime.drop('기간',1, inplace=True) # 모두 2018년 데이터이므로! 
crime.reset_index(drop=True, inplace=True)
crime.head()

Unnamed: 0,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
1,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
2,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733
3,성동구,2457,1787,2,2,5,8,126,102,999,487,1325,1188
4,광진구,3915,2789,7,5,2,1,229,184,1769,974,1908,1625


In [5]:
crime.shape

(25, 13)

In [6]:
crime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 13 columns):
구별           25 non-null object
합계 발생        25 non-null object
합계 검거        25 non-null object
살인 발생        25 non-null object
살인 검거        25 non-null object
강도 발생        25 non-null object
강도 검거        25 non-null object
강간강제추행 발생    25 non-null object
강간강제추행 검거    25 non-null object
절도 발생        25 non-null object
절도 검거        25 non-null object
폭력 발생        25 non-null object
폭력 검거        25 non-null object
dtypes: object(13)
memory usage: 2.7+ KB


In [7]:
# object에서 int로 변경됨! 
for column in list(crime.columns)[1:]:
    crime[column] = crime[column].str.replace(',', '').astype('int64')
crime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 13 columns):
구별           25 non-null object
합계 발생        25 non-null int64
합계 검거        25 non-null int64
살인 발생        25 non-null int64
살인 검거        25 non-null int64
강도 발생        25 non-null int64
강도 검거        25 non-null int64
강간강제추행 발생    25 non-null int64
강간강제추행 검거    25 non-null int64
절도 발생        25 non-null int64
절도 검거        25 non-null int64
폭력 발생        25 non-null int64
폭력 검거        25 non-null int64
dtypes: int64(12), object(1)
memory usage: 2.7+ KB


In [8]:
crime.head()

Unnamed: 0,구별,합계 발생,합계 검거,살인 발생,살인 검거,강도 발생,강도 검거,강간강제추행 발생,강간강제추행 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,종로구,3690,3913,6,7,3,7,236,1100,1483,969,1962,1830
1,중구,4030,2679,2,2,11,11,207,115,1855,832,1955,1719
2,용산구,3411,2543,1,1,3,2,331,285,1096,522,1980,1733
3,성동구,2457,1787,2,2,5,8,126,102,999,487,1325,1188
4,광진구,3915,2789,7,5,2,1,229,184,1769,974,1908,1625


#### 서울시 자치구 년도별 CCTV 현황 데이터

In [9]:
cctv = pd.read_excel('서울시 자치구 년도별 CCTV 설치 현황.xlsx')
cctv.head()

Unnamed: 0,기관명,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강 남 구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강 동 구,1879,303.0,387.0,134.0,59,144,194,273,385
2,강 북 구,1265,243.0,88.0,141.0,74,145,254,1,319
3,강 서 구,1617,219.0,155.0,118.0,230,187,190,264,254
4,관 악 구,3985,430.0,56.0,419.0,487,609,619,694,671


In [10]:
cctv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 10 columns):
기관명         25 non-null object
소계          25 non-null int64
2011년 이전    23 non-null float64
2012년       23 non-null float64
2013년       23 non-null float64
2014년       25 non-null int64
2015년       25 non-null int64
2016년       25 non-null int64
2017년       25 non-null int64
2018년       25 non-null int64
dtypes: float64(3), int64(6), object(1)
memory usage: 2.1+ KB


In [11]:
cctv = cctv.rename({'기관명': '구별'}, axis='columns')
cctv.columns.values

array(['구별', '소계', '2011년 이전', '2012년', '2013년', '2014년', '2015년',
       '2016년', '2017년', '2018년'], dtype=object)

In [12]:
def rename_gu(x): 
    gu = x.split(' ')
    gu_new = ''.join(gu)
    return gu_new 

In [13]:
# 이름 잘 정리됨. 
cctv['구별'] = cctv['구별'].apply(lambda x: rename_gu(x))
cctv['구별'].values

array(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구',
       '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구',
       '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구'], dtype=object)

In [14]:
cctv.shape

(25, 10)

In [15]:
cctv.head()

Unnamed: 0,구별,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강남구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강동구,1879,303.0,387.0,134.0,59,144,194,273,385
2,강북구,1265,243.0,88.0,141.0,74,145,254,1,319
3,강서구,1617,219.0,155.0,118.0,230,187,190,264,254
4,관악구,3985,430.0,56.0,419.0,487,609,619,694,671


이후, **구별**을 기준으로 merge 해줄 것이므로 구별이 서로 같아야함! 

In [16]:
set(cctv['구별'].unique()) - set(crime['구별'].unique())

set()

In [17]:
set(crime['구별'].unique()) - set(cctv['구별'].unique())

set()

### 탐색적 데이터 분석

#### 결측치 데이터 살피기

In [18]:
crime.isnull().sum()

구별           0
합계 발생        0
합계 검거        0
살인 발생        0
살인 검거        0
강도 발생        0
강도 검거        0
강간강제추행 발생    0
강간강제추행 검거    0
절도 발생        0
절도 검거        0
폭력 발생        0
폭력 검거        0
dtype: int64

In [19]:
cctv.isnull().sum()

구별          0
소계          0
2011년 이전    2
2012년       2
2013년       2
2014년       0
2015년       0
2016년       0
2017년       0
2018년       0
dtype: int64