In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

# 주제 : 서울시 구별 CCTV 현황 분석

+ 출처 : https://data.seoul.go.kr/
    - CCTV 현황 : http://data.seoul.go.kr/dataList/OA-2734/F/1/datasetView.do
    - 서울시 인구 : https://data.seoul.go.kr/dataList/419/S/2/datasetView.do

## 1. Data Prepare

### (1) CCTV Data

In [5]:
cctv_seoul = pd.read_csv("data/seoul/cctv.csv")
cctv_seoul.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


### (2) Population Data

In [3]:
pop_seoul = pd.read_excel("data/seoul/Report.xls", usecols="B, D, G, J, N",
                             header=2)
pop_seoul.head()

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10112070,9838892,273178,1382420
1,종로구,164348,154549,9799,26429
2,중구,135139,126082,9057,21655
3,용산구,245411,229909,15502,37238
4,성동구,314551,306532,8019,41752


## EDA & Preprocessing

### 2-1. 컬럼 이름 변경

In [6]:
##### CCTV 자료에서 "기관명"이라는 컬럼을 "구별"로 변경

# cctv_seoul.rename(columns = {"기관명":"구별"}, inplace=True)
cctv_seoul.columns = ["구별", "소계", "2013년도 이전", 
                          "2014년", "2015년", "2016년"]
cctv_seoul

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613
5,광진구,878,573,78,53,174
6,구로구,1884,1142,173,246,323
7,금천구,1348,674,51,269,354
8,노원구,1566,542,57,451,516
9,도봉구,825,238,159,42,386


In [7]:
##### 인구 데이터에서 컬럼명을 각각 구별, 인구수, 한국인, 외국인, 고령자로 변경
pop_seoul.columns = ["구별", "인구수", "한국인", "외국인", "고령자"]
pop_seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10112070,9838892,273178,1382420
1,종로구,164348,154549,9799,26429
2,중구,135139,126082,9057,21655
3,용산구,245411,229909,15502,37238
4,성동구,314551,306532,8019,41752


## 2-2. CCTV 현황 탐색
+ 어느 구가 가장 CCTV가 많이 설치되어 있는가? 또는 적게 설치되어 있는가?

In [8]:
cctv_seoul.sort_values(["소계"])

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,825,238,159,42,386
2,강북구,831,369,120,138,204
5,광진구,878,573,78,53,174
3,강서구,911,388,258,184,81
24,중랑구,916,509,121,177,109
12,마포구,980,314,118,169,379
1,강동구,1010,379,99,155,377
23,중구,1023,413,190,72,348
17,송파구,1081,529,21,68,463
13,서대문구,1254,844,50,68,292


In [11]:
cctv_seoul.sort_values(["소계"], ascending=False)
cctv_seoul.sort_values(["소계"])[["구별", "소계"]]

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,825,238,159,42,386
2,강북구,831,369,120,138,204
5,광진구,878,573,78,53,174
3,강서구,911,388,258,184,81
24,중랑구,916,509,121,177,109
12,마포구,980,314,118,169,379
1,강동구,1010,379,99,155,377
23,중구,1023,413,190,72,348
17,송파구,1081,529,21,68,463
13,서대문구,1254,844,50,68,292


+ 최근 증가율 이라는 파생변수를 추가
+ (2014년 + 2015년 + 2016년) / (2013년도 이전) * 100
+ CCTV의 설치 증가율에 따라 가장 높은 구와 가장 적은 구를 탐색

In [13]:
cctv_seoul["최근증가율"] = ((cctv_seoul["2014년"] + cctv_seoul["2015년"] + \
                       cctv_seoul["2016년"]) / cctv_seoul["2013년도 이전"]) * 100
cctv_seoul.head()

print(cctv_seoul.sort_values(by="최근증가율", ascending=False).head(3))
print("------------------------------------------------------------------")
print(cctv_seoul.sort_values(by="최근증가율", ascending=True).head(3))

     구별    소계  2013년도 이전  2014년  2015년  2016년       최근증가율
22  종로구  1619        464    314    211    630  248.922414
9   도봉구   825        238    159     42    386  246.638655
12  마포구   980        314    118    169    379  212.101911
------------------------------------------------------------------
      구별    소계  2013년도 이전  2014년  2015년  2016년      최근증가율
18   양천구  2482       1843    142     30    467  34.671731
13  서대문구  1254        844     50     68    292  48.578199
20   용산구  2096       1368    218    112    398  53.216374


## 2-3 인구 데이터에서 전처리

In [14]:
##### 필요없는 행 삭제(여기서는 첫번째 행 삭제): drop, del
pop_seoul.drop([0], inplace=True)

In [15]:
pop_seoul

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,164348,154549,9799,26429
2,중구,135139,126082,9057,21655
3,용산구,245411,229909,15502,37238
4,성동구,314551,306532,8019,41752
5,광진구,371671,357149,14522,44470
6,동대문구,364962,349308,15654,56284
7,중랑구,411552,406868,4684,59992
8,성북구,453902,442226,11676,66896
9,강북구,327511,323862,3649,57002
10,도봉구,345041,342861,2180,54293


In [26]:
##### 구별 데이터의 중복이나 결측치 등을 확인

print(len(pop_seoul["구별"].unique()))
print(pop_seoul["구별"].count())  # 결측치를 제외하고 카운트
pop_seoul["구별"].value_counts()

pop_seoul[pop_seoul["구별"].isnull()]

26
25


Unnamed: 0,구별,인구수,한국인,외국인,고령자
26,,0,0,0,0


In [27]:
# 결측치 삭제
pop_seoul.drop([26], inplace=True)

In [28]:
print(len(pop_seoul["구별"].unique()))
print(pop_seoul["구별"].count())  

25
25
