## 서울시 구별 CCTV 현황 분석하기
- 서울시 각 구별 CCTV 수를 확인하고 
- 인구대비 CCTV 비율을 파악하고 순위 비교
- 인구대비 CCTV 평균 확인 CCTV 부족한 구 확인

### 분석에 사용되는 데이터
- 서울시 자치구 연도별 CCTV 설치 현황
- 서울시 인구 현황

### 데이터 분석 작업 순서
1. 파일로부터 데이터 읽어오기
    1. CCTV 파일 읽어오기: 열 이름 변경
    2. 서울시 인구 현황 파일 읽어오기: 열 이름 변경
2. 데이터 파악
    1. CCTV 데이터 파악
        - CCTV가 가장 많은 구 / 적은 구 파악
        - 최근 CCTV 증가율 구하기
    2. 서울시 인구 데이터 파악
        - 필요 없는 행 삭제
        - 구 이름 확인
        - NaN 확인하고 포함된 행 삭제
        - 인구 분석 작업
            - 외국인 비율 / 고령자 비율 구하기
            - 인구가 제일 많은 구
            - 외국인이 제일 많은 구
            - 외국인 비율이 제일 높은 구 
            - 고령자가 가장 많은 구
3. CCTV 데이터와 인구 데이터 합치기
    1. 구별 기준으로 데이터 합치기
    2. 의미 없는 열 삭제
    3. 구별로 인덱스 설정
    4. 상관 관계 분석
4. 그래프 작성하고 분석

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 1. 파일로 데이터 읽어오기
# CCTV 파일 읽어오기 
CCTVSeoul = pd.read_csv('../data/CCTV_in_Seoul.csv', encoding='utf-8')
CCTVSeoul.tail() # 마지막 5행 

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
20,용산구,2096,1368,218,112,398
21,은평구,2108,1138,224,278,468
22,종로구,1619,464,314,211,630
23,중구,1023,413,190,72,348
24,중랑구,916,509,121,177,109


In [3]:
# 열 이름 (컬럼명) 출력
CCTVSeoul.columns

Index(['기관명', '소계', '2013년도 이전', '2014년', '2015년', '2016년'], dtype='object')

In [4]:
# 열이름 '기관명'을 '구별'로 변경: rename() 사용
CCTVSeoul.rename(columns={CCTVSeoul.columns[0]: '구별'}, inplace=True)
CCTVSeoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


In [5]:
# 엑셀 파일로 읽기
popSeoul = pd.read_excel('../data/population_in_Seoul.xls')
popSeoul.head()

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
3,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
4,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764


In [6]:
popSeoul.columns

Index(['기간', '자치구', '세대', '인구', '인구.1', '인구.2', '인구.3', '인구.4', '인구.5', '인구.6',
       '인구.7', '인구.8', '세대당인구', '65세이상고령자'],
      dtype='object')

In [7]:
# 필요없는 행과 열 제외하고 필요한 부분만 읽어오기
# 행은 세 번째 줄부터 읽고, 
# 열은 B, D, G, J, N만 읽어 오는 옵션 추가해서 파일 읽기
popSeoul = pd.read_excel('../data/population_in_Seoul.xls',
                       header=2, # 0, 1, 2 (세 번째 행)
                       usecols='B, D, G, J, N') # 선택 열)
popSeoul

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0
6,동대문구,369496.0,354079.0,15417.0,54173.0
7,중랑구,414503.0,409882.0,4621.0,56774.0
8,성북구,461260.0,449773.0,11487.0,64692.0
9,강북구,330192.0,326686.0,3506.0,54813.0


In [8]:
# 열 이름 변경
popSeoul.columns = ['구별', '인구수', '한국인', '외국인', '고령자']
popSeoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


## 데이터 파악

In [9]:
# CCTV 데이터 파악
CCTVSeoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


In [10]:
# '소계'를 기준으로 오름차순 정렬
CCTVSeoul.sort_values(by='소계').head()
    # 의미: CCTV가 가장 적은 5개 구

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,825,238,159,42,386
2,강북구,831,369,120,138,204
5,광진구,878,573,78,53,174
3,강서구,911,388,258,184,81
24,중랑구,916,509,121,177,109


In [11]:
# '소계'를 기준으로 내림차순 정렬
CCTVSeoul.sort_values(by='소계', ascending=False).head()
    # 의미: CCTV가 가장 많은 5개 구

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
18,양천구,2482,1843,142,30,467
14,서초구,2297,1406,157,336,398
4,관악구,2109,846,260,390,613
21,은평구,2108,1138,224,278,468


In [12]:
# 최근 3년간 CCTV 증가율
# 최근 3년에 2014~2016년의 CCTV 수를 더해서
# 2013년 이전의 CCTV 수로 나눈다음
# 곱하기 100

# '최근 증가율' 열 추가
CCTVSeoul['최근증가율'] = (CCTVSeoul['2016년'] + \
                      CCTVSeoul['2015년'] + \
                      CCTVSeoul['2014년']) / \
                      CCTVSeoul['2013년도 이전'] * 100
CCTVSeoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,3238,1292,430,584,932,150.619195
1,강동구,1010,379,99,155,377,166.490765
2,강북구,831,369,120,138,204,125.203252
3,강서구,911,388,258,184,81,134.793814
4,관악구,2109,846,260,390,613,149.29078


In [13]:
# 최근 증가율이 놓은 5개 구 확인
# '최근증가율' 기준으로 내림차순 정렬
CCTVSeoul.sort_values(by='최근증가율', ascending=False).head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
22,종로구,1619,464,314,211,630,248.922414
9,도봉구,825,238,159,42,386,246.638655
12,마포구,980,314,118,169,379,212.101911
8,노원구,1566,542,57,451,516,188.929889
1,강동구,1010,379,99,155,377,166.490765


In [14]:
# 2) 서울시 인구 데이터 파악
# 서울시 인구 현황 확인
popSeoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [15]:
# 불필요한 0행 삭제: drop() 함수 사용
popSeoul.drop([0], inplace=True)
popSeoul

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0
6,동대문구,369496.0,354079.0,15417.0,54173.0
7,중랑구,414503.0,409882.0,4621.0,56774.0
8,성북구,461260.0,449773.0,11487.0,64692.0
9,강북구,330192.0,326686.0,3506.0,54813.0
10,도봉구,348646.0,346629.0,2017.0,51312.0


In [16]:
# 구 이름 확인: 구 이름 외에 다른 것이 들어있는지 검사
# '구별' 이름은 한 번씩만 출력
# -> unique() 함수 사용: 반복된 값은 한 번만 출력

popSeoul['구별'].unique()

array(['종로구', '중구', '용산구', '성동구', '광진구', '동대문구', '중랑구', '성북구', '강북구',
       '도봉구', '노원구', '은평구', '서대문구', '마포구', '양천구', '강서구', '구로구', '금천구',
       '영등포구', '동작구', '관악구', '서초구', '강남구', '송파구', '강동구', nan],
      dtype=object)

In [17]:
# NaN이 들어있는지 확인: isnull() 함수 사용
# '구별' 열의 각 행마다 NaN이 들어 있는지 확인하고
# NaN이 포함된 행 반환
# popSeoul['구별' 열이 isnull() 적용]
popSeoul[popSeoul['구별'].isnull()]

Unnamed: 0,구별,인구수,한국인,외국인,고령자
26,,,,,


In [18]:
# NaN이 들어있는 행 삭제: drop() 함수 사용
popSeoul.drop([26], inplace=True)
popSeoul

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0
6,동대문구,369496.0,354079.0,15417.0,54173.0
7,중랑구,414503.0,409882.0,4621.0,56774.0
8,성북구,461260.0,449773.0,11487.0,64692.0
9,강북구,330192.0,326686.0,3506.0,54813.0
10,도봉구,348646.0,346629.0,2017.0,51312.0


In [19]:
# '외국인비율'과 '고령자비율' 계산해서 열 추가
# 외국인비율 = 외국인 / 전체 인구수 * 100
popSeoul['외국인비율'] = popSeoul['외국인'] / popSeoul['인구수'] * 100
popSeoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828
4,성동구,311244.0,303380.0,7864.0,39997.0,2.526635
5,광진구,372164.0,357211.0,14953.0,42214.0,4.017852


In [20]:
# 고령자 비율 = 고령자 / 전체 인구수 * 100
popSeoul['고령자비율'] = popSeoul['고령자'] / popSeoul['인구수'] * 100
popSeoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
4,성동구,311244.0,303380.0,7864.0,39997.0,2.526635,12.850689
5,광진구,372164.0,357211.0,14953.0,42214.0,4.017852,11.342849


In [21]:
# 인구가 가장 많은 구 확인 (5개)
# '인구수'를 기준으로 내림차순 정렬
popSeoul.sort_values(by='인구수', ascending=False).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
24,송파구,667483.0,660584.0,6899.0,72506.0,1.033584,10.862599
16,강서구,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
23,강남구,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
11,노원구,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [22]:
# 외국인이 가장 많은 구 확인 (5개)
# '외국인'을 기중으로 내림차순 정렬
popSeoul.sort_values(by='외국인', ascending=False).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
19,영등포구,402985.0,368072.0,34913.0,52413.0,8.663598,13.006191
17,구로구,447874.0,416487.0,31387.0,56833.0,7.007998,12.689506
18,금천구,255082.0,236353.0,18729.0,32970.0,7.342345,12.925255
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291
6,동대문구,369496.0,354079.0,15417.0,54173.0,4.17244,14.661322


In [23]:
# 고령자가 가장 많은 구 확인 (5개)
# '고령자'를 기준으로 내림차순 정렬
popSeoul.sort_values(by='고령자', ascending=False).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
16,강서구,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
24,송파구,667483.0,660584.0,6899.0,72506.0,1.033584,10.862599
12,은평구,494388.0,489943.0,4445.0,72334.0,0.899091,14.631019
11,노원구,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [24]:
# 고령자 비율이 가장 많은 구 확인 (5개)
# '고령자비율'를 기준으로 내림차순 정렬
popSeoul.sort_values(by='고령자비율', ascending=False).head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
9,강북구,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
13,서대문구,327163.0,314982.0,12181.0,48161.0,3.723221,14.720797


## 3. CCTV 데이터와 인구 데이터 합치기

In [25]:
# CCTV 데이터 확인
CCTVSeoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,3238,1292,430,584,932,150.619195
1,강동구,1010,379,99,155,377,166.490765
2,강북구,831,369,120,138,204,125.203252
3,강서구,911,388,258,184,81,134.793814
4,관악구,2109,846,260,390,613,149.29078


In [26]:
# 일부 열 추출해서 merge() 해도 됨 -> merge() 하고 필요없는 열 삭제
# '구별', '소계', '최근 증가율'
# CCTVSeoul2 = CCTVSeoul[['구별', '소계', '최근증가율']]
# CCTVSeoul2.head()

Unnamed: 0,구별,소계,최근증가율
0,강남구,3238,150.619195
1,강동구,1010,166.490765
2,강북구,831,125.203252
3,강서구,911,134.793814
4,관악구,2109,149.29078


In [27]:
# CCTVSeoul2 와 popSeoul 데이터 병합
# dataResult = pd.merge(CCTVSeoul2, popSeoul, on='구별')
# dataResult.head()

Unnamed: 0,구별,소계,최근증가율,인구수,한국인,외국인,고령자,외국인비율,고령자비율
0,강남구,3238,150.619195,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
1,강동구,1010,166.490765,453233.0,449019.0,4214.0,54622.0,0.929765,12.051638
2,강북구,831,125.203252,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
3,강서구,911,134.793814,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
4,관악구,2109,149.29078,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [28]:
# 데이터 병합(2): 2 개의 데이터프레임 먼저 merge() 하고 필요없는 열 삭제
CCTVSeoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,3238,1292,430,584,932,150.619195
1,강동구,1010,379,99,155,377,166.490765
2,강북구,831,369,120,138,204,125.203252
3,강서구,911,388,258,184,81,134.793814
4,관악구,2109,846,260,390,613,149.29078


In [29]:
popSeoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
4,성동구,311244.0,303380.0,7864.0,39997.0,2.526635,12.850689
5,광진구,372164.0,357211.0,14953.0,42214.0,4.017852,11.342849


In [30]:
# CCTV 데이터와 인구 현황 데이터 병합: merge()
mergeResult = pd.merge(CCTVSeoul, popSeoul, on='구별')
mergeResult.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율,인구수,한국인,외국인,고령자,외국인비율,고령자비율
0,강남구,3238,1292,430,584,932,150.619195,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
1,강동구,1010,379,99,155,377,166.490765,453233.0,449019.0,4214.0,54622.0,0.929765,12.051638
2,강북구,831,369,120,138,204,125.203252,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
3,강서구,911,388,258,184,81,134.793814,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
4,관악구,2109,846,260,390,613,149.29078,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [31]:
# mergeResult의 열 이름 확인
mergeResult.columns

Index(['구별', '소계', '2013년도 이전', '2014년', '2015년', '2016년', '최근증가율', '인구수',
       '한국인', '외국인', '고령자', '외국인비율', '고령자비율'],
      dtype='object')

In [32]:
# 의미 없는 열 삭제: del 명령어 사용
# 행 삭제: drop() 함수 사용 했음
del mergeResult['2013년도 이전']
del mergeResult['2014년']
del mergeResult['2015년']
del mergeResult['2016년']

In [33]:
mergeResult

Unnamed: 0,구별,소계,최근증가율,인구수,한국인,외국인,고령자,외국인비율,고령자비율
0,강남구,3238,150.619195,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
1,강동구,1010,166.490765,453233.0,449019.0,4214.0,54622.0,0.929765,12.051638
2,강북구,831,125.203252,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
3,강서구,911,134.793814,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
4,관악구,2109,149.29078,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291
5,광진구,878,53.228621,372164.0,357211.0,14953.0,42214.0,4.017852,11.342849
6,구로구,1884,64.97373,447874.0,416487.0,31387.0,56833.0,7.007998,12.689506
7,금천구,1348,100.0,255082.0,236353.0,18729.0,32970.0,7.342345,12.925255
8,노원구,1566,188.929889,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
9,도봉구,825,246.638655,348646.0,346629.0,2017.0,51312.0,0.578524,14.717507


In [34]:
# 그래프 작성 시 index로 구 이름이 출력되도록
# index '구별'로 설정
mergeResult.set_index('구별', inplace=True)
mergeResult.head()

Unnamed: 0_level_0,소계,최근증가율,인구수,한국인,외국인,고령자,외국인비율,고령자비율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강남구,3238,150.619195,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
강동구,1010,166.490765,453233.0,449019.0,4214.0,54622.0,0.929765,12.051638
강북구,831,125.203252,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
강서구,911,134.793814,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
관악구,2109,149.29078,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [36]:
# 결과를 파일로 저장하기: '구별'로 정렬
CCTVPopResult = mergeResult.sort_values(by='구별')
CCTVPopResult.head()

Unnamed: 0_level_0,소계,최근증가율,인구수,한국인,외국인,고령자,외국인비율,고령자비율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강남구,3238,150.619195,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
강동구,1010,166.490765,453233.0,449019.0,4214.0,54622.0,0.929765,12.051638
강북구,831,125.203252,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
강서구,911,134.793814,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
관악구,2109,149.29078,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [37]:
# 정렬된 결과를 파일로 저장: encoding='euc-kr'
CCTVPopResult.to_csv('../data/CCTV_pop_result_euc_kr.csv',
                    header=True,
                    index=True,
                    encoding='euc-kr')
    # encoding='euc-kr'로 주면 파일 읽어 올 때 encoding='euc-kr'로 줘야한다

In [37]:
# 정렬된 결과를 파일로 저장: encoding='utf-8'
CCTVPopResult.to_csv('../data/CCTV_pop_result_utf_8.csv',
                    header=True,
                    index=True,
                    encoding='utf-8')
    # encoding='utf-8'로 주면 파일 읽어 올 때 encoding='utf-8'로 줘야한다