## 서울시 기준, 자치구별 CCTV 현황, 인구현황 분석

- 개별 데이터 분석
- 상관성 분석
- pandas 사용법 습득, 시각화 기초

### 1. 데이터 수집(획득) 및 로드

In [1]:
import numpy as np
import pandas as pd

- pandas에서 엑셀(csv) 파일 로드
- 데이터를 부분 확인 후 데이터의 이상여부 간단히 시각적 확인

In [2]:
s_cctv = pd.read_excel('../data/seoul_cctv_state.xlsx', encoding = 'utf-8')

In [3]:
# 전체 확인
s_cctv

Unnamed: 0,기관명,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강 남 구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강 동 구,1879,303.0,387.0,134.0,59,144,194,273,385
2,강 북 구,1265,243.0,88.0,141.0,74,145,254,1,319
3,강 서 구,1617,219.0,155.0,118.0,230,187,190,264,254
4,관 악 구,3985,430.0,56.0,419.0,487,609,619,694,671
5,광 진 구,1581,470.0,42.0,83.0,87,64,21,468,346
6,구 로 구,3227,852.0,219.0,349.0,187,268,326,540,486
7,금 천 구,1634,27.0,17.0,242.0,101,382,136,199,530
8,노 원 구,1906,481.0,117.0,203.0,80,461,298,110,156
9,도 봉 구,858,197.0,66.0,8.0,185,59,155,117,71


In [5]:
# 상위값 확인
# s_cctv.head() : 상위 5개
# s_cctv.head(2) : 상위 2개
s_cctv.head(2)

Unnamed: 0,기관명,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강 남 구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강 동 구,1879,303.0,387.0,134.0,59,144,194,273,385


In [6]:
# 하위값 확인
# s_cctv.tail() : 하위 5개
# s_cctv.tail(2) : 하위 2개
s_cctv.tail(2)

Unnamed: 0,기관명,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
23,중 구,1544,25.0,165.0,114.0,80,245,270,317,328
24,중 랑 구,1068,,,,770,102,121,66,9


- 대략적으로 탐색한 결과, 동대문구와 중랑구에 결측치(NaN) 확인

In [7]:
# 탐색
# 컬럼명 확인
s_cctv.columns

Index(['기관명', '소계', '2011년 이전', '2012년', '2013년', '2014년', '2015년', '2016년',
       '2017년', '2018년'],
      dtype='object')

In [8]:
# 컬럼명 '2011년 이전' 획득
s_cctv.columns[2]

'2011년 이전'

In [9]:
# 데이터의 차원, 모습 확인
s_cctv.shape

(25, 10)

In [10]:
# 인덱스
s_cctv.index

RangeIndex(start=0, stop=25, step=1)

In [11]:
# '기관명' -> '자치구'로 변경 (의미 명확성 부여 목적)
# => DataFrame의 컬럼명 변경 
# 파라미터 inplace : 원본을 변경할 것인가? True면 원본 변경(원본에 반영)
s_cctv.rename(columns={s_cctv.columns[0] : '자치구'}, inplace = True)
# columns = {} -> 딕셔너리 형태로 주겠다는 의미

In [12]:
s_cctv.head(2)

Unnamed: 0,자치구,소계,2011년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년
0,강 남 구,5221,1944.0,195.0,316.0,430,546,765,577,448
1,강 동 구,1879,303.0,387.0,134.0,59,144,194,273,385


#### 실습
- 변수명 s_pop으로 report.csv를 로드하시오.
- 일단 Report.xls로 read_excel 진행

In [16]:
# 데이터를 보니 컬럼이 3개
# -> 헤더를 2번으로 지정
# 필요없는 데이터는 로드 단계에서 걷어내기 -> 사전에 데이터를 보고 판단
s_pop = pd.read_excel('../data/Report.xls', encoding='euc_kr', header = 2,
                     usecols = 'A, B, D, G, J, P')
s_pop

Unnamed: 0,기간,자치구,계,계.1,계.2,65세이상고령자
0,2011,합계,10528774,10249679,279095,1049425
1,2011,종로구,177419,168382,9037,22939
2,2011,중구,141567,133193,8374,18099
3,2011,용산구,259288,246501,12787,31837
4,2011,성동구,308767,300711,8056,32767
5,2011,광진구,386673,371936,14737,33613
6,2011,동대문구,378534,365486,13048,44368
7,2011,중랑구,428672,423706,4966,43745
8,2011,성북구,494422,485171,9251,55213
9,2011,강북구,348740,345054,3686,43507


In [17]:
# 컬럼명을 의미있게 조정
# 계 ~ ...고령자 -> 인구수, 한국인, 외국인, 고령자
s_pop.rename(columns={s_pop.columns[2] : '인구수',
                      s_pop.columns[3] : '한국인',
                      s_pop.columns[4] : '외국인',
                      s_pop.columns[5] : '고령자'}, inplace = True)

In [18]:
# 변경 확인
s_pop.head(2)

Unnamed: 0,기간,자치구,인구수,한국인,외국인,고령자
0,2011,합계,10528774,10249679,279095,1049425
1,2011,종로구,177419,168382,9037,22939


## pandas 기초 학습
<a href = 'http://localhost:8889/notebooks/pandas/basic/pandas_기초.ipynb'>이동하기</a>