---
Pandas 이용한 CCTV 현황 분석
---

In [None]:
# CCTV 현황 데이터 읽기
import numpy as np
import pandas as pd

# 데이터 로딩
CCTV_Seoul = pd.read_csv(
    './data/01. CCTV_in_Seoul.csv' # 파일의 경로 지정
    , encoding='utf-8'
)
CCTV_Seoul.head(3)

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204


In [3]:
# 데이터 탐색
# 정렬, describe, info, head()
CCTV_Seoul.describe()


Unnamed: 0,소계,2013년도 이전,2014년,2015년,2016년
count,25.0,25.0,25.0,25.0,25.0
mean,1179.08,764.76,159.48,205.2,385.88
std,556.728983,415.510257,104.132976,137.877059,182.479981
min,485.0,238.0,21.0,30.0,81.0
25%,748.0,464.0,78.0,103.0,292.0
50%,1015.0,573.0,142.0,184.0,377.0
75%,1496.0,1070.0,218.0,269.0,467.0
max,2780.0,1843.0,430.0,584.0,932.0


In [4]:
CCTV_Seoul.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   기관명        25 non-null     object
 1   소계         25 non-null     int64 
 2   2013년도 이전  25 non-null     int64 
 3   2014년      25 non-null     int64 
 4   2015년      25 non-null     int64 
 5   2016년      25 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.3+ KB


In [6]:
# 정렬해서 데이터 확인 : 소계 ASC
CCTV_Seoul.sort_values(
    by='소계' # 컬럼명
    , ascending=True # default
). head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,485,238,159,42,386
12,마포구,574,314,118,169,379
17,송파구,618,529,21,68,463
24,중랑구,660,509,121,177,109
23,중구,671,413,190,72,348


In [7]:
# 정렬해서 데이터 확인 : 소계 DESC
CCTV_Seoul.sort_values(
    by='소계' 
    , ascending=False
). head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
18,양천구,2034,1843,142,30,467
14,서초구,1930,1406,157,336,398
21,은평구,1873,1138,224,278,468
20,용산구,1624,1368,218,112,398


In [None]:
# 최근 증가율 구하고 컬럼 추가
# CCTV_Seoul['최근증가율'] = (14+15+16) / CCTV_Seoul['2013년도 이전'] * 100
CCTV_Seoul['최근증가율'] = (CCTV_Seoul['2014년']\
                        +CCTV_Seoul['2015년']\
                        +CCTV_Seoul['2016년'] ) \
                        / CCTV_Seoul['2013년도 이전'] * 100
CCTV_Seoul.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,2780,1292,430,584,932,150.619195
1,강동구,773,379,99,155,377,166.490765
2,강북구,748,369,120,138,204,125.203252
3,강서구,884,388,258,184,81,134.793814
4,관악구,1496,846,260,390,613,149.29078


In [11]:
# 최근 3년간 많이 증가한 구를 확인 : 정렬
CCTV_Seoul.sort_values(
    by='최근증가율'
    , ascending=False
).head()
    
    

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
22,종로구,1002,464,314,211,630,248.922414
9,도봉구,485,238,159,42,386,246.638655
12,마포구,574,314,118,169,379,212.101911
8,노원구,1265,542,57,451,516,188.929889
1,강동구,773,379,99,155,377,166.490765


In [12]:
# 컬럼명 변경 : 기관명 => 구별 변경
CCTV_Seoul.rename(
    columns={
        CCTV_Seoul.columns[0] : '구별'
    }
    , inplace=True
)
CCTV_Seoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
0,강남구,2780,1292,430,584,932,150.619195
1,강동구,773,379,99,155,377,166.490765
2,강북구,748,369,120,138,204,125.203252
3,강서구,884,388,258,184,81,134.793814
4,관악구,1496,846,260,390,613,149.29078


In [13]:
# 인구 현황
POP_Seoul = pd.read_excel(
    './data/01. population_in_Seoul.xls'
    , header=2
    , usecols='B, D, G, J, N'
)
POP_Seoul.head()

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [14]:
# 컬럼명 변경 : rename()
POP_Seoul.rename(
    columns={
        POP_Seoul.columns[0] : '구별'
        , POP_Seoul.columns[1] : '인구수'
        , POP_Seoul.columns[2] : '한국인'
        , POP_Seoul.columns[3] : '외국인'
        , POP_Seoul.columns[4] : '고령자'
    }
    , inplace=True # 원본에 반영
)
POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [None]:
# 데이터프레임에서 행, 컬럼 삭제 : drop([인덱스], 축axis=0,1, inplace)
# axis = 0 : 행 방향 = 세로?
# axis = 1 : 열 방향 = 가로?
# 합계라는 행 삭제
POP_Seoul.drop(
    [0] # [0] : 0번행 삭제, 리스트 : 여러개 삭제 가능
    , axis=0
    , inplace=True
) # => return : None
# .head() error


KeyError: '[0] not found in axis'

In [19]:
POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [22]:
# inplace 사용시 주의
# drop(inplace=False) : 복사된 object에서 삭제된 데이터프레임을 반환, header메소드 실행 가능
# drop(inplace=True) : 원본에 반영 = 복사 없다 = None 반환
 

In [23]:
POP_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [24]:
# 구별 컬럼에 중복 값 확인 : 중복값 제거 => unique()
POP_Seoul['구별'].unique()

array(['종로구', '중구', '용산구', '성동구', '광진구', '동대문구', '중랑구', '성북구', '강북구',
       '도봉구', '노원구', '은평구', '서대문구', '마포구', '양천구', '강서구', '구로구', '금천구',
       '영등포구', '동작구', '관악구', '서초구', '강남구', '송파구', '강동구', nan],
      dtype=object)

In [26]:
# nan 값이 들어있는 행 확인 : 불린 인덱싱 사용
# isnull() : nan 값을 찾아서 boolean return : nan True
POP_Seoul['구별'].isnull()


1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26     True
Name: 구별, dtype: bool

In [34]:
# nan 값이 들어있는 행 추출
POP_Seoul[POP_Seoul['구별'].isnull()]

Unnamed: 0,구별,인구수,한국인,외국인,고령자


In [35]:
# 인구현황 파일 저장
# to_csv : 데이터프레임을 csv 파일로 저장
POP_Seoul.to_csv('./data/01 인구현황 nan 삭제까지.csv')
CCTV_Seoul.to_csv('./data/01 CCTV 현황 중간 데이터.csv')