# chap1. 서울시 구별 CCTV 현황 분석

## 파이썬에서 텍스트 파일과 엑셀 파일 읽기 - pandas

In [None]:
import pandas as pd

`read_csv` : CSV 파일을 읽는 명령  
여기서 사용할 CCTV 데이터는 UTF-8로 인코딩 되어있어서 `read_csv` 명령을 쓸 때  
`encoding` 옵션에 UTF-8을 지정한다.  
`head()` : pandas 데이터의 첫 5행만 보여준다.

In [4]:
CCTV_Seoul = pd.read_csv('../data/01. CCTV_in_Seoul.csv', encoding='utf-8')
CCTV_Seoul.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204
3,강서구,884,388,258,184,81
4,관악구,1496,846,260,390,613


pandas 데이터는 제일 첫 줄에 보이는 것이 해당하는 열(column)을 대표하는 일종의 제목.  
그래서 첫 줄을 특별히 column이라고 함.  
데이터 뒤에 column라고 하면 column의 이름들이 반환됨.

In [5]:
CCTV_Seoul.columns

Index(['기관명', '소계', '2013년도 이전', '2014년', '2015년', '2016년'], dtype='object')

In [6]:
CCTV_Seoul.columns[0]

'기관명'

`rename` : 이름을 바꾸는 명령  
명령 안에 사용된 `inplace=True`는 실제 CCTV_Seoul이라는 변수의 내용을 갱신하라는 의미

In [7]:
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0] : '구별'}, inplace=True)
CCTV_Seoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204
3,강서구,884,388,258,184,81
4,관악구,1496,846,260,390,613


`read_excel` : 엑셀 파일 읽기.  
엑셀의 구조에 따라 인코딩만 지정하면 어색하게 출력된다.  
(위 3줄이 제목처럼 되어 있다.)

In [9]:
pop_Seoul = pd.read_excel('../data/01. population_in_Seoul.xls', encoding='utf-8')
pop_Seoul.head()

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
3,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
4,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764


엑셀 파일을 읽을 때는 옵션을 더 적용한다.  
`header=2` : 세 번째 줄부터 읽으라는 옵션  
`parse_cols='B, D, G, J, N` : B, D, G, J, N 열만 읽으라는 옵션

In [11]:
pop_Seoul = pd.read_excel('../data/01. population_in_Seoul.xls',
                         header = 2,
                         usecols = 'B, D, G, J, N',
                         encoding='utf-8')
pop_Seoul.head()

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


컬럼의 이름을 `rename`으로 변경 및 정리

In [12]:
pop_Seoul.rename(columns={pop_Seoul.columns[0] : '구별',
                          pop_Seoul.columns[1] : '인구수',
                          pop_Seoul.columns[2] : '한국인',
                          pop_Seoul.columns[3] : '외국인',
                          pop_Seoul.columns[4] : '고령자'}, inplace=True)
pop_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


CCTV_Seoul이라는 변수에 '구별 CCTV 현황',  
pop_Seoul이라는 변수에 '구별 인구 현황'을 저장 함.

## pandas 기초 익히기

In [13]:
import pandas as pd
import numpy as np

In [14]:
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

`Series` : pandas의 데이터 유형 중 기초가 되는 것  
대괄호로 만드는 파이썬의 list 데이터로 만들 수 있다.  
중간에 NaN(Not A Number)도 있다.

In [15]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

`date_range` : pandas의 날짜형의 데이터  
기본 날짜를 지정하고, `periods` 옵션으로 6일간이라고 지정

In [16]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-05,-0.321214,0.277409,0.955384,0.845589
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574


`DataFrame` 유형의 데이터를 만듬.  
6행 4열의 `random` 변수를 만들고, 컬럼에는 `columns=['A','B','C','D']`로 지정하고, `index` 명령으로 날짜형 데이터인 `dates`를 `index=dates` 옵션을 이용해서 지정함.

In [17]:
df.head(3)

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615


`head()`명령은 기본적으로 첫 5행을 보여주지만, 숫자를 인수로 넣으면 그 숫자만큼의 행을 볼 수 있다.

In [18]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [19]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

`index`, `columns` 명령을 이용하면 pandas의 DataFrame의 컬럼과 인덱스를 확인할 수 있다.

In [20]:
df.values

array([[-0.09021714,  0.35488614,  2.20328414, -1.7530861 ],
       [ 0.27684964, -0.06221871,  1.32282081, -0.50916701],
       [-0.54448532,  0.17109755,  0.48090362,  0.63661484],
       [ 0.99129569,  0.37673997,  0.68439405,  1.47844125],
       [-0.32121356,  0.27740875,  0.95538424,  0.84558924],
       [-1.3461442 ,  1.4397113 , -1.32460508, -1.85557399]])

`values` 명령으로 내용을 확인 할수 있다. `info()` 명령으로 DataFrame의 개요를 알 수 있다.

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2013-01-01 to 2013-01-06
Freq: D
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


`describe()` 명령은 통계적 개요를 확인 할 수 있다.  
개수(count)와 평균(mean)뿐만 아니라 min, max와 각 1/4 지점, 표준편차까지 한번에 알 수 있다.

In [22]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.172319,0.426271,0.720364,-0.192864
std,0.787532,0.521633,1.171134,1.404181
min,-1.346144,-0.062219,-1.324605,-1.855574
25%,-0.488667,0.197675,0.531776,-1.442106
50%,-0.205715,0.316147,0.819889,0.063724
75%,0.185083,0.371277,1.230962,0.793346
max,0.991296,1.439711,2.203284,1.478441


`values`가 숫자가 아니라 문자라고 하더라도 그에 맞는 개요가 나온다.

In [23]:
df.sort_values(by='B', ascending=False)

Unnamed: 0,A,B,C,D
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-05,-0.321214,0.277409,0.955384,0.845589
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-02,0.27685,-0.062219,1.322821,-0.509167


`sort_values` 명령은 `by`로 지정된 컬럼을 기준으로 정렬.  
`ascending` 옵션으로 내림차순이나 오름차순으로 정렬시킬 수 있다.

In [24]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-05,-0.321214,0.277409,0.955384,0.845589
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574


내용이 너무 많으면 Jupyter Notebook에서 내용을 줄여서 보여준다.

In [25]:
df['A']



2013-01-01   -0.090217
2013-01-02    0.276850
2013-01-03   -0.544485
2013-01-04    0.991296
2013-01-05   -0.321214
2013-01-06   -1.346144
Freq: D, Name: A, dtype: float64

DataFrame으로 선언된 변수의 경우 변수명 뒤에 ['A']와 같이 붙여주면 해당 컬럼만 Series로 보여준다.  
중간부터 보려면 `df[0:3]`처럼 범위를 지정해 준다.

In [27]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615


특정 범위의 행을 지정할 수 있다.

In [28]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441


`df.loc` : dates 변수를 이용해 특정 날짜의 데이터만 보여준다.  
`loc`은 location 옵션으로 슬라이싱할 때 loc 옵션을 이용해서 위치 값을 지정할 수 있다.

In [29]:
df.loc[dates[0]]

A   -0.090217
B    0.354886
C    2.203284
D   -1.753086
Name: 2013-01-01 00:00:00, dtype: float64

A, B열의 모든 행을 보려면 `df.loc[:,['A','B']]`라고 명령한다.

In [30]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.090217,0.354886
2013-01-02,0.27685,-0.062219
2013-01-03,-0.544485,0.171098
2013-01-04,0.991296,0.37674
2013-01-05,-0.321214,0.277409
2013-01-06,-1.346144,1.439711


행과 열의 범위를 모두 지정할 수도 있다.

In [33]:
# 2013년 1월 2일부터 2013년 1월 4일까지의 데이터 중 A와 B 컬럼의 데이터만 선택한다.
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,0.27685,-0.062219
2013-01-03,-0.544485,0.171098
2013-01-04,0.991296,0.37674


In [35]:
# 2013년 1월 2일의 A,B 컬럼의 내용을 확인
df.loc['20130102',['A','B']]

A    0.276850
B   -0.062219
Name: 2013-01-02 00:00:00, dtype: float64

dates[0]에 맞는 날짜인 2013년 1월 1일에 A컬럼의 데이터만 확인할 수 있다.  
`loc` 명령과 달리 `iloc`으로 행과 열의 번호를 이용해서 데이터에 바로 접근할 수 있다.  
`iloc`을 사용하면 행이나 열의 범위를 지정하면 됨. 콜론(`:`)을 사용하면 전체를 의미함.

In [36]:
df.loc[dates[0],'A']

-0.09021714188274846

`iloc`에 숫자만 표시하면 해당 숫자의 행을 의미한다.

In [38]:
# 0번부터 시작해서 4번행이 됨.
df.iloc[3]

A    0.991296
B    0.376740
C    0.684394
D    1.478441
Name: 2013-01-04 00:00:00, dtype: float64

In [40]:
# 3번째부터 4번째까지 행과 0번부터 1번까지 열의 데이터만 가져옴
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,0.991296,0.37674
2013-01-05,-0.321214,0.277409


In [41]:
# 범위가 아니라 콤마(,)로 행이나 열을 지정해서 데이터를 가져옴
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.27685,1.322821
2013-01-03,-0.544485,0.480904
2013-01-05,-0.321214,0.955384


In [42]:
# 한 쪽 전체를 의미하고 싶을 땐 그냥 클론만 사용
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615


In [44]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,0.354886,2.203284
2013-01-02,-0.062219,1.322821
2013-01-03,0.171098,0.480904
2013-01-04,0.37674,0.684394
2013-01-05,0.277409,0.955384
2013-01-06,1.439711,-1.324605


In [45]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-05,-0.321214,0.277409,0.955384,0.845589
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574


DataFrame에서 특정 조건을 만족하는 데이터만 얻을 수 있음

In [46]:
# 컬럼 A에서 0보다 큰 행만 얻음
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-04,0.991296,0.37674,0.684394,1.478441


데이터 전체에서 조건을 걸면 만족하지 않는 곳은 NaN 처리가 됨

In [47]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,0.354886,2.203284,
2013-01-02,0.27685,,1.322821,
2013-01-03,,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-05,,0.277409,0.955384,0.845589
2013-01-06,,1.439711,,


DataFrame을 복사할 때 `=`를 이용해서 복사하면 실제 데이터의 내용이 복사되는 것이 아니라 데이터 위치만 복사되기 때문에 원본 데이터는 하나만 있게 됨

In [48]:
# 데이터의 내용까지 복사하라는 지령은 copy() 옵션을 붙이면 된다.
df2 = df.copy()

In [50]:
# DataFrame에서 새로운 컬럼을 추가
df2['E'] = ['one','one','two','three','four','three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.090217,0.354886,2.203284,-1.753086,one
2013-01-02,0.27685,-0.062219,1.322821,-0.509167,one
2013-01-03,-0.544485,0.171098,0.480904,0.636615,two
2013-01-04,0.991296,0.37674,0.684394,1.478441,three
2013-01-05,-0.321214,0.277409,0.955384,0.845589,four
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574,three


In [52]:
# 이렇게 만든 E 컬럼에서 two와 four가 있는지 조건을 검
df2['E'].isin(['two','four'])

2013-01-01    False
2013-01-02    False
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: E, dtype: bool

In [54]:
# 결과는 True/False로 반환되는데, 이것을 이용하면 조건에 맞는 데이터를 선택할 수 있음
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,-0.544485,0.171098,0.480904,0.636615,two
2013-01-05,-0.321214,0.277409,0.955384,0.845589,four


In [55]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.27685,-0.062219,1.322821,-0.509167
2013-01-03,-0.544485,0.171098,0.480904,0.636615
2013-01-04,0.991296,0.37674,0.684394,1.478441
2013-01-05,-0.321214,0.277409,0.955384,0.845589
2013-01-06,-1.346144,1.439711,-1.324605,-1.855574


df 변수에서 좀 더 통계 느낌의 데이터를 볼 때는 특정 함수를 적용할때 `apply` 명령을 사용하면 됨.  
누적합을 알고 싶을 때 `numpy`의 `cumsum`을 이용하면 된다.

In [56]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2013-01-01,-0.090217,0.354886,2.203284,-1.753086
2013-01-02,0.186632,0.292667,3.526105,-2.262253
2013-01-03,-0.357853,0.463765,4.007009,-1.625638
2013-01-04,0.633443,0.840505,4.691403,-0.147197
2013-01-05,0.312229,1.117914,5.646787,0.698392
2013-01-06,-1.033915,2.557625,4.322182,-1.157182


최대값과 최소값의 차이(혹은 거리)를 알고 싶다면 `one-line` 함수인 `lambda`를 이용하면 된다.

In [57]:
df.apply(lambda x: x.max() - x.min())

A    2.337440
B    1.501930
C    3.527889
D    3.334015
dtype: float64

## pandas 이용해서 CCTV와 인구 현황 데이터 파악하기

In [59]:
CCTV_Seoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204
3,강서구,884,388,258,184,81
4,관악구,1496,846,260,390,613


In [63]:
# 소계를 기준으로 정렬
# CCTV 설치수가 적은 순으로 정렬
CCTV_Seoul.sort_values(by='소계', ascending=True).head(5)

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
9,도봉구,485,238,159,42,386
12,마포구,574,314,118,169,379
17,송파구,618,529,21,68,463
24,중랑구,660,509,121,177,109
23,중구,671,413,190,72,348


In [64]:
# CCTV 설치수가 많은 순으로 정렬
CCTV_Seoul.sort_values(by='소계', ascending=False).head(5)

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
18,양천구,2034,1843,142,30,467
14,서초구,1930,1406,157,336,398
21,은평구,1873,1138,224,278,468
20,용산구,1624,1368,218,112,398


In [68]:
# 2014년부터 2016년까지 최근 3년간 CCTV 수를 더하고 2013년 이전 CCTV 수로 나눠서 최근 3년간 CCTV 증가율을 계산
CCTV_Seoul['최근증가율'] = (CCTV_Seoul['2016년'] + CCTV_Seoul['2015년'] + CCTV_Seoul['2014년']) / CCTV_Seoul['2013년도 이전'] * 100
CCTV_Seoul.sort_values(by='최근증가율', ascending=False).head(5)

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년,최근증가율
22,종로구,1002,464,314,211,630,248.922414
9,도봉구,485,238,159,42,386,246.638655
12,마포구,574,314,118,169,379,212.101911
8,노원구,1265,542,57,451,516,188.929889
1,강동구,773,379,99,155,377,166.490765


In [69]:
# 서울시 인구 현황
pop_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10197604.0,9926968.0,270636.0,1321458.0
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0


In [70]:
# 0번의 합계를 삭제
pop_Seoul.drop([0], inplace=True)
pop_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [71]:
# pop_Seoul 데이터의 '구별' 컬럼의 unique를 조사.
# 유니크 조사는 반복된 데이터는 하나로 나타내서 한번 이상 나타난 데이터를 확인
pop_Seoul['구별'].unique()

array(['종로구', '중구', '용산구', '성동구', '광진구', '동대문구', '중랑구', '성북구', '강북구',
       '도봉구', '노원구', '은평구', '서대문구', '마포구', '양천구', '강서구', '구로구', '금천구',
       '영등포구', '동작구', '관악구', '서초구', '강남구', '송파구', '강동구', nan],
      dtype=object)

In [72]:
# isnull으로 NaN 데이터를 추출
pop_Seoul[pop_Seoul['구별'].isnull()]

Unnamed: 0,구별,인구수,한국인,외국인,고령자
26,,,,,


In [73]:
# NaN 값을 삭제
pop_Seoul.drop([26], inplace=True)
pop_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
1,종로구,162820.0,153589.0,9231.0,25425.0
2,중구,133240.0,124312.0,8928.0,20764.0
3,용산구,244203.0,229456.0,14747.0,36231.0
4,성동구,311244.0,303380.0,7864.0,39997.0
5,광진구,372164.0,357211.0,14953.0,42214.0


In [74]:
# 각 구별 전체 인구를 이용해서 구별 '외국인비율', '고령자비율'을 계산
pop_Seoul['외국인비율'] = pop_Seoul['외국인'] / pop_Seoul['인구수'] * 100
pop_Seoul['고령자비율'] = pop_Seoul['고령자'] / pop_Seoul['인구수'] * 100
pop_Seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
4,성동구,311244.0,303380.0,7864.0,39997.0,2.526635,12.850689
5,광진구,372164.0,357211.0,14953.0,42214.0,4.017852,11.342849


In [81]:
pop_Seoul.sort_values(by='인구수', ascending=False).head(5)

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
24,송파구,667483.0,660584.0,6899.0,72506.0,1.033584,10.862599
16,강서구,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
23,강남구,570500.0,565550.0,4950.0,63167.0,0.86766,11.072217
11,노원구,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [77]:
pop_Seoul.sort_values(by='외국인', ascending=False).head(5)

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
19,영등포구,402985.0,368072.0,34913.0,52413.0,8.663598,13.006191
17,구로구,447874.0,416487.0,31387.0,56833.0,7.007998,12.689506
18,금천구,255082.0,236353.0,18729.0,32970.0,7.342345,12.925255
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291
6,동대문구,369496.0,354079.0,15417.0,54173.0,4.17244,14.661322


In [78]:
pop_Seoul.sort_values(by='외국인비율', ascending=False).head(5)

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
19,영등포구,402985.0,368072.0,34913.0,52413.0,8.663598,13.006191
18,금천구,255082.0,236353.0,18729.0,32970.0,7.342345,12.925255
17,구로구,447874.0,416487.0,31387.0,56833.0,7.007998,12.689506
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427


In [79]:
pop_Seoul.sort_values(by='고령자', ascending=False).head(5)

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
16,강서구,603772.0,597248.0,6524.0,72548.0,1.08054,12.015794
24,송파구,667483.0,660584.0,6899.0,72506.0,1.033584,10.862599
12,은평구,494388.0,489943.0,4445.0,72334.0,0.899091,14.631019
11,노원구,569384.0,565565.0,3819.0,71941.0,0.670725,12.634883
21,관악구,525515.0,507203.0,18312.0,68082.0,3.484582,12.955291


In [80]:
pop_Seoul.sort_values(by='고령자비율', ascending=False).head(5)

Unnamed: 0,구별,인구수,한국인,외국인,고령자,외국인비율,고령자비율
9,강북구,330192.0,326686.0,3506.0,54813.0,1.061806,16.600342
1,종로구,162820.0,153589.0,9231.0,25425.0,5.669451,15.615404
2,중구,133240.0,124312.0,8928.0,20764.0,6.70069,15.583909
3,용산구,244203.0,229456.0,14747.0,36231.0,6.038828,14.836427
13,서대문구,327163.0,314982.0,12181.0,48161.0,3.723221,14.720797
