# 문제 정의 : 서울시 유동인구 분석   
   
- DataSet 구성
    1. 일자 : 유동 인구를 수집한 날짜( 2020/04/01 ~ 2020/04/30 )
    2. 시간 : 유동 인구를 수집한 시간( 0시 ~ 23시, 1시간 단위 수집 )
    3. 연령대 : 유동 인구를 수집한 연령대( 20대 ~ 70대 )
    4. 시 : 유동 인구를 수집한 시( 서울시 )
    5. 구 : 유동 인구를 수집한 구( 서울 25개구 )
    6. 유동인구수

# 2. 수집한 DataSet을 DataFrame으로 생성되는 과정에 대한 정리


## 2.1 NumPy / Pandas import

In [1]:
import numpy as np # NumPy
import pandas as pd # Pandas

# IPython( jupyter notebook ) 디스플레이 설정 변경
# 출력할 열의 개수 한도 설정
pd.set_option( 'display.max_columns', 20 )
# 출력할 열의 너비 설정
pd.set_option( 'display.max_colwidth', 20 )
# 유니코드 사용 너비 조정
pd.set_option( 'display.unicode.east_asian_width', True )

# 경고( warnings ) 메시지 출력 방지
import warnings
warnings.filterwarnings( 'ignore' )

## 2.2 데이터 읽기( Floating_Population_2004.csv )

In [2]:
df = pd.read_csv( 'Floating_Population_2004.csv', encoding = 'utf-8' )

## 2.3 읽은 데이터 확인

In [3]:
df.shape

(216000, 7)

In [4]:
df.head()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,시,군구,유동인구수
0,20200401,0,20,남성,서울,도봉구,21490
1,20200401,0,30,여성,서울,동대문구,27260
2,20200401,0,50,남성,서울,구로구,35670
3,20200401,1,30,여성,서울,강남구,52380
4,20200401,1,40,남성,서울,동대문구,28420


In [5]:
df.tail()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,시,군구,유동인구수
215995,20200430,22,40,여성,서울,성동구,22150
215996,20200430,22,50,여성,서울,서대문구,23270
215997,20200430,23,20,여성,서울,용산구,18570
215998,20200430,23,30,여성,서울,서대문구,21100
215999,20200430,23,40,남성,서울,강남구,45730


## 2.4 DataFrame에 대한 정보

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216000 entries, 0 to 215999
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   일자          216000 non-null  int64 
 1   시간(1시간단위)   216000 non-null  int64 
 2   연령대(10세단위)  216000 non-null  int64 
 3   성별          216000 non-null  object
 4   시           216000 non-null  object
 5   군구          216000 non-null  object
 6   유동인구수       216000 non-null  int64 
dtypes: int64(4), object(3)
memory usage: 11.5+ MB


In [7]:
df.dtypes

일자                 int64
시간(1시간단위)      int64
연령대(10세단위)     int64
성별                object
시                  object
군구                object
유동인구수           int64
dtype: object

## 2.5 DataFrame에 대한 가공

### 2.5.1 불필요한 행( 변수 ) 삭제

In [8]:
df.drop( '시', axis = 1, inplace = True )

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216000 entries, 0 to 215999
Data columns (total 6 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   일자          216000 non-null  int64 
 1   시간(1시간단위)   216000 non-null  int64 
 2   연령대(10세단위)  216000 non-null  int64 
 3   성별          216000 non-null  object
 4   군구          216000 non-null  object
 5   유동인구수       216000 non-null  int64 
dtypes: int64(4), object(2)
memory usage: 9.9+ MB


In [10]:
df.head()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,군구,유동인구수
0,20200401,0,20,남성,도봉구,21490
1,20200401,0,30,여성,동대문구,27260
2,20200401,0,50,남성,구로구,35670
3,20200401,1,30,여성,강남구,52380
4,20200401,1,40,남성,동대문구,28420


### 2.5.2 열( 변수 ) 이름 변경

In [11]:
column_name = [ 'date', 'time', 'age', 'gender', 'gu', 'move_population' ]
df.columns = column_name

In [12]:
df.head()

Unnamed: 0,date,time,age,gender,gu,move_population
0,20200401,0,20,남성,도봉구,21490
1,20200401,0,30,여성,동대문구,27260
2,20200401,0,50,남성,구로구,35670
3,20200401,1,30,여성,강남구,52380
4,20200401,1,40,남성,동대문구,28420


### 2.5.3 날짜, 시간, 성별, 연령대, 구 목록 생성( 중복 data 배제 방법 )

In [13]:
# 데이터 수집 일자 날짜 목록 생성
date_list = df.date.unique()

print( '데이터 수집일 :' )
for date in date_list:
    print( f'{date}' )
print( f'\n데이터 수집 일수 : {date_list.size}일' )

데이터 수집일 :
20200401
20200402
20200403
20200404
20200405
20200406
20200407
20200408
20200409
20200410
20200411
20200412
20200413
20200414
20200415
20200416
20200417
20200418
20200419
20200420
20200421
20200422
20200423
20200424
20200425
20200426
20200427
20200428
20200429
20200430

데이터 수집 일수 : 30일


In [14]:
# 데이터 수집 시간 목록 생성
time_list = df.time.unique()

print( '데이터 수집 시간 :' )
for time in time_list:
    print( f'{time}' )
print( f'\n데이터 수집 시간 수 : {time_list.size}시간' )

데이터 수집 시간 :
0
1
2
3
4
5
6
7
8
9
10
12
13
14
15
16
17
18
19
20
21
22
23
11

데이터 수집 시간 수 : 24시간


In [15]:
# 데이터 수집 성별 목록 생성
gender_list = df.gender.unique()

print( '데이터 수집 성별 :' )
for gender in gender_list:
    print( f'{gender}')
print( f'\n데이터 수집 성별 분류 : {gender_list.size}부류' )

데이터 수집 성별 :
남성
여성

데이터 수집 성별 분류 : 2부류


In [17]:
# 데이터 수집 연령대 목록 생성
age_list = df.age.unique()

print( '데이터 수집 연령대 :' )
for age in age_list:
    print( f'{age}' )
print( f'\n데이터 수집 연령대 종류 : {age_list.size}연령대' )

데이터 수집 연령대 :
20
30
50
40
70
60

데이터 수집 연령대 종류 : 6연령대


In [18]:
# 데이터 수집 서울시 구 목록 생성
gu_list = df.gu.unique()

print( '데이터 수집 서울시 구 :' )
for gu in gu_list:
    print( f'{gu:>8s}' )
print( f'\n데이터 수집 서울시 구 : {gu_list.size}개구'.format( gu_list.size ) )

데이터 수집 서울시 구 :
     도봉구
    동대문구
     구로구
     강남구
     성동구
     강서구
     금천구
     관악구
     중랑구
     강북구
     종로구
    영등포구
     용산구
     광진구
     노원구
     양천구
      중구
     마포구
     동작구
    서대문구
     송파구
     은평구
     강동구
     서초구
     성북구

데이터 수집 서울시 구 : 25개구


# 3. 기본 통계 분석

## 3.1 Data 요약 정보

In [None]:
df.describe().round( 2 )

Unnamed: 0,date,time,age,move_population
count,216000.0,216000.0,216000.0,216000.0
mean,20200415.5,11.5,45.0,27267.77
std,8.66,6.92,17.08,12480.43
min,20200401.0,0.0,20.0,4380.0
25%,20200408.0,5.75,30.0,18070.0
50%,20200415.5,11.5,45.0,25470.0
75%,20200423.0,17.25,60.0,34090.0
max,20200430.0,23.0,70.0,120640.0


## 3.2 요약 통계 결과 정보

In [26]:
print( f'총 data 수                : {df.date.count():10}건' )
print( f'총 유동인구 수              : {df.move_population.sum():10}명' )
print( f'\n평균 유동인구 수             : {df.move_population.mean():10.2f}명' )
print( f'유동 인구에 대한 분산         : {df.move_population.var():10.2f}' )
print( f'유동 인구에 대한 표준편차      : {df.move_population.std():10.2f}' )
print( f'\n일 최소 유동인구 수          : {df.move_population.min():10.2f}명' )
print( f'유동 인구에 대한 1사분위수     : {df.move_population.quantile( 0.25 ):10.2f}명' )
print( f'유동 인구에 대한 2사분위수     : {df.move_population.quantile( 0.50 ):10.2f}명' )
print( f'유동 인구에 대한 3사분위수     : {df.move_population.quantile( 0.75 ):10.2f}명' )
print( f'일 최대 유동인구 수          : {df.move_population.max():10.2f}명' )

총 data 수                :     216000건
총 유동인구 수              : 5889837540명

평균 유동인구 수             :   27267.77명
유동 인구에 대한 분산         : 155761043.81
유동 인구에 대한 표준편차      :   12480.43

일 최소 유동인구 수          :    4380.00명
유동 인구에 대한 1사분위수     :   18070.00명
유동 인구에 대한 2사분위수     :   25470.00명
유동 인구에 대한 3사분위수     :   34090.00명
일 최대 유동인구 수          :  120640.00명


# 4. EDA

## 4.1 날짜별 유동 인구 분석

In [27]:
date_population = []
for i in range( date_list.size ):
    mask = date_list[ i ] == df.date
    result = df.loc[ mask ]
    date_population.append( result.move_population.sum() )

In [28]:
s = pd.Series( date_population, index = date_list )

daily_mean = s.mean()
daily_max = s.max()
daily_max_index = s.argmax()
daily_min = s.min()
daily_min_index = s.argmin()

In [29]:
for date in date_list:
    print( f'( {date}일 ) 총 유동인구는 [ {s[ date ]:8d}명 ]'  )

( 20200401일 ) 총 유동인구는 [ 200208500명 ]
( 20200402일 ) 총 유동인구는 [ 199791200명 ]
( 20200403일 ) 총 유동인구는 [ 199136720명 ]
( 20200404일 ) 총 유동인구는 [ 191161060명 ]
( 20200405일 ) 총 유동인구는 [ 189696320명 ]
( 20200406일 ) 총 유동인구는 [ 199919630명 ]
( 20200407일 ) 총 유동인구는 [ 199803760명 ]
( 20200408일 ) 총 유동인구는 [ 199655110명 ]
( 20200409일 ) 총 유동인구는 [ 199541470명 ]
( 20200410일 ) 총 유동인구는 [ 199091080명 ]
( 20200411일 ) 총 유동인구는 [ 191032010명 ]
( 20200412일 ) 총 유동인구는 [ 189643560명 ]
( 20200413일 ) 총 유동인구는 [ 199241850명 ]
( 20200414일 ) 총 유동인구는 [ 199278710명 ]
( 20200415일 ) 총 유동인구는 [ 192381520명 ]
( 20200416일 ) 총 유동인구는 [ 199059920명 ]
( 20200417일 ) 총 유동인구는 [ 199406670명 ]
( 20200418일 ) 총 유동인구는 [ 190872120명 ]
( 20200419일 ) 총 유동인구는 [ 189951850명 ]
( 20200420일 ) 총 유동인구는 [ 199629090명 ]
( 20200421일 ) 총 유동인구는 [ 199479870명 ]
( 20200422일 ) 총 유동인구는 [ 199512800명 ]
( 20200423일 ) 총 유동인구는 [ 199370110명 ]
( 20200424일 ) 총 유동인구는 [ 199139940명 ]
( 20200425일 ) 총 유동인구는 [ 191227460명 ]
( 20200426일 ) 총 유동인구는 [ 189159070명 ]
( 20200427일 ) 총 유동인구는 [ 199196700명 ]
(

In [30]:
print( f'일 평균 유동 인구수       : [ {daily_mean:10.2f}명 ]\n' )
print( f'유동 인구수가 가장 많은날 : {date_list[ daily_max_index ]} [ {daily_max:10.2f}명 ]' )
print( f'유동 인구수가 가장 적은날 : {date_list[ daily_min_index ]} [ {daily_min:10.2f}명 ]' )

일 평균 유동 인구수       : [ 196327918.00명 ]

유동 인구수가 가장 많은날 : 20200401 [ 200208500.00명 ]
유동 인구수가 가장 적은날 : 20200430 [ 186668960.00명 ]


In [31]:
index = df.move_population.idxmin()
print( '유동 인구수가 가장 적은 날 정보 : {}/{:2d}시 연령( {}대 ) 성별( {} ) {:<8s}  [ {:8d}명 ]'.format( df.loc[ index, 'date' ], 
                                                                                                          df.loc[ index, 'time' ],
                                                                                                          df.loc[ index, 'age' ],
                                                                                                          df.loc[ index, 'gender' ],
                                                                                                          df.loc[ index, 'gu' ].strip(),
                                                                                                          df.loc[ index, 'move_population' ] ) )
index = df.move_population.idxmax()
print( '유동 인구수가 가장 많은 날 정보 : {}/{:2d}시 연령( {}대 ) 성별( {} ) {:<8s} [ {:8d}명 ]'.format( df.loc[ index, 'date' ], 
                                                                                                         df.loc[ index, 'time' ],
                                                                                                         df.loc[ index, 'age' ],
                                                                                                         df.loc[ index, 'gender' ],
                                                                                                         df.loc[ index, 'gu' ].strip(),
                                                                                                         df.loc[ index, 'move_population' ] ) )

유동 인구수가 가장 적은 날 정보 : 20200426/ 3시 연령( 70대 ) 성별( 남성 ) 중구        [     4380명 ]
유동 인구수가 가장 많은 날 정보 : 20200428/14시 연령( 30대 ) 성별( 여성 ) 강남구      [   120640명 ]


## 4.2 성별 유동 인구 분석

In [32]:
gender_population = []
for i in range( gender_list.size ):
    mask = gender_list[ i ] == df.gender
    result = df.loc[ mask ]
    gender_population.append( result.move_population.sum() )

In [33]:
s = pd.Series( gender_population, index = gender_list )

In [34]:
for gender in gender_list:
    print( f'( {gender} ) 총 유동인구는 [ {s[ gender ]:10d}명 ]' )

( 남성 ) 총 유동인구는 [ 2851648900명 ]
( 여성 ) 총 유동인구는 [ 3038188640명 ]


## 4.3 연령대별 유동 인구 분석

In [38]:
age_population = []
for i in range( age_list.size ):
    mask = age_list[ i ] == df.age
    result = df.loc[ mask ]
    age_population.append( result.move_population.sum() )

In [39]:
s = pd.Series( age_population, index = age_list )

In [40]:
for age in age_list:
    print( f'( {age}대 ) 총 유동인구는 [ {s[ age ]:>10d}명 ]' )

( 20대 ) 총 유동인구는 [ 1089342970명 ]
( 30대 ) 총 유동인구는 [ 1211368990명 ]
( 50대 ) 총 유동인구는 [ 1124325220명 ]
( 40대 ) 총 유동인구는 [ 1204134560명 ]
( 70대 ) 총 유동인구는 [  542005390명 ]
( 60대 ) 총 유동인구는 [  718660410명 ]


In [41]:
s.sort_values( ascending = False, inplace = True )
s_ages = s.index
s_values = s.values

for n, v in zip( s_ages, s_values ):
    print( f'( {n}대 ) [ {v:10}명 ]' )

( 30대 ) [ 1211368990명 ]
( 40대 ) [ 1204134560명 ]
( 50대 ) [ 1124325220명 ]
( 20대 ) [ 1089342970명 ]
( 60대 ) [  718660410명 ]
( 70대 ) [  542005390명 ]


## 4.4 구별 유동 인구 분석

In [42]:
gu_population = []
for i in range( gu_list.size ):
    mask = gu_list[ i ] == df.gu
    result = df.loc[ mask ]
    gu_population.append( result.move_population.sum() )

In [43]:
s = pd.Series( gu_population, index = gu_list )

In [44]:
for gu in gu_list:
    print( f'( {gu:>4} ) 총 유동인구는 [ {s[ gu ]:>10d}명 ]'  )

(  도봉구 ) 총 유동인구는 [  172730720명 ]
( 동대문구 ) 총 유동인구는 [  209673270명 ]
(  구로구 ) 총 유동인구는 [  252685600명 ]
(  강남구 ) 총 유동인구는 [  415479300명 ]
(  성동구 ) 총 유동인구는 [  184605390명 ]
(  강서구 ) 총 유동인구는 [  316538320명 ]
(  금천구 ) 총 유동인구는 [  162236340명 ]
(  관악구 ) 총 유동인구는 [  285422490명 ]
(  중랑구 ) 총 유동인구는 [  210660150명 ]
(  강북구 ) 총 유동인구는 [  171437740명 ]
(  종로구 ) 총 유동인구는 [  152183320명 ]
( 영등포구 ) 총 유동인구는 [  280428050명 ]
(  용산구 ) 총 유동인구는 [  151474540명 ]
(  광진구 ) 총 유동인구는 [  205584150명 ]
(  노원구 ) 총 유동인구는 [  286372000명 ]
(  양천구 ) 총 유동인구는 [  235960940명 ]
(   중구 ) 총 유동인구는 [  152646440명 ]
(  마포구 ) 총 유동인구는 [  245660870명 ]
(  동작구 ) 총 유동인구는 [  224537120명 ]
( 서대문구 ) 총 유동인구는 [  182865220명 ]
(  송파구 ) 총 유동인구는 [  372279240명 ]
(  은평구 ) 총 유동인구는 [  241684780명 ]
(  강동구 ) 총 유동인구는 [  239157350명 ]
(  서초구 ) 총 유동인구는 [  293867470명 ]
(  성북구 ) 총 유동인구는 [  243666730명 ]


In [45]:
s.sort_values( ascending = False, inplace = True )
s_names = s.index
s_values = s.values

for n, v in zip( s_names, s_values ):
    print( f'( {n:>5} ) [ {v:10}명 ]' )

(   강남구 ) [  415479300명 ]
(   송파구 ) [  372279240명 ]
(   강서구 ) [  316538320명 ]
(   서초구 ) [  293867470명 ]
(   노원구 ) [  286372000명 ]
(   관악구 ) [  285422490명 ]
(  영등포구 ) [  280428050명 ]
(   구로구 ) [  252685600명 ]
(   마포구 ) [  245660870명 ]
(   성북구 ) [  243666730명 ]
(   은평구 ) [  241684780명 ]
(   강동구 ) [  239157350명 ]
(   양천구 ) [  235960940명 ]
(   동작구 ) [  224537120명 ]
(   중랑구 ) [  210660150명 ]
(  동대문구 ) [  209673270명 ]
(   광진구 ) [  205584150명 ]
(   성동구 ) [  184605390명 ]
(  서대문구 ) [  182865220명 ]
(   도봉구 ) [  172730720명 ]
(   강북구 ) [  171437740명 ]
(   금천구 ) [  162236340명 ]
(    중구 ) [  152646440명 ]
(   종로구 ) [  152183320명 ]
(   용산구 ) [  151474540명 ]
