In [2]:
import numpy as np # NumPy
import pandas as pd # Pandas

# IPython( jupyter notebook ) 디스플레이 설정 변경
# 출력할 열의 개수 한도 설정
pd.set_option( 'display.max_columns', 20 )
# 출력할 열의 너비 설정
pd.set_option( 'display.max_colwidth', 20 )
# 유니코드 사용 너비 조정
pd.set_option( 'display.unicode.east_asian_width', True )

# 경고( warnings ) 메시지 출력 방지
import warnings
warnings.filterwarnings( 'ignore' )

## EDA 실습
### 문제 정의  : 서울시 유동인구 데이터에 대한 EDA

# 문제 정의 : 서울시 유동인구 분석   
   
- DataSet 구성
    1. 일자 : 유동 인구를 수집한 날짜( 2020/04/01 ~ 2020/04/30 )
    2. 시간 : 유동 인구를 수집한 시간( 0시 ~ 23시, 1시간 단위 수집 )
    3. 연령대 : 유동 인구를 수집한 연령대( 20대 ~ 70대 )
    4. 시 : 유동 인구를 수집한 시( 서울시 )
    5. 구 : 유동 인구를 수집한 구( 서울 25개구 )
    6. 유동인구수

### 1. 수집한 데이터셋 데이터프레임 생성

In [5]:
df = pd.read_csv('../NumPy/Floating_Population_2004.csv', encoding = 'utf-8')

## 2. 데이터프레임 확인

In [6]:
df.head()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,시,군구,유동인구수
0,20200401,0,20,남성,서울,도봉구,21490
1,20200401,0,30,여성,서울,동대문구,27260
2,20200401,0,50,남성,서울,구로구,35670
3,20200401,1,30,여성,서울,강남구,52380
4,20200401,1,40,남성,서울,동대문구,28420


In [4]:
df.tail()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,시,군구,유동인구수
215995,20200430,22,40,여성,서울,성동구,22150
215996,20200430,22,50,여성,서울,서대문구,23270
215997,20200430,23,20,여성,서울,용산구,18570
215998,20200430,23,30,여성,서울,서대문구,21100
215999,20200430,23,40,남성,서울,강남구,45730


## 3. 데이터프레임 구조 확인

In [5]:
df.shape

(216000, 7)

## 4. 데이터프레임 기본 정보 확인

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216000 entries, 0 to 215999
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   일자          216000 non-null  int64 
 1   시간(1시간단위)   216000 non-null  int64 
 2   연령대(10세단위)  216000 non-null  int64 
 3   성별          216000 non-null  object
 4   시           216000 non-null  object
 5   군구          216000 non-null  object
 6   유동인구수       216000 non-null  int64 
dtypes: int64(4), object(3)
memory usage: 11.5+ MB


In [7]:
df.dtypes

일자                 int64
시간(1시간단위)      int64
연령대(10세단위)     int64
성별                object
시                  object
군구                object
유동인구수           int64
dtype: object

In [8]:
df.columns

Index(['일자', '시간(1시간단위)', '연령대(10세단위)', '성별', '시', '군구',
       '유동인구수'], dtype='object')

In [9]:
df.index

RangeIndex(start=0, stop=216000, step=1)

###  불필요 행(변수) 삭제

In [7]:
df.drop( '시', axis = 1, inplace = True )

In [8]:
df.head()

Unnamed: 0,일자,시간(1시간단위),연령대(10세단위),성별,군구,유동인구수
0,20200401,0,20,남성,도봉구,21490
1,20200401,0,30,여성,동대문구,27260
2,20200401,0,50,남성,구로구,35670
3,20200401,1,30,여성,강남구,52380
4,20200401,1,40,남성,동대문구,28420


## 5. 변수 이름 변경

In [10]:
df.rename( columns = {'시간(1시간단위)':'시간', '연령대(10세단위)':'연령대'}, inplace = True)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216000 entries, 0 to 215999
Data columns (total 7 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   일자      216000 non-null  int64 
 1   시간      216000 non-null  int64 
 2   연령대     216000 non-null  int64 
 3   성별      216000 non-null  object
 4   시       216000 non-null  object
 5   군구      216000 non-null  object
 6   유동인구수   216000 non-null  int64 
dtypes: int64(4), object(3)
memory usage: 11.5+ MB


In [12]:
df.columns

Index(['일자', '시간', '연령대', '성별', '시', '군구', '유동인구수'], dtype='object')

In [16]:
df.rename( columns = {'일자':'date',
                      '시간':'time',
                      '연령대':'age',
                      '성별':'gender',
                      '시':'city',
                      '군구':'town',
                      '유동인구수':'people',
                     }, inplace = True)

In [17]:
df.columns

Index(['date', 'time', 'age', 'gender', 'city', 'town', 'people'], dtype='object')

## 6. 기초 통계 분석

### 6.1 데이터 요약 통계

In [18]:
df.describe().round(1)

Unnamed: 0,date,time,age,people
count,216000.0,216000.0,216000.0,216000.0
mean,20200415.5,11.5,45.0,27267.8
std,8.7,6.9,17.1,12480.4
min,20200401.0,0.0,20.0,4380.0
25%,20200408.0,5.8,30.0,18070.0
50%,20200415.5,11.5,45.0,25470.0
75%,20200423.0,17.2,60.0,34090.0
max,20200430.0,23.0,70.0,120640.0


In [20]:
print( f'평균 유동인구               : {df.people.mean():6.2f}명' )
print( f'최소 유동인구               : {df.people.min():6.2f}명' )
print( f'최고 유동인구               : {df.people.max():6.2f}명' )
print( f'유동인구에 대한 표준 편차   : {df.people.std():6.2f}' )
print( f'유동인구에 대한 1사분위수   : {df.people.quantile( 0.25 ):6.2f}명' )
print( f'유동인구에 대한 2사분위수   : {df.people.quantile( 0.50 ):6.2f}명' )
print( f'유동인구에 대한 3사분위수   : {df.people.quantile( 0.75 ):6.2f}명' )

평균 유동인구               : 27267.77명
최소 유동인구               : 4380.00명
최고 유동인구               : 120640.00명
유동인구에 대한 표준 편차   : 12480.43
유동인구에 대한 1사분위수   : 18070.00명
유동인구에 대한 2사분위수   : 25470.00명
유동인구에 대한 3사분위수   : 34090.00명


## 7. 탐색적 데이터 분석( EDA )

### 7.1 유동인구순 정렬

In [21]:
df.sort_values( by = 'people', ascending = False )

Unnamed: 0,date,time,age,gender,city,town,people
98155,20200428,14,30,여성,서울,강남구,120640
71673,20200428,13,30,여성,서울,강남구,120090
113462,20200428,15,30,여성,서울,강남구,119920
137043,20200427,14,30,남성,서울,강남구,119760
43472,20200428,15,30,남성,서울,강남구,119740
...,...,...,...,...,...,...,...
84722,20200426,2,70,남성,서울,중구,4430
50517,20200405,4,70,남성,서울,중구,4420
170924,20200412,4,70,남성,서울,중구,4390
211226,20200426,4,70,남성,서울,중구,4390


### 7.2 시간대별 유동인구수