# 공공데이터 분석 예시

제주도 유동인구 현황 분석

데이터 출처: https://www.data.go.kr

이성주, 코드베이직 (c) 2015

seongjoo@codebasic.co

트위터: <a href="https://twitter.com/LeeSeongjoo">@LeeSeongjoo</a>

데이터 분석은 많은 경우, 파일, 데이터베이스, 웹페이지, API 등 한 개 이상의 출처에서 데이터를 획득한다. 

파일로 제공되는 데이터의 경우, 데이터를 제공하는 쪽에서 노력은 하지만 파일명 작명 규칙 등이 완전히 일관성 있기 어렵다. 또한, 파일에 저장된 데이터는 CSV, JSON, XML 등 다양한 형식으로 되어 있을 수 있다.

데이터 분석 시, 대상 데이터를 가공하는데 종종 상당한 노력이 소요되고, 데이터 교환 형식, 데이터베이스, HTTP/HTTPS 통신 규약에 대한 이해가 요구되는 경우도 많다.

아래 코드는 data/jeju 디렉토리에 월별 데이터가 각각 폴더에 담겨있다고 가정했다. data.go.kr에서는 월별 데이터를 각각의 게시물로 제공하기 때문에 디렉토리 구조는 데이터를 받아와 직접 작성해야 한다. 파일 형식의 데이터인 경우, 자동으로 읽어들이기 위해 데이터를 적절한 파일명과 디렉토리 구조로 배치해야 하는 경우가 대부분이다. 파일이 적은 경우는 수동으로 파일명을 문자열로 지정할 수도 있지만, 대부분의 경우는 코드로 자동으로 처리되도록 하는 편이 바람직하다. 왜냐하면, 파일이 이후에 추가될 수도 있고, 수동으로 하면 거의 언제나 파일을 빼먹는 등의 실수가 발생할 수 있기 때문이다. 

In [7]:
# 분석 대상 데이터 파일 경로 가져오기
import os

path = os.path.join('data','jeju')
data_files = []
# 지정된 디렉토리에 포함된 모든 파일 가져오기.
for d in os.listdir(path):
    subdir = os.path.join(path, d)
    if not os.path.isdir(subdir): continue
    for fn in os.listdir(subdir):        
        print(fn) # 적절한 파일들이 선택되었는지 확인하기 위한 출력
        data_files.append(os.path.join(path, d, fn))

3-2-1-2. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312.txt
3-2-2-4. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_휴일.txt
3-2-2-5. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_휴일전날.txt
3-2-2-6. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_평일.txt
3-2-3-5. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_맑음.txt
3-2-3-6. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_비.txt
3-2-3-7. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_눈.txt
3-2-3-8. 시간대별_관광객_300그리드단위_유동인구_비율포함_201312_흐림.txt
3-2-1-2. 시간대별_관광객_300그리드단위_유동인구_비율포함_201401.txt
3-2-2-4. 시간대별_관광객_300그리드단위_유동인구_비율포함_201401_휴일.txt
3-2-2-5. 시간대별_관광객_300그리드단위_유동인구_비율포함_201401_휴일전날.txt
3-2-2-6. 시간대별_관광객_300그리드단위_유동인구_비율포함_201401_평이

파일을 읽어들인 후에는 데이터 분석 작업을 수행할 수 있는 자료구조로 읽어들여야 한다. 

이 예시에서는 지금과 같이 2차원의 표 형식을 처리하는데 적절한 파이썬 패키지 pandas를 사용했다. 파이썬은 데이터 분석 뿐만 아니라 많은 부분에서 아주 방대하고 유용한 오픈 소스 확장 라이브러리를 손쉽게 설치할 수 있는 점이 장점이다.

<a href="http://pandas.pydata.org/">pandas</a> 웹사이트 참조

In [2]:
# 각 데이터를 자료구조(Pandas.DataFrame)로 생성
import pandas as pd
frames = []
for filepath in data_files:
    df = pd.read_csv(filepath, sep='|')
    frames.append(df)

각각의 파일로 제공된 데이터들을 처리할 때는 단일한 자료구조로 합치는 것이 여러 측면에서 좋다.

파일로 제공된 데이터들은 공통적인 열(column)도 있지만 그렇지 않는 열도 있다. 이런 경우, 합치는 것은 간단하지 않다. 지금의 경우는 모든 파일에서 공통적인 열만을 선택해 합친다.

In [3]:
# 단일 DataFrame으로 합치기
# 모든 데이터에 공통인 열을 선택해 합친다.
df = pd.concat(frames, join='inner')
df

Unnamed: 0,STD_YM,ID_300,FLOW_POP_CNT_00TMST,FLOW_POP_CNT_01TMST,FLOW_POP_CNT_02TMST,FLOW_POP_CNT_03TMST,FLOW_POP_CNT_04TMST,FLOW_POP_CNT_05TMST,FLOW_POP_CNT_06TMST,FLOW_POP_CNT_07TMST,...,FLOW_POP_CNT_14TMST,FLOW_POP_CNT_15TMST,FLOW_POP_CNT_16TMST,FLOW_POP_CNT_17TMST,FLOW_POP_CNT_18TMST,FLOW_POP_CNT_19TMST,FLOW_POP_CNT_20TMST,FLOW_POP_CNT_21TMST,FLOW_POP_CNT_22TMST,FLOW_POP_CNT_23TMST
0,201312,1000032965,5.791290,3.893226,2.885484,2.469032,2.469032,2.906774,5.005161,11.561613,...,28.755484,29.228387,32.934516,38.797742,33.316452,27.965484,23.513226,20.593548,14.407097,9.393226
1,201312,1000032644,38.584516,28.465484,22.935484,20.965806,20.965806,23.662903,35.241613,70.701935,...,169.866452,173.023871,193.550968,228.124194,198.724194,167.133871,140.125806,122.268065,85.741613,57.920000
2,201312,1000032323,6.282581,5.013871,4.472903,4.434194,4.434194,4.791935,6.283548,10.761935,...,21.964839,22.320968,24.265806,27.775484,24.791935,20.969677,18.252258,16.248710,12.004194,8.610323
3,201312,1000032645,15.131290,10.232581,8.041935,7.369677,7.369677,8.425484,13.705806,30.426774,...,70.870968,71.954194,80.499032,93.329677,80.064516,66.944516,57.555484,51.034516,36.659032,24.154194
4,201312,1000032324,6.142581,4.660323,3.960968,3.814516,3.814516,4.227742,5.916129,11.026452,...,24.392581,24.841935,27.350000,31.747419,28.170968,23.734194,20.354839,17.954839,12.931935,8.909032
5,201312,1000032325,8.795484,7.106129,6.381613,6.404516,6.404516,6.964194,8.966452,14.662581,...,28.885806,29.377419,31.703226,35.937742,32.556774,27.724516,24.186129,21.497097,16.090968,11.740968
6,201312,1000032646,1.021935,0.661935,0.520000,0.485161,0.485161,0.550968,0.944516,2.126129,...,4.244516,4.247097,4.666129,5.170645,4.418065,3.763548,3.429677,3.158065,2.460323,1.654516
7,201312,1000032004,4.789355,3.527419,2.976452,2.860968,2.860968,3.166774,4.594194,8.745806,...,17.247742,17.400000,18.852581,21.157742,18.742581,16.153548,14.343226,12.922903,9.863226,7.003226
8,201312,1000031683,2.369677,1.692258,1.377419,1.290000,1.290000,1.445484,2.200968,4.422903,...,9.147742,9.248065,10.108710,11.448387,10.070000,8.661613,7.609355,6.810000,5.112581,3.565484
9,201312,1000033288,1.827742,1.272581,1.026129,0.953871,0.953871,1.065484,1.692258,3.566452,...,7.320968,7.360968,8.088065,9.132903,7.872258,6.745161,5.981613,5.425484,4.120000,2.835484


In [4]:
# 셀 단위별로 묶기
cell_group = df.groupby([df['ID_300'], df['STD_YM']])

In [5]:
# 셀 단위별 월별 시간대 유동인구 평균 그래프 출력
cell_month_flow_mean = cell_group.mean()
cell_month_flow_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,FLOW_POP_CNT_00TMST,FLOW_POP_CNT_01TMST,FLOW_POP_CNT_02TMST,FLOW_POP_CNT_03TMST,FLOW_POP_CNT_04TMST,FLOW_POP_CNT_05TMST,FLOW_POP_CNT_06TMST,FLOW_POP_CNT_07TMST,FLOW_POP_CNT_08TMST,FLOW_POP_CNT_09TMST,...,FLOW_POP_CNT_14TMST,FLOW_POP_CNT_15TMST,FLOW_POP_CNT_16TMST,FLOW_POP_CNT_17TMST,FLOW_POP_CNT_18TMST,FLOW_POP_CNT_19TMST,FLOW_POP_CNT_20TMST,FLOW_POP_CNT_21TMST,FLOW_POP_CNT_22TMST,FLOW_POP_CNT_23TMST
ID_300,STD_YM,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
1000007915,201312,1.133992,0.936774,0.908065,1.087097,1.087097,1.386573,2.344798,3.629637,4.220444,5.449516,...,5.445766,5.424355,6.151653,7.192016,8.058548,4.997944,4.123710,3.586089,2.219435,1.561129
1000007915,201401,1.530860,1.026882,1.017634,1.169462,1.289785,1.393011,3.116505,4.339194,4.156344,6.713441,...,6.834731,6.985968,7.168172,7.453387,10.787903,6.555914,4.862151,3.516667,2.615000,1.899892
1000007915,201402,0.768958,0.594145,0.513218,0.547777,0.649587,0.857247,1.637426,2.231929,2.540453,3.636621,...,3.703234,3.800238,4.412992,5.289154,6.174544,3.640378,2.806341,2.469189,1.507959,1.076869
1000007915,201403,2.044140,1.453763,1.629247,1.681022,1.741989,2.238495,4.369570,6.478656,6.736290,8.739301,...,8.750860,8.495269,9.426935,10.970215,15.436344,8.821667,6.579462,5.756559,3.467527,2.598065
1000007915,201404,2.661714,2.427905,2.359619,2.394190,2.394190,2.809714,4.854333,7.207143,7.798048,10.293905,...,9.111190,9.553571,10.548095,10.801619,15.377571,9.605048,8.027048,6.500952,4.417762,3.533238
1000007915,201405,0.795189,0.605725,0.511235,0.514899,0.602816,0.819539,1.317091,2.049413,2.717736,3.591227,...,3.392847,3.577625,3.945133,3.836179,4.598399,3.582958,3.121230,2.555100,1.725379,1.207895
1000007915,201406,0.999710,0.817632,0.697821,0.708557,0.703404,0.913395,1.445313,2.530861,3.098995,4.144630,...,4.170944,4.373444,4.849775,4.790586,5.424399,4.363257,3.898734,3.220476,2.206690,1.565983
1000007916,201312,0.608145,0.503992,0.488548,0.582177,0.582177,0.740766,1.240484,1.909879,2.217742,2.846774,...,2.840968,2.832823,3.202823,3.730444,4.170685,2.612702,2.165202,1.893306,1.181008,0.836452
1000007916,201401,0.823226,0.554624,0.548548,0.627957,0.692688,0.744839,1.638333,2.281452,2.187366,3.507581,...,3.562151,3.646129,3.726452,3.864731,5.570430,3.425860,2.557849,1.853172,1.393280,1.018763
1000007916,201402,0.388045,0.299322,0.258884,0.276368,0.327593,0.432113,0.829053,1.129729,1.285909,1.844191,...,1.878418,1.927751,2.239087,2.685002,3.135365,1.846543,1.421460,1.250199,0.762031,0.543278
