# 데이터 불러오기 / 전처리하기

## 전세계에서 우리나라로 오는 관광객이 많이 오는 국가 선정
## 시계열그래프, 히트맵

## 해당 국가에 대한 계절별 월별 이벤트
## 급격하게 나타나는 시기에 대한 원인 분석
## python 파일로 내려받기

In [1]:
import pandas as pd

In [2]:
kto_201901 = pd.read_excel('./files/kto_201901.xlsx',
                          header = 1,
                          skipfooter = 4,
                          usecols = 'A:G')

In [4]:
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


In [5]:
# 각 컬럼에서 0인 부분 필터링
condition = (kto_201901['관광'] == 0)\
            |(kto_201901['상용'] == 0)\
            |(kto_201901['공용'] == 0)\
            |(kto_201901['유학/연수'] == 0)

In [6]:
condition

0     False
1     False
2     False
3     False
4      True
      ...  
62    False
63     True
64     True
65     True
66     True
Length: 67, dtype: bool

In [7]:
kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [8]:
# 기준년월 : 2019-01
kto_201901['기준년월'] = '2019-01'

In [9]:
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01


In [10]:
# 국적 조회 - 중복된 이름 제외 -> unique()
kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [11]:
# 대륙 목록 만들기
continents_list = ['아시아주','미주','구주','대양주','아프리카주','기타대륙','교포소계']

In [12]:
continents_list

['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [14]:
# 대륙을 제외한 국적 데이터 전처리
condition = (kto_201901.국적.isin(continents_list) == False)

In [15]:
condition

0     False
1      True
2      True
3      True
4      True
      ...  
62     True
63    False
64     True
65    False
66     True
Name: 국적, Length: 67, dtype: bool

In [16]:
kto_201901_country = kto_201901[condition]
kto_201901_country

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01
6,말레이시아,19043,95,7,99,2821,22065,2019-01
7,필리핀,14279,211,161,184,15638,30473,2019-01
8,인도네시아,14183,136,38,187,4298,18842,2019-01
9,싱가포르,8372,94,8,48,1333,9855,2019-01
10,미얀마,1304,10,31,67,3877,5289,2019-01


In [17]:
kto_201901_country['국적'].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [18]:
# 인덱스 번호 초기화
kto_201901_country_newindex = kto_201901_country.reset_index(drop=True)

In [19]:
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,일본,198805,2233,127,785,4576,206526,2019-01
1,대만,86393,74,22,180,1285,87954,2019-01
2,홍콩,34653,59,2,90,1092,35896,2019-01
3,마카오,2506,2,0,17,45,2570,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01


In [21]:
# 대륙 변수 만들기
continents = ['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] *23 + ['오세아니아']*3\
            + ['아프리카']*2 + ['기타대륙'] + ['교포']

In [22]:
continents

['아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '오세아니아',
 '오세아니아',
 '오세아니아',
 '아프리카',
 '아프리카',
 '기타대륙',
 '교포']

In [23]:
kto_201901_country_newindex['대륙'] = continents

In [24]:
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아
1,대만,86393,74,22,180,1285,87954,2019-01,아시아
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아
3,마카오,2506,2,0,17,45,2570,2019-01,아시아
4,태국,34004,37,199,96,6998,41334,2019-01,아시아


In [25]:
# 각 국가별 우리나라에 입국하는 관광객비율(%) 변수 만들기
# 관광객비율(%) = 관광 / 계
# round() = 소숫점 자리수 정의

kto_201901_country_newindex['관광객비율(%)'] = \
    round(kto_201901_country_newindex['관광'] / kto_201901_country_newindex['계'] *100, 1)

In [26]:
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3


In [28]:
# 정렬 - 오름차순 (ascending = True), 내림차순 (ascending = False)
kto_201901_country_newindex.sort_values(by = '관광객비율(%)', ascending = False).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
55,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아,90.4


In [29]:
# 집계 -> pivot
# 대륙별로 관광객비율에 대한 평균 집계
kto_201901_country_newindex.pivot_table(values = '관광객비율(%)',
                                       index = '대륙',
                                       aggfunc = 'mean')

Unnamed: 0_level_0,관광객비율(%)
대륙,Unnamed: 1_level_1
교포,0.0
기타대륙,61.1
아메리카,68.2
아시아,59.624
아프리카,32.7
오세아니아,84.833333
유럽,63.826087


In [31]:
# kto_201901_country_newindex 안에서 중국 국적 추출
condition = kto_201901_country_newindex.국적 == '중국'
condition

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
42    False
43    False
44    False
45    False
46    False
47    False
48    False
49    False
50    False
51    False
52    False
53    False
54    False
55    False
56    False
57    False
58    False
59    False
Name: 국적, dtype: bool

In [32]:
kto_201901_country_newindex[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5


In [35]:
# 전세계 총 관광객수 계산
tourist_sum = sum(kto_201901_country_newindex['관광'])

In [36]:
# 전세계 관광객 기준으로 각 국가의 관광객 나누기
kto_201901_country_newindex['전체비율(%)'] = \
        round(kto_201901_country_newindex['관광'] / tourist_sum * 100 , 1)

In [38]:
kto_201901_country_newindex.sort_values('전체비율(%)', ascending=False).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5,36.2
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
25,미국,42989,418,2578,229,16523,62737,2019-01,아메리카,68.5,4.9
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9


## 116개 파일 수행

In [61]:
# 함수만들기 create_kto_data(년도, 월)

def create_kto_data (yy, mm):
    # 파일명 포맷 정의
    file_path = './files/kto_{}{}.xlsx'.format(yy, mm)
    
    # 파일 데이터 읽어들이기
    df = pd.read_excel(file_path,
                      header = 1,
                      skipfooter = 4,
                      usecols = 'A:G')
    
    # 기준년월 변수 만들기
    df['기준년월'] = '{}-{}'.format(yy, mm)
    
    # 대륙 제거
    ignore_list = ['아시아주','미주','구주','대양주','아프리카주','기타대륙','교포소계']
    condition = df['국적'].isin(ignore_list) == False
    
    ## 국가만 담긴 데이터 재정의
    df_country = df[condition].reset_index(drop = True)
    
    # 대륙 변수 추가
    continents =  ['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] *23 + ['오세아니아']*3\
            + ['아프리카']*2 + ['기타대륙'] + ['교포']
    
    df_country['대륙'] = continents
    
    # 국가별 관광객비율(%) 변수 생성
    df_country['관광객비율(%)'] = \
        round(df_country.관광 / df_country.계 * 100, 1)
    
    # 전체비율(%)
    tourist_sum = sum(kto_201901_country_newindex['관광'])
    kto_201901_country_newindex['전체비율(%)'] = \
        round(kto_201901_country_newindex['관광'] / tourist_sum * 100 , 1)
    
    # 최종 전처리가 완료된 데이터셋 리턴
    return(df_country)

In [62]:
# 함수 호출하기
# create_kto_data(2018, 12)
# 2010~2019년까지...
# range 1인자 : 시작값,, 2010 그대로 작성
#       2인자 : 원값 + 1 값을 넣어 줍니다.
#              (두번째값 - 1)까지 반복합니다.
# 이중 for문


for yy in range(2010, 2020) : 
    for mm in range(1, 13) :
        # 년 / 월 데이터를 생성
        # zfill() : 문자열의 자릿수 맞추기 (앞쪽 빈공간은 0으로 채웁니다.)
        mm_str = str(mm).zfill(2)
        yymm = '{}{}'.format(yy, mm_str)
        print(yymm)
        

201001
201002
201003
201004
201005
201006
201007
201008
201009
201010
201011
201012
201101
201102
201103
201104
201105
201106
201107
201108
201109
201110
201111
201112
201201
201202
201203
201204
201205
201206
201207
201208
201209
201210
201211
201212
201301
201302
201303
201304
201305
201306
201307
201308
201309
201310
201311
201312
201401
201402
201403
201404
201405
201406
201407
201408
201409
201410
201411
201412
201501
201502
201503
201504
201505
201506
201507
201508
201509
201510
201511
201512
201601
201602
201603
201604
201605
201606
201607
201608
201609
201610
201611
201612
201701
201702
201703
201704
201705
201706
201707
201708
201709
201710
201711
201712
201801
201802
201803
201804
201805
201806
201807
201808
201809
201810
201811
201812
201901
201902
201903
201904
201905
201906
201907
201908
201909
201910
201911
201912


In [63]:
# 빈 공간의 행과 열을 만들 때는 DataFrame()

df = pd.DataFrame()

In [64]:
# 오류 메시지 안보이게 하기
# try-except

for yy in range(2010, 2020):
    for mm in range(1, 13):
        try :
            # 함수호출하기
            temp = create_kto_data(str(yy), str(mm).zfill(2))
            df = df.append(temp, ignore_index = True)
            
        except :
            pass


In [66]:
df.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
6955,대양주 기타,519,1,6,9,74,609,2019-08,오세아니아,85.2
6956,남아프리카공화국,634,6,1,11,1235,1887,2019-08,아프리카,33.6
6957,아프리카 기타,2081,593,165,841,1184,4864,2019-08,아프리카,42.8
6958,국적미상,36,1,0,8,12,57,2019-08,기타대륙,63.2
6959,교포,0,0,0,0,16560,16560,2019-08,교포,0.0


In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   국적        6960 non-null   object 
 1   관광        6960 non-null   int64  
 2   상용        6960 non-null   int64  
 3   공용        6960 non-null   int64  
 4   유학/연수     6960 non-null   int64  
 5   기타        6960 non-null   int64  
 6   계         6960 non-null   int64  
 7   기준년월      6960 non-null   object 
 8   대륙        6960 non-null   object 
 9   관광객비율(%)  6960 non-null   float64
dtypes: float64(1), int64(6), object(3)
memory usage: 543.9+ KB


In [68]:
df.to_excel('./files/kto_total.xlsx', index=False)