# 관광객 데이터 전처리

## 데이터 불러오기

In [1]:
# kto_201901.xlsx 파일 불러오기
# - 컬럼명과 컬럼에 대한 데이터만 불러오기

import pandas as pd

file_path = './files/kto_201901.xlsx'

kto_201901 = pd.read_excel(file_path, header = 1)
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,전년동기,성장률(%),구성비(%)
0,아시아주,765082.0,10837.0,1423.0,14087.0,125521.0,916950.0,775023.0,18.3,83.0
1,일본,198805.0,2233.0,127.0,785.0,4576.0,206526.0,167083.0,23.6,18.7
2,대만,86393.0,74.0,22.0,180.0,1285.0,87954.0,75820.0,16.0,8.0
3,홍콩,34653.0,59.0,2.0,90.0,1092.0,35896.0,34671.0,3.5,3.2
4,마카오,2506.0,2.0,0.0,17.0,45.0,2570.0,2933.0,-12.4,0.2
...,...,...,...,...,...,...,...,...,...,...
66,교포,0.0,0.0,0.0,0.0,15526.0,15526.0,19196.0,-19.1,1.4
67,계,884293.0,13675.0,4439.0,15995.0,186401.0,1104803.0,,,
68,전년동기,742732.0,14663.0,4126.0,13858.0,180657.0,956036.0,,,
69,성장률(%),19.1,-6.7,7.6,15.4,3.2,15.6,,,


In [2]:
# *자동화*

kto_201901 = pd.read_excel(file_path, 
                           header = 1,            # 컬럼의 위치 지정 (컬럼의 위치가 첫번째에 있다) 
                           skipfooter = 4,        # 제일 밑에서부터 몇 개를 제거할 것이냐 (4개 제거할 것임)
                           usecols = "A:G"        # 사용할 컬럼 범위
                           )
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570
...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526


In [3]:
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570


In [4]:
# 기본 정보 확인하기 : 결측치 확인 가능
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


In [5]:
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


In [6]:
# 관광, 상용, 공용, 유학/연수의 데이터 중에서 0이 있는 컬럼들을 모두 조회

condition = (kto_201901["관광"] == 0) \
             | (kto_201901["상용"] == 0) \
             | (kto_201901["공용"] == 0) \
             | (kto_201901["유학/연수"] == 0)
# 원화 표시 쓰고 바로 엔터 (띄어쓰기 없이 바로 엔터)
condition

0     False
1     False
2     False
3     False
4      True
      ...  
62    False
63     True
64     True
65     True
66     True
Length: 67, dtype: bool

In [7]:
kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [8]:
# *자동화*

# 년, 월에 대한 컬럼을 추가하겠습니다
# 컬람명 : 기준년월
# 값     : 2019-01

kto_201901['기준년월'] = '2019-01'
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
...,...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690,2019-01
63,기타대륙,33,4,0,1,16,54,2019-01
64,국적미상,33,4,0,1,16,54,2019-01
65,교포소계,0,0,0,0,15526,15526,2019-01


In [9]:
# 국적 컬럼의 값을 조회 (고유한 값들만 뽑아보기(유니크한 값, 중복 빼고))

kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [10]:
# *자동화*

# 1. 필터링
#   - 수고롭지만 제거할 컬럼명을 따로 리스트로 모음

# 대륙의 값들을 관리하는 목록 만들기 : 기준이 없기 때문에 기준을 만들어 줌
continents_list = ['아시아주', '미주', '구주', '대양주', 
                    '아프리카주', '기타대륙', '교포소계']
continents_list

['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [11]:
# *자동화*

# 국적 데이터에서 대륙 기준값이 포홤되어 있는지 확인
# 포함되어 있으면 True, 없으면 False가 조회될 것임
# 사용되는 함수 : isin()

kto_201901['국적'].isin(continents_list)

condition = ( kto_201901['국적'].isin(continents_list) )
condition

0      True
1     False
2     False
3     False
4     False
      ...  
62    False
63     True
64    False
65     True
66    False
Name: 국적, Length: 67, dtype: bool

In [12]:
# *자동화*

kto_201901_country = kto_201901[condition == False]

kto_201901_country

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01
6,말레이시아,19043,95,7,99,2821,22065,2019-01
7,필리핀,14279,211,161,184,15638,30473,2019-01
8,인도네시아,14183,136,38,187,4298,18842,2019-01
9,싱가포르,8372,94,8,48,1333,9855,2019-01
10,미얀마,1304,10,31,67,3877,5289,2019-01


In [13]:
# 우리가 사용할 컬럼 맞는지 확인
kto_201901_country['국적'].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [14]:
# *자동화*

# 인덱스 번호 재배열 (0부터 순서대로) 해주세요.
# 재배열 후에 'kto_201901_country_newindex' 변수에 저장하기

kto_201901_country_newindex = kto_201901_country.reset_index(drop = True)   
# drop = True : 기존의 인덱스 번호가 컬럼으로 들어오는 것을 막기 위해서

kto_201901_country_newindex

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,1,일본,198805,2233,127,785,4576,206526,2019-01
1,2,대만,86393,74,22,180,1285,87954,2019-01
2,3,홍콩,34653,59,2,90,1092,35896,2019-01
3,4,마카오,2506,2,0,17,45,2570,2019-01
4,5,태국,34004,37,199,96,6998,41334,2019-01
5,6,말레이시아,19043,95,7,99,2821,22065,2019-01
6,7,필리핀,14279,211,161,184,15638,30473,2019-01
7,8,인도네시아,14183,136,38,187,4298,18842,2019-01
8,9,싱가포르,8372,94,8,48,1333,9855,2019-01
9,10,미얀마,1304,10,31,67,3877,5289,2019-01


In [15]:
# 대륙 컬럼을 만들어서 각 국가별로 알려줄 거예요

len(kto_201901_country_newindex)

# 

60

In [16]:
# *자동화*

# 아시아(25), 아메리카(5), 유럽(23), 오세아니아(3), 아프리카(2), 기타대륙(1), 교포(1)

['아시아']*25       # 0번째부터 24번째까지 '아시아'
['아메리카']*5      # 0번째부터 4번째까지 '아메리카'

continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + ['오세아니아']*3 \
             + ['아프리카']*2 + ['기타대륙'] + ['교포']
continents

['아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '오세아니아',
 '오세아니아',
 '오세아니아',
 '아프리카',
 '아프리카',
 '기타대륙',
 '교포']

In [17]:
# *자동화*

# 대륙 추가

kto_201901_country_newindex['대륙'] = continents

kto_201901_country_newindex.head()
kto_201901_country_newindex.tail()

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
55,59,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아
56,61,남아프리카공화국,368,9,1,6,616,1000,2019-01,아프리카
57,62,아프리카 기타,768,718,90,206,908,2690,2019-01,아프리카
58,64,국적미상,33,4,0,1,16,54,2019-01,기타대륙
59,66,교포,0,0,0,0,15526,15526,2019-01,교포


In [18]:
# *자동화*

# 국가 내 관광객 비율을 계산하여 '관광객비율(%)' 이름으로 컬럼 만들기
# 값은 비율 계산하여 넣기
# 비율값은 소수점 1자리까지만 

kto_201901_country_newindex['관광객비율(%)'] = (round((kto_201901_country_newindex['관광'] / kto_201901_country_newindex['계'])*100, 1))

kto_201901_country_newindex.head()

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
0,1,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
1,2,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
2,3,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
3,4,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
4,5,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3


In [19]:
# *자동화*

# 전세계 관광객 입국객수 대비 국가별 관광객 비율을 계산하여 컬럼 생성
# 컬럼명 : 전체 비율(%)
# 값     : 각 국가 관광객수 / 전세계 관광객수 * 100
# 소수점 1자리까지

kto_201901_country_newindex['전체 비율(%)'] = (round( (kto_201901_country_newindex['관광'] / sum(kto_201901_country_newindex['관광']))*100, 1))

kto_201901_country_newindex.head()

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체 비율(%)
0,1,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,2,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
2,3,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9
3,4,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5,0.3
4,5,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,3.8


In [20]:
# 전세계 국가 중에 우리나라에 관광을 위해서 들어오는 비율이 가장 높은 5개 국가만 조회

kto_201901_country_newindex.sort_values('전체 비율(%)',
                                        ascending = False)

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체 비율(%)
17,18,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5,36.2
0,1,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,2,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
25,27,미국,42989,418,2578,229,16523,62737,2019-01,아메리카,68.5,4.9
2,3,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9
4,5,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,3.8
5,6,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3,2.2
47,50,러시아,17260,181,37,191,7525,25194,2019-01,유럽,68.5,2.0
6,7,필리핀,14279,211,161,184,15638,30473,2019-01,아시아,46.9,1.6
7,8,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아,75.3,1.6


In [21]:
# 201001~201912까지의 파일명 자동 생성하기
# kto_yyyymm.xlsx 형태로 출력해보세요.
# 년도 4자리, 월 2자리 입니다. 

for year in range(2010, 2020):
    for mon in range(1, 13):
        # ('kto_' + str(year) + str(mon).zfill(2) + '.xlsx')
        yymm = 'kto_{}{}.xlsx'.format(year, str(mon).zfill(2))
        print(yymm)
        
# zfill() : 1이면 01로 바꿔줌 (zero로 채워라, 문자열에서 사용) 

kto_201001.xlsx
kto_201002.xlsx
kto_201003.xlsx
kto_201004.xlsx
kto_201005.xlsx
kto_201006.xlsx
kto_201007.xlsx
kto_201008.xlsx
kto_201009.xlsx
kto_201010.xlsx
kto_201011.xlsx
kto_201012.xlsx
kto_201101.xlsx
kto_201102.xlsx
kto_201103.xlsx
kto_201104.xlsx
kto_201105.xlsx
kto_201106.xlsx
kto_201107.xlsx
kto_201108.xlsx
kto_201109.xlsx
kto_201110.xlsx
kto_201111.xlsx
kto_201112.xlsx
kto_201201.xlsx
kto_201202.xlsx
kto_201203.xlsx
kto_201204.xlsx
kto_201205.xlsx
kto_201206.xlsx
kto_201207.xlsx
kto_201208.xlsx
kto_201209.xlsx
kto_201210.xlsx
kto_201211.xlsx
kto_201212.xlsx
kto_201301.xlsx
kto_201302.xlsx
kto_201303.xlsx
kto_201304.xlsx
kto_201305.xlsx
kto_201306.xlsx
kto_201307.xlsx
kto_201308.xlsx
kto_201309.xlsx
kto_201310.xlsx
kto_201311.xlsx
kto_201312.xlsx
kto_201401.xlsx
kto_201402.xlsx
kto_201403.xlsx
kto_201404.xlsx
kto_201405.xlsx
kto_201406.xlsx
kto_201407.xlsx
kto_201408.xlsx
kto_201409.xlsx
kto_201410.xlsx
kto_201411.xlsx
kto_201412.xlsx
kto_201501.xlsx
kto_201502.xlsx
kto_2015

In [22]:
# 반복문 안에서
# 116개 파일 불러오기
# 파일을 하나씩 불러온 후 df라는 데이터프레임 변수에 저장 후 len(df)로
# 각각의 행의 갯수를 출력하게 해주세요

for year in range(2010, 2020) :
    for mon in range(1, 13) :        
        file_path= './files/kto_{}{}.xlsx'.format(year, str(mon).zfill(2))

        df = pd.read_excel(file_path, header=1, skipfooter=4, usecols='A:G')
        print(len(df))
        

67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67


FileNotFoundError: [Errno 2] No such file or directory: './files/kto_201909.xlsx'

### 자동화로 전체 실행하기

In [23]:
# 전체 실행하기

for year in range(2010, 2020) :
    for mon in range(1, 13) :
        try : 
            file_path= './files/kto_{}{}.xlsx'.format(year, str(mon).zfill(2))

            df = pd.read_excel(file_path, header=1, skipfooter=4, usecols='A:G')
            # print(len(df))

            df['기준년월'] = '{}-{}'.format(year, str(mon).zfill(2))

            continents_list = ['아시아주', '미주', '구주', '대양주', 
                               '아프리카주', '기타대륙', '교포소계']

            df['국적'].isin(continents_list)

            condition = ( df['국적'].isin(continents_list) )

            df_country = df[condition == False]

            df_country_newindex = df_country.reset_index(drop = True)   

            continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + \
                         ['오세아니아']*3 + ['아프리카']*2 + ['기타대륙'] + ['교포']

            df_country_newindex['대륙'] = continents

            df_country_newindex['관광객비율(%)'] = (round((df_country_newindex['관광'] \
                                                     / df_country_newindex['계'])*100, 1))

            df_country_newindex['전체 비율(%)'] = (round( (df_country_newindex['관광'] \
                                                     / sum(df_country_newindex['관광']))*100, 1))

            print(df_country_newindex.head(1))
        
        except :         
            pass           # 오류 나는 건 패스하겠다

   index  국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  202825  1750  89    549  3971  209184  2010-01  아시아      97.0   

   전체 비율(%)  
0      50.6  
   index  국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  224475  1455  63   1172  3197  230362  2010-02  아시아      97.4   

   전체 비율(%)  
0      50.3  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  299820  1483  124    519  4180  306126  2010-03  아시아      97.9   

   전체 비율(%)  
0      55.0  
   index  국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  233697  1282  74    154  3868  239075  2010-04  아시아      97.8   

   전체 비율(%)  
0      43.0  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  233311  1480  150    216  6538  241695  2010-05  아시아      96.5   

   전체 비율(%)  
0      44.4  
   index  국적      관광    상용  공용  유학/연수    기타       계     기준년월 

   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  234591  3054  171    902  8208  246926  2013-09  아시아      95.0   

   전체 비율(%)  
0      27.5  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  235183  2028  513    292  7005  245021  2013-10  아시아      96.0   

   전체 비율(%)  
0      28.1  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  215737  2085  134    446  4395  222797  2013-11  아시아      96.8   

   전체 비율(%)  
0      30.4  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  208626  1860  115    427  4022  215050  2013-12  아시아      97.0   

   전체 비율(%)  
0      28.5  
   index  국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  164038  2564  81    720  4674  172077  2014-01  아시아      95.3   

   전체 비율(%)  
0      25.6  
   index  국적      관광    상용  공용  유학/연수    기타       계     기

   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  161395  1739  106    635  3910  167785  2017-06  아시아      96.2   

   전체 비율(%)  
0      20.8  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  163712  1955  118    521  4328  170634  2017-07  아시아      95.9   

   전체 비율(%)  
0      20.9  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  216683  2261  198   2189  5404  226735  2017-08  아시아      95.6   

   전체 비율(%)  
0      26.5  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  213446  1535  220    675  4092  219968  2017-09  아시아      97.0   

   전체 비율(%)  
0      25.4  
   index  국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  \
0      1  일본  171182  2613  229    612  5025  179661  2017-10  아시아      95.3   

   전체 비율(%)  
0      19.0  
   index  국적      관광    상용   공용  유학/연수    기타       계   

### 병합하기

In [24]:
df_all = pd.DataFrame()      # for문이랑 다른 칸(?)에 실행해놓으면 for문 돌릴 때마다 df_all안에 계속 추가됨
                             # for문이랑 같은 칸에 있으면 실행할 때마다 초기화함 


for year in range(2010, 2020) :
    for mon in range(1, 13) :
        try : 
            file_path= './files/kto_{}{}.xlsx'.format(year, str(mon).zfill(2))

            df = pd.read_excel(file_path, header=1, skipfooter=4, usecols='A:G')
            # print(len(df))

            df['기준년월'] = '{}-{}'.format(year, str(mon).zfill(2))

            continents_list = ['아시아주', '미주', '구주', '대양주', 
                               '아프리카주', '기타대륙', '교포소계']

            df['국적'].isin(continents_list)

            condition = ( df['국적'].isin(continents_list) )

            df_country = df[condition == False]

            df_country_newindex = df_country.reset_index(drop = True)   

            continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + \
                         ['오세아니아']*3 + ['아프리카']*2 + ['기타대륙'] + ['교포']

            df_country_newindex['대륙'] = continents

            df_country_newindex['관광객비율(%)'] = (round((df_country_newindex['관광'] \
                                                     / df_country_newindex['계'])*100, 1))

            df_country_newindex['전체 비율(%)'] = (round( (df_country_newindex['관광'] \
                                                     / sum(df_country_newindex['관광']))*100, 1))
            
            # 통합하기
            df_all = df_all.append(df_country_newindex, ignore_index = True)
            
            # print(df_country_newindex.head(1))
        
        except :         
            pass           # 오류 나는 건 패스하겠다

len(df_all)

6960

## 함수로 만들기

In [34]:
# 함수 만들기
# 함수 이름 : create_kto_data(xxx, xxx)

def create_kto_data(year, mon) :
    
    file_path= './files/kto_{}{}.xlsx'.format(year, str(mon).zfill(2))

    df = pd.read_excel(file_path, header=1, skipfooter=4, usecols='A:G')
    # print(len(df))

    df['기준년월'] = '{}-{}'.format(year, str(mon).zfill(2))

    continents_list = ['아시아주', '미주', '구주', '대양주', 
                       '아프리카주', '기타대륙', '교포소계']

    df['국적'].isin(continents_list)

    condition = ( df['국적'].isin(continents_list) )

    df_country = df[condition == False]

    df_country_newindex = df_country.reset_index(drop = True)   

    continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + \
                 ['오세아니아']*3 + ['아프리카']*2 + ['기타대륙'] + ['교포']

    df_country_newindex['대륙'] = continents

    df_country_newindex['관광객비율(%)'] = (round((df_country_newindex['관광'] \
                                             / df_country_newindex['계'])*100, 1))

    df_country_newindex['전체 비율(%)'] = (round( (df_country_newindex['관광'] \
                                             / sum(df_country_newindex['관광']))*100, 1))
    
    return df_country_newindex

In [29]:
create_kto_data(2019, 1)

Unnamed: 0,index,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체 비율(%)
0,1,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,2,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
2,3,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9
3,4,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5,0.3
4,5,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,3.8
5,6,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3,2.2
6,7,필리핀,14279,211,161,184,15638,30473,2019-01,아시아,46.9,1.6
7,8,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아,75.3,1.6
8,9,싱가포르,8372,94,8,48,1333,9855,2019-01,아시아,85.0,0.9
9,10,미얀마,1304,10,31,67,3877,5289,2019-01,아시아,24.7,0.1


In [35]:
df_all = pd.DataFrame()

for year in range(2010, 2020) :
    for mon in range(1, 13) :
        try : 
            
            # 힘수 호출하기
            temp = create_kto_data(year, mon)
            
            # 통합하기
            df_all = df_all.append(temp, ignore_index = True)
            
        except : 
            pass

len(df_all)

6960

In [32]:
df_all['국적'].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [38]:
# 최종본 저장하기
# 파일 이름 : kto_total.xlsx

df_all.to_excel(excel_writer = './kto_total.xlsx', index = False)

In [39]:
# 저장 잘 됐는지 확인하기
df_temp = pd.read_excel('./kto_total.xlsx')
len(df_temp)

6960

In [None]:
# concat 는 그대로 그냥 붙임
# 