#### 코로나 바이러스 영향으로 중국인 관광객 증감분석

##### 외국인 출입국 통계 데이터

한국관광 데이터랩:https://datalab.visitkorea.or.kr/
- 제공하는 csv 파일을 추가작업으로 년월별 xlsx로 변경

##### 엑셀데이터 로드
기준 2019년 1월 데이터

In [1]:
# 데이터 분석용 모듈 임포트
import pandas as pd
import numpy as np

In [2]:
# 2019년 1월 엑셀데이터 로드
# 전년동기 ~ 구성비까지 컬럼은 필요없다
# 행 전년동기 ~ 구성비까지 내용은 스킵
kto_201901 = pd.read_excel('./raw/kto_201901.xlsx'
                            , header=1
                            , usecols='A:G'
                            , skipfooter=4)

kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570


In [3]:
kto_201901.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526
66,교포,0,0,0,0,15526,15526


##### 데이터 전처리

In [4]:
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


In [5]:
# 행과열
kto_201901.shape

(67, 7)

In [6]:
# 수치통계
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


In [7]:
# 각 컬럼 0 부분 필터링
condition = (kto_201901['관광'] == 0) | \
            (kto_201901['상용'] == 0) | \
            (kto_201901['공용'] == 0) | \
            (kto_201901['유학/연수'] == 0) | \
            (kto_201901['공용'] == 0) | \
            (kto_201901['기타'] == 0)
kto_201901_zero = kto_201901[condition]
kto_201901_zero

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [8]:
# df에 기준년월 추가
kto_201901['기준년월'] = '2019-01'
kto_201901.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
62,아프리카 기타,768,718,90,206,908,2690,2019-01
63,기타대륙,33,4,0,1,16,54,2019-01
64,국적미상,33,4,0,1,16,54,2019-01
65,교포소계,0,0,0,0,15526,15526,2019-01
66,교포,0,0,0,0,15526,15526,2019-01


In [9]:
# 국적 데이터만 67개 중
# unique() 는  numpy.ndarray 변혼
# 원래 67개, unique() 67개 (의미 없음)
kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [10]:
kto_201901.국적.unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [11]:
# 대륙목록
contients_list = ['아시아주', '미주', '구주','대양주', '아프리카주', '기타대륙', '교포소계']
# '미주'.strip()[-1] == '주'
contients_list

['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [12]:
#kto_201901[(kto_201901.['국적'].isin(contients_list) == False)]
kto_201901[(kto_201901.국적.isin(contients_list) == False)]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01
6,말레이시아,19043,95,7,99,2821,22065,2019-01
7,필리핀,14279,211,161,184,15638,30473,2019-01
8,인도네시아,14183,136,38,187,4298,18842,2019-01
9,싱가포르,8372,94,8,48,1333,9855,2019-01
10,미얀마,1304,10,31,67,3877,5289,2019-01


In [13]:
kto_201901_contry = kto_201901[(kto_201901.국적.isin(contients_list) == False)]
kto_201901_contry.국적.unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [25]:
# 인덱스 재설정
kto_201901_contry_newindex = kto_201901_contry.reset_index(drop=True)
kto_201901_contry_newindex.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
55,대양주 기타,555,3,4,0,52,614,2019-01
56,남아프리카공화국,368,9,1,6,616,1000,2019-01
57,아프리카 기타,768,718,90,206,908,2690,2019-01
58,국적미상,33,4,0,1,16,54,2019-01
59,교포,0,0,0,0,15526,15526,2019-01


In [26]:
kto_201901_contry.국적.nunique()

60

In [27]:
#  대륙컬럼 다시 만들기
contients = ['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] * 23 + ['오세아니아'] * 3 + ['아프리카'] * 2 + \
['기타'] + ['교포']
print(contients)

['아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아메리카', '아메리카', '아메리카', '아메리카', '아메리카', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '오세아니아', '오세아니아', '오세아니아', '아프리카', '아프리카', '기타', '교포']


In [32]:
kto_201901_contry_newindex['대륙'] = contients
kto_201901_contry_newindex.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
55,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아
56,남아프리카공화국,368,9,1,6,616,1000,2019-01,아프리카
57,아프리카 기타,768,718,90,206,908,2690,2019-01,아프리카
58,국적미상,33,4,0,1,16,54,2019-01,기타
59,교포,0,0,0,0,15526,15526,2019-01,교포


In [41]:
# 국적별 관광객 비율
# 관광, 사용, 공용, 유학/연수 가타 중 관광 / 합계
kto_201901_contry_newindex['관광객비율(%)'] = \
round((kto_201901_contry_newindex['관광'] / kto_201901_contry_newindex['계']) * 100, 1)
kto_201901_contry_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광계비율(%),관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,96.3
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,98.2
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,96.5
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5,97.5
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,82.3
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3,86.3
6,필리핀,14279,211,161,184,15638,30473,2019-01,아시아,46.9,46.9
7,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아,75.3,75.3
8,싱가포르,8372,94,8,48,1333,9855,2019-01,아시아,85.0,85.0
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아,24.7,24.7


In [43]:
# 국적별 관광객 비율
# 관광, 사용, 공용, 유학/연수 가타 중 관광 / 합계
kto_201901_contry_newindex['관광객비율(%)'] = \
round((kto_201901_contry_newindex['관광'] / kto_201901_contry_newindex['계']) * 100, 1)
kto_201901_contry_newindex.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
55,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아,90.4
56,남아프리카공화국,368,9,1,6,616,1000,2019-01,아프리카,36.8
57,아프리카 기타,768,718,90,206,908,2690,2019-01,아프리카,28.6
58,국적미상,33,4,0,1,16,54,2019-01,기타,61.1
59,교포,0,0,0,0,15526,15526,2019-01,교포,0.0


In [46]:
# 분석 - 관광객 비율이 높은 국가 / 낮은 국가 
kto_201901_contry_newindex.sort_values(by = '관광객비율(%)', ascending=True).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
59,교포,0,0,0,0,15526,15526,2019-01,교포,0.0
14,방글라데시,149,126,27,97,848,1247,2019-01,아시아,11.9
12,스리랑카,157,54,5,28,1043,1287,2019-01,아시아,12.2
13,파키스탄,238,178,10,193,413,1032,2019-01,아시아,23.1
15,캄보디아,635,39,55,51,1915,2695,2019-01,아시아,23.6


In [57]:
# 대륙별 관광객 비율
kto_201901_contry_newindex.pivot_table(values='관광객비율(%)',
                                        index='대륙', sort=False) # , aggfunc = 'mean'

Unnamed: 0_level_0,관광객비율(%)
대륙,Unnamed: 1_level_1
아시아,59.624
아메리카,68.2
유럽,63.826087
오세아니아,84.833333
아프리카,32.7
기타,61.1
교포,0.0


In [62]:
# 중국관광객만 
kto_201901_contry_newindex[(kto_201901_contry_newindex['국적'] == '중국')]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5


In [65]:
# 전체 외국인 관광객수 
tourist_sum = sum(kto_201901_contry_newindex['관광'])
tourist_sum

884293

In [69]:
# 전체 비율
kto_201901_contry_newindex['전체비율(%)'] = round((kto_201901_contry_newindex['관광'] / tourist_sum) * 100, 1)
kto_201901_contry_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5,0.3
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,3.8


In [70]:
# 관광객 전체비율이 높은 나라 내림차순
kto_201901_contry_newindex.sort_values('전체비율(%)', ascending=False).head() 

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5,36.2
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
25,미국,42989,418,2578,229,16523,62737,2019-01,아메리카,68.5,4.9
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9


##### 위 내용을 자동화하는 함수 만들기

125개 액셀파일 전처리

In [96]:
def create_kto_data(yyyy, mm): # 년월 받아서 엑셀파일 오픈
    # 1. 엑셀파일 이름, 경로 지정
    file_path = f'./raw/kto_{yyyy+mm}.xlsx'
    # print(file_path)

    # 2. 엑셀파일 불러오기
    df = pd.read_excel(file_path , header=1 , usecols='A:G', skipfooter=4)

    # 3. 기준년월 컬럼 추가
    df['기준년월'] = f'{yyyy}-{mm}'

    # 4. 국적 컬럼에 대륙제거 국가만 남기기
    contients_list = ['아시아주', '미주', '구주','대양주', '아프리카주', '기타대륙', '교포소계']
    condition = df['국적'].isin(contients_list) == False
    df_contry = df[condition].reset_index(drop=True)

    # 5. 대륙컬럼 추가
    contients = ['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] * 23 + ['오세아니아'] * 3 + ['아프리카'] * 2 + ['기타'] + ['교포']
    df_contry['대륙'] = contients

    # 6. 국가별 관광객비율(%) 칼럼추가
    df_contry['관광객비울(%)'] = round((df_contry['관광'] / df_contry['계']) * 100, 1)

    # 7. 전체비율(%) 추가
    tourist_sum = sum(df_contry['관광'])
    df_contry['전체비율(%)'] = round((df_contry['관광'] / tourist_sum) * 100, 1)

    # 결과 출력
    return df_contry

create_kto_data('2020', '01')

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비울(%),전체비율(%)
0,일본,194840,2804,141,1035,5149,203969,2020-01,아시아,95.5,18.9
1,대만,108623,95,20,285,1331,110354,2020-01,아시아,98.4,10.5
2,홍콩,65837,51,8,171,895,66962,2020-01,아시아,98.3,6.4
3,마카오,5312,4,0,14,17,5347,2020-01,아시아,99.3,0.5
4,태국,31232,44,110,126,6954,38466,2020-01,아시아,81.2,3.0
5,말레이시아,24541,101,1,139,2767,27549,2020-01,아시아,89.1,2.4
6,필리핀,15002,155,169,211,15165,30702,2020-01,아시아,48.9,1.5
7,인도네시아,14336,98,46,231,4732,19443,2020-01,아시아,73.7,1.4
8,싱가포르,9157,80,7,54,1440,10738,2020-01,아시아,85.3,0.9
9,미얀마,1273,9,47,98,4227,5654,2020-01,아시아,22.5,0.1


##### 반복문으로 125개 엑셀 하나로 합치기

In [114]:
# kto_yyyymm.xlsx
df =pd.DataFrame()

for yyyy in range(2010, 2021): #2020년까지이니 + 1 -> 2021
    for mm in range(1, 13):
        mm_str = str(mm).zfill(2)
        yyyymm = f'{yyyy}{mm:02n}'
        if (yyyymm == '202006'): break
        temp = create_kto_data(str(yyyy), mm_str)
        
        print(yyyymm, temp.shape, sep='|')
        

201001|(60, 11)
201002|(60, 11)
201003|(60, 11)
201004|(60, 11)
201005|(60, 11)
201006|(60, 11)
201007|(60, 11)
201008|(60, 11)
201009|(60, 11)
201010|(60, 11)
201011|(60, 11)
201012|(60, 11)
201101|(60, 11)
201102|(60, 11)
201103|(60, 11)
201104|(60, 11)
201105|(60, 11)
201106|(60, 11)
201107|(60, 11)
201108|(60, 11)
201109|(60, 11)
201110|(60, 11)
201111|(60, 11)
201112|(60, 11)
201201|(60, 11)
201202|(60, 11)
201203|(60, 11)
201204|(60, 11)
201205|(60, 11)
201206|(60, 11)
201207|(60, 11)
201208|(60, 11)
201209|(60, 11)
201210|(60, 11)
201211|(60, 11)
201212|(60, 11)
201301|(60, 11)
201302|(60, 11)
201303|(60, 11)
201304|(60, 11)
201305|(60, 11)
201306|(60, 11)
201307|(60, 11)
201308|(60, 11)
201309|(60, 11)
201310|(60, 11)
201311|(60, 11)
201312|(60, 11)
201401|(60, 11)
201402|(60, 11)
201403|(60, 11)
201404|(60, 11)
201405|(60, 11)
201406|(60, 11)
201407|(60, 11)
201408|(60, 11)
201409|(60, 11)
201410|(60, 11)
201411|(60, 11)
201412|(60, 11)
201501|(60, 11)
201502|(60, 11)
201503|(