### 3.2 Tourists

> 데이터 불러오기

In [1]:
import pandas as pd

kto_201901 = pd.read_excel('./data/tourists/kto_201901.xlsx', 
                           header = 1,  # 두 번째 줄에 변수명이 있음
                           usecols = 'A:G',  # A~G 칼럼만 불러옴
                           skipfooter = 4)  # 밑에 있는 4줄 생략
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570


In [2]:
kto_201901.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526
66,교포,0,0,0,0,15526,15526


> `데이터 전처리(Data Preprocessing)`    
데이터를 탐색하고, 분석에 적합하도록 원하는 형태로 가공하는 작업    
(데이터 변수별로 값에 이상이 없는지 확인, 결측값 처리, 이상치 처리, 변수 정규화, 파생변수 생성 등)    
= 데이터 가공(Data Manipulation), 데이터 클렌징(Data Cleansing), 데이터 핸들링(Data Handling)

In [3]:
# 데이터 탐색
kto_201901.info()  # 칼럼별 특징 살펴보기

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
국적       67 non-null object
관광       67 non-null int64
상용       67 non-null int64
공용       67 non-null int64
유학/연수    67 non-null int64
기타       67 non-null int64
계        67 non-null int64
dtypes: int64(6), object(1)
memory usage: 3.7+ KB


In [4]:
# 정수형 변수의 특징
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


In [5]:
condition = ((kto_201901['관광'] == 0)| (kto_201901['상용'] == 0) 
             | (kto_201901['공용'] == 0) | (kto_201901['유학/연수'] == 0))

kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [6]:
# 데이터프레임에 기준년월 추가
kto_201901['기준년월'] = '2019-01'
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01


In [7]:
# 국적 데이터만 남기기
kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [8]:
continents_list = ['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [9]:
condition = (kto_201901.국적.isin(continents_list) == False)
kto_201901_country = kto_201901[condition]

In [10]:
kto_201901_country['국적'].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [11]:
kto_201901_country.head()  # 필터링하면서 인덱스 자체가 누락 -> 인덱스 초기화 시키기

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01


In [12]:
# 인덱스 초기화(재설정) : 인덱스 값을 0부터 순차적으로 초기화
# drop = True 안하면 기존 인덱스 값이 새롷운 칼럼으로 생성됨
kto_201901_country_newindex = kto_201901_country.reset_index(drop = True)  
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,일본,198805,2233,127,785,4576,206526,2019-01
1,대만,86393,74,22,180,1285,87954,2019-01
2,홍콩,34653,59,2,90,1092,35896,2019-01
3,마카오,2506,2,0,17,45,2570,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01


In [14]:
# 대륙 칼럼 
continents = (['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] * 23 + 
              ['오세아니아'] * 3 + ['아프리카'] * 2 + ['기타대륙'] + ['교포'])
print(continents)

['아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아메리카', '아메리카', '아메리카', '아메리카', '아메리카', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '오세아니아', '오세아니아', '오세아니아', '아프리카', '아프리카', '기타대륙', '교포']


In [15]:
kto_201901_country_newindex['대륙'] = continents
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아
1,대만,86393,74,22,180,1285,87954,2019-01,아시아
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아
3,마카오,2506,2,0,17,45,2570,2019-01,아시아
4,태국,34004,37,199,96,6998,41334,2019-01,아시아
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아
6,필리핀,14279,211,161,184,15638,30473,2019-01,아시아
7,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아
8,싱가포르,8372,94,8,48,1333,9855,2019-01,아시아
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아


In [16]:
# 국적별 관광객 비율 살펴보기
kto_201901_country_newindex['관광객비율(%)'] = \
round(kto_201901_country_newindex['관광'] / kto_201901_country_newindex['계'] * 100, 1)  # 소수 첫 자리에서 반올림

kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3


In [18]:
# 관광객비율 내림차순
kto_201901_country_newindex.sort_values(by = '관광객비율(%)', ascending = False).head(10)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
55,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아,90.4
19,이스라엘,727,12,0,9,57,805,2019-01,아시아,90.3
53,오스트레일리아,12795,93,17,34,1346,14285,2019-01,오세아니아,89.6
23,GCC,1550,37,14,72,103,1776,2019-01,아시아,87.3
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3
34,스웨덴,844,29,6,18,85,982,2019-01,유럽,85.9


`대만, 마카오, 홍콩, 일본, 대양주 기타, 이스라엘 국적의 국내 방문 외국인 중 90% 이상이 우리나라를 관광 목적으로 방문하는 것을 알 수 있다.`

In [19]:
# 관광객비율 오름차순
kto_201901_country_newindex.sort_values(by = '관광객비율(%)').head(10)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
59,교포,0,0,0,0,15526,15526,2019-01,교포,0.0
14,방글라데시,149,126,27,97,848,1247,2019-01,아시아,11.9
12,스리랑카,157,54,5,28,1043,1287,2019-01,아시아,12.2
13,파키스탄,238,178,10,193,413,1032,2019-01,아시아,23.1
15,캄보디아,635,39,55,51,1915,2695,2019-01,아시아,23.6
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아,24.7
46,우크라이나,593,58,3,28,1580,2262,2019-01,유럽,26.2
11,인도,2318,2656,46,177,3474,8671,2019-01,아시아,26.7
57,아프리카 기타,768,718,90,206,908,2690,2019-01,아프리카,28.6
18,이란,60,45,10,23,46,184,2019-01,아시아,32.6


`반대로 방글라데시, 스리랑카, 파키스탄, 캄보디아, 미얀마 국적의 외국인들은 우리나라에 관광 목적으로 방문하는 비율이 25%도 안 되는 것을 알 수 있다. 소득 수준이 낮은 나라에서는 관광 목적 비율이 대체로 낮은 것으로 보인다.`

In [20]:
# 대륙별 관광객 비율의 평균
kto_201901_country_newindex.pivot_table(values = '관광객비율(%)', index = '대륙', aggfunc = 'mean')

Unnamed: 0_level_0,관광객비율(%)
대륙,Unnamed: 1_level_1
교포,0.0
기타대륙,61.1
아메리카,68.2
아시아,59.624
아프리카,32.7
오세아니아,84.833333
유럽,63.826087


`평균 관광객 비율이 높은 대륙은 오세아니아(84.8%)인 것을 확인할 수 있다. 반대로 아프리카에서 우리나라로 방문하는 외국인은 약 32.7%만이 관광 목적으로 방문하는 것을 확인할 수 있다. 의외로 거리가 가까운 아시아 내 국가에서의 관광객 비율이 약 59.6%로 아메리카나 유럽에 비해 낮은 것으로 나타난다. 이는 앞서 살펴본 소득수준이 낮은 국가에서는 관광 목적으로 방문하는 외국인 비율이 낮은 영향인 것으로 보인다.`

In [23]:
# 중국인 중에서 관광 목적으로 방문하는 비율
condition = (kto_201901_country_newindex.국적 == '중국')
kto_201901_country_newindex[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5


`한국을 방문하는 중국인 중 약 81.5%가 관광 목적으로 방문하는 것으로 나타난다. 한국을 방문하는 중국인 5명 중 4명은 관광객이라고 볼 수 있다.`

In [24]:
# 기준년월별로 전체 외국인 관광객 대비 국적별 관광객 비율 살펴보기
# (관광 목적으로 방문하는 전체 외국인들 대비 국적별 관광객 비율)
tourist_sum = sum(kto_201901_country_newindex['관광'])
tourist_sum

884293

In [25]:
# 전체비율(%) 칼럼 생성
kto_201901_country_newindex['전체비율(%)'] = round(kto_201901_country_newindex['관광'] / tourist_sum * 100, 1)
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5,0.3
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3,3.8


In [26]:
kto_201901_country_newindex.sort_values('전체비율(%)', ascending = False).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5,36.2
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
25,미국,42989,418,2578,229,16523,62737,2019-01,아메리카,68.5,4.9
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9


`전체 외국인 관광객 중 중국인 관광객이 36.2%로 가장 높은 비율을 차지하고 있고, 뒤이어 일본(22.5%), 대만(9.8%), 미국(4.9%), 홍콩(3.9%) 순으로 나타난다. 미국은 다른 4개국과 달리 상대적으로 거리가 먼데도 불구하고 많은 관광객이 방문하는 특징이 있다. 상위 5개국 관광객이 전체 외국인 관광객의 77.3%를 차지한다.`

> 데이터 전처리 과정을 함수로 만들기
1. 불러올 데이터 형태 파악
2. 엑셀 파일 파이썬으로 불러오기(pd.read_excel())
3. 데이터 탐색(info().describe())
4. 기준년월 칼럼 추가
5. 국적 데이터만 남기기(대륙 데이터 제거)
6. 대륙 칼럼 만들기
7. 국적별 관광객비율(%) 살펴보기
8. 전체 외국인 관광객 대비 국적별 관광객 비율 살펴보기

In [45]:
# create_kto_data 함수 생성
def create_kto_data(yy, mm):
    
    # 1. 불러올 엑셀 파일 경로를 지정
    file_path = './data/tourists/kto_{}{}.xlsx'.format(yy, mm)
    
    # 2. 엑셀 파일 불러오기
    df = pd.read_excel(file_path, header = 1, usecols = 'A:G', skipfooter = 4)
    
    # 3. '기준년월' 칼럼 추가
    df['기준년월'] = '{}-{}'.format(yy, mm)
    
    # 4. '국적' 칼럼에서 대륙 제거하고 국가만 남기기
    ignore_list = ['아시아주', '미주' , '구주', '대양주', '아프리카주', '기타대륙', '교포소계']  # 제거할 대륙명 선정하기
    condition = (df.국적.isin(ignore_list) == False)  # 대륙 미포함 조건
    df_country = df[condition].reset_index(drop = True)
    
    # 5. '대륙' 칼럼 추가
    continents = (['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] * 23 + 
                  ['오세아니아'] * 3 + ['아프리카'] * 2 + ['기타대륙'] + ['교포'])  # 대륙 칼럼 생성을 위한 목록 만들어 놓기
    df_country['대륙'] = continents
    
    # 6. 국적별 '관광객비율(%)' 칼럼 추가
    df_country['관광객비율(%)'] = round(df_country['관광'] / df_country['계'] * 100, 1)
    
    # 7. '전체비율(%)' 칼럼 추가
    tourist_sum = sum(df_country['관광'])
    df_country['전체비율(%)'] = round(df_country['관광'] / tourist_sum * 100, 1)
    
    # 8. 결과 출력
    return(df_country)

In [46]:
# 2018년 12월 데이터 불러오기
kto_test = create_kto_data(2018, 12)
kto_test.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,252461,1698,161,608,3593,258521,2018-12,아시아,97.7,22.7
1,대만,85697,71,22,266,1252,87308,2018-12,아시아,98.2,7.7
2,홍콩,58355,41,3,208,939,59546,2018-12,아시아,98.0,5.2
3,마카오,6766,0,1,20,36,6823,2018-12,아시아,99.2,0.6
4,태국,47242,42,302,58,6382,54026,2018-12,아시아,87.4,4.2


> 반복문을 통해 다수의 엑셀 데이터를 불러와서 합치기    

`kto_yyyymm.xlsx`
1. yyyy에는 2010~2019까지 순차적으로 들어간다.
2. 하나의 yyyy에 대해 mm에는 1~12의 값이 순차적으로 들어간다.
3. 이때 mm에는 '01', '02', '03', ... ,'12'와 같이 두 자리 문자로 구성되어야 한다.

이와 같은 특징을 고려해보면 연도에 해당하는 yyyy 부분에서 반복문이 필요하고, 그 하위에 월에 해당하는 mm 부분에 대한 반복문을 포함하는 이중 반복문으로 구성해야 한다는 점을 알 수 있다.

In [48]:
# 이중 반복문으로 기준년월 출력
for yy in range(2010, 2020):
    for mm in range(1, 13):
        yymm = '{}{}'.format(yy, mm)
        print(yymm)

20101
20102
20103
20104
20105
20106
20107
20108
20109
201010
201011
201012
20111
20112
20113
20114
20115
20116
20117
20118
20119
201110
201111
201112
20121
20122
20123
20124
20125
20126
20127
20128
20129
201210
201211
201212
20131
20132
20133
20134
20135
20136
20137
20138
20139
201310
201311
201312
20141
20142
20143
20144
20145
20146
20147
20148
20149
201410
201411
201412
20151
20152
20153
20154
20155
20156
20157
20158
20159
201510
201511
201512
20161
20162
20163
20164
20165
20166
20167
20168
20169
201610
201611
201612
20171
20172
20173
20174
20175
20176
20177
20178
20179
201710
201711
201712
20181
20182
20183
20184
20185
20186
20187
20188
20189
201810
201811
201812
20191
20192
20193
20194
20195
20196
20197
20198
20199
201910
201911
201912


In [52]:
# zfill() 함수 이용 - 0을 포함한 두 자리로 출력하기
mm = 1
print(str(mm).zfill(2))

01


In [56]:
# 6자리로 정렬해서 기준년월 출력하기
for yy in range(2010, 2020):
    for mm in range(1, 13):
        mm_str = str(mm).zfill(2)
        yymm = '{}{}'.format(yy, mm_str)
        print(yymm)

201001
201002
201003
201004
201005
201006
201007
201008
201009
201010
201011
201012
201101
201102
201103
201104
201105
201106
201107
201108
201109
201110
201111
201112
201201
201202
201203
201204
201205
201206
201207
201208
201209
201210
201211
201212
201301
201302
201303
201304
201305
201306
201307
201308
201309
201310
201311
201312
201401
201402
201403
201404
201405
201406
201407
201408
201409
201410
201411
201412
201501
201502
201503
201504
201505
201506
201507
201508
201509
201510
201511
201512
201601
201602
201603
201604
201605
201606
201607
201608
201609
201610
201611
201612
201701
201702
201703
201704
201705
201706
201707
201708
201709
201710
201711
201712
201801
201802
201803
201804
201805
201806
201807
201808
201809
201810
201811
201812
201901
201902
201903
201904
201905
201906
201907
201908
201909
201910
201911
201912


In [57]:
# 데이터를 담을 빈 데이터프레임 만들기
df = pd.DataFrame()

In [58]:
# 패턴 분석 결과를 이중 반복문을 통해 구현
for yy in range(2010, 2020):
    for mm in range(1, 13):
        
        # 앞에서 만든 create_kto_data 함수로 엑셀 데이터를 temp에 불러오기
        temp = create_kto_data(str(yy), str(mm).zfill(2)) 
        
        # temp로 불러온 데이터를 df 밑으로 추가
        df = df.append(temp, ignore_index = True)

FileNotFoundError: [Errno 2] No such file or directory: './data/tourists/kto_201909.xlsx'

2019년 9월 데이터가 존재하지 않기 때문에 오류 발생. 하지만 에러가 발생하기 전까지의 작업은 정상적으로 이뤄졌다.

In [59]:
df.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0,50.6
1,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3,8.9
2,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4,3.5
3,마카오,554,0,0,0,0,554,2010-01,아시아,100.0,0.1
4,태국,13374,39,13,53,4335,17814,2010-01,아시아,75.1,3.3


In [60]:
df.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
6955,대양주 기타,519,1,6,9,74,609,2019-08,오세아니아,85.2,0.0
6956,남아프리카공화국,634,6,1,11,1235,1887,2019-08,아프리카,33.6,0.1
6957,아프리카 기타,2081,593,165,841,1184,4864,2019-08,아프리카,42.8,0.2
6958,국적미상,36,1,0,8,12,57,2019-08,기타대륙,63.2,0.0
6959,교포,0,0,0,0,16560,16560,2019-08,교포,0.0,0.0


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 11 columns):
국적          6960 non-null object
관광          6960 non-null int64
상용          6960 non-null int64
공용          6960 non-null int64
유학/연수       6960 non-null int64
기타          6960 non-null int64
계           6960 non-null int64
기준년월        6960 non-null object
대륙          6960 non-null object
관광객비율(%)    6960 non-null float64
전체비율(%)     6960 non-null float64
dtypes: float64(2), int64(6), object(3)
memory usage: 598.2+ KB


총 6090개(116개월 * 60개의 국적)의 로우가 관측되는 것을 확인할 수 있다.

`* 오류가 나는 경우를 출력하고 싶지 않을 때 try/except 구문 사용`

In [62]:
df = pd.DataFrame()

# 패턴 분석 결과를 이중 반복문을 통해 구현
for yy in range(2010, 2020):
    for mm in range(1, 13):
        
        # try 이하 구문을 실행
        try:
            # 앞에서 만든 create_kto_data 함수로 엑셀 데이터를 temp에 불러오기
            temp = create_kto_data(str(yy), str(mm).zfill(2))
            
            # temp로 불러온 데이터를 df 밑으로 추가
            df = df.append(temp, ignore_index = True)
            
        # 만약 try 구문에서 에러가 발생하면 except 이후를 실행
        except:
            pass

In [63]:
df.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0,50.6
1,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3,8.9
2,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4,3.5
3,마카오,554,0,0,0,0,554,2010-01,아시아,100.0,0.1
4,태국,13374,39,13,53,4335,17814,2010-01,아시아,75.1,3.3


In [64]:
df.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
6955,대양주 기타,519,1,6,9,74,609,2019-08,오세아니아,85.2,0.0
6956,남아프리카공화국,634,6,1,11,1235,1887,2019-08,아프리카,33.6,0.1
6957,아프리카 기타,2081,593,165,841,1184,4864,2019-08,아프리카,42.8,0.2
6958,국적미상,36,1,0,8,12,57,2019-08,기타대륙,63.2,0.0
6959,교포,0,0,0,0,16560,16560,2019-08,교포,0.0,0.0


In [65]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 11 columns):
국적          6960 non-null object
관광          6960 non-null int64
상용          6960 non-null int64
공용          6960 non-null int64
유학/연수       6960 non-null int64
기타          6960 non-null int64
계           6960 non-null int64
기준년월        6960 non-null object
대륙          6960 non-null object
관광객비율(%)    6960 non-null float64
전체비율(%)     6960 non-null float64
dtypes: float64(2), int64(6), object(3)
memory usage: 598.2+ KB


In [66]:
# 엑셀 파일로 저장
df.to_excel('./data/tourists/kto_total.xlsx', index = False)  # index 없이 저장하기