### 3.2 Tourists

> 데이터 불러오기

In [1]:
import pandas as pd

kto_201901 = pd.read_excel('./data/tourists/kto_201901.xlsx', 
                           header = 1,  # 두 번째 줄에 변수명이 있음
                           usecols = 'A:G',  # A~G 칼럼만 불러옴
                           skipfooter = 4)  # 밑에 있는 4줄 생략
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570


In [2]:
kto_201901.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526
66,교포,0,0,0,0,15526,15526


> `데이터 전처리(Data Preprocessing)`    
데이터를 탐색하고, 분석에 적합하도록 원하는 형태로 가공하는 작업    
(데이터 변수별로 값에 이상이 없는지 확인, 결측값 처리, 이상치 처리, 변수 정규화, 파생변수 생성 등)    
= 데이터 가공(Data Manipulation), 데이터 클렌징(Data Cleansing), 데이터 핸들링(Data Handling)

In [3]:
# 데이터 탐색
kto_201901.info()  # 칼럼별 특징 살펴보기

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
국적       67 non-null object
관광       67 non-null int64
상용       67 non-null int64
공용       67 non-null int64
유학/연수    67 non-null int64
기타       67 non-null int64
계        67 non-null int64
dtypes: int64(6), object(1)
memory usage: 3.7+ KB


In [4]:
# 정수형 변수의 특징
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


In [5]:
condition = ((kto_201901['관광'] == 0)| (kto_201901['상용'] == 0) 
             | (kto_201901['공용'] == 0) | (kto_201901['유학/연수'] == 0))

kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [6]:
# 데이터프레임에 기준년월 추가
kto_201901['기준년월'] = '2019-01'
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01


In [7]:
# 국적 데이터만 남기기
kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [8]:
continents_list = ['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [9]:
condition = (kto_201901.국적.isin(continents_list) == False)
kto_201901_country = kto_201901[condition]

In [10]:
kto_201901_country['국적'].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [11]:
kto_201901_country.head()  # 필터링하면서 인덱스 자체가 누락 -> 인덱스 초기화 시키기

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01


In [12]:
# 인덱스 초기화(재설정) : 인덱스 값을 0부터 순차적으로 초기화
# drop = True 안하면 기존 인덱스 값이 새롷운 칼럼으로 생성됨
kto_201901_country_newindex = kto_201901_country.reset_index(drop = True)  
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,일본,198805,2233,127,785,4576,206526,2019-01
1,대만,86393,74,22,180,1285,87954,2019-01
2,홍콩,34653,59,2,90,1092,35896,2019-01
3,마카오,2506,2,0,17,45,2570,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01


In [14]:
# 대륙 칼럼 
continents = (['아시아'] * 25 + ['아메리카'] * 5 + ['유럽'] * 23 + 
              ['오세아니아'] * 3 + ['아프리카'] * 2 + ['기타대륙'] + ['교포'])
print(continents)

['아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아메리카', '아메리카', '아메리카', '아메리카', '아메리카', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '오세아니아', '오세아니아', '오세아니아', '아프리카', '아프리카', '기타대륙', '교포']


In [15]:
kto_201901_country_newindex['대륙'] = continents
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아
1,대만,86393,74,22,180,1285,87954,2019-01,아시아
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아
3,마카오,2506,2,0,17,45,2570,2019-01,아시아
4,태국,34004,37,199,96,6998,41334,2019-01,아시아
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아
6,필리핀,14279,211,161,184,15638,30473,2019-01,아시아
7,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아
8,싱가포르,8372,94,8,48,1333,9855,2019-01,아시아
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아


In [16]:
# 국적별 관광객 비율 살펴보기
kto_201901_country_newindex['관광객비율(%)'] = \
round(kto_201901_country_newindex['관광'] / kto_201901_country_newindex['계'] * 100, 1)  # 소수 첫 자리에서 반올림

kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3


In [18]:
# 관광객비율 내림차순
kto_201901_country_newindex.sort_values(by = '관광객비율(%)', ascending = False).head(10)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
55,대양주 기타,555,3,4,0,52,614,2019-01,오세아니아,90.4
19,이스라엘,727,12,0,9,57,805,2019-01,아시아,90.3
53,오스트레일리아,12795,93,17,34,1346,14285,2019-01,오세아니아,89.6
23,GCC,1550,37,14,72,103,1776,2019-01,아시아,87.3
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3
34,스웨덴,844,29,6,18,85,982,2019-01,유럽,85.9


`대만, 마카오, 홍콩, 일본, 대양주 기타, 이스라엘 국적의 국내 방문 외국인 중 90% 이상이 우리나라를 관광 목적으로 방문하는 것을 알 수 있다.`

In [19]:
# 관광객비율 내림차순
kto_201901_country_newindex.sort_values(by = '관광객비율(%)').head(10)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
59,교포,0,0,0,0,15526,15526,2019-01,교포,0.0
14,방글라데시,149,126,27,97,848,1247,2019-01,아시아,11.9
12,스리랑카,157,54,5,28,1043,1287,2019-01,아시아,12.2
13,파키스탄,238,178,10,193,413,1032,2019-01,아시아,23.1
15,캄보디아,635,39,55,51,1915,2695,2019-01,아시아,23.6
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아,24.7
46,우크라이나,593,58,3,28,1580,2262,2019-01,유럽,26.2
11,인도,2318,2656,46,177,3474,8671,2019-01,아시아,26.7
57,아프리카 기타,768,718,90,206,908,2690,2019-01,아프리카,28.6
18,이란,60,45,10,23,46,184,2019-01,아시아,32.6


`반대로 방글라데시, 스리랑카, 파키스탄, 캄보디아, 미얀마 국적의 외국인들은 우리나라에 관광 목적으로 방문하는 비율이 25%도 안 되는 것을 알 수 있다. 소득 수준이 낮은 나라에서는 관광 목적 비율이 대체로 낮은 것으로 보인다.`