# 관광객 데이터 전처리

## 데이터 불러오기

In [1]:
# kto_201901.xlsx 파일 불러오기
# - 컬럼명과 컬럼에 대한 데이터만 불러오기...
import pandas as pd

In [117]:
# 자동화

file_path = "./files/kto_201901.xlsx"
kto_201901 = pd.read_excel(file_path,
                          header = 1, # 컬럼의 위치 지정
                          skipfooter = 4, # 밑에서부터 제거할 위치
                          usecols = "A:G") # 가져올 컬럼의 범위

In [118]:
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570
...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526


In [119]:
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


In [120]:
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


In [121]:
# 관광, 상용, 공용 유학/연수의 데이터 중에 0이 있는 컬럼을 모두 조회
condition = (kto_201901["관광"] == 0) \
| (kto_201901["상용"] == 0) \
| (kto_201901["공용"] == 0) \
| (kto_201901["유학/연수"] == 0)
condition

0     False
1     False
2     False
3     False
4      True
      ...  
62    False
63     True
64     True
65     True
66     True
Length: 67, dtype: bool

In [122]:
kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [123]:
# 자동화

# 년월에 대한 컬럼을 추가하기
# 컬럼명 : 기준연월
# 값 : 2019-01
kto_201901["기준연월"] = "2019-01"

In [124]:
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
...,...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690,2019-01
63,기타대륙,33,4,0,1,16,54,2019-01
64,국적미상,33,4,0,1,16,54,2019-01
65,교포소계,0,0,0,0,15526,15526,2019-01


In [125]:
# 국적 커럼의 값을 조회.. unique한 값들만
kto_201901["국적"].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [127]:
# 대륙의 값들을 관리하는 목록 만들기
# 기준이 없기 때문에 기준을 만들어준다
continentis_list = kto_201901["기준연월"] = "2019-01"
continentis_list

'2019-01'

In [128]:
# 자동화

# 국적 데이터에서 대륙 기준값이 포함되어 있는지 확인
# 포함되어 있으면 true, 없으면 false
# isin()
kto_201901["기준연월"] = "2019-01"
condition

0     False
1     False
2     False
3     False
4      True
      ...  
62    False
63     True
64     True
65     True
66     True
Length: 67, dtype: bool

In [129]:
# 자동화
kto_201901_countury = kto_201901[condition == False]
kto_201901_countury["국적"].unique()

array(['아시아주', '일본', '대만', '홍콩', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '터키', '카자흐스탄', 'GCC', '아시아 기타', '미주', '미국', '캐나다', '멕시코',
       '브라질', '미주 기타', '구주', '영국', '독일', '프랑스', '네덜란드', '스웨덴', '이탈리아',
       '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '핀란드', '아일랜드', '우크라이나',
       '러시아', '루마니아', '불가리아', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '아프리카주',
       '남아프리카공화국', '아프리카 기타'], dtype=object)

In [130]:
kto_201901_countury

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01
6,말레이시아,19043,95,7,99,2821,22065,2019-01
7,필리핀,14279,211,161,184,15638,30473,2019-01
8,인도네시아,14183,136,38,187,4298,18842,2019-01
9,싱가포르,8372,94,8,48,1333,9855,2019-01
10,미얀마,1304,10,31,67,3877,5289,2019-01


In [131]:
# 자동화

# 인덱스 재배열(0부터 순서대로)
# 재배열 후에 kto_201901_country_newindex 변수로 저장
kto_201901_country_newindex = kto_201901_countury.reset_index(drop = True)
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01
5,말레이시아,19043,95,7,99,2821,22065,2019-01
6,필리핀,14279,211,161,184,15638,30473,2019-01
7,인도네시아,14183,136,38,187,4298,18842,2019-01
8,싱가포르,8372,94,8,48,1333,9855,2019-01
9,미얀마,1304,10,31,67,3877,5289,2019-01


In [132]:
# 대륙 컬럼을 만들어 각 국가별로 구분
len(kto_201901_country_newindex)

54

In [133]:
# 자동화

# 아시아(25), 어매라카(5), 유럽(23), 오세아니아(3), 아프리카(2), 기타대륙, 교포
continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 \
+ ["아프리카"] * 2 + ["기타대륙"] + ["교포"]
continents

['아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '오세아니아',
 '오세아니아',
 '오세아니아',
 '아프리카',
 '아프리카',
 '기타대륙',
 '교포']

In [134]:
# 자동화
# 대륙컬럼 추가하기
kto_201901_country_newindex["대륙"] = continents

ValueError: Length of values (60) does not match length of index (54)

In [75]:
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01
5,말레이시아,19043,95,7,99,2821,22065,2019-01
6,필리핀,14279,211,161,184,15638,30473,2019-01
7,인도네시아,14183,136,38,187,4298,18842,2019-01
8,싱가포르,8372,94,8,48,1333,9855,2019-01
9,미얀마,1304,10,31,67,3877,5289,2019-01


In [76]:
# 자동화

# 국가 내 관광객 비율을 계산하여
# "관광객비율(%)" 이름으로 컬럼 만들기
# 값은 비율 계산하여 넣기
# 비율값은 소숫점 1자리까지만
kto_201901_country_newindex["관광객비율(%)"] = \
                            round(kto_201901_country_newindex["관광"] / \
                                  kto_201901_country_newindex["계"] * 100, 1)

In [77]:
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,관광객비율(%)
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01,83.4
1,일본,198805,2233,127,785,4576,206526,2019-01,96.3
2,대만,86393,74,22,180,1285,87954,2019-01,98.2
3,홍콩,34653,59,2,90,1092,35896,2019-01,96.5
4,태국,34004,37,199,96,6998,41334,2019-01,82.3


In [78]:
# 전세계 관광객 입국객수 대비 국가별 관광객 비율을 계산하여 컬럼생성
# 컬럼명 : 전체비율(%)
# 값 : 각국가 관광객 수 / 전세계 관광객 수 * 100
# 소숫점 첫재짜리
kto_201901_country_newindex["전체비율"] = \
round(kto_201901_country_newindex["관광"] / \
     sum(kto_201901_country_newindex["관광"]) * 100, 1)

In [88]:
# 전세계 국가중에 우리나라에 관광을 위해서 들어오는 
# 비율이 가장 놓은 5개 국가만 조회
kto_201901_country_newindex.sort_values("전체비율",
                                       ascending = False).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,관광객비율(%),전체비율
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01,83.4,43.5
17,중국,320113,2993,138,8793,60777,392814,2019-01,81.5,18.2
1,일본,198805,2233,127,785,4576,206526,2019-01,96.3,11.3
2,대만,86393,74,22,180,1285,87954,2019-01,98.2,4.9
23,미주,54982,526,2657,479,22277,80921,2019-01,67.9,3.1


In [91]:
# 201001 ~ 201912 까지의
# 파일명 자동생성하기
# ktoyyyymm.xlsx 형태로 출력하기

for yy in range(2010,2020):
    for mm in range(1, 13):
        yymm = "{}{}".format(yy, str(mm).zfill(2))
        print(yymm)

201001
201002
201003
201004
201005
201006
201007
201008
201009
201010
201011
201012
201101
201102
201103
201104
201105
201106
201107
201108
201109
201110
201111
201112
201201
201202
201203
201204
201205
201206
201207
201208
201209
201210
201211
201212
201301
201302
201303
201304
201305
201306
201307
201308
201309
201310
201311
201312
201401
201402
201403
201404
201405
201406
201407
201408
201409
201410
201411
201412
201501
201502
201503
201504
201505
201506
201507
201508
201509
201510
201511
201512
201601
201602
201603
201604
201605
201606
201607
201608
201609
201610
201611
201612
201701
201702
201703
201704
201705
201706
201707
201708
201709
201710
201711
201712
201801
201802
201803
201804
201805
201806
201807
201808
201809
201810
201811
201812
201901
201902
201903
201904
201905
201906
201907
201908
201909
201910
201911
201912


In [3]:
# 함수 만들기
# 함수 이름: create_kto_data

# 함수 정의하기
def create_kto_data(yy, mm) :

    file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
    df = pd.read_excel(file_path, header=1, skipfooter=4, usecols="A:G")

    #df["기준년월"] = "2019-01"
    df["기준년월"] = "{}-{}".format(yy, str(mm).zfill(2))

    continents_list = ["아시아주", "미주", "구주", "대양주",
                "아프리카주", "기타대륙", "교포소계"]

    condition = df["국적"].isin(continents_list)
    df_country = df[condition == False]
    df_country_newindex = df_country.reset_index(drop=True)

    # 아시아(25), 아메리카(5), 유럽(23), 오세아니아(3), 
    # 아프리카(2), 기타대륙, 교포
    continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23  \
             + ["오세아니아"] * 3 + ["아프리카"] * 2 + ["기타대륙"] + ["교포"]

    df_country_newindex["대륙"] = continents
    df_country_newindex["관광객비율(%)"] = \
                                round(df_country_newindex["관광"] / \
                                      df_country_newindex["계"] * 100, 1)
    df_country_newindex["전체비율(%)"] = \
            round(df_country_newindex["관광"] / \
                  sum(df_country_newindex["관광"]) * 100, 1)
    return df_country_newindex       


In [4]:
# 반복문 안에서 
# 116개 파일 불러오기
# 파일을 하나씩 불러온 후 df라는 데이터프레임에 저장 후
# len(df)로 각각의 행의 갯수를 출력하기

In [5]:
df_all = pd.DataFrame()


for yy in range(2010, 2020) :
    for mm in range(1, 13) :
        try : 
            # 함수 호출하기
            temp = create_kto_data(yy,mm)
            
            # 통합하기
            df_all = df_all.append(temp, ignore_index = True)

            #print(df_country_newindex.head(1))
        
        except :
            pass

len(df_all)        

6960

In [6]:
# 데이터 확인1
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   국적        6960 non-null   object 
 1   관광        6960 non-null   int64  
 2   상용        6960 non-null   int64  
 3   공용        6960 non-null   int64  
 4   유학/연수     6960 non-null   int64  
 5   기타        6960 non-null   int64  
 6   계         6960 non-null   int64  
 7   기준년월      6960 non-null   object 
 8   대륙        6960 non-null   object 
 9   관광객비율(%)  6960 non-null   float64
 10  전체비율(%)   6960 non-null   float64
dtypes: float64(2), int64(6), object(3)
memory usage: 598.2+ KB


In [7]:
# 데이터 확인2
df_all.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계,관광객비율(%),전체비율(%)
count,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0
mean,14151.834914,310.131178,61.251149,303.418822,3383.024713,18209.660776,62.11194,1.665259
std,52351.026147,1043.723255,250.858698,2116.778318,10269.311046,62120.322558,24.763823,5.91549
min,0.0,0.0,0.0,0.0,0.0,5.0,0.0,0.0
25%,500.0,17.0,1.0,7.0,219.0,953.0,44.3,0.1
50%,1218.5,50.0,5.0,26.0,611.0,2235.5,68.6,0.1
75%,5805.0,225.25,25.0,85.0,1854.25,9773.75,80.7,0.7
max,823016.0,25012.0,3763.0,44291.0,137898.0,917519.0,100.0,58.6


In [8]:
# 데이터 확인3
df_all["국적"].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [9]:
# 최종본 저장하기
# 파일이름 : kto_total.xlsx
df_all.to_excel("./files/kto_total.xlsx", index = False)

In [10]:
# 저장된 데이터 확인
df_temp = pd.read_excel("./files/kto_total.xlsx")
df_temp

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0,50.6
1,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3,8.9
2,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4,3.5
3,마카오,554,0,0,0,0,554,2010-01,아시아,100.0,0.1
4,태국,13374,39,13,53,4335,17814,2010-01,아시아,75.1,3.3
...,...,...,...,...,...,...,...,...,...,...,...
6955,대양주 기타,519,1,6,9,74,609,2019-08,오세아니아,85.2,0.0
6956,남아프리카공화국,634,6,1,11,1235,1887,2019-08,아프리카,33.6,0.1
6957,아프리카 기타,2081,593,165,841,1184,4864,2019-08,아프리카,42.8,0.2
6958,국적미상,36,1,0,8,12,57,2019-08,기타대륙,63.2,0.0
