# 관광객 데이터 전처리

### # 데이터 불러오기
  * kto_201901.xlsx 파일 불러오기
  * 컬러명과 컬럼에 대한 데이터만 불러오기

In [1]:
import pandas as pd

In [9]:
# [자동화할 예정]

# 파일 경로 지정
file_path = "./files/kto_201901.xlsx"

# 파일을 읽어 들여서 DataFrame 형태로 읽어드리기
kto_201901 = pd.read_excel(file_path,
                           header=1, # 컬럼명 위치. 기본값은 0.
                          skipfooter = 4, # 제일 밑 행에서 부터 삭제할 행 번호
                           usecols = "A:G" # 사용할 열 선택
                          ) 

In [11]:
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570
...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526


### # 결측치 유무 확인

In [12]:
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


### # 기초통계 확인
  * 의심스러운 값 확인
    - 이 경우 최소값에 0이 보인다.

In [13]:
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


### # 0인 값을 가진 데이터 조회
  * \ : jupyter에서 줄바꿈 명령어

In [22]:
condition = (kto_201901["관광"] == 0) \
           | (kto_201901["상용"] == 0) \
           | (kto_201901["공용"] == 0) \
           | (kto_201901["유학/연수"] == 0)

condition

0     False
1     False
2     False
3     False
4      True
      ...  
62    False
63     True
64     True
65     True
66     True
Length: 67, dtype: bool

In [23]:
kto_201901[condition]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


In [24]:
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570
...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526


### # 다른 파일들 합치기
  * 년월로 구분되어 있기 때문에 합쳤을 때 데이터를 구분하기 위해 년월 데이터를 추가한다.
    - 컬럼명 : 기준년월
    - 값 : 2019-01

In [27]:
# [자동화할 예정]

kto_201901["기준년월"] = "2019-01"

In [28]:
kto_201901

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
...,...,...,...,...,...,...,...,...
62,아프리카 기타,768,718,90,206,908,2690,2019-01
63,기타대륙,33,4,0,1,16,54,2019-01
64,국적미상,33,4,0,1,16,54,2019-01
65,교포소계,0,0,0,0,15526,15526,2019-01


## 특정 데이터 삭제
  * 국적 컬럼에 국가가 아닌 데이터들이 보인다.\
    eg) 아시아주, 교포 소계 등

### # 국적 컬럼의 값에서 고유한 값(중복값 제거)들만 조회

In [31]:
kto_201901["국적"].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

### # 대륙의 값들을 관리하는 목록 만들기
  * 기준이 없기 때문에 기준을 만들어야 한다.
  * 삭제할 데이터 값을 리스트로 만들기

In [38]:
# [자동화할 예정]

continents_list = ["아시아주", "미주", "구주", "대양주",
                   "아프리카주", "기타대륙", "교포소계"]

In [39]:
continents_list

['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

### # 만들어 놓은 리스트에 포함되어 있는 값 조회

In [45]:
# [자동화할 예정]

condition = kto_201901["국적"].isin(continents_list)

In [46]:
condition

0      True
1     False
2     False
3     False
4     False
      ...  
62    False
63     True
64    False
65     True
66    False
Name: 국적, Length: 67, dtype: bool

### # 만들어 놓은 리스트에 포함되어 있는 값을 제외하고 조회

In [50]:
# [자동화할 예정]

kto_201901[condition == False]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01
5,태국,34004,37,199,96,6998,41334,2019-01
6,말레이시아,19043,95,7,99,2821,22065,2019-01
7,필리핀,14279,211,161,184,15638,30473,2019-01
8,인도네시아,14183,136,38,187,4298,18842,2019-01
9,싱가포르,8372,94,8,48,1333,9855,2019-01
10,미얀마,1304,10,31,67,3877,5289,2019-01


In [51]:
# [자동화할 예정]

kto_201901_country = kto_201901[condition == False]

In [52]:
kto_201901_country["국적"].unique()

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

### # 삭제한 데이터로 인해 인덱스 번호가 비어있는 행이 보인다.
  * 인덱스 번호 재배열(0부터 순서대로)
  * kto_201901_country_newindex 변수에 저장한다

In [53]:
# [자동화할 예정]

kto_201901_country_newindex = kto_201901_country.reset_index(drop=True)

In [54]:
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,일본,198805,2233,127,785,4576,206526,2019-01
1,대만,86393,74,22,180,1285,87954,2019-01
2,홍콩,34653,59,2,90,1092,35896,2019-01
3,마카오,2506,2,0,17,45,2570,2019-01
4,태국,34004,37,199,96,6998,41334,2019-01
5,말레이시아,19043,95,7,99,2821,22065,2019-01
6,필리핀,14279,211,161,184,15638,30473,2019-01
7,인도네시아,14183,136,38,187,4298,18842,2019-01
8,싱가포르,8372,94,8,48,1333,9855,2019-01
9,미얀마,1304,10,31,67,3877,5289,2019-01


## 국가별 대륙 정보 추가

### # 대륙별 국가 수를 세어서 컬럼 직접 만들기

In [60]:
asia = ['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타']

america = ['미국', '캐나다', '멕시코', '브라질', '미주 기타']

europe = [ '영국', '독일', '프랑스', '네덜란드', '스웨덴','스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타']

oceania = ['오스트레일리아', '뉴질랜드', '대양주 기타']

africa = ['남아프리카공화국', '아프리카 기타']

etc = ['국적미상']

gyopo = ['교포']

print(len(asia))
print(len(america))
print(len(europe))
print(len(oceania))
print(len(africa))
print(len(etc))
print(len(gyopo))

# 아시아(25), 아메리카(5), 유럽(23), 오세아니아(3), 아프리카(2), 기타대륙, 교포

25
5
23
3
2
1
1


### # 문자열 * 숫자 = 문자열 반복

In [65]:
# [자동화할 예정]

continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + \
["아프리카"] * 2 + ["기타대륙"] + ["교포"]

In [66]:
continents

['아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아시아',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '아메리카',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '유럽',
 '오세아니아',
 '오세아니아',
 '오세아니아',
 '아프리카',
 '아프리카',
 '기타대륙',
 '교포']

### # '대륙' 컬럼 추가

In [63]:
# [자동화할 예정]

kto_201901_country_newindex["대륙"] = continents

In [64]:
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아
1,대만,86393,74,22,180,1285,87954,2019-01,아시아
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아
3,마카오,2506,2,0,17,45,2570,2019-01,아시아
4,태국,34004,37,199,96,6998,41334,2019-01,아시아


### # 국가별 관광객 비율
  * "관광객비율(%)" 이름으로 컬럼 만든다.
  * 비율값은 소수점 1자리까지만

In [83]:
# [자동화할 예정]

kto_201901_country_newindex["관광객비율(%)"] = round(
                                                    kto_201901_country_newindex["관광"] /
                                                    kto_201901_country_newindex["계"] * 100,
                                                    1)

In [84]:
kto_201901_country_newindex

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5
3,마카오,2506,2,0,17,45,2570,2019-01,아시아,97.5
4,태국,34004,37,199,96,6998,41334,2019-01,아시아,82.3
5,말레이시아,19043,95,7,99,2821,22065,2019-01,아시아,86.3
6,필리핀,14279,211,161,184,15638,30473,2019-01,아시아,46.9
7,인도네시아,14183,136,38,187,4298,18842,2019-01,아시아,75.3
8,싱가포르,8372,94,8,48,1333,9855,2019-01,아시아,85.0
9,미얀마,1304,10,31,67,3877,5289,2019-01,아시아,24.7


### # 전체 관광객 대비 국가별 관광객 수 비율
  * 컬럼명 : 전체비율(%)
  * 값 : 각 국가 관강객 수 / 전세계 관광객 수 * 100
  * 소수점 1자리까지

In [85]:
# [자동화할 예정]

kto_201901_country_newindex["전체비율(%)"] = round(kto_201901_country_newindex["관광"]/
                                                    sum(kto_201901_country_newindex["관광"]) * 100,
                                                    1)

### # 국가별 관광을 목적으로 입국하는 비율이 높은 상위 5개 나라 조회

In [109]:
kto_201901_country_newindex.sort_values(by = ["전체비율(%)"], axis = 0, ascending = False).head(5)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
17,중국,320113,2993,138,8793,60777,392814,2019-01,아시아,81.5,36.2
0,일본,198805,2233,127,785,4576,206526,2019-01,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,2019-01,아시아,98.2,9.8
25,미국,42989,418,2578,229,16523,62737,2019-01,아메리카,68.5,4.9
2,홍콩,34653,59,2,90,1092,35896,2019-01,아시아,96.5,3.9


## 115개 파일을 합치기 자동화
  * 파일 불러오기
    - 파일 이름 패턴 파악
      + kto_201001.xlsx
  * 자동화가 필요한 커리마다 '# [자동화할 예정]' 표시해두기

### # 년월 목록 출력

In [103]:
for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        yymm = "{}{}".format(yy, mm)
        print(yymm)

20101
20102
20103
20104
20105
20106
20107
20108
20109
201010
201011
201012
20111
20112
20113
20114
20115
20116
20117
20118
20119
201110
201111
201112
20121
20122
20123
20124
20125
20126
20127
20128
20129
201210
201211
201212
20131
20132
20133
20134
20135
20136
20137
20138
20139
201310
201311
201312
20141
20142
20143
20144
20145
20146
20147
20148
20149
201410
201411
201412
20151
20152
20153
20154
20155
20156
20157
20158
20159
201510
201511
201512
20161
20162
20163
20164
20165
20166
20167
20168
20169
201610
201611
201612
20171
20172
20173
20174
20175
20176
20177
20178
20179
201710
201711
201712
20181
20182
20183
20184
20185
20186
20187
20188
20189
201810
201811
201812
20191
20192
20193
20194
20195
20196
20197
20198
20199
201910
201911
201912


### # yyyymm 형태로 출력하기 위해 zfill 함수를 사용
  * 20101 형태로 나오기 때문
    - 201001 형태로 나와야 한다.

In [105]:
for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        yymm = "{}{}".format(yy, str(mm).zfill(2))
        print(yymm)

201001
201002
201003
201004
201005
201006
201007
201008
201009
201010
201011
201012
201101
201102
201103
201104
201105
201106
201107
201108
201109
201110
201111
201112
201201
201202
201203
201204
201205
201206
201207
201208
201209
201210
201211
201212
201301
201302
201303
201304
201305
201306
201307
201308
201309
201310
201311
201312
201401
201402
201403
201404
201405
201406
201407
201408
201409
201410
201411
201412
201501
201502
201503
201504
201505
201506
201507
201508
201509
201510
201511
201512
201601
201602
201603
201604
201605
201606
201607
201608
201609
201610
201611
201612
201701
201702
201703
201704
201705
201706
201707
201708
201709
201710
201711
201712
201801
201802
201803
201804
201805
201806
201807
201808
201809
201810
201811
201812
201901
201902
201903
201904
201905
201906
201907
201908
201909
201910
201911
201912


### # 116개 파일 불러오기
  * 파일을 하나씩 파일 불러온 후 df라는 데이터프레임 변수에 저장
  * len(df)로 각각의 행의 개수를 출력

In [126]:
for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
        df = pd.read_excel(file_path,
                           header = 1,
                           skipfooter = 4,
                           usecols = "A:G")
        print(len(df))

67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67
67


FileNotFoundError: [Errno 2] No such file or directory: './files/kto_201909.xlsx'

### # '# [자동화할 예정]'이라고 표시해둔 쿼리 하나씩 적용

In [151]:
for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
        df = pd.read_excel(file_path,
                           header = 1,
                           skipfooter = 4,
                           usecols = "A:G")
        
        df["기준년월"] = "{}-{}".format(yy, str(mm).zfill(2))
        
        continents_list = ["아시아주", "미주", "구주", "대양주",
                   "아프리카주", "기타대륙", "교포소계"]
        
        condition = df["국적"].isin(continents_list)
        
        df[condition == False]
        
        df_country = df[condition == False]
        
        df_country_newindex = df_country.reset_index(drop=True)
        
        continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + \
["아프리카"] * 2 + ["기타대륙"] + ["교포"]
        
        df_country_newindex["대륙"] = continents
        
        df_country_newindex["관광객비율(%)"] = round(
                                                   df_country_newindex["관광"] /
                                                    df_country_newindex["계"] * 100,
                                                    1)
        
        df_country_newindex["전체비율(%)"] = round(df_country_newindex["관광"]/
                                                    sum(df_country_newindex["관광"]) * 100,
                                                    1)
        print(df_country_newindex.head(1))

   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  202825  1750  89    549  3971  209184  2010-01  아시아      97.0     50.6
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  224475  1455  63   1172  3197  230362  2010-02  아시아      97.4     50.3
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  299820  1483  124    519  4180  306126  2010-03  아시아      97.9     55.0
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  233697  1282  74    154  3868  239075  2010-04  아시아      97.8     43.0
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  233311  1480  150    216  6538  241695  2010-05  아시아      96.5     44.4
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  226786  1236  81    358  3257  231718  2010-06  아시아      97.9     43.6
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  

   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  186840  2476  216    629  6145  196306  2014-09  아시아      95.2     19.9
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  182575  2074  481    294  4911  190335  2014-10  아시아      95.9     17.3
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  172285  2155  189    383  4521  179533  2014-11  아시아      96.0     19.1
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  164921  1658  128    392  3388  170487  2014-12  아시아      96.7     18.6
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  131909  2606  110    695  4312  139632  2015-01  아시아      94.5     18.2
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  134366  2464  96   1674  3987  142587  2015-02  아시아      94.2     16.5
   국적      관광    상용   공용  유학/연수    기타       계     기준년월

   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  367157  2108  126   1231  4497  375119  2019-03  아시아      97.9     29.3
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  283101  1584  126    333  4948  290092  2019-04  아시아      97.6     20.5
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  279174  2019  91    715  4274  286273  2019-05  아시아      97.5     22.6
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  275286  1901  136    771  4382  282476  2019-06  아시아      97.5     22.2
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  267816  1855  149    694  4316  274830  2019-07  아시아      97.4     22.0
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  318985  2195  165   2957  5350  329652  2019-08  아시아      96.8     25.5


FileNotFoundError: [Errno 2] No such file or directory: './files/kto_201909.xlsx'

### # 마지막에 2019년 9월 파일이 없어서 불러드릴 수 없다는 오류 수정
  * FileNotFoundError: [Errno 2]  No such file or directory: './files/kto_201909.xlsx'
  * try except 함수 
    - for문에서 오류없이 진행할 수 있는 커리만 진행

In [152]:
for yy in range(2010, 2020) :
    for mm in range(1,13) : 

##### 오류가 있을만한 쿼리에 시작

        try :
            file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
            df = pd.read_excel(file_path,
                               header = 1,
                               skipfooter = 4,
                               usecols = "A:G")

            df["기준년월"] = "{}-{}".format(yy, str(mm).zfill(2))

            continents_list = ["아시아주", "미주", "구주", "대양주",
                       "아프리카주", "기타대륙", "교포소계"]

            condition = df["국적"].isin(continents_list)

            df[condition == False]

            df_country = df[condition == False]

            df_country_newindex = df_country.reset_index(drop=True)

            continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + \
    ["아프리카"] * 2 + ["기타대륙"] + ["교포"]

            df_country_newindex["대륙"] = continents

            df_country_newindex["관광객비율(%)"] = round(
                                                       df_country_newindex["관광"] /
                                                        df_country_newindex["계"] * 100,
                                                        1)

            df_country_newindex["전체비율(%)"] = round(df_country_newindex["관광"]/
                                                        sum(df_country_newindex["관광"]) * 100,
                                                        1)
            print(df_country_newindex.head(1))

##### 오류가 있을 때 무시

        except : 
            pass

   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  202825  1750  89    549  3971  209184  2010-01  아시아      97.0     50.6
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  224475  1455  63   1172  3197  230362  2010-02  아시아      97.4     50.3
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  299820  1483  124    519  4180  306126  2010-03  아시아      97.9     55.0
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  233697  1282  74    154  3868  239075  2010-04  아시아      97.8     43.0
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  233311  1480  150    216  6538  241695  2010-05  아시아      96.5     44.4
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  226786  1236  81    358  3257  231718  2010-06  아시아      97.9     43.6
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  

   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  186840  2476  216    629  6145  196306  2014-09  아시아      95.2     19.9
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  182575  2074  481    294  4911  190335  2014-10  아시아      95.9     17.3
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  172285  2155  189    383  4521  179533  2014-11  아시아      96.0     19.1
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  164921  1658  128    392  3388  170487  2014-12  아시아      96.7     18.6
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  131909  2606  110    695  4312  139632  2015-01  아시아      94.5     18.2
   국적      관광    상용  공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  134366  2464  96   1674  3987  142587  2015-02  아시아      94.2     16.5
   국적      관광    상용   공용  유학/연수    기타       계     기준년월

   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  267816  1855  149    694  4316  274830  2019-07  아시아      97.4     22.0
   국적      관광    상용   공용  유학/연수    기타       계     기준년월   대륙  관광객비율(%)  전체비율(%)
0  일본  318985  2195  165   2957  5350  329652  2019-08  아시아      96.8     25.5


### # 모든 파일 다 붙이기
  * append : 데이터를 밑으로 붙이기
    - concat 하고 차이점 : concat은 자신의 인덱스 번호 그대로 가져오게 된다.
    - merge 하고 차이점 : merge는 옆으로 붙이는 함수

In [230]:
##### 비어있는 데이터 프레임 만들어 놓기

df_all = pd.DataFrame()

for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        try :
            file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
            df = pd.read_excel(file_path,
                               header = 1,
                               skipfooter = 4,
                               usecols = "A:G")

            df["기준년월"] = "{}-{}".format(yy, str(mm).zfill(2))

            continents_list = ["아시아주", "미주", "구주", "대양주",
                       "아프리카주", "기타대륙", "교포소계"]

            condition = df["국적"].isin(continents_list)

            df[condition == False]

            df_country = df[condition == False]

            df_country_newindex = df_country.reset_index(drop=True)

            continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + \
    ["아프리카"] * 2 + ["기타대륙"] + ["교포"]

            df_country_newindex["대륙"] = continents

            df_country_newindex["관광객비율(%)"] = round(
                                                       df_country_newindex["관광"] /
                                                        df_country_newindex["계"] * 100,
                                                        1)

            df_country_newindex["전체비율(%)"] = round(df_country_newindex["관광"]/
                                                        sum(df_country_newindex["관광"]) * 100,
                                                        1)
            
##### for문이 한 번 돌 때마다 생기는 데이터를 자기 자신에게 붙이는 작업
            df_all = df_all.append(df_country_newindex, ignore_index = True)
            
        except : 
            pass

In [231]:
len(df_all)

6960

### # 이 작업을 함수로 만든다.
  * 함수이름 : create_kot_data

In [243]:
def create_kot_data(yy,mm) :
    file_path = "./files/kto_{}{}.xlsx".format(yy, str(mm).zfill(2))
    df = pd.read_excel(file_path,
                       header = 1,
                       skipfooter = 4,
                       usecols = "A:G")

    df["기준년월"] = "{}-{}".format(yy, str(mm).zfill(2))

    continents_list = ["아시아주", "미주", "구주", "대양주",
               "아프리카주", "기타대륙", "교포소계"]

    condition = df["국적"].isin(continents_list)

    df[condition == False]

    df_country = df[condition == False]

    df_country_newindex = df_country.reset_index(drop=True)

    continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + \
["아프리카"] * 2 + ["기타대륙"] + ["교포"]

    df_country_newindex["대륙"] = continents

    df_country_newindex["관광객비율(%)"] = round(
                                               df_country_newindex["관광"] /
                                                df_country_newindex["계"] * 100,
                                                1)

    df_country_newindex["전체비율(%)"] = round(df_country_newindex["관광"]/
                                                sum(df_country_newindex["관광"]) * 100,
                                                1)
    return df_country_newindex

##### print(df_country_newindex) 를 하게 되면 출력을 여러 번 하는 거지 데이터를 합치는 작업을 하지는 못한다.
##### return은 데이터 자체를 보내주는 작업

In [241]:
df_all = pd.DataFrame()

for yy in range(2010, 2020) :
    for mm in range(1,13) : 
        try :
            temp = create_kot_data(yy,mm)
            
            df_all = df_all.append(temp, ignore_index = True)
        except :
            pass

In [244]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   국적        6960 non-null   object 
 1   관광        6960 non-null   int64  
 2   상용        6960 non-null   int64  
 3   공용        6960 non-null   int64  
 4   유학/연수     6960 non-null   int64  
 5   기타        6960 non-null   int64  
 6   계         6960 non-null   int64  
 7   기준년월      6960 non-null   object 
 8   대륙        6960 non-null   object 
 9   관광객비율(%)  6960 non-null   float64
 10  전체비율(%)   6960 non-null   float64
dtypes: float64(2), int64(6), object(3)
memory usage: 598.2+ KB


In [245]:
df_all.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계,관광객비율(%),전체비율(%)
count,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0,6960.0
mean,14151.834914,310.131178,61.251149,303.418822,3383.024713,18209.660776,62.11194,1.665259
std,52351.026147,1043.723255,250.858698,2116.778318,10269.311046,62120.322558,24.763823,5.91549
min,0.0,0.0,0.0,0.0,0.0,5.0,0.0,0.0
25%,500.0,17.0,1.0,7.0,219.0,953.0,44.3,0.1
50%,1218.5,50.0,5.0,26.0,611.0,2235.5,68.6,0.1
75%,5805.0,225.25,25.0,85.0,1854.25,9773.75,80.7,0.7
max,823016.0,25012.0,3763.0,44291.0,137898.0,917519.0,100.0,58.6


In [247]:
df_all["국적"].unique().isin(continents)

AttributeError: 'numpy.ndarray' object has no attribute 'isin'

### # 최종본 저장
  * 파일 이름 : kto_total.xlsx

In [250]:
df_all.to_excel("./files/kto_total.xlsx", index = False)

In [2]:
df_temp = pd.read_excel("./files/kto_total.xlsx")

df_temp

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0,50.6
1,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3,8.9
2,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4,3.5
3,마카오,554,0,0,0,0,554,2010-01,아시아,100.0,0.1
4,태국,13374,39,13,53,4335,17814,2010-01,아시아,75.1,3.3
...,...,...,...,...,...,...,...,...,...,...,...
6955,대양주 기타,519,1,6,9,74,609,2019-08,오세아니아,85.2,0.0
6956,남아프리카공화국,634,6,1,11,1235,1887,2019-08,아프리카,33.6,0.1
6957,아프리카 기타,2081,593,165,841,1184,4864,2019-08,아프리카,42.8,0.2
6958,국적미상,36,1,0,8,12,57,2019-08,기타대륙,63.2,0.0
