## 데이터 전처리

- 월별 외국인 관광객 통계에 대한 데이터를 수집한다.
- 전처리 결과를 시각화 하여 국적별 외국인 관광객의 숫자에는
  어떤 패턴이 있는지, 외국인 관광객들의 방문이 증가, 감소한 원인이
  무엇인지 분석한다.
- pandas, matplotlib, seaboarn 라이브러리를 사용한다.

### 데이터 전처리 과정

1. 외국인 출입국 통계 데이터 구하기

    - 한국관광공사에서는 관광 정책 및 마케팅 전략 수립의 기초자료로 활용할 목적으로 방한 외래관광객과 국민 해외관광객의 통계자료를 2003년부터 매월 발표한다.
    - 이 자료는 성별, 목적별, 연령별, 교통수단별, 국적별로 집계돼 있다.
    - 이번실습에서 활용할 데이터는 '월별 외래객 입국- 목적별/국적별' 통계데이터이다.
    - 관광을 목적으로 입국한 외국인 데이터를 활용한다.


2. 데이터 불러오기 및 전처리

  **불러올 데이터의 형태 파악해야한다**
  - 2010년 1월부터 2019년 8월까지의 데이터에 해당하는 총 116개의 엑셀파일을 
    활용한다.
  - 월별로 관리하는 데이터들은 대부분 형태(포맷)가 동일하다.

  - 첫 번째 행에는 해당파일 데이터가 어느시점의 어떤종류의 데이터인지 서술돼 있다.
    데이터 분석에서는 활용하지 않는 항목으로 데이터를 불러올 때 제외한다.
  - 두 번째 행에는 총 10개의 컬럼이 순서대로 나열돼이있다.
    A~G컬럼까지 총 7개의 컬럼(국적, 관광, 상용, 공용,유학/연수, 기타,계)를 활용한다.
  - 3~ 69번째 행에는 대륙, 국가에 따른 관광객 수 데이터가 구성돼 있다.
    실제로 데이터 분석에 활용할 항목이다.
  - 70~73번째 행에는 계, 전년동기 , 성장률(%), 구성비(%)등 데이터의 요약정보로
    구성돼 있다. 

In [8]:
#python에서 excel data 불러오기

import pandas as pd
kto_201901 = pd.read_excel('../data3/kto_201901.xlsx',
                          header=1,        #header는 1번째 header만 , 
                          usecols='A:G',   #해당 excel파일에서 A~G column가져오기
                          skipfooter=4)    #footer- 마지막 4개row는 skip

kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,765082,10837,1423,14087,125521,916950
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570


In [9]:
kto_201901.tail()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
62,아프리카 기타,768,718,90,206,908,2690
63,기타대륙,33,4,0,1,16,54
64,국적미상,33,4,0,1,16,54
65,교포소계,0,0,0,0,15526,15526
66,교포,0,0,0,0,15526,15526


##### 데이터 전처리 (Data Preprocessing)

- 데이터 가공(Data  Manipulation), 데이터 클렌징(Data Cleansing), 데이터 핸들링
  (Data Handling) 이라고도 한다.
  
  
- **탐색 & 형태 가공:** 데이터를 탐색하고(데이터의 컬럼별 특징을 살펴보기), 분석에 적합하도록 원하는 형태로 가공한다.
    - 데이터프레임 클래스로 구성돼 있고, 67행과 7열로 구성돼 있다.


- **이상치 처리:** 데이터 변수별로 값에 이상이 없는지확인, 결측값 처리, 이상치 처리, 변수 정규화, 파생변수 생성 등의 과정이 포함된다.
    - non-null: 전체 row수 (67개) 모두 non-nul이므로, 누락값이 없다

In [10]:
kto_201901.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67 entries, 0 to 66
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적      67 non-null     object
 1   관광      67 non-null     int64 
 2   상용      67 non-null     int64 
 3   공용      67 non-null     int64 
 4   유학/연수   67 non-null     int64 
 5   기타      67 non-null     int64 
 6   계       67 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 3.8+ KB


#### 탐색 결과:

- 7개의 column & 67개의 row로 구성 됨.(row: 0~66)
- Non-null을 보면 67 non-null이 있기때문에, 누락값이 없다
- 문자열은 object이기때문에, '국적' column외에 나머지는 모두 정수임을 확인

In [4]:
kto_201901.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,26396.80597,408.208955,132.507463,477.462687,5564.208955,32979.19403
std,102954.04969,1416.040302,474.406339,2009.4848,17209.438418,122821.369969
min,0.0,0.0,0.0,0.0,16.0,54.0
25%,505.0,14.5,2.5,17.5,260.0,927.0
50%,1304.0,45.0,14.0,43.0,912.0,2695.0
75%,8365.0,176.5,38.0,182.0,2824.5,14905.5
max,765082.0,10837.0,2657.0,14087.0,125521.0,916950.0


- 평균적으로 관광의 목적으로 가장많은 외국인이 입국하는 특징이 있을 것 같고,
  다음으로 기타, 유학/연수, 상용, 공용 순으로 나타난다.
  
  
- 정수형의 변수 특징을 확인하면, 4개의 항목(관광, 상용, 공용, 유학연수)의 최소값이  모두 0임을 찾은다. 이런 현상의 의미를 파악하기 위해 0으로 입력된 데이터는 어떤경우인지 확인한다.
  - 교포소계와 교표만 4개 컬럼이 모두 0인 것을 확인할 수 있다.
  - 교포는 통계집계 시 기타 목적으로 분류돼 있다. 

In [35]:
##각 컬럼에서 0인 부분을 필터링해서 확인해본다.

#boolean 추출
condition = (kto_201901['관광'] == 0)\
                |(kto_201901['상용'] == 0)\
                |(kto_201901['공용'] == 0)\
                |(kto_201901['유학/연수'] == 0)
kto_201901[condition] 
# 교포는 상세목적 구분 없이 기타 목적으로 분류돼 있다는것이 확인됨.

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
4,마카오,2506,2,0,17,45,2570
20,이스라엘,727,12,0,9,57,805
22,우즈베키스탄,1958,561,0,407,2828,5754
38,스위스,613,18,0,19,97,747
45,그리스,481,17,4,0,273,775
46,포르투갈,416,14,0,13,121,564
51,크로아티아,226,12,0,3,250,491
54,폴란드,713,10,0,27,574,1324
59,대양주 기타,555,3,4,0,52,614
63,기타대륙,33,4,0,1,16,54


#### 새로운 column만들기(기준년월)

데이터의 파일명에는 '2019-01'년월이 표기되어있지만, 데이터프레임안에는 기준년월이 없다. 

새로운 열을 추가하여 기준년월을 표기한다.

In [7]:
kto_201901['기준년월'] = '2019-01'
kto_201901.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월
0,아시아주,765082,10837,1423,14087,125521,916950,2019-01
1,일본,198805,2233,127,785,4576,206526,2019-01
2,대만,86393,74,22,180,1285,87954,2019-01
3,홍콩,34653,59,2,90,1092,35896,2019-01
4,마카오,2506,2,0,17,45,2570,2019-01


국적 데이터를 확인하면 국가와 대륙이름 혼용되어있다.

데이터는 국가데이터만 남기고 대륙데이터는 대륙 컬럼을 새로 만든다 .

In [36]:
#현재 데이터셋에 있는 '국적'column의 unique 값들만 보여준다. 
#'국적'colummn에 들어간 불필요한것들이 뭐가있나 확인

kto_201901['국적'].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

In [37]:
#국적 column에서 제외할 불필요한 값(대륙이름, 교포소계, 등)목록 생성
continent_list=['아시아주','미주','구주','대양주','아프리카주', \
                '기타대륙','교포소계']
continent_list

['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']

In [38]:
#continent_list에 해당하는 값을 '국적' column에서 제외
condition=(kto_201901['국적'].isin(continent_list) == False)
kto_201901_country = kto_201901[condition]

kto_201901_country['국적'].unique()
#kto_201901_country변수에는 국가이름만 남는다.

array(['일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아', '싱가포르',
       '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골', '중국',
       '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미국',
       '캐나다', '멕시코', '브라질', '미주 기타', '영국', '독일', '프랑스', '네덜란드', '스웨덴',
       '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인', '그리스', '포르투갈',
       '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아', '불가리아', '폴란드',
       '구주 기타', '오스트레일리아', '뉴질랜드', '대양주 기타', '남아프리카공화국', '아프리카 기타',
       '국적미상', '교포'], dtype=object)

In [15]:
kto_201901_country.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
1,일본,198805,2233,127,785,4576,206526
2,대만,86393,74,22,180,1285,87954
3,홍콩,34653,59,2,90,1092,35896
4,마카오,2506,2,0,17,45,2570
5,태국,34004,37,199,96,6998,41334


kto_201901_country를 보면 0부터 66까지 사이에 중간중간 삭제된 행들이 인덱스와 함께 삭제되어서 0~66사이 몇몇 숫자들이 없다. (missing 26, 60, 63, etc...)

그래서 reset_index(drop=True)를 통해 kto_201901_country 데이터셋의 인덱스를 다시 설정해준다.

In [24]:
kto_201901_country_newindex = kto_201901_country.reset_index(drop=True)
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,일본,198805,2233,127,785,4576,206526
1,대만,86393,74,22,180,1285,87954
2,홍콩,34653,59,2,90,1092,35896
3,마카오,2506,2,0,17,45,2570
4,태국,34004,37,199,96,6998,41334


In [25]:
kto_201901_country_newindex.tail() #0~59 인덱스가 다시 설정됨.

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
55,대양주 기타,555,3,4,0,52,614
56,남아프리카공화국,368,9,1,6,616,1000
57,아프리카 기타,768,718,90,206,908,2690
58,국적미상,33,4,0,1,16,54
59,교포,0,0,0,0,15526,15526


#### 새로운 column 만들기(대륙)

kto_201901.xlsx 엑셀파일에서 국적열의 대륙이름(아시아주, 미주,... )등 아래에 있는 국가 이름의 갯수를 파악해서 그 크기만큼을 대륙를 만든다.

In [26]:
#대륙컬럼을 만들 리스트 
continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + ['오세아니아']*3 \
+ ['아프리카']*2 + ['기타대륙'] + ['교포']
print(continents)

['아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아시아', '아메리카', '아메리카', '아메리카', '아메리카', '아메리카', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '유럽', '오세아니아', '오세아니아', '오세아니아', '아프리카', '아프리카', '기타대륙', '교포']


In [28]:
kto_201901_country_newindex['대륙'] = continents
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙
0,일본,198805,2233,127,785,4576,206526,아시아
1,대만,86393,74,22,180,1285,87954,아시아
2,홍콩,34653,59,2,90,1092,35896,아시아
3,마카오,2506,2,0,17,45,2570,아시아
4,태국,34004,37,199,96,6998,41334,아시아


#### 새로운 column만들기(관광객비율(%))

- 관광목적으로 입국하는 비율을 국가별로 비교한다.

- 국적별 관광객 수를 전체 입국객 수로 나눈 관광객비율(%) 컬럼을 만든다.
    - ['관광객비율(%)'] = ['관광'] / ['계']
- 소수점 첫 번째 자리에서 반올림하는 round()를 사용한다.

In [29]:
kto_201901_country_newindex['관광객비율(%)'] = \
    round(kto_201901_country_newindex['관광']/kto_201901_country_newindex['계']*100,1)
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%)
0,일본,198805,2233,127,785,4576,206526,아시아,96.3
1,대만,86393,74,22,180,1285,87954,아시아,98.2
2,홍콩,34653,59,2,90,1092,35896,아시아,96.5
3,마카오,2506,2,0,17,45,2570,아시아,97.5
4,태국,34004,37,199,96,6998,41334,아시아,82.3


#### column 정렬 (sort_value메서드 사용)

- sort_value 메서드로 관광객비율(%) 컬럼으로 정렬하기
- 내림차순 정렬은 ascending = False 인자를 이용한다.
- 상위 5개만 보면 대만, 마카오, 홍콩, 일본, 대양주, 기타국적의 국내 방문
  외국인 중 90% 이상이 우리 나라를 관광목적으로 방문했다.

In [30]:
#내림차순 정렬
kto_201901_country_newindex.sort_values(by='관광객비율(%)', ascending=False).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%)
1,대만,86393,74,22,180,1285,87954,아시아,98.2
3,마카오,2506,2,0,17,45,2570,아시아,97.5
2,홍콩,34653,59,2,90,1092,35896,아시아,96.5
0,일본,198805,2233,127,785,4576,206526,아시아,96.3
55,대양주 기타,555,3,4,0,52,614,오세아니아,90.4


- 오름차순 정렬은 ascending = True 인자를 이용한다.
- 방글라데시, 스리랑카, 파키스탄, 캄보디아 국적의 외국인들은 우리나라에
  관광목적으로 방문하는 비율이 25%도 안 되는 것으로 나타났다.
- 소득수준이 낮은 나라에서는 관광목적 비율이 대체로 낮은 것으로 보인다.

In [40]:
#오름차순 정렬
kto_201901_country_newindex.sort_values(by='관광객비율(%)', ascending=True).head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%)
59,교포,0,0,0,0,15526,15526,교포,0.0
14,방글라데시,149,126,27,97,848,1247,아시아,11.9
12,스리랑카,157,54,5,28,1043,1287,아시아,12.2
13,파키스탄,238,178,10,193,413,1032,아시아,23.1
15,캄보디아,635,39,55,51,1915,2695,아시아,23.6


#### pivot_table 사용하기

- 대륙별로 관광객 비율의 평균을 pivot_table() 로 구한다.

**분석결과:**
- 평균 관광객 비율이 높은 대륙은 오세아니아인 것으로 확인할 수 있다.
- 반대로 아프리카에서 우리나라로 방문하는 외국인은 약 32.7%만이
  관광목적으로 확인할 수 있다.
- 의외로 거리가 가까운 아시아 내 국가에서 관광객 비율이 아메리카나
  유럽보다 낮은 것으로 나타났다. 
- 소득수준이 낮은 국가에서는 관광목적으로 방문하는 외국인 비율이 낮은
  영향인 것으로 보인다.

In [41]:
kto_201901_country_newindex.pivot_table(values='관광객비율(%)',
                                           index='대륙',
                                           aggfunc='mean')

Unnamed: 0_level_0,관광객비율(%)
대륙,Unnamed: 1_level_1
교포,0.0
기타대륙,61.1
아메리카,68.2
아시아,59.624
아프리카,32.7
오세아니아,84.833333
유럽,63.826087


In [42]:
#정렬해서 데이터 다시 확인
kto_201901_country_newindex.pivot_table(values='관광객비율(%)',
                                           index='대륙',
                                           aggfunc='mean').sort_values(by='관광객비율(%)')

Unnamed: 0_level_0,관광객비율(%)
대륙,Unnamed: 1_level_1
교포,0.0
아프리카,32.7
아시아,59.624
기타대륙,61.1
유럽,63.826087
아메리카,68.2
오세아니아,84.833333


#### filtering 사용하기

중국 국적만 필터링하기

In [43]:
condition = (kto_201901_country_newindex.국적 == '중국')
kto_201901_country_newindex[condition]

#중국인중 81.5%관광 목적으로 우리나라를 방문하는 것으로 나타난다.

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%)
17,중국,320113,2993,138,8793,60777,392814,아시아,81.5


#### 새로운 column 추가(전체비율(%))

- 전체비율(전체 외국인 관광객 대비 국적별 관광객 비율)을 계산한다.
    - ['전체비율(%)'] = ['관광'] / [전체외국인 관광객수]

In [44]:
#2019년 1월의 전체외국인 관광객 수를 계산한다. 
tourist_sum = sum(kto_201901_country_newindex['관광'])
tourist_sum

884293

2019년 1월 총 외국인 관광객 수 = 884,293

국적별 외국인 관광객 수를 이 합계로 나누면 국가별로 전체 외국인 관광객 대비 차지하는 비율을 구할 수 있다.

전체비율(%) = (국적별로 관광객수)/(전체 외국인 관광객 수)*100 

In [45]:
kto_201901_country_newindex['전체비율(%)'] = \
    round(kto_201901_country_newindex['관광'] / tourist_sum *100, 1)
kto_201901_country_newindex.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%),전체비율(%)
0,일본,198805,2233,127,785,4576,206526,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,아시아,98.2,9.8
2,홍콩,34653,59,2,90,1092,35896,아시아,96.5,3.9
3,마카오,2506,2,0,17,45,2570,아시아,97.5,0.3
4,태국,34004,37,199,96,6998,41334,아시아,82.3,3.8


In [47]:
kto_201901_country_newindex.sort_values(by='전체비율(%)', ascending=False).head()
#sort_values를 통해 정렬된 데이터프레임을 보면 중국이 

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,대륙,관광객비율(%),전체비율(%)
17,중국,320113,2993,138,8793,60777,392814,아시아,81.5,36.2
0,일본,198805,2233,127,785,4576,206526,아시아,96.3,22.5
1,대만,86393,74,22,180,1285,87954,아시아,98.2,9.8
25,미국,42989,418,2578,229,16523,62737,아메리카,68.5,4.9
2,홍콩,34653,59,2,90,1092,35896,아시아,96.5,3.9


## 데이터 전처리 과정을 함수로 만들기

- 지금까지 2019년 1월 데이터에 대해 위와 같은 전처리를 진행했다.
- 2010년 1월부터 2019년 8월까지 116개의 파일에 대해 같은 작업을 반복해
  하나의 파일로 합친다.
- 작업을 진행할 때는 작업 단위별로 함수를 만든 후에 반복문을 실행한다.

In [48]:
#create_kto_data 함수 생성하기
def create_kto_data(yy, mm):  
    #1. 불러올 Excel 파일 경로를 지정해주기
    file_path = '../data3/kto_{}{}.xlsx'.format(yy, mm)  
    
    # 2. Excel 파일 불러오기 
    df = pd.read_excel(file_path, header=1, skipfooter=4, usecols='A:G')
    
    # 3. "기준년월" 컬럼 추가하기 
    df['기준년월'] = '{}-{}'.format(yy, mm) 
    
    # 4. "국적" 컬럼에서 대륙 제거하고 국가만 남기기 
    ignore_list = ['아시아주', '미주', '구주', '대양주', '아프리카주', '기타대륙', '교포소계']    # 제거할 대륙명 선정하기 
    condition = (df['국적'].isin(ignore_list) == False)    # 대륙 미포함 조건 
    df_country = df[condition].reset_index(drop=True) 
    
    # 5. "대륙" 컬럼 추가하기  # 대륙 컬럼 생성을 위한 목록 만들어 놓기 
    continents = ['아시아']*25 + ['아메리카']*5 + ['유럽']*23 + ['대양주']*3 + ['아프리카']*2 + ['기타대륙'] + ['교포']   
    df_country['대륙'] = continents   
                       
    # 6. 국가별 "관광객비율(%)" 컬럼 추가하기 
    df_country['관광객비율(%)'] = round(df_country.관광 / df_country.계 * 100, 1) 
                       
    # 7. "전체비율(%)" 컬럼 추가하기 
    tourist_sum = sum(df_country['관광'])
    df_country['전체비율(%)'] = round(df_country['관광'] / tourist_sum * 100, 1)
    
    # 8. 결과 출력하기 
    return(df_country)

In [49]:
#create_kto_data()함수 test
kto_test = create_kto_data(2018, 12)
kto_test.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준년월,대륙,관광객비율(%),전체비율(%)
0,일본,252461,1698,161,608,3593,258521,2018-12,아시아,97.7,22.7
1,대만,85697,71,22,266,1252,87308,2018-12,아시아,98.2,7.7
2,홍콩,58355,41,3,208,939,59546,2018-12,아시아,98.0,5.2
3,마카오,6766,0,1,20,36,6823,2018-12,아시아,99.2,0.6
4,태국,47242,42,302,58,6382,54026,2018-12,아시아,87.4,4.2


- 여러엑셀 파일을 불러와서 하나로 합친다.
- yyyy에 2010부터 2019 까지 순차적으로 들어가고, mm에는 1~12까지 들어간다.
- 이중 반복문이 필요하다.

In [50]:
#이중 반복문으로 기준 년월 출력하기
for yy in range(2010, 2020):
    for mm in range(1,13):
        yymm = '{}{}'.format(yy,mm)
        #print(yymm)

- zfill() 함수를 사용하면 0을 포함한 두 자리로 출력할 수 있다
- 문자열에 적용하는 함수라 str() 문자열로 형변화 후 사용한다.

In [35]:
mm=1
print(mm)
print(str(mm).zfill(2))
print(str(mm).zfill(3))
print(str(mm).zfill(4))

1
01
001
0001


In [52]:
for yy in range(2010,2020):
    for mm in range(1,13):
        mm_str = str(mm).zfill(2)
        yymm = '{}{}'.format(yy,mm_str)
        #print(yymm)

- 전처리 함수를 이용하여 116 엑셀파일을 통합한다.
- 통합은 아래로(행으로) 통합한다.
- 2010 ~ 2019 까지 반복문을 실행한다. 갖고있는 데이터가 2019년 8월까지 밖에 없어서 오류나는 부분은 try/exception구분으로 해결한다.

In [53]:
#데이터를 담을 빈 데이터프레임 만들기
df = pd.DataFrame()

In [54]:
#패턴 분석결과를 이중 반복문을 통해 구현
for yy in range(2010,2020):
    for mm in range(1,13):
        mm_str=str(mm).zfill(2)
        try:
            #앞서 만든 create_kto_data 함수로 Excel 데이터를 temp 에 불러오기 
            temp = create_kto_data(str(yy), mm_str)
            #temp로 불러온 데이터를 df 데이터프레임 안에 계속 아래방향으로 추가하기 
            df = df.append(temp, ignore_index=True)
        except: 
            pass
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6960 entries, 0 to 6959
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   국적        6960 non-null   object 
 1   관광        6960 non-null   int64  
 2   상용        6960 non-null   int64  
 3   공용        6960 non-null   int64  
 4   유학/연수     6960 non-null   int64  
 5   기타        6960 non-null   int64  
 6   계         6960 non-null   int64  
 7   기준년월      6960 non-null   object 
 8   대륙        6960 non-null   object 
 9   관광객비율(%)  6960 non-null   float64
 10  전체비율(%)   6960 non-null   float64
dtypes: float64(2), int64(6), object(3)
memory usage: 598.2+ KB


In [40]:
df.to_excel('../data3/kto_total.xlsx', index=False)