In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
# windows 용 한글 폰트 오류 해결
from matplotlib import font_manager, rc

font_path = "C:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname = font_path).get_name()
rc("font", family = font_name)

In [10]:
# 
kto_201001 = pd.read_excel("./data/trip/kto_201001.xlsx", 
                           usecols = "A:G", # 필요한 컬럼만 가져오기
                           header=1, 
                           skipfooter= 4
                          )

In [9]:
kto_201001

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계
0,아시아주,329131,18238,421,4339,80916,433045
1,일본,202825,1750,89,549,3971,209184
2,대만,35788,41,17,37,516,36399
3,홍콩,13874,55,0,21,595,14545
4,마카오,554,0,0,0,0,554
...,...,...,...,...,...,...,...
62,아프리카 기타,349,594,25,86,296,1350
63,기타대륙,10,3,0,0,0,13
64,국적미상,10,3,0,0,0,13
65,교포소계,0,0,0,0,22537,22537


# 데이터 탐색

- 데이터가 2010년 01월부터 2020년 5월까지 월별로 분할되어 있기 때문에 각각 월별로 데이터를 하나씩 가져와 하나의 테이블로 통합해야함

In [11]:
kto_201001.shape

(67, 7)

In [12]:
kto_201001.dtypes

국적       object
관광        int64
상용        int64
공용        int64
유학/연수     int64
기타        int64
계         int64
dtype: object

In [13]:
kto_201001.isna().sum()

국적       0
관광       0
상용       0
공용       0
유학/연수    0
기타       0
계        0
dtype: int64

In [14]:
kto_201001.describe()

Unnamed: 0,관광,상용,공용,유학/연수,기타,계
count,67.0,67.0,67.0,67.0,67.0,67.0
mean,11964.716418,683.462687,81.731343,152.776119,4115.910448,16998.597015
std,47055.349998,2639.234303,370.034666,622.299519,11560.294887,59189.624627
min,0.0,0.0,0.0,0.0,0.0,13.0
25%,254.0,23.5,0.0,6.0,161.5,605.0
50%,554.0,47.0,2.0,17.0,449.0,1350.0
75%,3638.0,301.0,14.0,54.5,1608.0,7582.0
max,329131.0,18238.0,2159.0,4339.0,80916.0,433045.0


array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

- 평균적으로 관광 목적으로 가장 많은 외국인 이 입국함
- 계를 제외한 모든 컬럼에서 최솟값이 0 임
    - 확인 필요

In [27]:
(kto_201001[kto_201001["관광"] == 0] ) | (kto_201001[kto_201001["상용"] == 0]) |(kto_201001[kto_201001["공용"] == 0]) | (kto_201001[kto_201001["유학"] == 0]) | (kto_201001[kto_201001["기타"] == 0]) 

TypeError: unsupported operand type(s) for |: 'str' and 'str'

- 교포소계와 교포는 4개 컬럼이 모두 0

## 기준 연월 추가
- 각 월별 데이터가 추가될 예정이기 때문에 각 데이터마다 기준 연월 정보가 추가되어야함

In [29]:

kto_201001["기준연월"] = "2010-01"


In [30]:
kto_201001

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,아시아주,329131,18238,421,4339,80916,433045,2010-01
1,일본,202825,1750,89,549,3971,209184,2010-01
2,대만,35788,41,17,37,516,36399,2010-01
3,홍콩,13874,55,0,21,595,14545,2010-01
4,마카오,554,0,0,0,0,554,2010-01
...,...,...,...,...,...,...,...,...
62,아프리카 기타,349,594,25,86,296,1350,2010-01
63,기타대륙,10,3,0,0,0,13,2010-01
64,국적미상,10,3,0,0,0,13,2010-01
65,교포소계,0,0,0,0,22537,22537,2010-01


## 국적 확인

In [31]:
kto_201001["국적"].unique()

array(['아시아주', '일본', '대만', '홍콩', '마카오', '태국', '말레이시아', '필리핀', '인도네시아',
       '싱가포르', '미얀마', '베트남', '인도', '스리랑카', '파키스탄', '방글라데시', '캄보디아', '몽골',
       '중국', '이란', '이스라엘', '터키', '우즈베키스탄', '카자흐스탄', 'GCC', '아시아 기타', '미주',
       '미국', '캐나다', '멕시코', '브라질', '미주 기타', '구주', '영국', '독일', '프랑스',
       '네덜란드', '스웨덴', '스위스', '이탈리아', '덴마크', '노르웨이', '벨기에', '오스트리아', '스페인',
       '그리스', '포르투갈', '핀란드', '아일랜드', '우크라이나', '러시아', '크로아티아', '루마니아',
       '불가리아', '폴란드', '구주 기타', '대양주', '오스트레일리아', '뉴질랜드', '대양주 기타',
       '아프리카주', '남아프리카공화국', '아프리카 기타', '기타대륙', '국적미상', '교포소계', '교포'],
      dtype=object)

- 아시아주, 미주, 교포소계등 국가가 아닌 값이 포함되어 있음

In [70]:
contents_list = ["아시아주", "미주", "구주", "대양주","아프리카주", "기타대륙", "교포소계"]

In [71]:
kto_201001_country = kto_201001[kto_201001["국적"].isin(contents_list) == False]

In [72]:
kto_201001_country

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
1,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0
2,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3
3,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4
4,마카오,554,0,0,0,0,554,2010-01,아시아,100.0
5,태국,13374,39,13,53,4335,17814,2010-01,아시아,75.1
6,말레이시아,3292,61,0,49,1157,4559,2010-01,아시아,72.2
7,필리핀,3984,219,104,87,16820,21214,2010-01,아시아,18.8
8,인도네시아,1840,327,3,65,2826,5061,2010-01,아시아,36.4
9,싱가포르,4201,120,3,27,1017,5368,2010-01,아시아,78.3
10,미얀마,630,18,54,10,3882,4594,2010-01,아시아,13.7


In [36]:
# 인덱스 초기화
kto_201001_country = kto_201001_country.reset_index(drop=True)

In [37]:
kto_201001_country.head()

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월
0,일본,202825,1750,89,549,3971,209184,2010-01
1,대만,35788,41,17,37,516,36399,2010-01
2,홍콩,13874,55,0,21,595,14545,2010-01
3,마카오,554,0,0,0,0,554,2010-01
4,태국,13374,39,13,53,4335,17814,2010-01


In [75]:
# 대륙컬럼을 추가하면...
# 각 대륙별 데이터 개수 파악
kto_201001[kto_201001["국적"].isin(contents_list)]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
0,아시아주,329131,18238,421,4339,80916,433045,2010-01,아시아,76.0
26,미주,33067,1391,2159,200,17022,53839,2010-01,아메리카,61.4
32,구주,28798,2250,119,476,14866,46509,2010-01,유럽,61.9
56,대양주,9249,393,14,15,1701,11372,2010-01,아프리카,81.3
60,아프리카주,563,621,25,88,841,2138,2010-01,기타대륙,26.3
63,기타대륙,10,3,0,0,0,13,2010-01,기타대륙,76.9
65,교포소계,0,0,0,0,22537,22537,2010-01,기타대륙,0.0


- 대륙 컬럼의 내용은 순서대로 아시아 25개, 미주 5개, 유럽 23개, 오세아니아 3개, 아프리카 2개, 기타 1개, 교포 1개

In [64]:
continents = ["아시아"] * 25 + ["아메리카"] * 5 + ["유럽"] * 23 + ["오세아니아"] * 3 + ["아프리카"] * 2 + ["기타대륙"] * 1 + ["교포"] * 1 

In [65]:
kto_201001_country["대륙"] = continents

## 국적별 관광객 비율

In [66]:

kto_201001_country["관광객비율(%)"] = round((kto_201001["관광"] /  kto_201001["계"]) * 100 , 1)

In [67]:
kto_201001_country

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
0,일본,202825,1750,89,549,3971,209184,2010-01,아시아,76.0
1,대만,35788,41,17,37,516,36399,2010-01,아시아,97.0
2,홍콩,13874,55,0,21,595,14545,2010-01,아시아,98.3
3,마카오,554,0,0,0,0,554,2010-01,아시아,95.4
4,태국,13374,39,13,53,4335,17814,2010-01,아시아,100.0
5,말레이시아,3292,61,0,49,1157,4559,2010-01,아시아,75.1
6,필리핀,3984,219,104,87,16820,21214,2010-01,아시아,72.2
7,인도네시아,1840,327,3,65,2826,5061,2010-01,아시아,18.8
8,싱가포르,4201,120,3,27,1017,5368,2010-01,아시아,36.4
9,미얀마,630,18,54,10,3882,4594,2010-01,아시아,78.3


In [68]:
# 관광객 비율 컬럼으로 내림차순 정렬
kto_201001.sort_values("관광객비율(%)", ascending = False)

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
4,마카오,554,0,0,0,0,554,2010-01,아시아,100.0
2,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3
1,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0
3,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4
20,이스라엘,792,11,0,0,53,856,2010-01,아시아,92.5
...,...,...,...,...,...,...,...,...,...,...
19,이란,69,309,0,3,217,598,2010-01,아시아,11.5
14,파키스탄,70,200,1,41,402,714,2010-01,아시아,9.8
13,스리랑카,39,28,2,13,566,648,2010-01,아시아,6.0
65,교포소계,0,0,0,0,22537,22537,2010-01,기타대륙,0.0


In [69]:
# 오름차순
kto_201001.sort_values("관광객비율(%)")

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
66,교포,0,0,0,0,22537,22537,2010-01,교포,0.0
65,교포소계,0,0,0,0,22537,22537,2010-01,기타대륙,0.0
13,스리랑카,39,28,2,13,566,648,2010-01,아시아,6.0
14,파키스탄,70,200,1,41,402,714,2010-01,아시아,9.8
19,이란,69,309,0,3,217,598,2010-01,아시아,11.5
...,...,...,...,...,...,...,...,...,...,...
20,이스라엘,792,11,0,0,53,856,2010-01,아시아,92.5
3,홍콩,13874,55,0,21,595,14545,2010-01,아시아,95.4
1,일본,202825,1750,89,549,3971,209184,2010-01,아시아,97.0
2,대만,35788,41,17,37,516,36399,2010-01,아시아,98.3


In [74]:
# 대륙별 관광객 비율

kto_201001.groupby("대륙")["관광객비율(%)"].mean()

대륙
교포        0.000000
기타대륙     48.712500
아메리카     57.380000
아시아      50.968000
아프리카     82.000000
오세아니아    45.100000
유럽       62.895652
Name: 관광객비율(%), dtype: float64

- 내가 값을 잘못냈지만... 일단 강사님쪽에서는 오세아니아의 비율이 높음

- 관광목적으로 방문하는 외국인은 26.6% 뿐임

- 아시아의 관광객 비율은 49.5%로 유럽보다 나듬

- 소득수준이 낮은 국가에서는 관광 목적으로 방문하는 외국인 비율이 낮은 것으로 보임

In [76]:
kto_201001[kto_201001["국적"] == "중국"]

Unnamed: 0,국적,관광,상용,공용,유학/연수,기타,계,기준연월,대륙,관광객비율(%)
18,중국,40425,11930,55,2751,36091,91252,2010-01,아시아,44.3


In [77]:
# 관광관련 팡생변수 만든것임
# 내일 전처리...