# 데이터 불러오기(read_excel)
## 엑셀레이터 특징

In [1]:
import pandas as pd

In [3]:
s1 = pd.read_excel('files/sample_1.xlsx')
s1

Unnamed: 0,2019년 11월 입국객 수,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,국적코드,성별,입국객수,전년동기
1,A01,남성,106320,85815
2,A01,여성,191436,125241
3,A31,남성,319,299
4,A31,여성,42,54
5,A18,남성,158912,124486
6,A18,여성,232943,163466
7,총 합계,689972,,
8,전년동기,499361,,


- 첫번째 row : 해당 데이터에 대한 제목이 있음 / 데이터 분석에 불필요한 정보
- 9~10번째 row : 총합계와 저년 동기라는 요약 정보로 구성 / 데이터 분석에 불필요한 정보
- 문제점 : 불필요한 header 및 종합계 / 전년 동기 데이터 불필요
- 해결책 : header 삭제 / 총합계, 전년동기 삭제
<br>
<br>
- pd.read_excel(파일 경로, header위치, 생략할 row, 사용할 col)
    - 파일 경로 : 불러올 파일의 절대 경로 / 상대 경로
    - header 위치 : 컬럼명이 있는 위치를 의미한다.
    - 생략할 row : 마지막을 기준으로 생략한 row의 길이를 지정함
    - 사용할 col : 파일에서 사용할 col을 지정한다.

In [4]:
s2 = pd.read_excel('files/sample_1.xlsx', header=1, usecols='A:C')
s2

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320.0
1,A01,여성,191436.0
2,A31,남성,319.0
3,A31,여성,42.0
4,A18,남성,158912.0
5,A18,여성,232943.0
6,총 합계,689972,
7,전년동기,499361,


In [5]:
# skipfooter : 마지막 두 row를 생략한다.
s3 = pd.read_excel('files/sample_1.xlsx', header=1, skipfooter=2, usecols='A:C')
s3

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [7]:
# 데이터 정보 보기
s3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [8]:
# 숫자형 변수에 대한 데이터 기초통계량 확인
s3.describe()

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


# 데이터 선택하기
## 컬럼(column) 기준

In [14]:
# 컬럼 하나 선택
print(s3['입국객수'])
print('--'*20)

# 컬럼 여러개 선택
print(s3[['국적코드', '입국객수']])

0    106320
1    191436
2       319
3        42
4    158912
5    232943
Name: 입국객수, dtype: int64
----------------------------------------
  국적코드    입국객수
0  A01  106320
1  A01  191436
2  A31     319
3  A31      42
4  A18  158912
5  A18  232943


## 로우(row) 기준

In [15]:
# 필터링하기
# 성별이 남성인 row는?
s3.성별 == '남성'

0     True
1    False
2     True
3    False
4     True
5    False
Name: 성별, dtype: bool

In [17]:
# 성별이 남성인 row만 출력
s3[s3.성별 == '남성']

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
2,A31,남성,319
4,A18,남성,158912


**입국객수가 150000가 넘고 남성인 row 출력**<br>
- & 연산자 활용
- | 연산자 활용

In [18]:
r1 = s3['입국객수'] >= 150000
r2 = s3['성별'] == '남성'

s3[r1 & r2]

Unnamed: 0,국적코드,성별,입국객수
4,A18,남성,158912


**국적코드가 'A01', 'A31'인 row를 검색**<br>
- isin() 메소드 활용

In [20]:
s3[s3['국적코드'].isin(['A01', 'A31'])]

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42


# 데이터 통합하기
## 옆으로 통합
- pd.merge()

In [21]:
# 국적코드표 엑셀 불러오기
code_master = pd.read_excel('./files/sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [24]:
# 데이터 옆으로 통합하기(left 조건)
'''
병합시 기준점
어떤 DataFrame들을 병합?
각 DataFrame에서 어떤 컬럼명(Series)을 기준으로 병합

* 속성들 의미 

1. left=s1 : 왼쪽 table(DataFrame) 지정
2. right=code_master : 오른쪽 table 지정
3. how='left', : 왼쪽 table 기준으로 두 table 결합
4. left_on='국적코드', : 왼쪽 table의 기준 칼럼은 국적코드
5. right_on='국적코드' : 오른쪽 table의 기준 컬럼은 국적 코드


inner : 교집합
outter : 합집합
'''
s3_code = pd.merge(left=s3,
                   right=code_master,
                   how='left',
                   left_on='국적코드',
                   right_on='국적코드')
s3_code

Unnamed: 0,국적코드,성별,입국객수,국적명
0,A01,남성,106320,일본
1,A01,여성,191436,일본
2,A31,남성,319,
3,A31,여성,42,
4,A18,남성,158912,중국
5,A18,여성,232943,중국


In [27]:
# 데이터 옆으로 통합하기(inner 조건)

#  how='inner' :  두 table의 기준 칼럼의 값이 서로 일치하는 경우에만 데이터 통합

s3_code = pd.merge(left=s3,
                   right=code_master,
                   how='inner',
                   left_on='국적코드',
                   right_on='국적코드')
s3_code

Unnamed: 0,국적코드,성별,입국객수,국적명
0,A01,남성,106320,일본
1,A01,여성,191436,일본
2,A18,남성,158912,중국
3,A18,여성,232943,중국


## 아래로 통합
- pd.append()

In [31]:
s4 = pd.read_excel('./files/sample_2.xlsx',
                   header=1,
                   skipfooter=2,
                   usecols='A:C')

s4['기준년월'] = '2019-12'

s4_code = pd.merge(left=s4,
                   right=code_master,
                   how='left',
                   left_on='국적코드',
                   right_on='국적코드')
s4_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-12,일본
1,A01,여성,163737,2019-12,일본
2,A18,남성,155540,2019-12,중국
3,A18,여성,249023,2019-12,중국


In [32]:
# 데이터 아래로 통합하기 1
# 아래로 통합할 경우 컬럼 순서 동일해야 함
'''
concat([DataFrame들]) - 병합하고자 하는 DataFrame들이 parameter로 유입
merge(left? right?) - 좌우 병합하고자 하는 DataFrame들이 parameter로 유입

DataFrame객체.append(상하로 결합할 DataFrame 객체)
'''

sample = s3_code.append(s4_code, ignore_index=True)
sample

Unnamed: 0,국적코드,성별,입국객수,국적명,기준년월
0,A01,남성,106320,일본,
1,A01,여성,191436,일본,
2,A18,남성,158912,중국,
3,A18,여성,232943,중국,
4,A01,남성,92556,일본,2019-12
5,A01,여성,163737,일본,2019-12
6,A18,남성,155540,중국,2019-12
7,A18,여성,249023,중국,2019-12


# 데이터 저장하기
- to_excel()

In [39]:
sample.to_excel('./files/sample.xlsx', encoding='utf-8')

In [40]:
sample.to_excel('./files/sample_index_false.xlsx', encoding='utf-8', index=False)