# 02_read, merge, to, rename

## (1) 데이터 불러오기 - read_excel

### `pd.read_excel(io, sheet_name = , header = , names = , index_col = )`
- 엑셀파일을 데이터프레임으로 불러오는 함수
- io: 파일의 경로명
- sheet_name: 불러올 시트를 지정하는 인자 (기본값: 0)
    - 1: 2번째 시트를 불러온다
    - "Sheet1": "Sheet1"이라는 이름의 시트를 불러온다
    - None: 모든 시트를 딕셔너리로 통합해 가져온다.
- header: columns를 지정하는 인자.
- index_col: index를 지정하는 인자. 지정하지 않으면 RangeIndex가 index로 부여된다.
- [read_excel 판다스 공식 문서](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

In [1]:
import pandas as pd

# 출력옵션 조절
pd.set_option('display.max_rows', 6)

In [2]:
url = 'data/read_excel.xlsx'
df = pd.read_excel('data/read_excel.xlsx')
df

# import os
# os.getcwd()

Unnamed: 0,이름,국어,영어,수학
0,송중기,63,93,97
1,김나현,89,83,71
2,권보아,83,76,92
3,박효신,94,88,73


In [3]:
# 네번째 시트를 불러오기
# 첫번째 열을 index로 지정하기
pd.read_excel(url, sheet_name = 3, index_col = 0)

Unnamed: 0,국어,영어,수학
송중기,63,93,97
김나현,89,83,71
권보아,83,76,92
박효신,94,88,73


## (2) 데이터 병합하기 - merge

### `df1.merge(df2, how = , on = )`
- df2: 병합할 객체
- how: 병합할 방식을 결정하는 인자 (기본값: 'inner')
    - left: 왼쪽 데이터프레임의 키(key)만을 병합에 사용한다.(엑셀의 vlookup과 유사)
    - right: 오른쪽 데이터프레임의 키(key)만을 병합에 사용한다.
    - outer: 양쪽 데이터프레임의 키(key)들의 합집합을 병합에 사용한다.
    - inner: 양쪽 데이터프레임의 키(key)들의 교집합을 병합에 사용한다.
    - cross: 양쪽 데이터프레임의 곱집합(cartesian product)을 생성한다.
- on: 병합의 기준이 되는 열을 지정하는 인자 (기본값: 양쪽 데이터프레임에서 이름이 공통인 열들)
- [merge 판다스 공식 문서](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

### **단일요건 merge**

In [4]:
url = 'data/merge01.xlsx'
df1 = pd.read_excel(url)
df1

Unnamed: 0,이름,제품
0,백철민,아이스티
1,박태인,레몬에이드
2,국지용,아메리카노
...,...,...
371,기주봉,아이스티
372,백승환,바닐라라떼
373,계승현,레몬에이드


In [5]:
df2 = pd.read_excel(url, sheet_name = 1)
df2

Unnamed: 0,제품,가격
0,아메리카노,3900
1,바닐라라떼,3900
2,까페라떼,3900
...,...,...
7,자몽티,4100
8,레몬에이드,4400
9,오렌지주스,3600


In [6]:
# df1과 df2를 vlookup 방식으로 병합
df3 = df1.merge(df2, how = 'left', on = '제품')
df3

Unnamed: 0,이름,제품,가격
0,백철민,아이스티,4400
1,박태인,레몬에이드,4400
2,국지용,아메리카노,3900
...,...,...,...
371,기주봉,아이스티,4400
372,백승환,바닐라라떼,3900
373,계승현,레몬에이드,4400


### **다중요건 merge**

In [7]:
df4 = pd.read_excel('data/merge02.xlsx')
df4

Unnamed: 0,이름,제품,업체
0,백민,산채비빔밥,종가도시락
1,권상우,치킨도시락,두솥도시락
2,강인서,돈까스정식,두솥도시락
...,...,...,...
371,백철민,돈까스정식,두솥도시락
372,김두진,산채비빔밥,종가도시락
373,김동수,돈까스정식,두솥도시락


In [8]:
df5 = pd.read_excel('data/merge02.xlsx', sheet_name = 1)
df5

Unnamed: 0,업체,제품,가격,구분
0,두솥도시락,돈까스정식,5700,일식
1,두솥도시락,산채비빔밥,5200,한식
2,두솥도시락,치킨도시락,6300,한식
3,종가도시락,돈까스정식,6600,일식
4,종가도시락,산채비빔밥,6700,한식
5,종가도시락,치킨도시락,5600,한식


In [9]:
df6 = df4.merge(df5, how='left')
df6

Unnamed: 0,이름,제품,업체,가격,구분
0,백민,산채비빔밥,종가도시락,6700,한식
1,권상우,치킨도시락,두솥도시락,6300,한식
2,강인서,돈까스정식,두솥도시락,5700,일식
...,...,...,...,...,...
371,백철민,돈까스정식,두솥도시락,5700,일식
372,김두진,산채비빔밥,종가도시락,6700,한식
373,김동수,돈까스정식,두솥도시락,5700,일식


## (3) 데이터 파일로 저장하기 - to
## `df.to_excel(url)`
- url: 파일 저장 경로

In [10]:
df3.to_excel('data/merge01_result.xlsx')

In [11]:
df6.to_excel('data/merge02_result.xlsx')

## (4) 이름 변경 - rename

## `df.rename(index = , columns= , level = )`
- index: index의 이름을 바꾸는 인자
- columns: columns의 이름을 바꾸는 인자 
- level: 멀티인덱스에서 이름을 바꿀 레벨을 지정하는 인자. (기본값: 모든 level에서 이름을 바꾼다.)
- [rename 판다스 공식문서](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

In [12]:
data1 = [['송중기', '별다방', '아이스티'],
         ['김나현', '콩다방', '카페오레'],
         ['권보아', '별다방', '카페오레'],
         ['박효신', '콩다방', '아이스티'],
         ['김범수', '별다방', '카페오레']]
df1 = pd.DataFrame(data1, columns=['이름', '업체', '음료'])
df1

Unnamed: 0,이름,업체,음료
0,송중기,별다방,아이스티
1,김나현,콩다방,카페오레
2,권보아,별다방,카페오레
3,박효신,콩다방,아이스티
4,김범수,별다방,카페오레


In [13]:
data2 = [['별다방', '아이스티', 4500],
         ['별다방', '카페오레', 4000],
         ['콩다방', '아이스티', 6000],
         ['콩다방', '카페오레', 5500]]
df2 = pd.DataFrame(data2, columns=['업체', '제품', '가격'])
df2

Unnamed: 0,업체,제품,가격
0,별다방,아이스티,4500
1,별다방,카페오레,4000
2,콩다방,아이스티,6000
3,콩다방,카페오레,5500


In [14]:
# '제품' -> '음료'로 변경
df2.rename(columns = {'제품':'음료'})
df2 # 함수의 결과는 원본을 덮어쓰지 않는다

Unnamed: 0,업체,제품,가격
0,별다방,아이스티,4500
1,별다방,카페오레,4000
2,콩다방,아이스티,6000
3,콩다방,카페오레,5500


In [15]:
df3 = df2.rename(columns = {'제품':'음료'})
df3 # 이건 변경되어있음

Unnamed: 0,업체,음료,가격
0,별다방,아이스티,4500
1,별다방,카페오레,4000
2,콩다방,아이스티,6000
3,콩다방,카페오레,5500


In [16]:
# 병합하기
df1.merge(df3, how='left')

Unnamed: 0,이름,업체,음료,가격
0,송중기,별다방,아이스티,4500
1,김나현,콩다방,카페오레,5500
2,권보아,별다방,카페오레,4000
3,박효신,콩다방,아이스티,6000
4,김범수,별다방,카페오레,4000


In [17]:
# 이렇게도 사용 가능
df1.merge(df2.rename(columns={'제품':'음료'}), how='left')

Unnamed: 0,이름,업체,음료,가격
0,송중기,별다방,아이스티,4500
1,김나현,콩다방,카페오레,5500
2,권보아,별다방,카페오레,4000
3,박효신,콩다방,아이스티,6000
4,김범수,별다방,카페오레,4000
