## 데이터프레임의 인덱스 조작
- 경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가    
  일반 데이터 열에 들어있거나    
  반대로 일반 데이터 열이어야 하는데 인덱스로 들어가있는 경우가 존재    
  인덱스와 열을 교환하는 방법이 필요    
    
데이터 프레임에서 인덱스 설정하고 제거하는 함수    
- set_index(): 기존의 행 인덱스를 제거하고 데이터 열 줄에서 하나를 인덱스로 설정    (열 -> 인덱스)        
- reset_index(): 기존의 행 인덱스를 제거하고 인덱스를 열로 추가    (인덱스 -> 열)    


In [1]:
import numpy as np
import pandas as pd

In [6]:
df = pd.DataFrame(np.vstack([list('ABCDE'),
                            np.round(np.random.rand(3,5),2)]).T,
                            columns=['C1', 'C2', 'C3', 'C4'])
df

Unnamed: 0,C1,C2,C3,C4
0,A,0.93,0.06,0.34
1,B,0.89,0.48,0.85
2,C,0.58,0.88,0.36
3,D,0.12,0.56,0.71
4,E,0.07,0.69,0.98


In [10]:
#set_index()
# - 기존의 행 인덱스를 제거하고
# - 데이터 열 중에서 하나를 인덱스로 설정
# - 열 -> 인덱스
df2 = df.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.93,0.06,0.34
B,0.89,0.48,0.85
C,0.58,0.88,0.36
D,0.12,0.56,0.71
E,0.07,0.69,0.98


In [9]:
# C2열을 인덱스 지정
# 기존의 인덱스 C1은 없어짐
df3 = df2.set_index('C2')
df3

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.02,0.06,0.71
0.07,0.85,0.93
0.62,0.36,0.11
0.36,1.0,0.58
0.1,0.75,0.38


In [None]:
# reset_index(): 기존의 행 인덱스를 제거하고
# - 인덱스를 열로 추가 (인덱스 열) (C1 -> C2)
# - 이 때 인덱스 열은 열 이름 맨 앞에 삽입
# - 데이터프레임의 인덱스는 정수로된 디폴트 인덱스로 변경

In [15]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.93,0.06,0.34
1,B,0.89,0.48,0.85
2,C,0.58,0.88,0.36
3,D,0.12,0.56,0.71
4,E,0.07,0.69,0.98


In [16]:
df3.reset_index()

Unnamed: 0,C2,C3,C4
0,0.02,0.06,0.71
1,0.07,0.85,0.93
2,0.62,0.36,0.11
3,0.36,1.0,0.58
4,0.1,0.75,0.38


## 데이터프레임 합치기
- merge(): 데이터프레임 합치기 (병합)
- concat(): 데이터프레임 연결

### merge() 함수
- 두 데이터 프레임의 공통 열이나 인덱스를 기존으로 두 개의 데이터 프레임을 합침
- 이 때 기준이 되는 열 또는 인덱스를 key라고 함

### merge() 함수에서 key 설정하는 방식:    
양 쪽 데이터프레임에서
1. 열 & 열: df1에서 열을 키로 설정하고, df2에서 키로 설정
2. 열 & 인덱스
3. 인덱스 & 인덱스

In [18]:
# 데이터 프레임 생성
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '고객이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']})
df1

Unnamed: 0,고객번호,고객이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [19]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001, 1007],
    '구매금액': [10000, 15000, 23500, 31000, 75000, 7500, 12700]})
df2

Unnamed: 0,고객번호,구매금액
0,1001,10000
1,1001,15000
2,1005,23500
3,1006,31000
4,1008,75000
5,1001,7500
6,1007,12700


### merge() 메소드를 사용해서 두 데이터프레임 df1, df2 병합
- 열 & 열 (키로 사용)
- 공통열인 ['고객번호']를 기준으로 데이터를 찾아서 병합
- 양 쪽 데이터 프레임에 모두 키가 존재하는 데이터만 표시
- inner join 방식
- merge(df1, df2, how): how='inner'가 디폴트

In [20]:
# df1과 df2 병합
pd.merge(df1, df2)  # how='inner'가 디폴트로 생략
# how='inner' : 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000
1,1001,둘리,15000
2,1001,둘리,7500
3,1005,희동,23500
4,1006,마이콜,31000
5,1007,영희,12700


In [21]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000
1,1001,둘리,15000
2,1001,둘리,7500
3,1005,희동,23500
4,1006,마이콜,31000
5,1007,영희,12700


In [23]:
# outer join 방식: how='outer'
# 값이 없는 경우에는 NaN으로 채움
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000.0
1,1001,둘리,15000.0
2,1001,둘리,7500.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,23500.0
7,1006,마이콜,31000.0
8,1007,영희,12700.0
9,1008,,75000.0
