## 데이터프레임의 인덱스 조작
- 경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가    
  일반 데이터 열에 들어있거나    
  반대로 일반 데이터 열이어야 하는데 인덱스로 들어가있는 경우가 존재    
  인덱스와 열을 교환하는 방법이 필요    
    
데이터 프레임에서 인덱스 설정하고 제거하는 함수    
- set_index(): 기존의 행 인덱스를 제거하고 데이터 열 줄에서 하나를 인덱스로 설정    (열 -> 인덱스)        
- reset_index(): 기존의 행 인덱스를 제거하고 인덱스를 열로 추가    (인덱스 -> 열)    


In [1]:
import numpy as np
import pandas as pd

In [6]:
df = pd.DataFrame(np.vstack([list('ABCDE'),
                            np.round(np.random.rand(3,5),2)]).T,
                            columns=['C1', 'C2', 'C3', 'C4'])
df

Unnamed: 0,C1,C2,C3,C4
0,A,0.93,0.06,0.34
1,B,0.89,0.48,0.85
2,C,0.58,0.88,0.36
3,D,0.12,0.56,0.71
4,E,0.07,0.69,0.98


In [10]:
#set_index()
# - 기존의 행 인덱스를 제거하고
# - 데이터 열 중에서 하나를 인덱스로 설정
# - 열 -> 인덱스
df2 = df.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.93,0.06,0.34
B,0.89,0.48,0.85
C,0.58,0.88,0.36
D,0.12,0.56,0.71
E,0.07,0.69,0.98


In [9]:
# C2열을 인덱스 지정
# 기존의 인덱스 C1은 없어짐
df3 = df2.set_index('C2')
df3

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.02,0.06,0.71
0.07,0.85,0.93
0.62,0.36,0.11
0.36,1.0,0.58
0.1,0.75,0.38


In [None]:
# reset_index(): 기존의 행 인덱스를 제거하고
# - 인덱스를 열로 추가 (인덱스 열) (C1 -> C2)
# - 이 때 인덱스 열은 열 이름 맨 앞에 삽입
# - 데이터프레임의 인덱스는 정수로된 디폴트 인덱스로 변경

In [15]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.93,0.06,0.34
1,B,0.89,0.48,0.85
2,C,0.58,0.88,0.36
3,D,0.12,0.56,0.71
4,E,0.07,0.69,0.98


In [16]:
df3.reset_index()

Unnamed: 0,C2,C3,C4
0,0.02,0.06,0.71
1,0.07,0.85,0.93
2,0.62,0.36,0.11
3,0.36,1.0,0.58
4,0.1,0.75,0.38


## 데이터프레임 합치기
- merge(): 데이터프레임 합치기 (병합)
- concat(): 데이터프레임 연결

### merge() 함수
- 두 데이터 프레임의 공통 열이나 인덱스를 기존으로 두 개의 데이터 프레임을 합침
- 이 때 기준이 되는 열 또는 인덱스를 key라고 함

### merge() 함수에서 key 설정하는 방식:    
양 쪽 데이터프레임에서
1. 열 & 열: df1에서 열을 키로 설정하고, df2에서 키로 설정
2. 열 & 인덱스
3. 인덱스 & 인덱스

In [18]:
# 데이터 프레임 생성
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '고객이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']})
df1

Unnamed: 0,고객번호,고객이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [19]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001, 1007],
    '구매금액': [10000, 15000, 23500, 31000, 75000, 7500, 12700]})
df2

Unnamed: 0,고객번호,구매금액
0,1001,10000
1,1001,15000
2,1005,23500
3,1006,31000
4,1008,75000
5,1001,7500
6,1007,12700


### merge() 메소드를 사용해서 두 데이터프레임 df1, df2 병합
- 열 & 열 (키로 사용)
- 공통열인 ['고객번호']를 기준으로 데이터를 찾아서 병합
- 양 쪽 데이터 프레임에 모두 키가 존재하는 데이터만 표시
- inner join 방식
- merge(df1, df2, how): how='inner'가 디폴트

In [20]:
# df1과 df2 병합
pd.merge(df1, df2)  # how='inner'가 디폴트로 생략
# how='inner' : 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000
1,1001,둘리,15000
2,1001,둘리,7500
3,1005,희동,23500
4,1006,마이콜,31000
5,1007,영희,12700


In [21]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000
1,1001,둘리,15000
2,1001,둘리,7500
3,1005,희동,23500
4,1006,마이콜,31000
5,1007,영희,12700


In [23]:
# outer join 방식: how='outer'
# 값이 없는 경우에는 NaN으로 채움
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000.0
1,1001,둘리,15000.0
2,1001,둘리,7500.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,23500.0
7,1006,마이콜,31000.0
8,1007,영희,12700.0
9,1008,,75000.0


In [None]:
# left, right 방식
# how='left': 왼쪽 데이터프레임의 키값을 모두 표시
# how='right': 오른쪽 데이터프레임의 키값을 모두 표시
# 값이 없는 경우에는 NaN으로 채움

In [24]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000.0
1,1001,둘리,15000.0
2,1001,둘리,7500.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,23500.0
7,1006,마이콜,31000.0
8,1007,영희,12700.0


In [25]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,고객이름,구매금액
0,1001,둘리,10000
1,1001,둘리,15000
2,1001,둘리,7500
3,1005,희동,23500
4,1006,마이콜,31000
5,1008,,75000
6,1007,영희,12700


## 피벗 테이블 (pivot table)
- 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용해서
- 데이터를 조회하여 펼쳐놓은 것
- 행과 열 인덱스만 보아도 어느 열의 어느 인덱스 인지 쉽게 알 수 있음

### Pandas에서 피봇 테이블 만들기 위한 메소드
- pivot()
- pivot_table()

### pivot()
- 첫 번째 인수는 행 인덱스 사용할 열 이름
- 두 번째 인수는 열 인덱스로 사용할 열 이름
- 마지막에 데이터로 사용할 열 이름
- pivot(행 인덱스, 열 인덱스, 데이터 열)

In [27]:
# 데이터프레임 생성
data = {
    '도시': ['서울', '서울', '서울', '부산', '부산', '부산', '인천' ,'인천'],
    '연도': ['2015', '2010', '2005', '2015', '2010', '2005', '2015', '2010'],
    '인구': [8394283, 8094283, 7394283, 5694283, 5094283, 4694283, 1294283, 1094283],
    '지역': ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
}

df3 = pd.DataFrame(data)
df3

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,8394283,수도권
1,서울,2010,8094283,수도권
2,서울,2005,7394283,수도권
3,부산,2015,5694283,경상권
4,부산,2010,5094283,경상권
5,부산,2005,4694283,경상권
6,인천,2015,1294283,수도권
7,인천,2010,1094283,수도권


In [28]:
# pivot() 메소드 사용
# 행 인덱스: 도시
# 열 인덱스: 연도
# 데이터: 인구 (인구 수)
df3.pivot('도시', '연도', '인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,4694283.0,5094283.0,5694283.0
서울,7394283.0,8094283.0,8394283.0
인천,,1094283.0,1294283.0


### pivot_table(data, values, index, columns, aggfun, fill_value, margins, margins_name)
- data: 분석할 데이터
- values: 데이터프레임에서 분석할 열
- index: 행 인덱스로 들어갈 키 열 또는 열 리스트
- columns: 열 인덱스로 들어갈 키 열 또는 열 리스트
- aggfunc: 분석 메소드
- fill_value: NaN 대체값
- margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
- margins_name: 마진 열(행) 이름

In [29]:
df3

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,8394283,수도권
1,서울,2010,8094283,수도권
2,서울,2005,7394283,수도권
3,부산,2015,5694283,경상권
4,부산,2010,5094283,경상권
5,부산,2005,4694283,경상권
6,인천,2015,1294283,수도권
7,인천,2010,1094283,수도권


In [30]:
# pivot_table(데이터, 행 인덱스, 열 인덱스)
df3.pivot_table('인구', '도시', '연도')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,4694283.0,5094283.0,5694283.0
서울,7394283.0,8094283.0,8394283.0
인천,,1094283.0,1294283.0


In [31]:
df3.pivot_table('인구', '도시', '연도', margins=True, margins_name='평균') 
    # aggfunc 지정하지 않으면 '평균'

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,4694283.0,5094283.0,5694283.0,5160950.0
서울,7394283.0,8094283.0,8394283.0,7960950.0
인천,,1094283.0,1294283.0,1194283.0
평균,6044283.0,4760950.0,5127616.0,5219283.0


In [32]:
# 각 행의 합계, 각 열의 합계, 전체 합계 구하기
# 열 이름: 합계
df3.pivot_table('인구', '도시', '연도', aggfunc='sum', margins=True, margins_name='합계') 

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,4694283.0,5094283.0,5694283.0,15482849
서울,7394283.0,8094283.0,8394283.0,23882849
인천,,1094283.0,1294283.0,2388566
합계,12088566.0,14282849.0,15382849.0,41754264


In [34]:
# pivot_table()에서 인덱스 값으로 리스트 넣으면 다중 인덱스 테이블 생성
df3.pivot_table('인구', index=['연도', '도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,4694283
2005,서울,7394283
2010,부산,5094283
2010,서울,8094283
2010,인천,1094283
2015,부산,5694283
2015,서울,8394283
2015,인천,1294283
