데이터프레임의 인덱스 조작

-경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가
-일반 데이터 열에 들어 있거나
-반대로 일반 데이터 열이어여 하는데 인덱스로 들어가 있는 경우가 존재
-인덱스와 열을 교환하는 방법이 필요

데이터프레임에서 인덱스 설정하고 제거하는 함수
set_index() : 기존의 행 인덱스를 제거하고
              데이터 열 줄에서 하나를 인덱스로 설정
              (열 -> 인덱스)
reset_index() : 기존의 행 인덱스를 제거하고
                인덱스를 열로 추가
                (인덱스 -> 열)               

In [1]:
import pandas as pd
import numpy as np

In [5]:
df = pd.DataFrame(np.vstack([list('ABCDE'),
                            np.round(np.random.rand(3,5),2)]).T,
                            columns=['C1', 'C2', 'C3', 'C4'])
df

Unnamed: 0,C1,C2,C3,C4
0,A,0.86,0.21,0.99
1,B,0.75,0.5,0.76
2,C,0.8,0.96,0.62
3,D,0.05,0.33,0.91
4,E,0.57,0.4,0.37


In [6]:
# set_index() 
# - 기존의 행 인덱스를 제거하고
# - 데이터 열 중에서 하나를 인덱스로 설정
# - 열 -> 인덱스
df2 = df.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.86,0.21,0.99
B,0.75,0.5,0.76
C,0.8,0.96,0.62
D,0.05,0.33,0.91
E,0.57,0.4,0.37


In [8]:
# C2열을 인덱스 지정
# 기존의 인덱스 C1은 없어짐
df3 = df2.set_index("C2")

In [9]:
df3

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.86,0.21,0.99
0.75,0.5,0.76
0.8,0.96,0.62
0.05,0.33,0.91
0.57,0.4,0.37


In [10]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.86,0.21,0.99
B,0.75,0.5,0.76
C,0.8,0.96,0.62
D,0.05,0.33,0.91
E,0.57,0.4,0.37


In [None]:
# reset_index() : 기존의 행 인덱스를 제거하고
# - 인덱스를 열로 추가 (인덱스 -> 열) (C1 -> C2)
# - 이때 인덱스 열은 열 이름 맨 앞에 삽입
# - 데이터프레임의 인덱스는 정수로된 디폴트 인덱스로 변경

In [11]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.86,0.21,0.99
1,B,0.75,0.5,0.76
2,C,0.8,0.96,0.62
3,D,0.05,0.33,0.91
4,E,0.57,0.4,0.37


In [13]:
df3.reset_index()

Unnamed: 0,C2,C3,C4
0,0.86,0.21,0.99
1,0.75,0.5,0.76
2,0.8,0.96,0.62
3,0.05,0.33,0.91
4,0.57,0.4,0.37


In [14]:
df3

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.86,0.21,0.99
0.75,0.5,0.76
0.8,0.96,0.62
0.05,0.33,0.91
0.57,0.4,0.37


데이터프레임 합치기
-merge() : 데이터프레임 합치기(병합)
-concat() : 데이터프레임 연결

merge() 함수
- 두 데이터프레임의 공통 열이나 인덱스를 기준으로 두 개의 데이터프레임을 합침
- 이때 기준이 되는 열 또는 인덱스를 key라고 함
 
merge() 함수에서 key 설정하는 방식 : 양쪽 데이터프레임에서
(1) 열 & 열 : df1dptj 열을 키로 설정하고, df2에서 키로 설정
(2) 열 & 인덱스
(3) 인덱스 & 인덱스

In [15]:
# 데이터프레임 생성
df1 = pd.DataFrame({
    '고객번호':[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름':['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']})
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [16]:
df2 = pd.DataFrame({
    '고객번호':[1001, 1001, 1005, 1006, 1008, 1001],
    '금액':[10000, 2000, 15000, 5000, 100000, 30000]})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,2000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


merge() 메소드를 사용해서 두 데이터프레임 df1, df2 병합
- 열 & 열 (키로 사용)
- 공통열인 [고객번호]를 기준으로 데이터를 찾아서 병합
- 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시
- inner join 방식
- merge(df1, df2, how) : how='inner'가 디폴트

In [17]:
# df1과 df2 병합
pd.merge(df1, df2)  # how='inner' 디폴트로 생략
 # how='inner' : 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,2000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [18]:
pd.merge(df1, df2, how='inner') 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,2000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [19]:
# outer join 방식 : how="outer"
# 값이 없는 경우에는 NaN으로 채움
pd.merge(df1, df2, how='outer') 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,2000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [None]:
# left, right 방식
# how='left' : 왼쪽 데이터프레임의 키값을 모두 표시
# how='right' : 오른쪽 데이터프레임의 키값을 모두 표시
# 값이 없는 경우에는 NaN으로 채움

In [20]:
pd.merge(df1, df2, how='left') 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,2000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [21]:
pd.merge(df1, df2, how='right') 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,2000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


피봇 테이블 (pivot table)
-데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용해서
-데이터를 조회하여 펼쳐놓은 것
-행과 열 인덱스만 보아도 어느 열의 어느 인덱스인지 쉽게 알 수 있음

Pandas에서 피봇 테이블 만들기 위한 메소드
- pivot()
- pivot_table()

pivot()
- 첫 번째 인수는 행 인덱스 사용할 열 이름
- 두 번째 인수는 열 인덱스로 사용할 열 이름
- 마지막에 데이터로 사용할 열 이름
- pivot(행 인덱스, 열 인덱스, 데이터 열)


In [22]:
# 데이터프레임 생성
data = {
    '도시':['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천'],
    '연도':['2015', '2010','2005','2015','2010','2005','2015','2010'],
    '인구':[99393938, 99393938,  99393938, 99393938, 99393938, 99393938, 99393938, 99393938],
    '지역':['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']
}

df3 = pd.DataFrame(data)
df3

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,99393938,수도권
1,서울,2010,99393938,수도권
2,서울,2005,99393938,수도권
3,부산,2015,99393938,경상권
4,부산,2010,99393938,경상권
5,부산,2005,99393938,경상권
6,인천,2015,99393938,수도권
7,인천,2010,99393938,수도권


In [23]:
# pivot() 메소드 사용
# 행 인덱스 : 도시
# 열 인덱스 : 연도
# 데이터 : 인구 (인구 수)
df3.pivot('도시', '연도', '인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,99393938.0,99393938.0,99393938.0
서울,99393938.0,99393938.0,99393938.0
인천,,99393938.0,99393938.0


pivot_table(data, values, index, columns, aggfun, fill_value, margins, maregins_name)
data : 분석할 데이터
values : 분석할 데이터프레임에서 분석할 열
index : 행 인덱스로 들어가 키 열 또는 열 리스트
columns : 열 인덱스로 들어갈 키 열 또는 열 리스트
aggfunc : 분석 메소드
fill_value : NaN 대체값
margins : 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
margins_name : 마진 열(행) 이름

In [24]:
df3

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,99393938,수도권
1,서울,2010,99393938,수도권
2,서울,2005,99393938,수도권
3,부산,2015,99393938,경상권
4,부산,2010,99393938,경상권
5,부산,2005,99393938,경상권
6,인천,2015,99393938,수도권
7,인천,2010,99393938,수도권


In [25]:
# pivot_table(데이터, 행 인덱스, 열 인덱스)
df3.pivot_table('인구', '도시', '연도')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,99393938.0,99393938.0,99393938.0
서울,99393938.0,99393938.0,99393938.0
인천,,99393938.0,99393938.0


In [26]:
df3.pivot_table('인구', '도시', '연도', margins=True, margins_name='평균' ) # aggfunc 지정하지 않으면 '평균'

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,99393938.0,99393938.0,99393938.0,99393938
서울,99393938.0,99393938.0,99393938.0,99393938
인천,,99393938.0,99393938.0,99393938
평균,99393938.0,99393938.0,99393938.0,99393938


In [27]:
# 각 행의 합계, 각 열의 합계, 전체 합계 구하기
# 열 이름 : 합계
df3.pivot_table('인구', '도시', '연도', aggfunc='sum', margins=True, margins_name='합계' )

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,99393938.0,99393938.0,99393938.0,298181814
서울,99393938.0,99393938.0,99393938.0,298181814
인천,,99393938.0,99393938.0,198787876
합계,198787876.0,298181814.0,298181814.0,795151504


In [28]:
# pivot_table()에서 인덱스 값으로 리스트를 넣으면 다중 인덱스 테이블 생성
df3.pivot_table('인구', index=['연도', '도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,99393938
2005,서울,99393938
2010,부산,99393938
2010,서울,99393938
2010,인천,99393938
2015,부산,99393938
2015,서울,99393938
2015,인천,99393938
