In [157]:
import pandas as pd

# 멀티 인덱스 (multi-index) 
인덱스가 여러 개인 `DataFrame`

In [77]:
from pandas import DataFrame

data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]
columns =['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300,5
1,2019,B,200,4
2,2019,C,100,8
3,2020,A,400,8
4,2020,B,230,3


## 멀티 인덱스 생성

이차원 인덱스를 사용할 수 있다면 응용해서 다차원으로 확장 적용할 수 있습니다.  
`date`와 `item`을 이차원 인덱스로 지정해 봅시다.

In [78]:
df = df.set_index(['date', 'item'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


index의 `get_level_values( 숫자 )`로 값을 확인할 수 있음

<img src="https://i.ibb.co/VJmLnKT/pandas-2-0.png" width="230" style="float:left" />

왼쪽위에 표시되는 이름은 `index` 객체의 `names` 속성에 저장된 값

In [79]:
df.index.names

FrozenList(['date', 'item'])

## 칼럼 인덱싱과 슬라이싱

칼럼을 인덱싱하면 기존 데이타프레임과 동일한 인덱스와 값이 출력됩니다. 이 때 출력되는 결과는 멀티 인덱스를 같는 `Series` 객체입니다. 

In [80]:
type(df.price)

pandas.core.series.Series

<img src="https://i.ibb.co/6m3kNJL/pandas-2-1.png" width="200" style="float:left" />

In [81]:
df.volume

date  item
2019  A       5
      B       4
      C       8
2020  A       8
      B       3
Name: volume, dtype: int64

<img src="https://i.ibb.co/KWtmGXy/pandas-2-2.png" width="200" style="float:left" />

칼럼의 슬라이싱은 출력되는 결과가 멀티 인덱스를 갖는 것이외에 싱글 인덱스의 칼럼 슬라이싱과 다르지 않습니다.  


## 로우 인덱싱과 슬라이싱

`loc`를 사용해서 하나의 인덱스로 인덱싱할 수 있습니다.  
인덱스는 level 0부터 사용합니다. 

In [82]:
df.loc['2019']

Unnamed: 0_level_0,price,volume
item,Unnamed: 1_level_1,Unnamed: 2_level_1
A,300,5
B,200,4
C,100,8


<img src="https://i.ibb.co/V3F1swK/pandas-2-3.png" width="200" style="float:left" />

`loc`로 인덱싱을 한 뒤에 반환되는 결과는 1차원 인덱스를 갖는 데이터프레임 입니다.  
재차 인덱싱을 적용해서 원하는 결과를 가져올 수 있습니다. 

In [83]:
df.loc['2019'].loc['A']

price     300
volume      5
Name: A, dtype: int64

In [84]:
df.iloc[0]

price     300
volume      5
Name: (2019, A), dtype: int64

<img src="https://i.ibb.co/DMqtBnw/pandas-2-4.png" width="200" style="float:left" />

한 번에 이차원 인덱스의 인덱싱은 튜플로 이차원 인덱스를 지정합니다.

In [85]:
df.loc[('2019','A')]

price     300
volume      5
Name: (2019, A), dtype: int64

In [86]:
# 300만 선택하는 3가지 방법
df.loc[('2019','A')][0]
df.loc[('2019','A'),'price']
df.loc[('2019','A')]['price']

300

### 연속적인 행 선택하기  
`loc`의 슬라이싱은 지정해준 인덱스의 시작과 끝을 포함한 사이에 있는 모든 데이터를 가져옵니다. 
이차원 인덱스 이므로 튜플로 인덱스를 지정합니다. 

In [87]:
df.loc[:, :] # [행,열]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


In [88]:
df.loc[:'2019'] # 슬라이싱
# 이거는 df.loc['2019 :'2019']와 같다. 왜냐면 시작과 끝을 모두 포함하니까
# 슬라이싱은 원본과 같은 구조로 결과가 나옴. (2차원 인덱스를 가진 df)

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8


In [89]:
df.loc['2019'] # 인덱싱

Unnamed: 0_level_0,price,volume
item,Unnamed: 1_level_1,Unnamed: 2_level_1
A,300,5
B,200,4
C,100,8


In [90]:
df.loc[('2019','B'):('2020','B')]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


### 불연속적인 행을 가져오기  
`df.loc[ [] , []]`

가져오려는 데이터의 인덱스를 튜플 (혹은 리스트) 로 지정합니다. 

In [91]:
df.loc['2019',['volume','price']]

Unnamed: 0_level_0,volume,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1
A,5,300
B,4,200
C,8,100


In [92]:
df.loc[    [('2019','B'),('2020','B')]   ]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2020,B,230,3


In [93]:
df.iloc[  [1,-1]    ]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2020,B,230,3


In [94]:
df.loc[   ('2019','B')    ]

price     200
volume      4
Name: (2019, B), dtype: int64

In [95]:
df.loc[   '2019','B'    ]

price     200
volume      4
Name: (2019, B), dtype: int64

### 특정 레벨의 모든 데이터 선택하기
`slice(None)`을 사용한 모든 `B`를 선택

In [96]:
df.loc[:, 'B',: ]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2020,B,230,3


In [97]:
df.loc[ (slice(None),'B')        ,:]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2020,B,230,3


In [98]:
df.loc['2019', (slice(None)), : ]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8


## 로우 데이터 추가
이차원 인덱스의 위치 정보를 차례로 지정해야 합니다.  
칼럼 정보(`:`)까지 입력하는것에 주의해야 합니다. 

In [99]:
# 하나씩 추가할때는
# df.loc['2020'] = ~~

In [100]:
df.loc[('2020','A')] = [200,4]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,200,4
2020,B,230,3


In [101]:
df.loc[('2020','C'),:] = [200, 4] # 새로운거 추가할때는 : 써줘야함
df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300.0,5.0
2019,B,200.0,4.0
2019,C,100.0,8.0
2020,A,200.0,4.0
2020,B,230.0,3.0
2020,C,200.0,4.0


<img src="https://i.ibb.co/1nBH2Pd/pandas-2-6.png" width="200" style="float:left" />

## 데이터 정렬
멀티 인덱스에서 데이터가 정렬돼 있어야 효과적입니다. 

In [114]:
import numpy as np

data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]


np.random.shuffle(data)

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df = df.set_index(['date', 'item'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,A,400,8
2019,C,100,8
2019,A,300,5
2019,B,200,4
2020,B,230,3


In [116]:
df_sorted = df.sort_index()
df_sorted

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


In [117]:
df_sorted_v = df.sort_values('price', ascending=False)
df_sorted_v

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,A,400,8
2019,A,300,5
2020,B,230,3
2019,B,200,4
2019,C,100,8


In [118]:
%timeit df.loc['2019']

The slowest run took 8.65 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 5: 305 µs per loop


In [119]:
%timeit df_sorted.loc['2019']

The slowest run took 10.82 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 5: 138 µs per loop


# Multi Columns

인덱스와 유사하게 2 level로 구성된 멀티 칼럼을 실습해 봅시다.

In [132]:
data = [
    ["삼성전자", 300, 2000, 700, 300, 400],
    ["Naver", 200, 4000, 500, 300, 200],
    ["LG전자", 100, 1200, 300, 200, 100],        
]

columns = ['종목', '종가', '거래량', '자산', '자본', '부채']
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목')
df

Unnamed: 0_level_0,종가,거래량,자산,자본,부채
종목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
삼성전자,300,2000,700,300,400
Naver,200,4000,500,300,200
LG전자,100,1200,300,200,100


In [133]:
df.columns = [ ['시장정보', '시장정보', '재무상태', '재무상태', '재무상태'], 
               ['종가', '거래량', '자산', '자본', '부채'] ]

In [137]:
df.index

Index(['삼성전자', 'Naver', 'LG전자'], dtype='object', name='종목')

In [134]:
df

Unnamed: 0_level_0,시장정보,시장정보,재무상태,재무상태,재무상태
Unnamed: 0_level_1,종가,거래량,자산,자본,부채
종목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
삼성전자,300,2000,700,300,400
Naver,200,4000,500,300,200
LG전자,100,1200,300,200,100


In [135]:
df.T

Unnamed: 0,종목,삼성전자,Naver,LG전자
시장정보,종가,300,200,100
시장정보,거래량,2000,4000,1200
재무상태,자산,700,500,300
재무상태,자본,300,300,200
재무상태,부채,400,200,100


In [136]:
df.T.index

MultiIndex([('시장정보',  '종가'),
            ('시장정보', '거래량'),
            ('재무상태',  '자산'),
            ('재무상태',  '자본'),
            ('재무상태',  '부채')],
           )

## 인덱싱과 슬라이싱

멀티 인덱스와 유사합니다. 사용해 봅시다. 

In [138]:
df['시장정보'] # df형태

Unnamed: 0_level_0,종가,거래량
종목,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성전자,300,2000
Naver,200,4000
LG전자,100,1200


In [139]:
df[ ('시장정보','종가')     ] # 시리즈형태

종목
삼성전자     300
Naver    200
LG전자     100
Name: (시장정보, 종가), dtype: int64

In [125]:
df['시장정보','종가']

종목
삼성전자     300
Naver    200
LG전자     100
Name: (시장정보, 종가), dtype: int64

In [124]:
df['시장정보']['종가']

종목
삼성전자     300
Naver    200
LG전자     100
Name: 종가, dtype: int64

In [147]:
# 300만 가져오기
df[ ('시장정보','종가')     ][0]
df[ ('시장정보','종가')     ].loc['삼성전자']
df.loc['삼성전자',('시장정보','종가')]
df[ ('시장정보','종가')     ].iloc[0]

300

In [148]:
# 종목도 두개라면?
df.loc[    ('삼성전자', 'Naver'), ('시장정보','종가')   ]

종목
삼성전자     300
Naver    200
Name: (시장정보, 종가), dtype: int64

### 연속적인 칼럼 슬라이싱

In [149]:
df[    ('시장정보','종가')  :   ('재무상태','자산')   ] #안되네?

AssertionError: ignored

In [151]:
a = df['재무상태']
a

Unnamed: 0_level_0,자산,자본,부채
종목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성전자,700,300,400
Naver,500,300,200
LG전자,300,200,100


In [152]:
a['자산':'부채'] #1차원은 연속적인 칼럼 불러올 수 있음

Unnamed: 0_level_0,자산,자본,부채
종목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성전자,700,300,400


### 불연속적인 칼럼 슬라이싱

In [158]:
a = df[('시장정보','종가')]
b = df[('재무상태','자산')]
pd.concat([a,b], axis=1)

Unnamed: 0_level_0,시장정보,재무상태
Unnamed: 0_level_1,종가,자산
종목,Unnamed: 1_level_2,Unnamed: 2_level_2
삼성전자,300,700
Naver,200,500
LG전자,100,300


In [159]:
df[ [ ('시장정보', '종가'), ('재무상태', '자산') ] ]

Unnamed: 0_level_0,시장정보,재무상태
Unnamed: 0_level_1,종가,자산
종목,Unnamed: 1_level_2,Unnamed: 2_level_2
삼성전자,300,700
Naver,200,500
LG전자,100,300


In [161]:
df[ [ ('시장정보', '종가'), ('재무상태', '자산') ] ] = 1000
df

Unnamed: 0_level_0,시장정보,시장정보,재무상태,재무상태,재무상태
Unnamed: 0_level_1,종가,거래량,자산,자본,부채
종목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
삼성전자,1000,2000,1000,300,400
Naver,1000,4000,1000,300,200
LG전자,1000,1200,1000,200,100


### 특정 레벨의 모든 칼럼 슬라이싱

In [162]:
#err난다 df[   (slice(None),'자산')  ]
df.loc[:, (slice(None),'자산')  ] # loc를 써서 행에대한 정보도 넣어줌

Unnamed: 0_level_0,재무상태
Unnamed: 0_level_1,자산
종목,Unnamed: 1_level_2
삼성전자,1000
Naver,1000
LG전자,1000


In [165]:
# err
# df['자산']
df[   ('재무상태', '자산')  ]

종목
삼성전자     1000
Naver    1000
LG전자     1000
Name: (재무상태, 자산), dtype: int64