# MultiIndex 처리 기준


## 멀티 인덱스는 차원을 축소해서 만들때 많이 사용된다.


### 2차원을 1차원으로 줄일경우 칼럼 정보를 멀티인덱스로 처리해서 모든 값을 1차원으로 처리도 가능하다.

In [13]:
import pandas as pd
import numpy as np

In [2]:
pd.Index

pandas.core.indexes.base.Index

In [3]:
pd.MultiIndex

pandas.core.indexes.multi.MultiIndex

## MultiIndex 클래스 처리

### Index와 MultiIndex 내부의 속성과 메소드

In [20]:
s = set(dir(pd.Index))
m = set(dir(pd.MultiIndex))

ms = m-s

for i in ms :
    if not i.startswith("_") :
        print(i)

    

reorder_levels
get_major_bounds
levels
get_locs
remove_unused_levels
labels
levshape
droplevel
from_product
to_hierarchical
swaplevel
from_tuples
set_levels
to_frame
set_labels
from_arrays
truncate
get_loc_level
lexsort_depth
equal_levels
is_lexsorted


In [22]:
mi = m & s

for i in mi :
    if not i.startswith("_") :
        print(i)

sym_diff
where
nunique
shape
sort
T
names
has_duplicates
drop
is_all_dates
size
astype
is_type_compatible
append
holds_integer
is_unique
shift
insert
is_monotonic
argmax
asof_locs
data
get_values
isnull
ravel
is_boolean
join
sortlevel
get_slice_bound
itemsize
unique
empty
is_monotonic_increasing
argsort
slice_indexer
str
transpose
value_counts
drop_duplicates
get_level_values
take
equals
factorize
is_object
is_interval
is_numeric
is_lexsorted_for_tuple
get_loc
is_floating
fillna
groupby
is_integer
putmask
base
get_indexer_for
reindex
set_names
is_
is_categorical
asof
difference
duplicated
searchsorted
get_duplicates
reshape
hasnans
view
map
rename
argmin
nbytes
repeat
all
get_indexer
slice_locs
isin
dtype_str
name
union
item
identical
memory_usage
get_value
max
nlevels
min
summary
dtype
sort_values
flags
to_datetime
copy
any
tolist
format
asi8
contains
strides
ndim
dropna
intersection
set_value
notnull
values
is_monotonic_decreasing
delete
to_series
get_indexer_non_unique
to_native_typ

### 2차원 배열을 만들고 튜플로 전환 후에 멀티인덱스 만들기

In [23]:
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
        ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]

In [24]:
tuples = list(zip(*arrays))

In [25]:
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [26]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])


In [27]:
index

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

### 인덱스를 시리즈로 변환하기

In [28]:
index.to_series()

first  second
bar    one       (bar, one)
       two       (bar, two)
baz    one       (baz, one)
       two       (baz, two)
foo    one       (foo, one)
       two       (foo, two)
qux    one       (qux, one)
       two       (qux, two)
dtype: object

### Tuple 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [6]:
import pandas as pd

tuples = [(1, 'red'), (1, 'blue'), (2, 'red'), (2, 'blue')]
mi = pd.MultiIndex.from_tuples(tuples, names=('number', 'color'))
print(mi)


MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


### Levels, labels, names으로 분리해서 접근할 수 있는 정보를 관리 


In [5]:
ml = pd.MultiIndex(levels=[[1, 2],['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])
print(ml)

MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


### List로 lable 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [1]:
import pandas as pd

arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
mi1 = pd.MultiIndex.from_arrays(arrays)
print(mi1)


MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]])


### names 키워드인자를 사용하면 멀티 인덱스의 각 레벨이 이름이 된다

In [2]:
import pandas as pd

arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
mi1 = pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
print(mi1)

MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


###  product 로 처리 
    List를 level 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [9]:
import pandas as pd

numbers = [0, 1]
colors = ['green', 'purple']
mi2 = pd.MultiIndex.from_product([numbers, colors],names=['number', 'color'])
print(mi2)


MultiIndex(levels=[[0, 1], ['green', 'purple']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['number', 'color'])


## 내부 속성 조회 


### 기본 구성된 속성 조회


In [3]:
import pandas as pd

midx = pd.MultiIndex.from_product([list(range(3)),['a','b','c'],
                                   pd.date_range('20130101',periods=3)],
                                  names=['numbers','letters','dates'])


In [4]:
midx

MultiIndex(levels=[[0, 1, 2], ['a', 'b', 'c'], [2013-01-01 00:00:00, 2013-01-02 00:00:00, 2013-01-03 00:00:00]],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2], [0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]],
           names=['numbers', 'letters', 'dates'])

In [5]:
midx.shape

(27,)

In [6]:
midx.ndim

1

In [8]:
midx.data.obj

array([(0, 'a', Timestamp('2013-01-01 00:00:00', freq='D')),
       (0, 'a', Timestamp('2013-01-02 00:00:00', freq='D')),
       (0, 'a', Timestamp('2013-01-03 00:00:00', freq='D')),
       (0, 'b', Timestamp('2013-01-01 00:00:00', freq='D')),
       (0, 'b', Timestamp('2013-01-02 00:00:00', freq='D')),
       (0, 'b', Timestamp('2013-01-03 00:00:00', freq='D')),
       (0, 'c', Timestamp('2013-01-01 00:00:00', freq='D')),
       (0, 'c', Timestamp('2013-01-02 00:00:00', freq='D')),
       (0, 'c', Timestamp('2013-01-03 00:00:00', freq='D')),
       (1, 'a', Timestamp('2013-01-01 00:00:00', freq='D')),
       (1, 'a', Timestamp('2013-01-02 00:00:00', freq='D')),
       (1, 'a', Timestamp('2013-01-03 00:00:00', freq='D')),
       (1, 'b', Timestamp('2013-01-01 00:00:00', freq='D')),
       (1, 'b', Timestamp('2013-01-02 00:00:00', freq='D')),
       (1, 'b', Timestamp('2013-01-03 00:00:00', freq='D')),
       (1, 'c', Timestamp('2013-01-01 00:00:00', freq='D')),
       (1, 'c', Timestam

###  레벨을 조회

In [9]:
midx.levels

FrozenList([[0, 1, 2], ['a', 'b', 'c'], [2013-01-01 00:00:00, 2013-01-02 00:00:00, 2013-01-03 00:00:00]])

In [None]:
print(midx.levels[0])
print(midx.levels[1])
print(midx.levels[2])

### 메소드로 실제 레벨의 값을 조회

In [14]:
print(midx.get_level_values(0))
print(midx.get_level_values(1))
print(midx.get_level_values(2))


Int64Index([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2,
            2, 2, 2, 2, 2],
           dtype='int64', name='numbers')
Index(['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'a', 'a', 'a', 'b', 'b',
       'b', 'c', 'c', 'c', 'a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
      dtype='object', name='letters')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-01',
               '2013-01-02', '2013-01-03', '2013-01-01', '2013-01-02',
               '2013-01-03', '2013-01-01', '2013-01-02', '2013-01-03',
               '2013-01-01', '2013-01-02', '2013-01-03', '2013-01-01',
               '2013-01-02', '2013-01-03', '2013-01-01', '2013-01-02',
               '2013-01-03', '2013-01-01', '2013-01-02', '2013-01-03',
               '2013-01-01', '2013-01-02', '2013-01-03'],
              dtype='datetime64[ns]', name='dates', freq='D')


### label 조회


In [12]:
print(midx.labels[0])
print(midx.labels[1])
print(midx.labels[2])


FrozenNDArray([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype='int8')
FrozenNDArray([0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2], dtype='int8')
FrozenNDArray([0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2], dtype='int8')


#### names 조회 


In [15]:
print(midx.names, type(midx.names))
print(midx.names.index('letters'))
print(midx.names.index('dates'))


['numbers', 'letters', 'dates'] <class 'pandas.core.base.FrozenList'>
1
2
