## Index와 MultiIndex 처리 기준


In [5]:
import pandas as pd

In [2]:
pd.Index

pandas.indexes.base.Index

In [3]:
pd.MultiIndex

pandas.indexes.multi.MultiIndex

## index 클래스 처리 


In [20]:
sl = pd.Index(['blue', 'red'],
           name=[ 'color'])
print(sl)

Index(['blue', 'red'], dtype='object', name=['color'])


###  정수 인덱스 생성 


In [21]:
import pandas as pd

idx1 = pd.Index([1, 2, 3, 4])
idx2 = pd.Index([3, 4, 5, 6])
print(idx1.difference(idx2))
print(idx1, idx2)
idx3 = pd.Int64Index([1, 2], dtype='int64')
print(idx3)


Int64Index([1, 2], dtype='int64')
Int64Index([1, 2, 3, 4], dtype='int64') Int64Index([3, 4, 5, 6], dtype='int64')
Int64Index([1, 2], dtype='int64')


### 문자 인덱스 생성

In [22]:
import pandas as pd

idx4 = pd.Index(['a', 'b','c'])
print(idx4)


Index(['a', 'b', 'c'], dtype='object')


### 날짜 인덱스 생성 


In [23]:
import pandas as pd

idx5 = pd.Index(pd.date_range('20130101',periods=3)) 
print(idx5)


DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03'], dtype='datetime64[ns]', freq='D')


## MultiIndex 클래스 처리

### 내부의 속성과 메소드

In [11]:
s = set(dir(pd.Series))
m = set(dir(pd.MultiIndex))

m = m-s

for i in m :
    if not i.startswith("_") :
        print(i)

    

sort
to_hierarchical
identical
remove_unused_levels
is_categorical
levels
set_levels
inferred_type
is_lexsorted
symmetric_difference
is_mixed
sym_diff
nlevels
asi8
has_duplicates
format
is_object
get_loc_level
is_boolean
levshape
get_indexer_for
slice_indexer
delete
lexsort_depth
get_indexer
holds_integer
get_duplicates
get_level_values
contains
intersection
is_interval
dtype_str
is_integer
set_names
to_series
is_lexsorted_for_tuple
get_locs
get_slice_bound
is_
from_product
to_native_types
difference
putmask
labels
is_numeric
names
is_all_dates
summary
from_arrays
equal_levels
get_indexer_non_unique
is_floating
get_major_bounds
get_loc
droplevel
union
to_datetime
insert
join
is_type_compatible
slice_locs
asof_locs
from_tuples
set_labels


### 2차원 배열을 만들고 튜플로 전환 후에 멀티인덱스 만들기

In [1]:
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
        ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]

In [3]:
tuples = list(zip(*arrays))

In [8]:
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [6]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])


In [7]:
index

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

### 인덱스를 시리즈로 변환하기

In [12]:
index.to_series()

first  second
bar    one       (bar, one)
       two       (bar, two)
baz    one       (baz, one)
       two       (baz, two)
foo    one       (foo, one)
       two       (foo, two)
qux    one       (qux, one)
       two       (qux, two)
dtype: object

##### Tuple 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [6]:
import pandas as pd

tuples = [(1, 'red'), (1, 'blue'), (2, 'red'), (2, 'blue')]
mi = pd.MultiIndex.from_tuples(tuples, names=('number', 'color'))
print(mi)


MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


#### Levels, labels, names으로 분리해서 접근할 수 있는 정보를 관리 


In [5]:
ml = pd.MultiIndex(levels=[[1, 2],['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])
print(ml)

MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


#### List로 lable 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [7]:
import pandas as pd

arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
mi1 = pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
print(mi1)


MultiIndex(levels=[[1, 2], ['blue', 'red']],
           labels=[[0, 0, 1, 1], [1, 0, 1, 0]],
           names=['number', 'color'])


#### List를 level 형태로 전달시 

    계층에 대한 이름(levels), 각 이름별 계층 위치(labels) 그리고 level에 대한 이름(names)


In [9]:
import pandas as pd

numbers = [0, 1]
colors = ['green', 'purple']
mi2 = pd.MultiIndex.from_product([numbers, colors],names=['number', 'color'])
print(mi2)


MultiIndex(levels=[[0, 1], ['green', 'purple']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['number', 'color'])


### 내부 속성 조회 


####  level 조회


In [11]:
import pandas as pd

midx = pd.MultiIndex.from_product([list(range(3)),['a','b','c'],
                                   pd.date_range('20130101',periods=3)],
                                  names=['numbers','letters','dates'])
print(midx.levels[0])
print(midx.levels[1])
print(midx.levels[2])


Int64Index([0, 1, 2], dtype='int64', name='numbers')
Index(['a', 'b', 'c'], dtype='object', name='letters')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03'], dtype='datetime64[ns]', name='dates', freq='D')


In [14]:
print(midx.get_level_values(0))
print(midx.get_level_values(1))
print(midx.get_level_values(2))


Int64Index([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2,
            2, 2, 2, 2, 2],
           dtype='int64', name='numbers')
Index(['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'a', 'a', 'a', 'b', 'b',
       'b', 'c', 'c', 'c', 'a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
      dtype='object', name='letters')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-01',
               '2013-01-02', '2013-01-03', '2013-01-01', '2013-01-02',
               '2013-01-03', '2013-01-01', '2013-01-02', '2013-01-03',
               '2013-01-01', '2013-01-02', '2013-01-03', '2013-01-01',
               '2013-01-02', '2013-01-03', '2013-01-01', '2013-01-02',
               '2013-01-03', '2013-01-01', '2013-01-02', '2013-01-03',
               '2013-01-01', '2013-01-02', '2013-01-03'],
              dtype='datetime64[ns]', name='dates', freq='D')


#### label 조회


In [12]:
print(midx.labels[0])
print(midx.labels[1])
print(midx.labels[2])


FrozenNDArray([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype='int8')
FrozenNDArray([0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2, 0, 0, 0, 1, 1, 1, 2, 2, 2], dtype='int8')
FrozenNDArray([0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2], dtype='int8')


#### names 조회 


In [15]:
print(midx.names, type(midx.names))
print(midx.names.index('letters'))
print(midx.names.index('dates'))


['numbers', 'letters', 'dates'] <class 'pandas.core.base.FrozenList'>
1
2
