# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, [김진수](bigpycraft@gmail.com)</font></div>
<hr>

# Pandas Basic V

In [1]:
# Pandas Basics
from IPython.display import Image 

from pandas import Series, DataFrame
import pandas as pd
import numpy as np

## 5. Hierarchical indexing
> 계층적 색인
> - 축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.
> - 차원이 높은(고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능이다.

In [2]:
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1   -1.759041
   2   -0.498734
   3   -0.239058
b  1    0.093036
   2    0.479149
   3    0.188494
c  1   -0.398746
   2   -0.055520
d  2    1.124079
   3    0.987553
dtype: float64

In [3]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [4]:
data['b']

1    0.093036
2    0.479149
3    0.188494
dtype: float64

In [5]:
data['b':'c']

b  1    0.093036
   2    0.479149
   3    0.188494
c  1   -0.398746
   2   -0.055520
dtype: float64

In [6]:
# AttributeError
# data.ix[['b', 'd']]

In [7]:
data.loc[['b', 'd']]

b  1    0.093036
   2    0.479149
   3    0.188494
d  2    1.124079
   3    0.987553
dtype: float64

In [8]:
data[:, 2]

a   -0.498734
b    0.479149
c   -0.055520
d    1.124079
dtype: float64

In [9]:
# ? data.unstack

In [10]:
data.unstack()

Unnamed: 0,1,2,3
a,-1.759041,-0.498734,-0.239058
b,0.093036,0.479149,0.188494
c,-0.398746,-0.05552,
d,,1.124079,0.987553


In [11]:
data.unstack().stack()

a  1   -1.759041
   2   -0.498734
   3   -0.239058
b  1    0.093036
   2    0.479149
   3    0.188494
c  1   -0.398746
   2   -0.055520
d  2    1.124079
   3    0.987553
dtype: float64

In [12]:
data

a  1   -1.759041
   2   -0.498734
   3   -0.239058
b  1    0.093036
   2    0.479149
   3    0.188494
c  1   -0.398746
   2   -0.055520
d  2    1.124079
   3    0.987553
dtype: float64

> 계층적 색인
> - DataFrame에서는 두 축 모두 계층적 색인을 가질수 있다.
> - 각 단계는 이름을 가질 수 있고, (문자열이나 어떤 파이썬 객체라도 가능하다)
> - 만약 이름이 있다면 콘솔 출력 시에 함께 나타난다. 

#### <font color='blue'> 색인의 이름과 축의 라벨을 혼동하지 말것 !!! </font>

In [13]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [14]:
frame.index.names   = ['key1',  'key2']
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [15]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


#### <font color='blue'> MultiIndex </font>
> - MultiIndex는 따로 생성한 다음에 재사용이 가능하다.
> - 위의 DataFrame의 칼럼 계층의 이름은 다음과 같이 생성할 수 있다.
> <hr>
>
> ```python
MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])
```

### <font color='brown'> Reordering and sorting levels </font>
> 계층 순서 바꾸고 정렬하기

In [16]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [17]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [18]:
# AttributeError|
# frame.sortlevel(by=['key1', 'key2'])
# frame.swaplevel(0, 1).sortlevel(0)

<font color='blue'> [NOTE] 객체가 계층적 색인으로 상위 계층부터 사전식으로 정렬이 되어 있다면 (sortlevel(0)이나 sort_index()의 결과처럼) 데이터를 선택하는 성능이 훨씬 좋아진다.</font>

In [19]:
frame.sort_index()

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [20]:
frame.sort_index(axis=1)

Unnamed: 0_level_0,state,Colorado,Ohio,Ohio
Unnamed: 0_level_1,color,Green,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


In [21]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Red,Green,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,1,0,2
a,2,4,3,5
b,1,7,6,8
b,2,10,9,11


In [22]:
frame.sort_values(by=['key1', 'key2'])

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [23]:
frame.sort_values(by=['key2', 'key1'])

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


### <font color='brown'> Summary statistics by level </font>
> 단계별 요약통계
> - level 옵션 : 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션
> - 내부적으로는 pandas의 groupby 기능을 이용해서 구현되었다.

In [24]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [25]:
frame.sum(level='key2')

  frame.sum(level='key2')


state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [26]:
frame.sum(level='color', axis=1)

  frame.sum(level='color', axis=1)


Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### <font color='brown'> Using a DataFrame's columns </font>
> DataFrame의 칼럼 사용하기
> - DataFrame.set_index 함수 : 하나 이상의 칼럼을 색인으로 하는 새로운 DataFrame을 생성한다.
> - DataFrame.reset_index 함수 : 계층적 샌인 단계가 칼럼으로 이동한다.

In [27]:
frame = DataFrame({'a': range(7), 
                   'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [28]:
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [29]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [30]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>