In [1]:
import pandas as pd

## 예제 4-8 범주형 인덱스 활용하기
CategoricalIndex => 데이터의 인덱스를 범주형으로 하겠다는 의미

In [3]:
inx_i = pd.CategoricalIndex([1,2,3,4])

In [5]:
s = pd.Series([1,2,3,4],index=inx_i)
s

1    1
2    2
3    3
4    4
dtype: int64

In [6]:
s.index

CategoricalIndex([1, 2, 3, 4], categories=[1, 2, 3, 4], ordered=False, dtype='category')

In [7]:
s[3] = 100
s

1      1
2      2
3    100
4      4
dtype: int64

인덱스의 카테고리(범위)를 넘어선 지점에 값을 입력하려 하기 때문에 에러 발생

In [8]:
try :
    s[5] = 100
except Exception as e :
    print(e)

index 5 is out of bounds for axis 0 with size 4


  s[5] = 100


loc 를 사용하면 입력가능  
범주형 인덱스를 사용한 의도에서 벗어난 것인지 주의가 필요함

In [10]:
s.loc[5]=100
s

1      1
2      2
3    100
4      4
5    100
dtype: int64

## 비교 예제 3-15 범주형 데이터 생성

In [11]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [12]:
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [15]:
s[2] = 'b'
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

원래는 경계 값을 넘어서는 곳에 값을 쓰려고 하였기 때문에 에러가 발생해야함(과거 버전에는 에러 발생)  
현재는 생성이 되고 데이터 타입도 바뀌게 되므로 주의해야함

In [16]:
try : 
    s[4] = 'd'
except Exception as e :
    print(e)

s

0    a
1    b
2    b
3    a
4    d
dtype: object

In [17]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

loc 를 적용하면 가능  
타입이 바뀐다는 점 역시 주의해야함

In [18]:
s.loc[4] ='d'
s

0    a
1    b
2    c
3    a
4    d
dtype: object

In [19]:
my_list=["a","b","c","a"]
my_list

['a', 'b', 'c', 'a']

In [20]:
my_list[0]

'a'

없는 인덱스 값 호출하면 에러남

In [21]:
my_list[4]

IndexError: list index out of range

기존의 시리즈에서 값 추가 할 경우

In [22]:
s = pd.Series(["a","b","c","a"])
s

0    a
1    b
2    c
3    a
dtype: object

기존 시리즈에서의 확장방식과 비교  
기존의 시리즈에서는 새로운 인덱스에 값을 할당하면 시리즈가 확장된다.

In [23]:
s[4] = 'd'
s

0    a
1    b
2    c
3    a
4    d
dtype: object

In [24]:
s = pd.Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [25]:
s[4]=5
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

## 예제 4-9 멀티인덱스 생성 
### 목적 : 데이터의 검색, 관리 등을 단일 인덱스 보다 더 정교하게 처리하고 싶은 경우에 활용

In [27]:
import numpy as np

In [28]:
ind = [
    ("강원도",2017),
    ("강원도",2018),
    ("강원도",2019),
    ("경기도",2017),
    ("경기도",2018),
    ("경기도",2019),
    ("서울", 2017), 
    ("서울", 2018),
    ("서울", 2019)    
]
ind

[('강원도', 2017),
 ('강원도', 2018),
 ('강원도', 2019),
 ('경기도', 2017),
 ('경기도', 2018),
 ('경기도', 2019),
 ('서울', 2017),
 ('서울', 2018),
 ('서울', 2019)]

In [33]:
index = pd.MultiIndex.from_tuples(ind)
index

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           )

In [34]:
s = pd.Series(np.random.randint(1,10,9),index = index)
s

강원도  2017    8
     2018    5
     2019    8
경기도  2017    1
     2018    7
     2019    5
서울   2017    4
     2018    6
     2019    8
dtype: int32

상위 인덱스를 통해서 모든 하위 인덱스 값을 바로 얻을 수 있다.

In [35]:
s['서울']

2017    4
2018    6
2019    8
dtype: int32

In [36]:
s['서울',2017]

4

In [37]:
s[('서울',2017)]

4

In [38]:
s.loc['서울']

2017    4
2018    6
2019    8
dtype: int32

멀티 인덱스 경우  
[상위계층,하위계층]  
하위 인덱스를 통하여 모든 상위인덱스에 적용 가능

In [39]:
s[:,2017]

강원도    8
경기도    1
서울     4
dtype: int32

In [40]:
s.loc[:,2017]

강원도    8
경기도    1
서울     4
dtype: int32

### array 조합을 통한 멀티인덱스 생성

In [41]:
arrays = [
    np.array(['강원도','경기도','서울','강원도','경기도','서울','강원도','경기도','서울']),
    np.array([2017,2018,2019,2017,2018,2019,2017,2018,2019])
]
arrays

[array(['강원도', '경기도', '서울', '강원도', '경기도', '서울', '강원도', '경기도', '서울'],
       dtype='<U3'),
 array([2017, 2018, 2019, 2017, 2018, 2019, 2017, 2018, 2019])]

In [42]:
s = pd.Series(np.random.randn(9),index = arrays)
s

강원도  2017   -1.864787
경기도  2018    1.433896
서울   2019    1.447996
강원도  2017   -0.520386
경기도  2018   -0.272307
서울   2019   -0.035552
강원도  2017    0.384621
경기도  2018    0.773696
서울   2019    1.923745
dtype: float64

In [43]:
s.index

MultiIndex([('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019)],
           )

from_product 함수를 사용하게 되면 상위인덱스, 하위인덱스의 모든 조합을 자동으로 생성해 준다.  
names 인자에 멀티인덱스의 개념적인 이름을 리스트로 지정가능하다.

In [44]:
iterables = [['강원도','경기도','서울'],[2017,2018,2019]]
arrays2 = pd.MultiIndex.from_product(iterables,names=['행정구역','년도'])
arrays2

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           names=['행정구역', '년도'])

In [45]:
s = pd.Series(np.random.randn(9),index = arrays2)
s

행정구역  년도  
강원도   2017   -0.384008
      2018   -1.274381
      2019   -0.755850
경기도   2017    0.388568
      2018    0.541544
      2019    0.708475
서울    2017   -0.329283
      2018   -0.050010
      2019    2.919344
dtype: float64

In [46]:
df = pd.DataFrame(s,columns=['더조은 지수A'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,더조은 지수A
행정구역,년도,Unnamed: 2_level_1
강원도,2017,-0.384008
강원도,2018,-1.274381
강원도,2019,-0.75585
경기도,2017,0.388568
경기도,2018,0.541544
경기도,2019,0.708475
서울,2017,-0.329283
서울,2018,-0.05001
서울,2019,2.919344


In [47]:
df.loc['서울']

Unnamed: 0_level_0,더조은 지수A
년도,Unnamed: 1_level_1
2017,-0.329283
2018,-0.05001
2019,2.919344


In [48]:
df.loc[('경기도',2017),:]

더조은 지수A    0.388568
Name: (경기도, 2017), dtype: float64

In [50]:
index = [
    ('서울',2008),
    ('서울',2010),
    ('부산',2008),
    ('부산',2010),
    ('인천',2008),
    ('인천',2010)
]
index

[('서울', 2008),
 ('서울', 2010),
 ('부산', 2008),
 ('부산', 2010),
 ('인천', 2008),
 ('인천', 2010)]

In [51]:
mul_index = pd.MultiIndex.from_tuples(index)
mul_index

MultiIndex([('서울', 2008),
            ('서울', 2010),
            ('부산', 2008),
            ('부산', 2010),
            ('인천', 2008),
            ('인천', 2010)],
           )

In [52]:
mul_index.values

array([('서울', 2008), ('서울', 2010), ('부산', 2008), ('부산', 2010),
       ('인천', 2008), ('인천', 2010)], dtype=object)

In [53]:
mul_index.value_counts()

(서울, 2008)    1
(서울, 2010)    1
(부산, 2008)    1
(부산, 2010)    1
(인천, 2008)    1
(인천, 2010)    1
dtype: int64

In [54]:
mul_index.levels

FrozenList([['부산', '서울', '인천'], [2008, 2010]])