In [27]:
import pandas as pd

## 예제 4-8 범주형 인덱스 활용하기
* 데이터의 인덱스를 범주형으로 하겠다는 의미

In [28]:
# 범주형 : 정해진 카테고리 내용만 관리
inx_i = pd.CategoricalIndex([1,2,3,4])

In [29]:
# 데이터의 인덱스에 범주형 데이터와 매치
# 범주형데이터를 행의 인덱스에 적용
s = pd.Series([1,2,3,4],index=inx_i)

In [30]:
s

1    1
2    2
3    3
4    4
dtype: int64

In [31]:
s.index

CategoricalIndex([1, 2, 3, 4], categories=[1, 2, 3, 4], ordered=False, dtype='category')

In [32]:
s[3] = 100

In [33]:
s

1      1
2      2
3    100
4      4
dtype: int64

In [34]:
# 인덱스의 카테고리의 범위를 넘어선 지점에 값을 입력하려 하기 때문에 에러를 발생
try :
    s[5] = 100
except Exception as e :
    print(e)

index 5 is out of bounds for axis 0 with size 4


  s[5] = 100


In [35]:
# 하지만 loc를 사용하면 입력이 가능
# 그렇지만 범주형 인덱스를 사용한 의도에서 벗어난 것인지 주의가 필요함.
s.loc[5]=100

In [36]:
s

1      1
2      2
3    100
4      4
5    100
dtype: int64

## 비교 예제 3.15 범주형 데이터 생성

In [37]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [38]:
# 카테고리에서 벗어난 'd'의 값을 입력하면 에러 발생
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [39]:
# 카테고리 범위 내에 있는 값은 갱신가능
s[2] = 'b'
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [40]:
# 원래는 경계 값을 넘어서는 곳에 값을 쓰려고 하였기 때문에 에러가 발생해야 함(과거 버전에는 에러 발생)
# 하지만 현재는 생성이 되고 데이터 타입도 바뀌게 되므로 주의해야 함
# type도 object형으로 변경
try : 
    s[4] = 'c'
except Exception as e :
    print(e)

s

0    a
1    b
2    b
3    a
4    c
dtype: object

In [41]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [42]:
# 위와 같은 케이스는 loc를 적용하면 가능했던 케이스임, 하지만 타입이 바뀐다는 점 역시 주의를 해야함
s.loc[4] ='c'
s

0    a
1    b
2    c
3    a
4    c
dtype: object

In [43]:
# 기존이 시리즈에서 값 추가 할 경우
s = pd.Series(["a","b","c","a"])
s

0    a
1    b
2    c
3    a
dtype: object

In [44]:
my_list = ["a","b","c","a"]
my_list

['a', 'b', 'c', 'a']

In [45]:
my_list[0]

'a'

In [46]:
my_list[3]

'a'

In [47]:
# 에러발생 => 리스트에서 추가 X
my_list[4] = 'd'

IndexError: list assignment index out of range

In [None]:
# 기존이 시리즈에서 값 추가 할 경우
s = pd.Series(["a","b","c","a"])
s

##### 기존 시리즈에서의 확장방식과 비교

In [None]:
# 기존의 시리즈에서는 새로운 인덱스에 값을 할당하면 시리즈가 확장된다.
s[4] = 'd'
s

In [None]:
s = pd.Series([1,2,3,4])
s

In [None]:
s[4]=5
s

In [46]:
import pandas as pd

## 예제 4-9 멀티인덱스 생성 

#### 목적 : 데이터 검색, 관리등을 단일 인덱스보다 더 정교하게 처리하고싶은 경우에 활용

numpy 의 np.random. randint vs rand/randn
np.random.seed seed를 통한 난수 생성  
  
np.random.randint 균일 분포의 정수 난수 1개 생성  
np.random.rand 0부터 1사이의 균일 분포를 보이는 표준정규분포 난수 matrix array생성  
np.random.randn 평균0, 표준편차1의 표준 정규 분포에서 난수 matrix array생성  
  
* randint  
np.random.randint(6) # 0 or 1 or ~ or 5      0부터 5까지 랜덤한 숫자 1개   
5  
np.random.randint(1, 20) # 1부터 19까지 랜덤숫자 1개  
19
  
  
* rand  
np.random.rand(6)   
array([0.82374834, 0.03504426, 0.19848749, 0.47607174, 0.98983665, 0.63021609])  
np.random.rand(3,2)  
array([[0.21023055, 0.46075628],  
       [0.99993567, 0.29630209],  
       [0.79509783, 0.05405658]])  
         
* randn  
np.random.randn(6)  
array([ 0.42240858,  0.39214236, -0.05216362, -0.31037385, -1.75930161, 0.04749234])  
np.random.randn(3, 2)  
array([[ 1.65238965, -0.75137173],  
       [-1.59079976, -1.26309433],  
       [ 0.20991563,  2.23786713]])  

In [47]:
import numpy as np

In [48]:
ind = [
    ("강원도",2017),
    ("강원도",2018),
    ("강원도",2019),
    ("경기도",2017),
    ("경기도",2018),
    ("경기도",2019),
    ("서울", 2017), 
    ("서울", 2018),
    ("서울", 2019)    
]

In [49]:
# 멀티 인덱스
index = pd.MultiIndex.from_tuples(ind)

In [50]:
index

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           )

In [55]:
# 랜덤한 데이터를 9개 만든다.
s = pd.Series(np.random.randint(1,10,9),index=index)

In [56]:
s

강원도  2017    8
     2018    9
     2019    5
경기도  2017    9
     2018    8
     2019    1
서울   2017    7
     2018    2
     2019    5
dtype: int32

In [11]:
# 상위 인덱스를 통해서 모든 하위 인덱스 값을 바로 얻을 수 있다.
s['서울']

2017    3
2018    5
2019    9
dtype: int32

In [12]:
s['서울',2017]

3

In [13]:
s[('서울',2017)]

3

In [14]:
s.loc['서울']

2017    3
2018    5
2019    9
dtype: int32

In [15]:
# 멀티 인덱스일 경우에
# [상위인덱스,하위인덱스]
s[:,2017]

강원도    6
경기도    3
서울     3
dtype: int32

In [16]:
# 하위 인덱스를 통하여 모든 상위 인덱스에 적용 가능
s.loc[:,2017]

강원도    6
경기도    3
서울     3
dtype: int32

# array 조합을 통한 멀티인덱스 생성

In [17]:
import numpy as np

In [18]:
# 3가지 패턴 반복
    arrays = [
     np.array(['강원도','경기도','서울','강원도','경기도','서울','강원도','경기도','서울']),
     np.array([2017,2018,2019,2017,2018,2019,2017,2018,2019])
 ]
arrays

[array(['강원도', '경기도', '서울', '강원도', '경기도', '서울', '강원도', '경기도', '서울'],
       dtype='<U3'),
 array([2017, 2018, 2019, 2017, 2018, 2019, 2017, 2018, 2019])]

In [19]:
s = pd.Series(np.random.randn(9),index=arrays)
s

강원도  2017    0.414164
경기도  2018    0.539888
서울   2019    0.126786
강원도  2017    0.099209
경기도  2018    0.475193
서울   2019   -0.835168
강원도  2017   -0.738221
경기도  2018   -0.304612
서울   2019    0.992526
dtype: float64

In [20]:
s.index

MultiIndex([('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019)],
           )

In [23]:
# from_product 함수를 사용하게되면 상위인덱스, 하위인덱스의 모든 조합을 자동으로 생성해준다.
# names 인자에 멀티인덱스의 개념적인 이름을 리스트로 지정가능하다.
iterables = [['강원도','경기도','서울'],[2017,2018,2019]]
array2 = pd.MultiIndex.from_product(iterables, names=['행정구역','년도'])
array2

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           names=['행정구역', '년도'])

In [40]:
s = pd.Series(np.random.randn(9),index=array2)

In [41]:
s

행정구역  년도  
강원도   2017   -0.640872
      2018   -1.128341
      2019    0.160400
경기도   2017   -0.959825
      2018   -1.735409
      2019    1.381389
서울    2017    0.138272
      2018    2.566407
      2019   -1.608936
dtype: float64

In [26]:
df = pd.DataFrame(s,columns=['더조은 지수A'])

In [27]:
# 행정구역 , 년도 : 행의 인덱스
df

Unnamed: 0_level_0,Unnamed: 1_level_0,더조은 지수A
행정구역,년도,Unnamed: 2_level_1
강원도,2017,1.341841
강원도,2018,0.032133
강원도,2019,0.344807
경기도,2017,-0.552209
경기도,2018,1.094601
경기도,2019,-0.509577
서울,2017,-0.167856
서울,2018,0.188136
서울,2019,-2.275996


In [28]:
df.loc['서울']

Unnamed: 0_level_0,더조은 지수A
년도,Unnamed: 1_level_1
2017,-0.167856
2018,0.188136
2019,-2.275996


In [29]:
df.loc['강원도']

Unnamed: 0_level_0,더조은 지수A
년도,Unnamed: 1_level_1
2017,1.341841
2018,0.032133
2019,0.344807


In [30]:
df.loc[('경기도',2017),:]

더조은 지수A   -0.552209
Name: (경기도, 2017), dtype: float64

In [42]:
index = [('서울',2008),
         ('서울',2010),
         ('부산',2008),
         ('부산',2010),
         ('인천',2008),
         ('인천',2010)]

In [32]:
mul_index = pd.MultiIndex.from_tuples(index)

In [33]:
mul_index

MultiIndex([('서울', 2008),
            ('서울', 2010),
            ('부산', 2008),
            ('부산', 2010),
            ('인천', 2008),
            ('인천', 2010)],
           )

In [34]:
mul_index.values

array([('서울', 2008), ('서울', 2010), ('부산', 2008), ('부산', 2010),
       ('인천', 2008), ('인천', 2010)], dtype=object)

In [35]:
mul_index.value_counts()

(서울, 2008)    1
(서울, 2010)    1
(부산, 2008)    1
(부산, 2010)    1
(인천, 2008)    1
(인천, 2010)    1
dtype: int64

In [43]:
mul_index.levels

FrozenList([['부산', '서울', '인천'], [2008, 2010]])