In [70]:
import pandas as pd

## 예제 4-8 범주형 인덱스 활용하기
* 데이터의 인덱스를 범주형으로 하겠다는 의미

In [71]:
inx_i = pd.CategoricalIndex([1,2,3,4])

In [72]:
# 데이터의 인덱스에 범주형 데이터와 매치
s = pd.Series([1,2,3,4],index=inx_i)

In [73]:
s

1    1
2    2
3    3
4    4
dtype: int64

In [74]:
s.index

CategoricalIndex([1, 2, 3, 4], categories=[1, 2, 3, 4], ordered=False, dtype='category')

In [75]:
s[3] = 100

In [76]:
s

1      1
2      2
3    100
4      4
dtype: int64

In [77]:
# 인덱스의 카테고리의 범위를 넘어선 지점에 값을 입력하려 하기 때문에 에러를 발생
try :
    s[5] = 100
except Exception as e :
    print(e)

index 5 is out of bounds for axis 0 with size 4


  s[5] = 100


In [78]:
# 하지만 loc를 사용하면 입력이 가능
# 그렇지만 범주형 인덱스를 사용한 의도에서 벗어난 것인지 주의가 필요함
s.loc[5]=100

In [79]:
s

1      1
2      2
3    100
4      4
5    100
dtype: int64

## 비교 예제 3.15 범주형 데이터 생성

In [80]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [81]:
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [82]:
s[2] = 'b'
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [83]:
# 원래는 경계 값을 넘어서는 곳에 값을 쓰려고 하였기 때문에 에러가 발생해야 함(과거 버전에는 에러 발생)
# 하지만 현재는 생성이 되고 데이터 타입도 바뀌게 되므로 주의해야 함
try : 
    s[4] = 'd'
except Exception as e :
    print(e)

s

0    a
1    b
2    b
3    a
4    d
dtype: object

In [84]:
s = pd.Series(["a","b","c","a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [85]:
# 위와 같은 케이스는 loc를 적용하면 가능했던 케이스임, 하지만 타입이 바뀐다는 점 역시 주의를 해야함
s.loc[4] ='d'
s

0    a
1    b
2    c
3    a
4    d
dtype: object

In [86]:
my_list=["a","b","c","a"]
my_list

['a', 'b', 'c', 'a']

In [87]:
my_list[0]

'a'

In [88]:
my_list[3]

'a'

In [89]:
my_list[4]

IndexError: list index out of range

In [90]:
# 기존이 시리즈에서 값 추가 할 경우
s = pd.Series(["a","b","c","a"])
s

0    a
1    b
2    c
3    a
dtype: object

##### 기존 시리즈에서의 확장방식과 비교

In [91]:
# 기존의 시리즈에서는 새로운 인덱스에 값을 할당하면 시리즈가 확장된다.
s[4] = 'd'
s

0    a
1    b
2    c
3    a
4    d
dtype: object

In [92]:
s = pd.Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [93]:
s[4]=5
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [94]:
import pandas as pd

## 예제 4-9 멀티인덱스 생성 
### 목적 : 데이터의 검색, 관리 등을 단일 인덱스 보다 더 정교하게 처리하고 싶은 경우에 활용

numpy 의 np.random. randint vs rand/randn
np.random.seed seed를 통한 난수 생성  
  
np.random.randint 균일 분포의 정수 난수 1개 생성  
np.random.rand 0부터 1사이의 균일 분포를 보이는 표준정규분포 난수 matrix array생성  
np.random.randn 평균0, 표준편차1의 표준 정규 분포에서 난수 matrix array생성  
  
* randint  
np.random.randint(6) # 0 or 1 or ~ or 5      0부터 5까지 랜덤한 숫자 1개   
5  
np.random.randint(1, 20) # 1부터 19까지 랜덤숫자 1개  
19
  
  
* rand  
np.random.rand(6)   
array([0.82374834, 0.03504426, 0.19848749, 0.47607174, 0.98983665, 0.63021609])  
np.random.rand(3,2)  
array([[0.21023055, 0.46075628],  
       [0.99993567, 0.29630209],  
       [0.79509783, 0.05405658]])  
         
* randn  
np.random.randn(6)  
array([ 0.42240858,  0.39214236, -0.05216362, -0.31037385, -1.75930161, 0.04749234])  
np.random.randn(3, 2)  
array([[ 1.65238965, -0.75137173],  
       [-1.59079976, -1.26309433],  
       [ 0.20991563,  2.23786713]])  

In [95]:
import numpy as np

In [96]:
ind = [
    ("강원도",2017),
    ("강원도",2018),
    ("강원도",2019),
    ("경기도",2017),
    ("경기도",2018),
    ("경기도",2019),
    ("서울", 2017), 
    ("서울", 2018),
    ("서울", 2019)    
]

In [97]:
 si['서울',2017]

NameError: name 'si' is not defined

In [98]:
si[('서울',2017)]

NameError: name 'si' is not defined

In [109]:
index = pd.MultiIndex.from_tuples(ind)

In [110]:
index

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           )

In [111]:
s = pd.Series(np.random.randint(1,10,9),index=index)

In [112]:
s

강원도  2017    7
     2018    8
     2019    3
경기도  2017    4
     2018    1
     2019    4
서울   2017    1
     2018    6
     2019    1
dtype: int32

In [113]:
# 상위 인덱스를 통해서 모든 하위 인덱스 값을 바로 얻을 수 있다.
s['서울']

2017    1
2018    6
2019    1
dtype: int32

In [114]:
s['서울',2017]

1

In [115]:
s[('서울',2017)]

1

In [116]:
s.loc['서울']

2017    1
2018    6
2019    1
dtype: int32

멀티 인덱스 경우  
[상위계층,하위계층]  
하위 인덱스를 통하여 모든 상위인덱스에 적용 가능

In [117]:
s[:,2017]

강원도    7
경기도    4
서울     1
dtype: int32

In [118]:
s.loc[:,2017]

강원도    7
경기도    4
서울     1
dtype: int32

## array 조합을 통한 멀티인덱스 생성

In [119]:
import numpy as np

In [120]:
 arrays = [
     np.array(['강원도','경기도','서울','강원도','경기도','서울','강원도','경기도','서울']),
     np.array([2017,2018,2019,2017,2018,2019,2017,2018,2019])
 ]
arrays

[array(['강원도', '경기도', '서울', '강원도', '경기도', '서울', '강원도', '경기도', '서울'],
       dtype='<U3'),
 array([2017, 2018, 2019, 2017, 2018, 2019, 2017, 2018, 2019])]

In [121]:
s = pd.Series(np.random.randn(9),index=arrays)
s

강원도  2017   -0.159991
경기도  2018    0.319901
서울   2019    0.086457
강원도  2017    1.785946
경기도  2018    0.203142
서울   2019   -1.305281
강원도  2017   -0.519078
경기도  2018   -0.951254
서울   2019    0.401777
dtype: float64

In [122]:
s.index

MultiIndex([('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019),
            ('강원도', 2017),
            ('경기도', 2018),
            ( '서울', 2019)],
           )

In [124]:
# from_product 함수를 사용하게 되면 상위인덱스, 하위인덱스의 모든 조합을 자동으로 생성해 준다.
# names 인자에 멀티인덱스의 개념적인 이름을 리스트로 지정가능하다
iterables = [['강원도','경기도','서울'],[2017,2018,2019]]
arrays2 = pd.MultiIndex.from_product(iterables, names=['행정구역','년도']) # 행의 인덱스 이름
arrays2

MultiIndex([('강원도', 2017),
            ('강원도', 2018),
            ('강원도', 2019),
            ('경기도', 2017),
            ('경기도', 2018),
            ('경기도', 2019),
            ( '서울', 2017),
            ( '서울', 2018),
            ( '서울', 2019)],
           names=['행정구역', '년도'])

In [125]:
s = pd.Series(np.random.randn(9),index=arrays2)

In [126]:
s

행정구역  년도  
강원도   2017   -0.502831
      2018    2.622383
      2019    1.793961
경기도   2017   -1.664427
      2018   -0.376304
      2019   -0.814080
서울    2017    0.188831
      2018   -1.172526
      2019   -0.962638
dtype: float64

In [127]:
df = pd.DataFrame(s,columns=['더조은 지수A'])

In [128]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,더조은 지수A
행정구역,년도,Unnamed: 2_level_1
강원도,2017,-0.502831
강원도,2018,2.622383
강원도,2019,1.793961
경기도,2017,-1.664427
경기도,2018,-0.376304
경기도,2019,-0.81408
서울,2017,0.188831
서울,2018,-1.172526
서울,2019,-0.962638


In [129]:
df.loc['서울']

Unnamed: 0_level_0,더조은 지수A
년도,Unnamed: 1_level_1
2017,0.188831
2018,-1.172526
2019,-0.962638


In [130]:
df.loc['강원도']

Unnamed: 0_level_0,더조은 지수A
년도,Unnamed: 1_level_1
2017,-0.502831
2018,2.622383
2019,1.793961


In [131]:
df.loc[('경기도',2017),:]

더조은 지수A   -1.664427
Name: (경기도, 2017), dtype: float64

In [132]:
index = [
    ('서울',2008),
    ('서울',2010),
    ('부산',2008),
    ('부산',2010),
    ('인천',2008),
    ('인천',2010)
]

In [133]:
mul_index = pd.MultiIndex.from_tuples(index)

In [134]:
mul_index

MultiIndex([('서울', 2008),
            ('서울', 2010),
            ('부산', 2008),
            ('부산', 2010),
            ('인천', 2008),
            ('인천', 2010)],
           )

In [135]:
mul_index.values

array([('서울', 2008), ('서울', 2010), ('부산', 2008), ('부산', 2010),
       ('인천', 2008), ('인천', 2010)], dtype=object)

In [136]:
mul_index.value_counts()

(서울, 2008)    1
(서울, 2010)    1
(부산, 2008)    1
(부산, 2010)    1
(인천, 2008)    1
(인천, 2010)    1
dtype: int64

In [137]:
mul_index.levels

FrozenList([['부산', '서울', '인천'], [2008, 2010]])