In [21]:
import pandas as pd

## 예제 3-15 범주형 데이터 생성

범주형 데이터 : 데이터 특징, 속성 등을 나타내는 데이터  
데이터를 분류할 수 있다.  
예시)  
성별 : 남, 여  
지역 : 경기도, 전라도, 경상도, 제주도..  
학년 : 1학년, 2학년, 3학년..  
반 : 1반, 2반, 3반, 4반..

dtype = 'category'  
value 별로 카테고리 나눔

In [22]:
s = pd.Series(['a','b','c','a'], dtype = 'category')
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [23]:
s.shape

(4,)

In [24]:
s.values

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

categories => 카테고리만 나옴

In [25]:
s.values.categories

Index(['a', 'b', 'c'], dtype='object')

In [26]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [27]:
s.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

카테고리에 포함되어 있는 value 로는 이미 작성되어 있는 인덱스를 수정 할 수 있다.

In [28]:
try : 
    s[2] = 'b'
except Exception as e :
    print(e)

In [29]:
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

새로운 인덱스를 추가할 때에는 카테고리에 포함되어 있는 value 나 없는 value 로도 가능  
단, dtype 이 카테고리에서 다른걸로 변경됨

In [30]:
try : 
    s[4] = 'a'
except Exception as e :
    print(e)

In [31]:
s

0    a
1    b
2    b
3    a
4    a
dtype: object

loc[ ] 로도 추가 가능  
마찬가지로 dtype 이 카테고리에서 다른걸로 변경됨

In [33]:
s.loc[5] = 'e'
s

0    a
1    b
2    b
3    a
4    a
5    e
dtype: object

## 예제 3-16 범주형 데이터 클래스 이해하기

Categorical 로 직접 카테고리 만들 수 있음  
Categorical(['a','b','c']) => 초기값 설정만 하고  
categories 설정 안하면 초기값이 categories 로 설정됨

In [34]:
cat = pd.Categorical(['a','b','c'])

In [35]:
type(cat)

pandas.core.arrays.categorical.Categorical

In [36]:
cat.categories

Index(['a', 'b', 'c'], dtype='object')

Categorical 범주셩 데이터는 values 로 데이터가 조회되지 않는다.  
categories 로만 접근 가능

In [38]:
cat.values

AttributeError: 'Categorical' object has no attribute 'values'

In [39]:
cat.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [40]:
s1 = pd.Series(["a","b","c","a"], dtype=cat.dtype)
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

## 예제 3-17 데이터프레임에서 범주형 자료형 처리

In [41]:
import numpy as np

In [42]:
cat_1 = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])
cat_1

['a', 'c', 'c', NaN]
Categories (3, object): ['b', 'a', 'c']

In [43]:
cat_1.dtype

CategoricalDtype(categories=['b', 'a', 'c'], ordered=False)

In [44]:
df = pd.DataFrame({'cat':cat_1,'s':["a", "c", "c", np.nan]})
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,,


exclude => 제외

In [45]:
df.select_dtypes(exclude=['object'])

Unnamed: 0,cat
0,a
1,c
2,c
3,


In [46]:
df['cat'][3] = 'b'
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,


In [47]:
df.loc[4, : ] = ['a','a']
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,
4,a,a
