In [222]:
import pandas as pd

## 예제 3-15 범주형 데이터 생성

In [223]:
# 범주형 데이터: 데이터의 특징, 속성등을 나타내는 데이터 => 데이터를 분류할 수 있다.
# 예) 성별: 남/여
# 예) 지역: 경기도,전라도,경상도,강원도등
# 예) 학년: 1학년, 2학년, 3학년
# 예) 학급: 1반, 2반, 3반, 4반...
s = pd.Series(["a","b","c","a"], dtype="category")

In [224]:
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [225]:
s.shape

(4,)

In [226]:
s.values

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [227]:
s.values.categories

Index(['a', 'b', 'c'], dtype='object')

In [228]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [229]:
s.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [230]:
# 기존의 카테고리에 새로운 카테고리를 추가할 수는 없다.
# ['a', 'b', 'c'] 카테고리가 있으므로 'd'카테고리 추가는 에러
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [231]:
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [232]:
s[2] = 'b'

In [233]:
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [234]:
try : 
    s[4] = 'c'
except Exception as e :
    print(e)

In [235]:
# loc로는 새로운 카테고리 추가가 가능

In [236]:
# 단, 기존 카테고리 범위를 넘어서는 행을 추가하면 카테고리는 해제된다
s.loc[4] ='c'

In [237]:
s

0    a
1    b
2    b
3    a
4    c
dtype: object

In [238]:
s.values

array(['a', 'b', 'b', 'a', 'c'], dtype=object)

## 예제 3-16 범주형 데이터 클래스 이해하기

In [166]:
# Categorical함수는 사용자정의 카테고리를 만들 수 있다
cat = pd.Categorical(['a','b','c'])

In [167]:
type(cat)

pandas.core.arrays.categorical.Categorical

In [168]:
cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [169]:
# Categorical 범주형 데이터는 values로 데이터가 조회되지 않는다. categories로만 접근 가능
cat.values

AttributeError: 'Categorical' object has no attribute 'values'

In [170]:
cat.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [171]:
s1 = pd.Series(["a","b","c","a"], dtype=cat.dtype)

In [172]:
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [174]:
s1.loc[4] = 'd'

In [175]:
s1

0    a
1    b
2    c
3    a
4    d
dtype: object

## 예제 3-17 데이터프레임에서 범주형 자료형 처리

In [31]:
import numpy as np

In [32]:
cat_1 = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])

In [33]:
cat_1.dtype

CategoricalDtype(categories=['b', 'a', 'c'], ordered=False)

In [34]:
df = pd.DataFrame({"cat":cat_1, "s":["a", "c", "c", np.nan]})

In [35]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,,


In [36]:
# exclude=['object'] 해당 데이터타입 제외
df.select_dtypes(exclude=['object'])

Unnamed: 0,cat
0,a
1,c
2,c
3,


In [37]:
df['cat'][3] = 'b'

In [38]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,


In [39]:
df.loc[4,:] = ['a','a']

In [40]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,
4,a,a


In [45]:
# NaN은 미정의 값이므로 카테고리에 추가 가능하다.
df.loc[5,:] = [np.nan,'k']

In [46]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,
4,a,a
5,,k


In [47]:
df.loc[5,:] = ['k','k']

TypeError: Cannot setitem on a Categorical with a new category (k), set the categories first