In [165]:
import pandas as pd

## 예제 3-15 범주형 데이터 생성

In [186]:
# 범주형 데이터: 데이터의 특징, 속성등을 나타내는 데이터 => 데이터를 분류할 수 있다.
# 예) 성별: 남/여
# 예)지역: 경기도, 전라도, 경상도, 제주도..
# 예) 학년: 1학년, 2학년, 3학년
# 예) 반: 1반, 2반, 3반, 4반 ....
s = pd.Series(["a","b","c","a"], dtype="category")

In [187]:
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [188]:
s.shape

(4,)

In [189]:
s.values

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [190]:
s.values.categories

Index(['a', 'b', 'c'], dtype='object')

In [191]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [192]:
s.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [193]:
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [194]:
s[2] = 'b'

In [195]:
s

0    a
1    b
2    b
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

## 예제 3-16 범주형 데이터 클래스 이해하기

In [16]:
cat = pd.Categorical(['a','b','c'])

In [17]:
type(cat)

pandas.core.arrays.categorical.Categorical

In [18]:
cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [19]:
# Categorical 범주형 데이터는 values로 데이터가 조회되지 않는다. categories로만 접근 가능
cat.values

AttributeError: 'Categorical' object has no attribute 'values'

In [20]:
cat.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [21]:
s1 = pd.Series(["a","b","c","a"], dtype=cat.dtype)

In [22]:
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

## 예제 3-17 데이터프레임에서 범주형 자료형 처리

In [175]:
import numpy as np

In [176]:
cat_1 = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])

In [177]:
cat_1.dtype

CategoricalDtype(categories=['b', 'a', 'c'], ordered=False)

In [178]:
df = pd.DataFrame({"cat":cat_1, "s":["a", "c", "c", np.nan]})

In [179]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,,


In [180]:
df.select_dtypes(exclude=['object'])

Unnamed: 0,cat
0,a
1,c
2,c
3,


In [182]:
df['cat'][3] = 'b'

In [183]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,


In [185]:
df.loc[4,:] = ['a','a']

In [31]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,
4,a,a


In [33]:
df.loc[5,:] = [np.nan,'k']