In [2]:
import pandas as pd

## 예제 3-15 범주형 데이터 생성

In [3]:
# 범주형 데이터 : 데이터의 특징, 속성등을 나타내는 데이터 => 데이터를 분류 할 수 있다.
# 예) 성별 : 남/여 지역 : 경기도/전라도/경상도 ...
# 예) 학년 : 1학년 2학년 3학년 .....
# 예) 반 : 1반 2반 3반 4반 ......
s = pd.Series(["a","b","c","a"], dtype="category")

In [4]:
# a,b,c로 분류 가능
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [5]:
s.shape

(4,)

In [6]:
s.values

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [7]:
s.values.categories

Index(['a', 'b', 'c'], dtype='object')

In [8]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
s.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [10]:
# 값을 변경하려는 시도를 할 때 에러가 발생한다.
try : 
    s[2] = 'd'
except Exception as e :
    print(e)

Cannot setitem on a Categorical with a new category (d), set the categories first


In [13]:
s[2] = 'b'

In [14]:
try : 
    s[4] = 'c'
except Exception as e :
    print(e)

In [15]:
# loc로는 새로운 카테고리 추가가 가능
s.loc[4] ='c'

In [17]:
s.loc[5] ='d'

In [26]:
s

0    a
1    b
2    b
3    a
4    c
5    d
dtype: object

In [27]:
s.values

array(['a', 'b', 'b', 'a', 'c', 'd'], dtype=object)

## 예제 3-16 범주형 데이터 클래스 이해하기

In [19]:
cat = pd.Categorical(['a','b','c'])

In [20]:
type(cat)

pandas.core.arrays.categorical.Categorical

In [21]:
cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [22]:
# Categorical 범주형 데이터는 values로 데이터가 조회되지 않는다. categories로만 접근 가능
cat.values

AttributeError: 'Categorical' object has no attribute 'values'

In [30]:
cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [23]:
cat.dtype

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [24]:
s1 = pd.Series(["a","b","c","a"], dtype=cat.dtype)

In [25]:
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

## 예제 3-17 데이터프레임에서 범주형 자료형 처리

In [36]:
import numpy as np

In [37]:
cat_1 = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])

In [38]:
cat_1.dtype

CategoricalDtype(categories=['b', 'a', 'c'], ordered=False)

In [39]:
df = pd.DataFrame({"cat":cat_1, "s":["a", "c", "c", np.nan]})

In [40]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,,


In [41]:
df.select_dtypes(exclude=['object'])

Unnamed: 0,cat
0,a
1,c
2,c
3,


In [42]:
df['cat'][3] = 'b'

In [None]:
df

In [31]:
df.loc[4,:] = ['a','a']

In [32]:
df

Unnamed: 0,cat,s
0,a,a
1,c,c
2,c,c
3,b,
4,a,a
