<a href="https://colab.research.google.com/github/weepingwillow2001/data_analysis_practice/blob/main/7%EC%9E%A5/7_5_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 필요한 모듈 불러오기
import pandas as pd
import numpy as np

In [2]:
# 카테고리형 데이터 생성
s = pd.Series(['a', 'b', 'c', 'd'] * 2)  # 문자열 시리즈 생성
cat_s = s.astype('category')  # 카테고리 타입으로 변환

In [3]:
# 카테고리형 데이터 확인
print(cat_s)


0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']


In [None]:
# .cat은 pandas에서 카테고리형(categorical) 데이터를 다룰 때 사용하는 "접근자"(accessor)입니다.

# .cat.rename_categories(): 카테고리 이름 변경
# .cat.reorder_categories(): 카테고리 순서 변경
# .cat.add_categories(): 새 카테고리 추가

In [4]:
# 카테고리 코드 확인
print(cat_s.cat.codes)
# a: 0, b: 1, c: 2, d: 3

0    0
1    1
2    2
3    3
4    0
5    1
6    2
7    3
dtype: int8


In [5]:
# 카테고리 목록 확인
print(cat_s.cat.categories)


Index(['a', 'b', 'c', 'd'], dtype='object')


In [8]:
# 새로운 카테고리 목록 설정
# 이 데이터의 실제 범주가 데이터에서 관측된 내 종류를 "넘어서는 것"을 의미하고 있다고 가정
# 이 경우 "set_categories" 메서드를 이용해서 "변경"할 수 있다
actual_categories = ['a', 'b', 'c', 'd', 'e']
cat_s2 = cat_s.cat.set_categories(actual_categories)


In [9]:
# 변경된 카테고리 확인
print(cat_s2)
# 출력: 카테고리가 5개로 늘어남
# Categories (5, object): ['a', 'b', 'c', 'd', 'e']

0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
dtype: category
Categories (5, object): ['a', 'b', 'c', 'd', 'e']


In [10]:
# 데이터는 변하지 않았지만 새로운 범주가 추가되었다
# value_counts를 호출하면 범주의 빈도를 각 확인할 수 있다
print(cat_s.value_counts())


a    2
b    2
c    2
d    2
Name: count, dtype: int64


In [11]:
print(cat_s2.value_counts())
# 출력: 각 카테고리 값의 빈도수. cat_s2에는 'e'가 0!!개로 표시됨

a    2
b    2
c    2
d    2
e    0
Name: count, dtype: int64


In [15]:
cat_s.isin(['a', 'b'])

Unnamed: 0,0
0,True
1,True
2,False
3,False
4,True
5,True
6,False
7,False


In [12]:
# 특정 카테고리만 필터링
cat_s3 = cat_s[cat_s.isin(['a', 'b'])]
print(cat_s3)
# 출력: 'a'와 'b' 값만 포함된 시리즈


0    a
1    b
4    a
5    b
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']


In [13]:
# 사용되지 않는 카테고리 제거: remove_unused_categories()
print(cat_s3.cat.remove_unused_categories())
# 출력: 사용되지 않는 'c'와 'd' 카테고리가 제거됨


0    a
1    b
4    a
5    b
dtype: category
Categories (2, object): ['a', 'b']


In [14]:
# 더미 변수 생성하기
# 통계나 머신러닝 도구를 사용하다 보면 범주형 데이터를 원-핫 인코딩이라고 부르는
# 더미 변수(가변수)로 변환해야 하는 경우가 있다
cat_s = pd.Series(['a', 'b', 'c', 'd'] * 2, dtype='category')

# pandas.get_dummies 함수는 1차원 범주형 데이터를 더미 변수를 가진 "DataFrame으로 변환"
print(pd.get_dummies(cat_s, dtype=float))
# 출력: 원-핫 인코딩된 데이터프레임

     a    b    c    d
0  1.0  0.0  0.0  0.0
1  0.0  1.0  0.0  0.0
2  0.0  0.0  1.0  0.0
3  0.0  0.0  0.0  1.0
4  1.0  0.0  0.0  0.0
5  0.0  1.0  0.0  0.0
6  0.0  0.0  1.0  0.0
7  0.0  0.0  0.0  1.0
