# 범주형 데이터


In [2]:
import pandas as pd

In [3]:
data = {
    "Brand": [
        "Apple",
        "Samsung",
        "Apple",
        "Xiaomi",
        "Samsung",
        "Xiaomi",
        "Samsung",
    ],
    "Model": [
        "iphone15",
        "Galaxy24",
        "iphone16",
        "Redme15",
        "Galaxy23",
        "Redme14",
        "Galaxy25",
    ],
    "Release": [
        True,
        True,
        False,
        True,
        True,
        True,
        False,
    ],
}
df = pd.DataFrame(data)
df

Unnamed: 0,Brand,Model,Release
0,Apple,iphone15,True
1,Samsung,Galaxy24,True
2,Apple,iphone16,False
3,Xiaomi,Redme15,True
4,Samsung,Galaxy23,True
5,Xiaomi,Redme14,True
6,Samsung,Galaxy25,False


- 고유값 확인 : .unique()


In [None]:
# .unique() : 특정 값의 UQ 값 출력, DF에 직접 적용할 수는 없고, 컬럼에 적용해야 함
df["Brand"].unique()

array(['Apple', 'Samsung', 'Xiaomi'], dtype=object)

- 고유값 개수 : .nunique(), .value_counts()


In [6]:
# 각 컬럼의 UQ 값 개수 출력, DF에 적용
df.nunique()

Brand      3
Model      7
Release    2
dtype: int64

In [13]:
# 개별 유니크 값의 수를 반환
df.value_counts().reset_index()
# df.value_counts()

Unnamed: 0,Brand,Model,Release,count
0,Apple,iphone15,True,1
1,Apple,iphone16,False,1
2,Samsung,Galaxy23,True,1
3,Samsung,Galaxy24,True,1
4,Samsung,Galaxy25,False,1
5,Xiaomi,Redme14,True,1
6,Xiaomi,Redme15,True,1


In [8]:
df["Brand"].value_counts()

Brand
Samsung    3
Apple      2
Xiaomi     2
Name: count, dtype: int64

In [10]:
# normalize=True : 개별 유니크 값의 비중을 반환
df["Brand"].value_counts(normalize=True)

Brand
Samsung    0.428571
Apple      0.285714
Xiaomi     0.285714
Name: proportion, dtype: float64

## 범주형 데이터 타입

### (1) 범주형 데이터 타입 `category`

- Pandas의 기본적인 문자열 데이터의 자료형은 `object` 이다.
- 하지만 Pandas는 범주형 데이터를 효율적으로 활용할 수 있는 데이터 타입 `category` 을 제공한다.

### (2) **범주형 데이터 타입 특징**

- **정렬 및 비교**
  - 순서가 있는 범주형 데이터는 자연스러운 순서를 가지고 있기 때문에 정렬과 비교가 가능해진다.
  - 예를 들어, '매우 불만족', '불만족', '보통', '만족', '매우 만족'과 같은 고객 만족도 수준을 순서대로 정렬할 수 있다.
- **효율적인 데이터 분석**
  - 순서형 데이터는 범주 간의 순서를 유지하면서 데이터 분석을 수행할 수 있어 데이터간 관계 이해를 돕는다.
- **문자열 자료형 `Object` 보다 높은 효율성**
  - 문자열 자료형에 비해 메모리 사용량이 적고, 연산의 속도가 더 빠르다.

### **(3) 범주형 데이터 변환**

**`pd.Categorical(values, categories, ordered)`** : 주로 변환해서 원하는 대로 데이터 크기를 비교하기 위함

> values

- 범주형 자료형으로 변환할 열

> categories

- 범주의 리스트. 데이터를 변환할 때 이 리스트에 따라 범주를 정의한다.
- 해당 리스트에 정의된 순서로 범주형 데이터의 순서를 결정한다.

> ordered

- 범주 데이터 간 크기 비교를 가능 여부를 결정한다.
- 기본값은 `False`
- `False` 일 경우 크기 비교를 통한 데이터 필터링을 할 수 없다.


In [22]:
df = pd.DataFrame(
    {
        "등급": [
            "하",
            "중",
            "상",
            "하",
            "상",
            "중",
            "하",
            "하하",
        ]
    }
)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   등급      8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes


Unnamed: 0,등급
0,하
1,중
2,상
3,하
4,상
5,중
6,하
7,하하


In [29]:
# category 데이터 타입으로의 변환
# 1. 데이터 (범주) 리스트
#  - 리스트 내부의 순서는 곧 범주형 데이터 간 순서를 의미
#    하 < 중 < 상
orders = ["하하", "하", "중", "상"]  # 순서가 생성 됨 (오름차순)
# orders = ["하", "중", "상", "하하"]

# 2. 데이터 타입을 변환할 컬럼
col = df["등급"]

# pd.Categorical() 활용 데이터 타입 변환
df["등급2"] = pd.Categorical(
    values=col,  # 데이터 타입을 변환 할 컬럼
    categories=orders,  # 사용할 범주형 데이터가 저장된 리스트
    ordered=True,  # 데이터 간 크기 비교를 가능하게 함
)

In [30]:
df.sort_values(by="등급")

Unnamed: 0,등급,등급2
2,상,상
4,상,상
1,중,중
5,중,중
0,하,하
3,하,하
6,하,하
7,하하,하하


In [31]:
df.sort_values(by="등급2")

Unnamed: 0,등급,등급2
7,하하,하하
0,하,하
3,하,하
6,하,하
1,중,중
5,중,중
2,상,상
4,상,상


In [40]:
# ordered=True or False
df["등급2"] = pd.Categorical(
    values=col,  # 데이터 타입을 변환 할 컬럼
    categories=orders,  # 사용할 범주형 데이터가 저장된 리스트
    ordered=True,  # 데이터 간 크기 비교를 가능하게 함
    # ordered=False,  # 데이터 간 크기 비교를 가능하게 함
)

# ordered=True일 때 데이터 간 크기 비교 가능 (False 시, 오류 발생)
df["등급2"] <= "중"
df[df["등급2"] <= "중"][["등급"]]

Unnamed: 0,등급
0,하
1,중
3,하
5,중
6,하
7,하하
