In [14]:
# 06_categorical.ipynb

In [15]:
import pandas as pd

data = {
    "Brand": [
        "Apple",
        "Samsung",
        "Apple",
        "Xiaomi",
        "Samsung",
        "Xiaomi",
        "Samsung",
    ],
    "Model": [
        "iphone15",
        "Galaxy24",
        "iphone16",
        "Redme15",
        "Galaxy23",
        "Redme14",
        "Galaxy25",
    ],
    "Release": [
        True,
        True,
        False,
        True,
        True,
        True,
        False,
    ],
}
df = pd.DataFrame(data)

print(df)

     Brand     Model  Release
0    Apple  iphone15     True
1  Samsung  Galaxy24     True
2    Apple  iphone16    False
3   Xiaomi   Redme15     True
4  Samsung  Galaxy23     True
5   Xiaomi   Redme14     True
6  Samsung  Galaxy25    False


In [16]:
# Brand 열의 고유값을 출력
df["Brand"].unique()

array(['Apple', 'Samsung', 'Xiaomi'], dtype=object)

In [17]:
# 모든 열의 고유값 개수 출력
# 데이터프레임에 적용
df.nunique()

Brand      3
Model      7
Release    2
dtype: int64

In [18]:
# 개별 고유값의 개수
# 열에만 적용할 수 있다.
df["Model"].value_counts()

Model
iphone15    1
Galaxy24    1
iphone16    1
Redme15     1
Galaxy23    1
Redme14     1
Galaxy25    1
Name: count, dtype: int64

In [19]:
# 개별 고유값의 비중
# value_counts()의
# normalize 인자

df["Brand"].value_counts(normalize=True)

Brand
Samsung    0.428571
Apple      0.285714
Xiaomi     0.285714
Name: proportion, dtype: float64

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Brand    7 non-null      object
 1   Model    7 non-null      object
 2   Release  7 non-null      bool  
dtypes: bool(1), object(2)
memory usage: 251.0+ bytes


In [25]:
import pandas as pd

df = pd.DataFrame({"등급": ["하", "중", "상", "하", "상", "중", "하", "하하"]})
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   등급      8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes


Unnamed: 0,등급
0,하
1,중
2,상
3,하
4,상
5,중
6,하
7,하하


In [34]:
# category 데이터 타입으로의 변환
# 1. 데이터(범주) 리스트
# 리스트 내부의 순서는 곧 범주형 데이터간 순서를 의미
# 하하 < 하 < 중 < 상
orders = ["하하", "하", "중", "상"]

# 2. 데이터 타입을 변환할 열
column = df["등급"]

# pd.Categorical() 활용 데이터 타입 변환
df["등급2"] = pd.Categorical(
    values=column,  # 데이터 타입을 변환할 열
    categories=orders,  # 사용할 범주형 데이터가 저장된 리스트
    ordered=True,  # 데이터간 크기 비교를 가능하게 함.
)

condition = df["등급2"] <= "중"
df.loc[condition]

#등급2를 등급으로 바꾸면 범주형으로 바뀜? (이건 내가 공부하면서 알아낸 것)

Unnamed: 0,등급,등급2
0,하,하
1,중,중
3,하,하
5,중,중
6,하,하


In [23]:
# 일반적인 문자열 비교
# df.loc['등급2',0] <  df.loc['등급2',1]

In [24]:
# category 데이터 타입으로의 변환
# 1. 데이터(범주) 리스트
# 리스트 내부의 순서는 곧 범주형 데이터간 순서를 의미
# 하하 < 하 < 중 < 상
orders = ["하하", "하", "중", "상"]

# 2. 데이터 타입을 변환할 열
column = df["등급"]

# pd.Categorical() 활용 데이터 타입 변환
df["등급2"] = pd.Categorical(
    values=column,  # 데이터 타입을 변환할 열
    categories=orders,  # 사용할 범주형 데이터가 저장된 리스트
    ordered=False,  # 데이터간 크기 비교를 가능하게 함.
)

# ordered=False라서 오류가 발생
condition = df["등급2"] <= "중"
df.loc[condition]

TypeError: Unordered Categoricals can only compare equality or not

In [37]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": [
            "하",
            "중",
            "상",
            "하",
            "상",
            "중",
            "하",
        ]
    }
)

df_categorical = pd.DataFrame(df["등급"])

# 사용자 정의 범주 리스트
# 리스트 값 순서대로 범주형 데이터의 순서가 정해진다.
# 현재 순서는 하 < 중 < 상
grade_order = ["하", "중", "상"]

df_categorical["등급"] = pd.Categorical(
    # 범주형 데이터 타입으로 변환 할 열
    values=df_categorical["등급"],
    # 범주형 데이터 간 순서 부여
    categories=grade_order,
    # 범주 데이터 간 크기 비교 가능
    ordered=True,
)

In [36]:
df_categorical["등급"] = pd.Categorical(
    values=df_categorical["등급"],
    categories=grade_order,
    ordered=True,
)

# ordered=True의 경우
# 크기 비교를 통한 필터링이 가능한다.
condition = df_categorical["등급"] <= "중"
df.loc[condition]

Unnamed: 0,등급
0,하
1,중
3,하
5,중
6,하


In [104]:
df_categorical["등급"] = pd.Categorical(
    values=df_categorical["등급"],
    categories=grade_order,
    ordered=False,
)

# ordered=False의 경우
# 크기 비교를 통한 필터링이 불가능한다.
condition = df_categorical["등급"] <= "중"
df.loc[condition]

TypeError: Unordered Categoricals can only compare equality or not

In [105]:
df = pd.read_csv("car_evaluation.csv")
df

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1723,low,low,5more,more,med,med,good
1724,low,low,5more,more,med,high,vgood
1725,low,low,5more,more,big,low,unacc
1726,low,low,5more,more,big,med,good


In [106]:
df.head()

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [107]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   price              1728 non-null   object
 1   maintenance cost   1728 non-null   object
 2   number of doors    1728 non-null   object
 3   number of persons  1728 non-null   object
 4   lug boot           1728 non-null   object
 5   safety             1728 non-null   object
 6   class              1728 non-null   object
dtypes: object(7)
memory usage: 94.6+ KB


In [108]:
# 각 열에 존재하는 고유값 개수
df.nunique()

price                4
maintenance cost     4
number of doors      4
number of persons    3
lug boot             3
safety               3
class                4
dtype: int64

In [110]:
df["price"].unique()
df["class"].unique()

array(['unacc', 'acc', 'vgood', 'good'], dtype=object)

In [113]:
df["price"].value_counts(normalize=True)
df["class"].value_counts(normalize=True)

class
unacc    0.700231
acc      0.222222
good     0.039931
vgood    0.037616
Name: proportion, dtype: float64

In [115]:
# 범주형 자료형으로 변환
# 1. 범주형 데이터 목록
# price의 순서
orders = ["low", "med", "high", "vhigh"]
# 2. 변환할 열
column = df["price"]

# 범주형 자로형 데이터 생성 후
# 기존 열 데이터 덮어쓰기
df["price"] = pd.Categorical(
    values=column,
    categories=orders,
    ordered=True,
)

In [116]:
# 범주형 자료형으로 변환
# 1. 범주형 데이터 목록
# class의 순서
orders = ["unacc", "acc", "good", "vgood"]
# 2. 변환할 열
column = df["class"]

# 범주형 자로형 데이터 생성 후
# 기존 열 데이터 덮어쓰기
df["class"] = pd.Categorical(
    values=column,
    categories=orders,
    ordered=True,
)

In [117]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   price              1728 non-null   category
 1   maintenance cost   1728 non-null   object  
 2   number of doors    1728 non-null   object  
 3   number of persons  1728 non-null   object  
 4   lug boot           1728 non-null   object  
 5   safety             1728 non-null   object  
 6   class              1728 non-null   category
dtypes: category(2), object(5)
memory usage: 71.4+ KB


In [118]:
# sort_values() 활용 정렬
# 조건 열이 2개 이상은
# by 에 리스트를 입력
df.sort_values(by=["class", "price"], ascending=[False, True])

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
1421,low,high,2,4,big,high,vgood
1430,low,high,2,more,big,high,vgood
1448,low,high,3,4,big,high,vgood
1454,low,high,3,more,med,high,vgood
1457,low,high,3,more,big,high,vgood
...,...,...,...,...,...,...,...
420,vhigh,low,5more,4,big,low,unacc
423,vhigh,low,5more,more,small,low,unacc
424,vhigh,low,5more,more,small,med,unacc
426,vhigh,low,5more,more,med,low,unacc


In [119]:
# by 에는 기준 열
# ascending 에는 오름차순/내림차순 여부
df.sort_values(by=["price", "class"], ascending=[False, True])

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1700,low,low,4,more,big,high,vgood
1715,low,low,5more,4,med,high,vgood
1718,low,low,5more,4,big,high,vgood
1724,low,low,5more,more,med,high,vgood
