#### 범주형 데이터

In [135]:
import pandas as pd

data = {
    "Brand": [
        "Apple",
        "Samsung",
        "Apple",
        "Xiaomi",
        "Samsung",
        "Xiaomi",
        "Samsung",
    ],
    "Model": [
        "iphone15",
        "Galaxy24",
        "iphone16",
        "Redme15",
        "Galaxy23",
        "Redme14",
        "Galaxy25",
    ],
    "Release": [
        True,
        True,
        False,
        True,
        True,
        True,
        False,
    ],
}
df = pd.DataFrame(data)

print(df)

     Brand     Model  Release
0    Apple  iphone15     True
1  Samsung  Galaxy24     True
2    Apple  iphone16    False
3   Xiaomi   Redme15     True
4  Samsung  Galaxy23     True
5   Xiaomi   Redme14     True
6  Samsung  Galaxy25    False


In [136]:
#Brand열의 고유값을 출력
df["Brand"].unique()

array(['Apple', 'Samsung', 'Xiaomi'], dtype=object)

In [137]:
#nunique : 각 열의 고유값 개수 출력. 데이터 프레임에 적용
df.nunique()

Brand      3
Model      7
Release    2
dtype: int64

In [138]:
#value_counts : 고유값이 각각 몇개인지 개별 고유값의 개수 확인. 열에만 적용할 수 있고, 데이터 프레임에 적용 불가
df['Brand'].value_counts()
df['Release'].value_counts()
df['Model'].value_counts()

Model
iphone15    1
Galaxy24    1
iphone16    1
Redme15     1
Galaxy23    1
Redme14     1
Galaxy25    1
Name: count, dtype: int64

In [139]:
#normalize = True : 개별 고유값의 비중. 컬럼에서 고유값이 얼마나 차지하는지(%)
#value_count()의 nomalize인자 활용하여, True를 넣음으로서 열에 존재하는 고유값의 비중을 확인
df['Brand'].value_counts(normalize=True)

Brand
Samsung    0.428571
Apple      0.285714
Xiaomi     0.285714
Name: proportion, dtype: float64

#### 범주형 데이터 타입 (category)

In [140]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": [
            "하",
            "중",
            "상",
            "하",
            "상",
            "중",
            "하",
            "하하"
        ]
    }
)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   등급      8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes


In [141]:
#category 데이터 타입으로의 변환
#1. 데이터(범주) 리스트
#리스트 내부의 순서는 곧 범주형 데이터간 순서를 의미한다 (하하<하<중<상)
orders = ["하","중","상","하하"]

#2. 데이터 타입을 변환한 열
column = df["등급"]

#pd.Categorical()으로 변환
df["등급2"] = pd.Categorical(
    values=column, #데이터 타입을 변환할 열
    categories=orders, #사용할 범부형 데이터가 저장된 리스트
    ordered = True, #데이터가 크기 비교를 가능하게 함
)

In [142]:
df.sort_values(by="등급")

Unnamed: 0,등급,등급2
2,상,상
4,상,상
1,중,중
5,중,중
0,하,하
3,하,하
6,하,하
7,하하,하하


In [143]:
df.sort_values(by="등급2")

Unnamed: 0,등급,등급2
0,하,하
3,하,하
6,하,하
1,중,중
5,중,중
2,상,상
4,상,상
7,하하,하하


In [144]:
#ordered=True
df["등급2"] = pd.Categorical(
    values=column, 
    categories=orders,
    ordered = True,
)

#하<중
df.loc[0,"등급2"] < df.loc[1,"등급2"]

False

In [145]:
import pandas as pd

#파일을 읽어서, 데이터프레임을 생성한다.
car_df = pd.read_csv("./car_evaluation.csv")

In [146]:
#데이터프레임의 구조를 파악하기 위한 코드
car_df.head()

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [147]:
car_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   price              1728 non-null   object
 1   maintenance cost   1728 non-null   object
 2   number of doors    1728 non-null   object
 3   number of persons  1728 non-null   object
 4   lug boot           1728 non-null   object
 5   safety             1728 non-null   object
 6   class              1728 non-null   object
dtypes: object(7)
memory usage: 94.6+ KB


In [148]:
# 3. 각 열에 존재하는 고유값의 개수를 출력한다.
car_df.nunique()

price                4
maintenance cost     4
number of doors      4
number of persons    3
lug boot             3
safety               3
class                4
dtype: int64

In [149]:
# 4. 각 열에 존재하는 고유값 목록을 출력한다.
car_df['price'].unique()
car_df['maintenance cost'].unique()
car_df['number of doors'].unique()
car_df['number of persons'].unique()
car_df['lug boot'].unique()
car_df['safety'].unique()
car_df['class'].unique()

array(['unacc', 'acc', 'vgood', 'good'], dtype=object)

In [150]:
# 5. 각 열에 존재하는 고유값들의 비중을 출력한다.
car_df['price'].value_counts(normalize=True)
car_df['maintenance cost'].value_counts(normalize=True)
car_df['number of doors'].value_counts(normalize=True)
car_df['number of persons'].value_counts(normalize=True)
car_df['lug boot'].value_counts(normalize=True)
car_df['safety'].value_counts(normalize=True)
car_df['class'].value_counts(normalize=True)

class
unacc    0.700231
acc      0.222222
good     0.039931
vgood    0.037616
Name: proportion, dtype: float64

In [151]:
# 6. 아래 열들을 범주형 데이터 타입으로 변환한다. 또한, 아래 대소관계를 지켜야한다.
#     - `number of doors`  : 5more > 4 > 3 > 2
#     - `number of persons` : more > 4 > 2
#     - `price` : vhigh > high > med > low
#     - `class` : vgood > good > acc > unacc

# 1. 범주형 데이터 목록
# price의 순서
orders = ["low", "med", "high", "vhigh"]
# 2. 변환할 열
column = car_df["price"]
# 범주형 자료형 데이터 생성 후 기존 열 데이터 덮어쓰기
car_df["price"] = pd.Categorical(
    values=column,
    categories=orders,
    ordered=True,
)


# class의 순서
orders = ["unacc", "acc", "good", "vgood"]
column = car_df["class"]
car_df["class"] = pd.Categorical(
    values=column,
    categories=orders,
    ordered=True,
)

car_df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   price              1728 non-null   category
 1   maintenance cost   1728 non-null   object  
 2   number of doors    1728 non-null   object  
 3   number of persons  1728 non-null   object  
 4   lug boot           1728 non-null   object  
 5   safety             1728 non-null   object  
 6   class              1728 non-null   category
dtypes: category(2), object(5)
memory usage: 71.4+ KB


In [154]:
# by에는 기준 열
# ascending에는 오름차순/내림차순 여부
car_df.sort_values(by=['price','class'],ascending=[False, True])

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1700,low,low,4,more,big,high,vgood
1715,low,low,5more,4,med,high,vgood
1718,low,low,5more,4,big,high,vgood
1724,low,low,5more,more,med,high,vgood
