In [1]:
import pandas as pd

data = {
    "Brand": [
        "Apple",
        "Samsung",
        "Apple",
        "Xiaomi",
        "Samsung",
        "Xiaomi",
        "Samsung",
    ],
    "Model": [
        "iphone15",
        "Galaxy24",
        "iphone16",
        "Redme15",
        "Galaxy23",
        "Redme14",
        "Galaxy25",
    ],
    "Release": [
        True,
        True,
        False,
        True,
        True,
        True,
        False,
    ],
}
df = pd.DataFrame(data)

print(df)

     Brand     Model  Release
0    Apple  iphone15     True
1  Samsung  Galaxy24     True
2    Apple  iphone16    False
3   Xiaomi   Redme15     True
4  Samsung  Galaxy23     True
5   Xiaomi   Redme14     True
6  Samsung  Galaxy25    False


In [2]:
# Brand 열의 고유값을 출력
df['Brand'].unique()

array(['Apple', 'Samsung', 'Xiaomi'], dtype=object)

In [3]:
# 각 열의 고유값 개수 출력 
# 데이터프레임에 적용

df.nunique()

Brand      3
Model      7
Release    2
dtype: int64

In [5]:
# 개별 고유값의 개수
# 열에만 적용할 수 있다.
df["Model"].value_counts()

iphone15    1
Galaxy24    1
iphone16    1
Redme15     1
Galaxy23    1
Redme14     1
Galaxy25    1
Name: Model, dtype: int64

In [6]:
# 개별 고유값의 비중 
# value_counts()의 normalize 인자
df['Brand'].value_counts(normalize=True)

Samsung    0.428571
Apple      0.285714
Xiaomi     0.285714
Name: Brand, dtype: float64

In [27]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": [
            "하",
            "중",
            "상",
            "하",
            "상",
            "중",
            "하",
            "하하"
        ]
    }
)

df

Unnamed: 0,등급
0,하
1,중
2,상
3,하
4,상
5,중
6,하
7,하하


In [29]:
# category 데이터 타입으로의 변환
# 1. 데이터(범주)리스트 
# 리스트 내부의 순서는 곧 범주형 데이터간 순서를 의미 
# 하 < 중 < 상
orders = ["하하","하","중","상"]

# 2. 데이터 타입을 변환할 열 
column = df['등급']

column
# pd.Categorical() 활용 데이터 타입 변환
df['등급2'] = pd.Categorical(
    values = column, # 데이터 타입을 변환할 열
    categories= orders, # 사용할 범주형 데이터가 저장된 리스트
    ordered = True, # 데이터간 크기 비교를 가능하게 함
)

In [30]:
df.sort_values(by='등급')

Unnamed: 0,등급,등급2
2,상,상
4,상,상
1,중,중
5,중,중
0,하,하
3,하,하
6,하,하
7,하하,하하


In [31]:
df.sort_values(by = '등급2')

Unnamed: 0,등급,등급2
7,하하,하하
0,하,하
3,하,하
6,하,하
1,중,중
5,중,중
2,상,상
4,상,상


In [40]:
# ordered = True 
df['등급2'] = pd.Categorical(
    values = column, # 데이터 타입을 변환할 열
    categories= orders, # 사용할 범주형 데이터가 저장된 리스트
    ordered = True, # 데이터간 크기 비교를 가능하게 함
)

# 일반적인 문자열 비교
# df.loc[0,"등급2"] < df.loc[1,"등급2"]

condition = df['등급2'] <= '중'
df.loc[condition]

Unnamed: 0,등급,등급2
0,하,하
1,중,중
3,하,하
5,중,중
6,하,하
7,하하,하하


In [41]:
# ordered = False
df['등급2'] = pd.Categorical(
    values = column, # 데이터 타입을 변환할 열
    categories= orders, # 사용할 범주형 데이터가 저장된 리스트
    ordered = False, # 데이터간 크기 비교 불가능 
)

condition = df['등급2'] <= '중'
df.loc[condition]

TypeError: Unordered Categoricals can only compare equality or not

### 실습
2. 데이터프레임의 구조를 파악하기 위한 코드를 3개 이상 작성한다.
    - 예시) `DataFrame.head()`
3. 각 열에 존재하는 고유값의 개수를 출력한다.
4. 각 열에 존재하는 고유값 목록을 출력한다.
5. 각 열에 존재하는 고유값들의 비중을 출력한다.
6. 아래 열들을 범주형 데이터 타입으로 변환한다. 또한, 아래 대소관계를 지켜야한다.
    - `number of doors`  : 5more > 4 > 3 > 2
    - `number of persons` : more > 4 > 2
    - `price` : vhigh > high > med > low
    - `class` : vgood > good > acc > unacc
7. `class` 기준 내림차순 `price` 기준 오름차순으로 정렬하고, 출력한다.
8. `price` 기준 오름차순 `class` 기준 내림차순으로 정렬하고, 출력한다.

In [7]:
car_df = pd.read_csv('./data/car_evaluation.csv')
car_df

Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1723,low,low,5more,more,med,med,good
1724,low,low,5more,more,med,high,vgood
1725,low,low,5more,more,big,low,unacc
1726,low,low,5more,more,big,med,good


In [11]:
# 2. 데이터프레임의 구조를 파악하기 위한 코드를 3개 이상 작성한다.
#     - 예시) `DataFrame.head()`
car_df.head()
car_df.info()
car_df.tail()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   price              1728 non-null   object
 1   maintenance cost   1728 non-null   object
 2   number of doors    1728 non-null   object
 3   number of persons  1728 non-null   object
 4   lug boot           1728 non-null   object
 5   safety             1728 non-null   object
 6   class              1728 non-null   object
dtypes: object(7)
memory usage: 94.6+ KB


Unnamed: 0,price,maintenance cost,number of doors,number of persons,lug boot,safety,class
1723,low,low,5more,more,med,med,good
1724,low,low,5more,more,med,high,vgood
1725,low,low,5more,more,big,low,unacc
1726,low,low,5more,more,big,med,good
1727,low,low,5more,more,big,high,vgood


In [58]:
# 3. 각 열에 존재하는 고유값의 개수를 출력한다.
car_df.nunique()

price                4
maintenance cost     4
number of doors      4
number of persons    3
lug boot             3
safety               3
class                4
dtype: int64

In [57]:
# 4. 각 열에 존재하는 고유값 목록을 출력한다.
car_df['price'].unique()
car_df['number of doors'].unique()
car_df['number of persons'].unique()
car_df['class'].unique()

['unacc', 'acc', 'vgood', 'good']
Categories (4, object): ['unacc' < 'acc' < 'good' < 'vgood']

In [37]:
# 5. 각 열에 존재하는 고유값들의 비중을 출력한다.
car_df['price'].value_counts(normalize = True)

vhigh    0.25
high     0.25
med      0.25
low      0.25
Name: price, dtype: float64

In [38]:
# 6. 아래 열들을 범주형 데이터 타입으로 변환한다. 또한, 아래 대소관계를 지켜야한다.
#     - `number of doors`  : 5more > 4 > 3 > 2
#     - `number of persons` : more > 4 > 2
#     - `price` : vhigh > high > med > low
#     - `class` : vgood > good > acc > unacc

In [None]:
# number of doors
car_df['number of doors'] = pd.Categorical(
    car_df['number of doors'],
    categories=['2', '3', '4', '5more'],
    ordered=True
)

# number of persons
car_df['number of persons'] = pd.Categorical(
    car_df['number of persons'],
    categories=['2', '4', 'more'],
    ordered=True
)

In [59]:
# price
car_df['price'] = pd.Categorical(
    values=car_df['price'],
    categories=['low', 'med', 'high', 'vhigh'],
    ordered=True
)

# class
car_df['class'] = pd.Categorical(
    values=car_df['class'],
    categories=['unacc', 'acc', 'good', 'vgood'],
    ordered=True
)

In [60]:
# 7. `class` 기준 내림차순 `price` 기준 오름차순으로 정렬하고, 출력한다.
sorted_df = car_df.sort_values(by=['class', 'price'], ascending=[False, True])
print(sorted_df)

      price maintenance cost number of doors number of persons lug boot  \
1421    low             high               2                 4      big   
1430    low             high               2              more      big   
1448    low             high               3                 4      big   
1454    low             high               3              more      med   
1457    low             high               3              more      big   
...     ...              ...             ...               ...      ...   
420   vhigh              low           5more                 4      big   
423   vhigh              low           5more              more    small   
424   vhigh              low           5more              more    small   
426   vhigh              low           5more              more      med   
429   vhigh              low           5more              more      big   

     safety  class  
1421   high  vgood  
1430   high  vgood  
1448   high  vgood  
1454   high  vg

In [61]:
# 8. `price` 기준 오름차순 `class` 기준 내림차순으로 정렬하고, 출력한다.
sorted_df = car_df.sort_values(by=['price', 'class'], ascending=[True, False])
print(sorted_df)

      price maintenance cost number of doors number of persons lug boot  \
1421    low             high               2                 4      big   
1430    low             high               2              more      big   
1448    low             high               3                 4      big   
1454    low             high               3              more      med   
1457    low             high               3              more      big   
...     ...              ...             ...               ...      ...   
420   vhigh              low           5more                 4      big   
423   vhigh              low           5more              more    small   
424   vhigh              low           5more              more    small   
426   vhigh              low           5more              more      med   
429   vhigh              low           5more              more      big   

     safety  class  
1421   high  vgood  
1430   high  vgood  
1448   high  vgood  
1454   high  vg