# カテゴリーデータの処理

## 尺度水準

## カテゴリーデータの生成

In [1]:
import pandas as pd

survey_data = [
    "満足",
    "普通",
    "普通",
    "非常に不満",
    "不満",
]
survey_ser = pd.Series(survey_data, dtype="category")
survey_ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
dtype: category
Categories (4, object): ['不満', '普通', '満足', '非常に不満']

## カテゴリーデータへの型変換

In [2]:
pd.Series(survey_data).astype("category").dtype

CategoricalDtype(categories=['不満', '普通', '満足', '非常に不満'], ordered=False)

## カテゴリーデータの順序付け

In [3]:
survey_ser.sort_values()

4       不満
1       普通
2       普通
0       満足
3    非常に不満
dtype: category
Categories (4, object): ['不満', '普通', '満足', '非常に不満']

In [4]:
survey_ser.value_counts()

普通       2
不満       1
満足       1
非常に不満    1
Name: count, dtype: int64

In [5]:
rating = pd.CategoricalDtype(
    categories=[
        "非常に不満",
        "不満",
        "普通",
        "満足",
        "非常に満足",
    ],
    ordered=True,
)
new_survey_ser = pd.Series(survey_data, dtype=rating)
new_survey_ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [6]:
new_survey_ser.cat.ordered

True

In [7]:
new_survey_ser.sort_values()

3    非常に不満
4       不満
1       普通
2       普通
0       満足
dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [8]:
new_survey_ser.min()

'非常に不満'

In [9]:
new_survey_ser.max()

'満足'

In [10]:
new_survey_ser.value_counts()

普通       2
非常に不満    1
不満       1
満足       1
非常に満足    0
Name: count, dtype: int64

In [11]:
new_survey_ser.describe()

count      5
unique     4
top       普通
freq       2
dtype: object

In [12]:
new_survey_ser.cat.codes

0    3
1    2
2    2
3    0
4    1
dtype: int8

In [13]:
import numpy as np

survey_data.append(np.nan)
missing_suvey_data = pd.Series(survey_data, dtype="category")
missing_suvey_data.cat.codes

0    2
1    1
2    1
3    3
4    0
5   -1
dtype: int8

## データの離散化によるカテゴリーデータの生成

In [14]:
rng = np.random.default_rng(1)
score = rng.integers(low=0, high=100, size=10)
satisfaction = pd.cut(
    score,
    bins=[0, 20, 40, 60, 80, 101],  # ①
    right=False,  # ②
    labels=[
        "非常に不満",
        "不満",
        "普通",
        "満足",
        "非常に満足",
    ],  # ③
)
survey_df = pd.DataFrame({"satisfaction": satisfaction, "score": score})
survey_df

Unnamed: 0,satisfaction,score
0,普通,47
1,普通,51
2,満足,75
3,非常に満足,95
4,非常に不満,3
5,非常に不満,14
6,非常に満足,82
7,非常に満足,94
8,不満,24
9,不満,31


In [15]:
score[-1] = 0
satisfaction = pd.cut(
    score,
    bins=[1, 20, 40, 60, 80, 100],  # ①
    right=False,  # ②
    labels=[
        "非常に不満",
        "不満",
        "普通",
        "満足",
        "非常に満足",
    ],  # ③
)
survey_df = pd.DataFrame({"satisfaction": satisfaction, "score": score})
survey_df

Unnamed: 0,satisfaction,score
0,普通,47
1,普通,51
2,満足,75
3,非常に満足,95
4,非常に不満,3
5,非常に不満,14
6,非常に満足,82
7,非常に満足,94
8,不満,24
9,,0


In [16]:
rng = np.random.default_rng(1)
score = rng.integers(low=0, high=100, size=10)
satisfaction = pd.cut(
    score,
    bins=range(0, 101, 20),  # ①
    right=False,  # ②
    labels=[
        "非常に不満",
        "不満",
        "普通",
        "満足",
        "非常に満足",
    ],  # ③
)
survey_df = pd.DataFrame({"satisfaction": satisfaction, "score": score})
survey_df

Unnamed: 0,satisfaction,score
0,普通,47
1,普通,51
2,満足,75
3,非常に満足,95
4,非常に不満,3
5,非常に不満,14
6,非常に満足,82
7,非常に満足,94
8,不満,24
9,不満,31


In [17]:
survey_df.dtypes

satisfaction    category
score              int64
dtype: object

In [18]:
survey_df.loc[:, "satisfaction"].cat.ordered

True

In [19]:
survey_df.groupby("satisfaction").mean()

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に不満,8.5
不満,27.5
普通,49.0
満足,75.0
非常に満足,90.333333


## .catアクセサ

In [20]:
unordered_satisfaction = survey_df.loc[:, "satisfaction"].cat.as_unordered()
unordered_satisfaction

0       普通
1       普通
2       満足
3    非常に満足
4    非常に不満
5    非常に不満
6    非常に満足
7    非常に満足
8       不満
9       不満
Name: satisfaction, dtype: category
Categories (5, object): ['非常に不満', '不満', '普通', '満足', '非常に満足']

In [21]:
unordered_satisfaction.cat.as_ordered()

0       普通
1       普通
2       満足
3    非常に満足
4    非常に不満
5    非常に不満
6    非常に満足
7    非常に満足
8       不満
9       不満
Name: satisfaction, dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [22]:
unordered_satisfaction.cat.reorder_categories(
    [
        "非常に満足",
        "満足",
        "普通",
        "不満",
        "非常に不満",
    ],
    ordered=True,
)

0       普通
1       普通
2       満足
3    非常に満足
4    非常に不満
5    非常に不満
6    非常に満足
7    非常に満足
8       不満
9       不満
Name: satisfaction, dtype: category
Categories (5, object): ['非常に満足' < '満足' < '普通' < '不満' < '非常に不満']

In [23]:
unordered_satisfaction.cat.set_categories(
    [
        "非常に満足",
        "満足",
        "少し満足",
        "普通",
        "少し不満",
        "不満",
        "非常に不満",
    ],
    ordered=True,
)

0       普通
1       普通
2       満足
3    非常に満足
4    非常に不満
5    非常に不満
6    非常に満足
7    非常に満足
8       不満
9       不満
Name: satisfaction, dtype: category
Categories (7, object): ['非常に満足' < '満足' < '少し満足' < '普通' < '少し不満' < '不満' < '非常に不満']

## CategoricalIndex

In [24]:
new_survey_df = survey_df.set_index("satisfaction")
new_survey_df

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
普通,47
普通,51
満足,75
非常に満足,95
非常に不満,3
非常に不満,14
非常に満足,82
非常に満足,94
不満,24
不満,31


In [25]:
new_survey_df.index

CategoricalIndex(['普通', '普通', '満足', '非常に満足', '非常に不満', '非常に不満', '非常に満足',
                  '非常に満足', '不満', '不満'],
                 categories=['非常に不満', '不満', '普通', '満足', '非常に満足'], ordered=True, dtype='category', name='satisfaction')

In [26]:
new_survey_df.loc["非常に満足", :]

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に満足,95
非常に満足,82
非常に満足,94


In [27]:
new_survey_df.sort_index()

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に不満,3
非常に不満,14
不満,24
不満,31
普通,47
普通,51
満足,75
非常に満足,95
非常に満足,82
非常に満足,94


## カテゴリーデータの結合

In [28]:
from pandas.api.types import (
    union_categoricals,
)

cat1 = pd.Categorical(
    [
        "普通",
        "満足",
        "非常に満足",
    ]
)
cat2 = pd.Categorical(
    [
        "非常に不満",
        "不満",
        "普通",
    ]
)
union_categoricals([cat1, cat2])

['普通', '満足', '非常に満足', '非常に不満', '不満', '普通']
Categories (5, object): ['普通', '満足', '非常に満足', '不満', '非常に不満']

In [29]:
ordered_cat1 = pd.Categorical(
    [
        "普通",
        "満足",
        "非常に満足",
    ],
    ordered=True,
)
ordered_cat2 = pd.Categorical(
    [
        "非常に不満",
        "不満",
        "普通",
    ],
    ordered=True,
)
union_categoricals([ordered_cat1, ordered_cat2])

TypeError: to union ordered Categoricals, all categories must be the same

In [30]:
union_categoricals(
    [ordered_cat1, ordered_cat2],
    ignore_order=True,
)

['普通', '満足', '非常に満足', '非常に不満', '不満', '普通']
Categories (5, object): ['普通', '満足', '非常に満足', '不満', '非常に不満']