## データの分類
<table>
    <thead>
        <tr>
            <th>分類</th>
            <th colspan="2">説明</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td rowspan="3"><m-b>質的変数</m-b></td>
            <td colspan="2">離散的な値をとり、数値では表現できない変数</td>
        </tr>
        <tr>
            <td><m-b>名義尺度</m-b></td>
            <td>血液型や性別など、和や差、比率に意味がなく、比較できない尺度</td>
        </tr>
        <tr>
            <td><m-b>順序尺度</m-b></td>
            <td>震度や企業格付けなど、比較はできるが和や差、比率に意味がない尺度</td>
        </tr>
        <tr>
            <td rowspan="3"><m-b>量的変数</m-b></td>
            <td colspan="2">数や量で測れる変数</td>
        </tr>
        <tr>
            <td><m-b>間隔尺度</m-b></td>
            <td>気温や暦年など、和や差に意味があるが、比率に意味がない尺度</td>
        </tr>
        <tr>
            <td><m-b>比例尺度</m-b></td>
            <td>身長や重さなど、和や差、比率に意味がある尺度</td>
        </tr>
    </tbody>
</table>

In [9]:
# カテゴリデータの生成
import pandas as pd

survey_data = ["満足", "普通", "普通", "非常に不満", "不満"]
ser = pd.Series(survey_data)
ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
dtype: object

In [10]:
ser.dtypes

dtype('O')

In [17]:
ser = pd.Series(survey_data, dtype="category")
ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
dtype: category
Categories (4, object): ['不満', '普通', '満足', '非常に不満']

In [12]:
ser.dtypes

CategoricalDtype(categories=['不満', '普通', '満足', '非常に不満'], ordered=False, categories_dtype=object)

In [14]:
pd.Series(survey_data).astype("category").dtype

CategoricalDtype(categories=['不満', '普通', '満足', '非常に不満'], ordered=False, categories_dtype=object)

In [15]:
pd.Series(survey_data).astype("object").dtype

dtype('O')

In [18]:
ser.sort_values()

4       不満
1       普通
2       普通
0       満足
3    非常に不満
dtype: category
Categories (4, object): ['不満', '普通', '満足', '非常に不満']

In [19]:
pd.Series(survey_data).astype("object").sort_values()

4       不満
1       普通
2       普通
0       満足
3    非常に不満
dtype: object

In [20]:
ser.value_counts()

普通       2
不満       1
満足       1
非常に不満    1
Name: count, dtype: int64

In [21]:
# 事前定義
rating = pd.CategoricalDtype(
    ["非常に不満", "不満", "普通", "満足", "非常に満足"],
    ordered=True,
)
rating

CategoricalDtype(categories=['非常に不満', '不満', '普通', '満足', '非常に満足'], ordered=True, categories_dtype=object)

In [22]:
new_survey_ser = pd.Series(survey_data, dtype=rating)
new_survey_ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [23]:
new_survey_ser.dtypes

CategoricalDtype(categories=['非常に不満', '不満', '普通', '満足', '非常に満足'], ordered=True, categories_dtype=object)

In [24]:
new_survey_ser.index

RangeIndex(start=0, stop=5, step=1)

In [25]:
new_survey_ser.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x0000023983EDDC70>

In [26]:
new_survey_ser.cat.ordered

True

In [29]:
new_survey_ser.sort_values()

3    非常に不満
4       不満
1       普通
2       普通
0       満足
dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [30]:
new_survey_ser.min()

'非常に不満'

In [31]:
new_survey_ser.max()

'満足'

In [32]:
new_survey_ser.value_counts()

普通       2
非常に不満    1
不満       1
満足       1
非常に満足    0
Name: count, dtype: int64

In [33]:
new_survey_ser.describe()

count      5
unique     4
top       普通
freq       2
dtype: object

In [34]:
new_survey_ser.cat.codes

0    3
1    2
2    2
3    0
4    1
dtype: int8

In [35]:
import numpy as np

survey_data.append(None)
survey_data.append(np.nan)
migging_servey_ser = pd.Series(survey_data, dtype=rating)
migging_servey_ser

0       満足
1       普通
2       普通
3    非常に不満
4       不満
5      NaN
6      NaN
dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [36]:
migging_servey_ser.cat.codes

0    3
1    2
2    2
3    0
4    1
5   -1
6   -1
dtype: int8

In [78]:
# データの離散化によるカテゴリデータ
rng = np.random.default_rng(2)
score = rng.integers(low=0, high=100, size=10)
satisfaction = pd.cut(
    score,
    bins=[0, 20, 40, 60, 80, 101],
    right=False,
    labels=["非常に不満", "不満", "普通", "満足", "非常に満足"],
)
satisfaction

['非常に満足', '不満', '非常に不満', '不満', '普通', '非常に満足', '普通', '非常に不満', '不満', '満足']
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [79]:
satisfaction = pd.cut(
    score,
    bins=[0, 20, 40, 60, 80, 101],
    right=True,
    labels=["非常に不満", "不満", "普通", "満足", "非常に満足"],
)
satisfaction

['非常に満足', '不満', '非常に不満', '不満', '普通', '非常に満足', '普通', '非常に不満', '不満', '普通']
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [80]:
survey_df = pd.DataFrame({"satisfaction": satisfaction, "score": score})
survey_df

Unnamed: 0,satisfaction,score
0,非常に満足,83
1,不満,26
2,非常に不満,10
3,不満,29
4,普通,41
5,非常に満足,81
6,普通,45
7,非常に不満,9
8,不満,33
9,普通,60


In [81]:
survey_df.groupby("satisfaction", observed=False).mean()

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に不満,9.5
不満,29.333333
普通,48.666667
満足,
非常に満足,82.0


In [82]:
# .catアクセサ
unordered_satisfaction = survey_df.loc[:, "satisfaction"].cat.as_unordered()
unordered_satisfaction

0    非常に満足
1       不満
2    非常に不満
3       不満
4       普通
5    非常に満足
6       普通
7    非常に不満
8       不満
9       普通
Name: satisfaction, dtype: category
Categories (5, object): ['非常に不満', '不満', '普通', '満足', '非常に満足']

In [83]:
unordered_satisfaction.cat.as_ordered()

0    非常に満足
1       不満
2    非常に不満
3       不満
4       普通
5    非常に満足
6       普通
7    非常に不満
8       不満
9       普通
Name: satisfaction, dtype: category
Categories (5, object): ['非常に不満' < '不満' < '普通' < '満足' < '非常に満足']

In [84]:
unordered_satisfaction.cat.reorder_categories(
    ["非常に満足", "満足", "普通", "不満", "非常に不満"],
    ordered=True
)

0    非常に満足
1       不満
2    非常に不満
3       不満
4       普通
5    非常に満足
6       普通
7    非常に不満
8       不満
9       普通
Name: satisfaction, dtype: category
Categories (5, object): ['非常に満足' < '満足' < '普通' < '不満' < '非常に不満']

In [85]:
unordered_satisfaction.cat.reorder_categories(
    ["非常に満足", "満足", "普通", "不満", "非常に不満"],
    ordered=True
).sort_values()

0    非常に満足
5    非常に満足
4       普通
6       普通
9       普通
1       不満
3       不満
8       不満
2    非常に不満
7    非常に不満
Name: satisfaction, dtype: category
Categories (5, object): ['非常に満足' < '満足' < '普通' < '不満' < '非常に不満']

In [86]:
unordered_satisfaction.cat.set_categories(
    ["非常に不満", "不満", "やや不満", "普通", "やや満足", "満足", "非常に満足"],
    ordered=True,
)

0    非常に満足
1       不満
2    非常に不満
3       不満
4       普通
5    非常に満足
6       普通
7    非常に不満
8       不満
9       普通
Name: satisfaction, dtype: category
Categories (7, object): ['非常に不満' < '不満' < 'やや不満' < '普通' < 'やや満足' < '満足' < '非常に満足']

In [87]:
unordered_satisfaction.cat.set_categories(
    ["非常に不満", "不満", "やや不満", "普通", "やや満足", "満足", "非常に満足"],
    ordered=True,
).sort_values()

2    非常に不満
7    非常に不満
1       不満
3       不満
8       不満
4       普通
6       普通
9       普通
0    非常に満足
5    非常に満足
Name: satisfaction, dtype: category
Categories (7, object): ['非常に不満' < '不満' < 'やや不満' < '普通' < 'やや満足' < '満足' < '非常に満足']

In [89]:
# CategoricalIndex
new_survey_df = survey_df.set_index("satisfaction")
new_survey_df

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に満足,83
不満,26
非常に不満,10
不満,29
普通,41
非常に満足,81
普通,45
非常に不満,9
不満,33
普通,60


In [90]:
new_survey_df.index

CategoricalIndex(['非常に満足', '不満', '非常に不満', '不満', '普通', '非常に満足', '普通', '非常に不満',
                  '不満', '普通'],
                 categories=['非常に不満', '不満', '普通', '満足', '非常に満足'], ordered=True, dtype='category', name='satisfaction')

In [91]:
new_survey_df.loc["非常に満足", :]

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に満足,83
非常に満足,81


In [95]:
new_survey_df.sort_index()

Unnamed: 0_level_0,score
satisfaction,Unnamed: 1_level_1
非常に不満,10
非常に不満,9
不満,26
不満,29
不満,33
普通,41
普通,45
普通,60
非常に満足,83
非常に満足,81


In [97]:
# カテゴリデータの結合
from pandas.api.types import union_categoricals

cat1 = pd.Categorical(["満足", "非常に満足", "普通"])
cat2 = pd.Categorical(["非常に不満", "普通", "不満"])
union_categoricals([cat1, cat2])

['満足', '非常に満足', '普通', '非常に不満', '普通', '不満']
Categories (5, object): ['普通', '満足', '非常に満足', '不満', '非常に不満']

In [98]:
union_categoricals([cat2, cat1])

['非常に不満', '普通', '不満', '満足', '非常に満足', '普通']
Categories (5, object): ['不満', '普通', '非常に不満', '満足', '非常に満足']

In [99]:
cat1 = pd.Categorical(["満足", "非常に満足", "普通"], ordered=True)
cat2 = pd.Categorical(["非常に不満", "普通", "不満"], ordered=True)
union_categoricals([cat1, cat2])

TypeError: to union ordered Categoricals, all categories must be the same

In [100]:
cat1 = pd.Categorical(["非常に不満", "不満"], ordered=True)
cat2 = pd.Categorical(["普通", "満足", "非常に満足"], ordered=True)
union_categoricals([cat1, cat2])

TypeError: to union ordered Categoricals, all categories must be the same

In [102]:
cat1 = pd.Categorical(["非常に満足", "満足", "普通"], ordered=True)
cat2 = pd.Categorical(["普通", "満足", "非常に満足"], ordered=True)
union_categoricals([cat1, cat2])

['非常に満足', '満足', '普通', '普通', '満足', '非常に満足']
Categories (3, object): ['普通' < '満足' < '非常に満足']

In [103]:
cat1 = pd.Categorical(["非常に不満", "不満"], ordered=True)
cat2 = pd.Categorical(["普通", "満足", "非常に満足"], ordered=True)
union_categoricals([cat1, cat2], ignore_order=True)

['非常に不満', '不満', '普通', '満足', '非常に満足']
Categories (5, object): ['不満', '非常に不満', '普通', '満足', '非常に満足']