# 訓練データとテストデータの分割

## ライブラリーのインポート

In [100]:
import numpy as np
import pandas as pd
from io import StringIO
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder


## データセットの生成

In [101]:
csv_data = '''
age_group,occupation,annual_income,has_car
young,engineer,5500000.0,no
middle,teacher,4800000.0,yes
young,designer,4200000.0,no
senior,lawyer,9000000.0,yes
'''

## データセットの確認

In [102]:
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,age_group,occupation,annual_income,has_car
0,young,engineer,5500000.0,no
1,middle,teacher,4800000.0,yes
2,young,designer,4200000.0,no
3,senior,lawyer,9000000.0,yes


## 順序特徴量のマッピング
順序があるものは整数を対応させる辞書を生成する
先に順序変数をエンコーディングする

In [103]:
#年齢グループと整数を対応させる辞書を生成
age_group_mapping = {'young': 1,
                'middle': 2,
                'senior': 3}
#年齢グループを整数に変換
df['age_group'] = df['age_group'].map(age_group_mapping)
df

Unnamed: 0,age_group,occupation,annual_income,has_car
0,1,engineer,5500000.0,no
1,2,teacher,4800000.0,yes
2,1,designer,4200000.0,no
3,3,lawyer,9000000.0,yes


## クラスラベルのエンコーディング

In [104]:
#車の所有状況と整数を対応させる辞書を作成
has_car_mapping = {'no':0,
                'yes': 1}
#車の所有状況を整数に変換
df['has_car'] = df['has_car'].map(class_mapping)

## one-hotエンコーディング
順序のないものは(名義)one-hotエンコーディングする

In [105]:
X = df.iloc[:,0:3]
# カテゴリ変数のみone-hotエンコーディングする
categorical_cols = [idx for idx, col in enumerate(df.columns[:-1])
                    if df[col].dtype == 'object']
ohe = OneHotEncoder(categories='auto', drop='first')
ct = ColumnTransformer(transformers=[('encoder', ohe, categorical_cols)], remainder='passthrough') 

# エンコーディングを適用し、配列を取得
X = np.array(ct.fit_transform(df)).astype(float)

# 表示を見やすくするために科学記数法を無効にして出力
np.set_printoptions(suppress=True)
X