In [None]:
import pandas as pd
from io import StringIO
# サンプルデータを作成
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [None]:
# 各特徴量の欠測値をカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [None]:
# 欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [None]:
# 欠測値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [None]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,0.0,8.0
2,10.0,11.0,12.0,0.0


In [None]:
df.fillna(df.mean(), inplace=True)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


In [None]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


In [None]:
import pandas as pd
# サンプルデータの生成(Tシャツの色・サイズ・価格・ラベル)
df = pd.DataFrame([
        ['green', 'M', 10.1, 'class1'],
        ['red', 'L', 13.5, 'class2'],
        ['blue', 'XL', 15.3, 'class1']
    ])
# 列名を設定
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [None]:
# Tシャツのサイズと整数を対応させるディクショナリを生成
size_mapping = {'XL': 3, 'L': 2, 'M': 1}
# Tシャツのサイズを整数に変換(pandasのmapメソッド)
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


## 名義尺度をダミー化
green, red, blueをダミー化する

In [None]:
df['color']

0    green
1      red
2     blue
Name: color, dtype: object

In [None]:
pd.get_dummies(df['color'])

Unnamed: 0,blue,green,red
0,0,1,0
1,0,0,1
2,1,0,0


## 二値クラス
- classlabel は class1 と class2 のどれか

In [None]:
df = pd.get_dummies(df)
df

Unnamed: 0,size,price,color_blue,color_green,color_red,classlabel_class1,classlabel_class2
0,1,10.1,0,1,0,1,0
1,2,13.5,0,0,1,0,1
2,3,15.3,1,0,0,1,0


- 二つの列がある必要はないので一つだけにする
- class1 != class2

In [None]:
df.drop('classlabel_class2', axis=1, inplace=True)
df.rename(columns={'classlabel_class1': 'classlabel'})

Unnamed: 0,size,price,color_blue,color_green,color_red,classlabel
0,1,10.1,0,1,0,1
1,2,13.5,0,0,1,0
2,3,15.3,1,0,0,1
