# ランダムフォレストによる分類と回帰の仕組み

## 決定木による分類

In [17]:
# 乱数シードを固定
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from numpy.random import randint
from scipy.special import expit
from numpy.random import randn

In [27]:
random.seed(1234)
np.random.seed(1234)

# データ数
num_data = 200

# 年齢
x_1 = randint(15, 75, num_data) # 15から75までの一様乱数

# 性別
x_2 = randint(0, 2, num_data) # 0か1の乱数

# ノイズの発生
e_z = randn(num_data) # 平均0、標準偏差1の正規分布

# シグモイド関数に入れる部分
z_base = x_1 + (1 - x_2) * 10 - 40 + 5*e_z

# シグモイド関数を計算(CMを見る確率)
z_prob = expit(0.1 * z_base)


# テレビCMを見たかどうかの変数(0は見ていない、1は見た)
Z = np.array([])

for i in range(num_data):
    Z_i = np.random.choice(2, size=1, p = [1 - z_prob[i], z_prob[i]])[0] # CMを見る確率をweightとして0　or　1を選ぶ
    Z = np.append(Z, Z_i)
    
# ノイズの発生
e_y = randn(num_data)

Y = -x_1 + 30*x_2 + 10*Z + 80 + 10*e_y

df = pd.DataFrame({
    "年齢" : x_1,
    "性別" : x_2, 
    "CMを見た" : Z,
    "購入量" : Y
})

In [28]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [31]:
# 説明変数
X = df[["年齢", "性別"]]

# 目的変数
Z = df["CMを見た"]

# データを訓練と検証に分割
X_train, X_val, Z_train, Z_val = train_test_split(X, Z, train_size=0.6, random_state=0)

# 学習を性能確認(1)
clf = DecisionTreeClassifier(max_depth=1, random_state=0)
clf.fit(X_train, Z_train)
print("深さ1の性能", clf.score(X_val, Z_val))

# 学習を性能確認(2)
clf = DecisionTreeClassifier(max_depth=2, random_state=0)
clf.fit(X_train, Z_train)
print("深さ2の性能", clf.score(X_val, Z_val))

# 学習を性能確認(3)
clf = DecisionTreeClassifier(max_depth=3, random_state=0)
clf.fit(X_train, Z_train)
print("深さ3の性能", clf.score(X_val, Z_val))

# 学習を性能確認(4)
clf = DecisionTreeClassifier(max_depth=4, random_state=0)
clf.fit(X_train, Z_train)
print("深さ4の性能", clf.score(X_val, Z_val))

深さ1の性能 0.825
深さ2の性能 0.825
深さ3の性能 0.825
深さ4の性能 0.8125


※clf.scoreは決定係数

## 決定技による回帰

In [32]:
from sklearn.tree import DecisionTreeRegressor

In [33]:
# 説明変数
X = df[["年齢", "性別"]]

# 目的変数
Y = df["購入量"]

# データを訓練と検証に分割
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, train_size=0.6, random_state=0)

# 学習を性能確認(1)
clf = DecisionTreeRegressor(max_depth=1, random_state=0)
clf.fit(X_train, Y_train)
print("深さ1の性能", clf.score(X_val, Y_val))

# 学習を性能確認(2)
clf = DecisionTreeRegressor(max_depth=2, random_state=0)
clf.fit(X_train, Y_train)
print("深さ2の性能", clf.score(X_val, Y_val))

# 学習を性能確認(3)
clf = DecisionTreeRegressor(max_depth=3, random_state=0)
clf.fit(X_train, Y_train)
print("深さ3の性能", clf.score(X_val, Y_val))

# 学習を性能確認(4)
clf = DecisionTreeRegressor(max_depth=4, random_state=0)
clf.fit(X_train, Y_train)
print("深さ4の性能", clf.score(X_val, Y_val))

深さ1の性能 0.3004019973648957
深さ2の性能 0.7127717970230698
深さ3の性能 0.8031318025369502
深さ4の性能 0.7555829313737836
