# 6章 統計学を学ぼう（分類）

* 木工場において：分岐前の状態から、不純度が大きく下がる分岐をよい条件分岐とします。
* 例えば、不純度=0の場合、ノードはまったく同じクラスのデータだけで構成されている完全に純粋な状態です。
* 一方、不純度が高い場合は、さまざまなクラスのデータが混在していることを示しています。

    - 不純度が低いということは、ノードがより純粋であり、同じクラスのデータが多く含まれていることを意味します。
例えば、不純度=0の場合、ノードはまったく同じクラスのデータだけで構成されている完全に純粋な状態です。
一方、不純度が高い場合は、さまざまなクラスのデータが混在していることを示しています。
決定木アルゴリズムでは、不純度が最も減少する特徴量で分割を行うことで、ノードの純粋度を高めていきます。純粋度が高まれば、より良い分類が可能になります。
したがって、決定木構築においては、ノードの不純度を低く保つことが目標となります。各ノードで不純度を計算し、不純度減少が最大になる特徴量で分割を行うことで、段階的に不純度を下げていきます。

# 実践1

y=x^2のある値での傾き(微分)を求める計算式を定義してください。
変化点を小さくすることで算出してください。



In [None]:
def derivative(x):
    """
    y = x^2 の x における微分値を計算する関数

    Args:
        x (float): 微分点の値

    Returns:
        float: x における微分値
    """
    h = 0.00001  # 刻み幅

    # 数値微分による近似
    return (pow(x + h, 2) - pow(x, 2)) / h

# 実践2(応用)
任意の関数を受け取ってその関数の傾き(微分)を求める計算式を関数で定義してください。
(関数の引数に関数を渡す: 総合演習17-9参照)

In [1]:
def derivative(func, x, h=0.00001):
    """
    数値微分を用いて、関数funcのxにおける導関数を近似計算する

    Parameters:
    func (callable): 微分する関数
    x (float): 微分点
    h (float): 刻み幅 (デフォルト値は0.00001)

    Returns:
    float: 近似された導関数値
    """
    # 前進差分による近似
    return (func(x + h) - func(x)) / h

# 例: x^2の導関数をx=3で計算
def square(x):
    return x ** 2

result = derivative(square, 3)
print(f"x^2 at x=3, derivative = {result}")  # 出力: x^2 at x=3, derivative = 6.000009999831776

x^2 at x=3, derivative = 6.000009999951316


# 実践3:行列演算
以下の演算を実施してください。（画像で貼る）

1. ベクトル同士の足し算・引き算

    (a) 足し算:
    u = (2, -3, 5),
    
    v = (-1, 4, 1)
    
    u + vを計算せよ。

    (b) 引き算:

    x = (7, -2, 4),
    
    y = (3, 5, -1)  
    
    x - yを計算せよ。

2. 行列同士の足し算・引き算  

    (a) 足し算:
    A = \begin{pmatrix}
    1 & 2 & 0\\
    3 & -1 & 4\\
    \end{pmatrix}, B = \begin{pmatrix}
    4 & 1 & 2\\
    -2 & 3 & 1\\  
    \end{pmatrix}
    A + Bを計算せよ。

    (b) 引き算:  
    C = \begin{pmatrix}
    5 & 7 & 2\\
    -3 & 4 & 6\\
    1 & -2 & 3\\
    \end{pmatrix}, D = \begin{pmatrix}
    2 & -1 & 4\\
    6 & 3 & -2\\
    -4 & 1 & 5\\
    \end{pmatrix}
    C - Dを計算せよ。

3. ベクトルのスカラー倍

    u = (2, -5, 3)
    
    2uを計算せよ。

4. 行列のスカラー倍  

    A = \begin{pmatrix}
    1 & 4 & 2\\
    3 & -2 & 5\\
    \end{pmatrix}
    -3Aを計算せよ。  

5. 行列同士の掛け算 (3×2)  

    A = \begin{pmatrix}
    2 & 1\\
    3 & 4\\
    5 & 2\\
    \end{pmatrix}, B = \begin{pmatrix}
    6 & 3\\
    2 & 7\\
    \end{pmatrix}
    ABを計算せよ。

6. 行列とベクトルの掛け算

    A = \begin{pmatrix}
    1 & 2 & 3\\
    4 & 5 & 6\\  
    \end{pmatrix}, u = \begin{pmatrix}
    2\\
    3\\
    1\\
    \end{pmatrix}
    Auを計算せよ。

7. 行列と単位行列の掛け算

    A = \begin{pmatrix}
    2 & 3 & 1\\
    4 & 0 & 2\\
    5 & 6 & 7\\
    \end{pmatrix}  
    AI3を計算せよ。(I3は3×3の単位行列)

8. 2×2の逆行列

    A = \begin{pmatrix}
    3 & 2\\
    1 & 4\\  
    \end{pmatrix}
    A^{-1}を計算せよ。



1. ベクトル同士の足し算・引き算

    (a) 足し算: u = (2, -3, 5), v = (-1, 4, 1)
    
    u + v = (2 + (-1), -3 + 4, 5 + 1) = (1, 1, 6)

    (b) 引き算: x = (7, -2, 4), y = (3, 5, -1)
    
    x - y = (7 - 3, -2 - 5, 4 - (-1)) = (4, -7, 5)

2. 行列同士の足し算・引き算

    (a) 足し算:
    
    A = \begin{pmatrix}
    1 & 2 & 0\\
    3 & -1 & 4\\
    \end{pmatrix},
    B = \begin{pmatrix}
    4 & 1 & 2\\
    -2 & 3 & 1\\
    \end{pmatrix}
    A + B = \begin{pmatrix}
    5 & 3 & 2\\
    1 & 2 & 5\\
    \end{pmatrix}

    (b) 引き算:
    
    C = \begin{pmatrix}
    5 & 7 & 2\\
    -3 & 4 & 6\\
    1 & -2 & 3\\
    \end{pmatrix}, D = \begin{pmatrix}
    2 & -1 & 4\\
    6 & 3 & -2\\
    -4 & 1 & 5\\
    \end{pmatrix}
    C - D = \begin{pmatrix}
    3 & 8 & -2\\
    -9 & 1 & 8\\
    5 & -3 & -2\\
    \end{pmatrix}

3. ベクトルのスカラー倍

    ベクトルのスカラー倍: u = (2, -5, 3)

    2u = 2(2, -5, 3) = (4, -10, 6)

4. 行列のスカラー倍  

    行列のスカラー倍: A = \begin{pmatrix}
    1 & 4 & 2\\
    3 & -2 & 5\\
    \end{pmatrix}
    -3A = \begin{pmatrix}
    -3 & -12 & -6\\
    -9 & 6 & -15\\
    \end{pmatrix}

5. 行列同士の掛け算 (3×2)  

    行列の積 (3×2): A = \begin{pmatrix}
    2 & 1\\
    3 & 4\\
    5 & 2\\
    \end{pmatrix}, B = \begin{pmatrix}
    6 & 3\\
    2 & 7\\
    \end{pmatrix}
    AB = \begin{pmatrix}
    26 + 12 & 23 + 17\\
    36 + 42 & 33 + 47\\
    56 + 22 & 53 + 27\\
    \end{pmatrix}
    = \begin{pmatrix}
    14 & 13\\
    26 & 31\\
    38 & 29\\
    \end{pmatrix}

6. 行列とベクトルの掛け算

    行列とベクトルの積:
    
    A = \begin{pmatrix}
    1 & 2 & 3\\
    4 & 5 & 6\\
    \end{pmatrix}, u = \begin{pmatrix}
    2\\
    3\\
    1\\
    \end{pmatrix}
    Au = \begin{pmatrix}
    12 + 23 + 31\\
    42 + 53 + 61\\
    \end{pmatrix}
    = \begin{pmatrix}
    11\\
    29\\
    \end{pmatrix}

7. 行列と単位行列の掛け算

    行列と単位行列の積:
    
    A = \begin{pmatrix}
    2 & 3 & 1\\
    4 & 0 & 2\\
    5 & 6 & 7\\
    \end{pmatrix}, I3は3×3の単位行列

    AI3 = \begin{pmatrix}
    2 & 3 & 1\\
    4 & 0 & 2\\
    5 & 6 & 7\\
    \end{pmatrix}

8. 2×2の逆行列

    2×2の逆行列:
    A = \begin{pmatrix}
    3 & 2\\
    1 & 4\\
    \end{pmatrix}
    |A| = 34 - 21 = 10 (行列式)
    A^{-1} = (1/10)*\begin{pmatrix}
    4 & -2\\
    -1 & 3\\
    \end{pmatrix}
    = \begin{pmatrix}
    0.4 & -0.2\\
    -0.1 & 0.3\\
    \end{pmatrix}

# 実践1 (応用)
* 不純度はGini不純度とエントロピーが代表的です。
* エントロピーについて概要を調べてみてください。

**解答**

* エントロピーは、決定木のノードの不純度を表す指標の1つです。
* データセットの不純度が高ければ、さまざまなクラスが混在していることを意味します。
* エントロピーは次の式で定義されます。
* エントロピー = -Σ(p(i) * log2(p(i)))
ここで、p(i)はクラスiのデータ割合です。
エントロピーの値は0から1の範囲で変化します。
* エントロピー=0の時、ノードはまったく同じクラスのデータだけで構成されている(完全に純粋)
* エントロピー=1の時、すべてのクラスが等しい割合で含まれている(最大の不純度)
* 決定木では、各ノードでエントロピーを計算し、エントロピーの減少が最大になる特徴量で分割を行うことで、不純度を減らしていきます。
* エントロピーの値は0から1の範囲となり、0に近いほど不純度が低く、1に近いほど不純度が高いことを表します。
* エントロピーはGini不純度と並んで、決定木アルゴリズムで広く使われる不純度指標です

# 実践2
* 木構造で過学習を防ぐ方法としてどんな方法がありますか？

* 木構造の深さに上限を設ける
* 木構造の葉（条件分岐の最も先の部分）の枚数に上限を設ける
* 葉のデータ数に最小値を設ける

# 実践3(応用)
* https://terakoya.sejuku.net/programs/104/chapters/1319#6.4-%E5%88%86%E9%A1%9E%E3%81%AE%E6%B5%81%E3%82%8C
* 上記説明でのGini不純度の計算をPythonを用いて計算してみてください。
* 計算方法を関数として定義してください。

# 実践4(応用)
* https://terakoya.sejuku.net/programs/104/chapters/1319#6.4-%E5%88%86%E9%A1%9E%E3%81%AE%E6%B5%81%E3%82%8C
* 「合格/不合格」のエントロピーを計算してみてください。
