<a href="https://colab.research.google.com/github/koheikobayashi/machine-learning/blob/main/LightGBM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Gini Impurityの解説
Gini Impurity（ジニ不純度）は、主に決定木アルゴリズムで使われる不純度指標の1つです。分類問題におけるデータの純度を測定するために利用されます。Gini Impurityの値は0から1の範囲を取り、値が小さいほどデータが純粋であることを示します。

**数式**: 不純度は次のように形式化されます。

\[
Gini(p) = 1 - \sum_{i=1}^{C} p_i^2
\]

ここで、\(p_i\)はクラス\(i\)のサンプルの割合、\(C\)はクラスの総数です。

**使用用途**: 決定木において、ノードの分割点を選択する際に使われます。Gini Impurityが最小になるように分割を行います。この指標を使用することで、ノードの純度を高める（つまり、ノード内のデータがなるべく同じクラスに属するような分割を行う）ことができます。

In [None]:
```python
from collections import Counter

def gini_impurity(labels):
    total_count = len(labels)
    if total_count == 0:
        return 0
    label_counts = Counter(labels)
    impurity = 1
    for label in label_counts:
        prob_of_label = label_counts[label] / total_count
        impurity -= prob_of_label ** 2
    return impurity

# 使用例:
labels = ["cat", "dog", "dog", "cat", "dog", "cat", "cat"]
gini = gini_impurity(labels)
print("Gini Impurity:", gini)
```
このコードは、与えられたラベルのリストに基づいてGini Impurityを計算します。Counterを使って各ラベルの出現数をカウントし、その出現確率を元にジニ不純度を求めます。

エントロピーは、情報理論や熱力学で重要な概念であり、一般にシステムの不確実性や乱雑さの度合いを定量化するために使用されます。情報理論においては、シャノンエントロピーが最もよく知られており、確率分布に基づいて情報の不確実性を測定します。シャノンエントロピー $H(X)$ は、離散的な確率変数 $X$ に対して以下のように定義されます。

\[
H(X) = - \sum_{i=1}^n P(x_i) \log_b P(x_i)
\]

ここで、$P(x_i)$ は $X$ が値 $x_i$ を取る確率であり、$b$ は対数の底を示します。一般的には、自然対数（$b=e$）または二進対数（$b=2$）が使われます。エントロピーはデータ圧縮や通信の理論的限界を理解するためにも利用されます。

In [None]:
import numpy as np

def calculate_entropy(probabilities, base=2):
    """
    Calculate the Shannon entropy of a probability distribution.

    Parameters:
    probabilities (list): A list of probabilities for each event.
    base (int): The logarithmic base to use, default is 2.

    Returns:
    float: The Shannon entropy.
    """
    entropy = -np.sum(probabilities * np.log(probabilities) / np.log(base))
    return entropy

# 使用例
probabilities = [0.25, 0.25, 0.25, 0.25]  # 四つの等しい確率
entropy = calculate_entropy(probabilities)
print(f'エントロピー: {entropy}')


MSE（Mean Squared Error、平均二乗誤差）は、回帰分析やモデル性能評価において最も一般的な損失関数の一つです。これは、ある予測モデルが実際のデータとどれだけずれているかを定量的に評価するための指標として使われます。MSEは予測値と実際の値の差の二乗を平均した値として計算されます。

理論的には、MSEは次のように表されます：

\[
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\]

ここで、 \(y_i\) は実際の値、\(\hat{y}_i\) は予測値、\(n\) はデータポイントの総数です。

MSEの特徴として、二乗を取ることで予測誤差が大きな値に敏感になる点が挙げられます。これにより、大きな誤差に対するペナルティが強化されます。また、MSEは尺度の次元（例：平方メートルなど）に依存するため、異なるデータセット間での比較には不向きです。

MSEは多くの最適化アルゴリズムで最小化される目的関数としても使用され、回帰タスクではモデルのパフォーマンスを改善するために重要です。

In [None]:
import numpy as np

# 実際の値と予測値の例
actual_values = np.array([3, -0.5, 2, 7])
predicted_values = np.array([2.5, 0.0, 2, 8])

# MSEの計算
mse = np.mean((actual_values - predicted_values) ** 2)

print(f"Mean Squared Error: {mse}")

情報利得 (Information Gain) は、特に決定木の構築において重要な概念で、データセットにおけるランダム性の減少を示します。これは特定の属性でデータを分割することにより得られる不確実性の減少を定量化するものです。情報利得はエントロピーの概念に基づいています。

エントロピー \( H(D) \) は、データセット \( D \) の不確実性の尺度であり、以下のように定義されます。

\[
H(D) = - \sum_{i=1}^{n} p(c_i) \log_2 p(c_i)
\]

ここで \( p(c_i) \) はクラス \( i \) の発生確率です。

情報利得 \( IG(D, A) \) は、属性 \( A \) を用いてデータセット \( D \) を分割したときのエントロピーの減少として定義され、次のように表されます。

\[
IG(D, A) = H(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} H(D_v)
\]

ここで、\( D_v \) は \( A \) の値 \( v \) を持つサブセットです。

情報利得は、決定木アルゴリズム（例えばID3やC4.5）の中で、データを分割するのに最適な属性を選択するために使用されます。この属性選択の過程を通じて、モデルは効率的に学習し、予測の精度を向上させることができます。

In [None]:
import numpy as np

# エントロピーを計算する関数
def entropy(labels):
    # クラスのラベルごとの頻度を計算
    label_counts = np.bincount(labels)
    probabilities = label_counts / len(labels)
    # np.log2(0) は NaN を返すため、ゼロではない確率のみを考慮
    return -np.sum([p * np.log2(p) for p in probabilities if p > 0])

# 情報利得を計算する関数
def information_gain(data, labels, attribute_index):
    # 親エントロピーを計算
    original_entropy = entropy(labels)
    # 属性を使ったデータの分割
    attribute_values = data[:, attribute_index]
    unique_values = np.unique(attribute_values)

    # 重み付きエントロピーの計算
    weighted_entropy = 0
    for value in unique_values:
        subset_indices = np.where(attribute_values == value)
        subset_labels = labels[subset_indices]
        weighted_entropy += len(subset_labels) / len(labels) * entropy(subset_labels)

    # 情報利得を計算
    return original_entropy - weighted_entropy

# 例: データセットとラベル
data = np.array([[1, 1], [1, 0], [0, 1], [0, 0]])
labels = np.array([1, 0, 1, 0])

# 最初の属性の情報利得を計算
info_gain = information_gain(data, labels, 0)
print(f'情報利得: {info_gain}')

勾配（Gradient）は、ベクトル場での最急降下の方向を示すベクトルのことです。ベクトル関数における各変数についての偏微分を集約したもので、多変数関数が最も速く増加する方向とその変化率を示します。

数式としては、スカラー関数 \( f(x, y, z) \) の勾配は次のように表されます：

\[ \nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \frac{\partial f}{\partial z} \right) \]

勾配は主に最適化問題の解法、特に勾配降下法（Gradient Descent）で活用されます。勾配降下法は、関数の最小値を見つけるために勾配の反対方向で少しずつ移動するという手法です。

In [None]:
# 勾配を計算するためのPythonのコード
import numpy as np

def function(x, y):
    return x**2 + y**2

# 偏微分を計算する関数
def gradient(f, x, y, h=1e-5):
    df_dx = (f(x + h, y) - f(x - h, y)) / (2 * h)  # xについての偏微分
    df_dy = (f(x, y + h) - f(x, y - h)) / (2 * h)  # yについての偏微分
    return np.array([df_dx, df_dy])

# 例として x=3, y=4 での勾配を計算する
x = 3
y = 4
grad = gradient(function, x, y)
print(f"Gradient at (x={x}, y={y}): {grad}")

### ヘッシアン (Hessian) について

ヘッシアン行列は、多変数関数の2階偏導数をまとめた行列です。具体的には、関数 \( f(x_1, x_2, \ldots, x_n) \) のヘッシアン行列 \( H \) は、以下のように定義されます。

\[
H(f) = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\
\vdots & \vdots & \ddots & \vdots \\
\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}
\]

この行列はもともと最適化問題や微分幾何学において重要です。例えば、ヘッシアン行列の正定性を調べることで、ある点が極小点、極大点、または鞍点であるかどうかを判定することができます。

### 使用用途

- **最適化問題**: ニュートン法などの最適化アルゴリズムでは、ヘッシアン行列を用いることで収束の速度が向上します。
- **機械学習**: 二次導数に基づくハイパーパラメータの調整や、モデルのフィッティング評価などで利用されます。
- **物理学、工学**: ポテンシャルエネルギー面の形状解析や、安定性の評価に使用されます。

In [None]:
import numpy as np
from sympy import symbols, hessian, Function

# 変数を定義
x, y = symbols('x y')

# 関数を定義
f = Function('f')(x, y)

# f を例えば f(x, y) = x**2 + y**2 として定義する
f_expr = x**2 + y**2

# ヘッシアン行列を計算
H = hessian(f_expr, (x, y))

# ヘッシアン行列を表示
H_numeric = np.array(H).astype(np.float64)
H_numeric

### Leaf-wise Growth

Leaf-wise Growth は勾配ブースティング決定木 (GBDT) の木構造を成長させる際のアプローチの一つで、XGBoost をはじめとするブースティングアルゴリズムで用いられます。鳥瞰的に見ると、各イテレーションでの木の構築の際にノードのうち、最も損失関数の改善が大きいノードを選んで分割していく手法です。

#### 理論

- **費用関数**
  損失関数 \(L\) の改善が最大になるように
  
  \(
  	ext{Gain} =
rac{1}{2} \left(
rac{G_L^2}{H_L + \lambda} +
rac{G_R^2}{H_R + \lambda} -
rac{(G_L + G_R)^2}{H_L + H_R + \lambda}
ight) - \gamma
  \)
  
  ここで、
  - \( G_i \) は Node \( i \) の全データに対する勾配の合計。
  - \( H_i \) は Node \( i \) の全データに対するヘッセ行列の合計、もしくは勾配の二次微分の和。
  - \( \lambda \) は L2 正則化項。
  - \( \gamma \) はリーフノードを作る際のペナルティ。

その際、**Leaf-wise** では最もゲインが大きいノードを優先的に選んで分割していきます。

分割が終わると、ツリーの深さがランダムになり、時には深すぎるツリーが構築されることもあるため、正則化や過学習の抑制が重要です。

In [None]:
# Leaf-wise Growth をシミュレーションする Python コード
import numpy as np

class LeafWiseTree:
    def __init__(self, lambda_l2=1.0, gamma=0.1):
        self.lambda_l2 = lambda_l2
        self.gamma = gamma
        self.tree_structure = []

    def calculate_gain(self, G_L, H_L, G_R, H_R):
        return 0.5 * ((G_L**2 / (H_L + self.lambda_l2)) + (G_R**2 / (H_R + self.lambda_l2)) - ((G_L + G_R)**2 / (H_L + H_R + self.lambda_l2))) - self.gamma

    def fit(self, gradients, hessians):
        """
        Simulate a leaf-wise growth step given gradients and hessians.
        """
        best_gain = -np.inf
        best_node = None

        # Example simulation loop through hypothetical nodes
        for node in hypothetical_nodes:
            G_L, H_L, G_R, H_R = self.get_gradients_and_hessians(node, gradients, hessians)
            gain = self.calculate_gain(G_L, H_L, G_R, H_R)
            if gain > best_gain:
                best_gain = gain
                best_node = node

        if best_node:
            self.split_node(best_node)
            self.tree_structure.append(best_node)

    def get_gradients_and_hessians(self, node, gradients, hessians):
        # Dummy function to extract gradients and hessians; replace with actual logic
        G_L, H_L = np.sum(gradients[node['left']]), np.sum(hessians[node['left']])
        G_R, H_R = np.sum(gradients[node['right']]), np.sum(hessians[node['right']])
        return G_L, H_L, G_R, H_R

    def split_node(self, node):
        # Dummy function to split a node; replace with actual logic
        pass

# Example usage
hypothetical_nodes = [{'left': [0, 1], 'right': [2, 3]}, {'left': [1, 2], 'right': [0, 3]}]
gradients = np.random.randn(4)
hessians = np.abs(np.random.randn(4))

tree = LeafWiseTree()
tree.fit(gradients, hessians)
print(tree.tree_structure)

### Histogram-based Splitting

Histogram-based Splittingは、決定木や勾配ブースティングアルゴリズムなどで使用される分割方法のひとつです。この手法の背景にある考え方は、データセット全体をヒストグラムに分け、そこで得られる情報を基に最適な分割点を探索することです。この方法は、大規模なデータセットに対するスケーラビリティを改善し、メモリ使用量を低減することができます。

#### 理論
データをある特徴のbin（バケット）に分割し、そのbin内でのデータの分布に基づいて情報利得（information gain）を計算します。計算された利得が最大となるポイントを探索し、そのポイントを分割点として採用します。ヒストグラムベースの手法では、連続的な値を持つ変数を離散化することにより、計算量を抑えつつ効率的な分割を行います。

#### 数式
分割基準を選ぶ際の情報利得は次の式で表されます。

\[
IG(T, X) = H(T) - \sum_{v \in Values(X)} \frac{|T_v|}{|T|} H(T_v)
\]

ここで、
- \( IG(T, X) \) は特徴Xを使用した場合の情報利得。
- \( H(T) \) は現在の不純度（エントロピーやジニ不純度など）。
- \( T_v \) はXの値がvとなるサブセット。
- \( |T| \) は全体のサンプル数。

#### 使用用途
- **決定木学習**: 特にカート（CART）アルゴリズムにおいて、ノードの分割を最適化する手法として用いられます。
- **勾配ブースティングフレームワーク（例: XGBoost, LightGBM）**: 大規模データに対する高速な学習を実現するために、この技術が使用されています。

In [None]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt

# データセットを作成
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2,
                           n_redundant=0, random_state=42)

# ヒストグラムを使用した分割
# 決定木でヒストグラムベースの分割をシミュレート
clf = DecisionTreeClassifier(max_depth=3, random_state=42)
clf.fit(X, y)

# データを可視化
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', s=10)

# 分割を可視化
xlim = plt.gca().get_xlim()
ylim = plt.gca().get_ylim()
x = np.linspace(xlim[0], xlim[1], 100)
y = np.linspace(ylim[0], ylim[1], 100)
X1, X2 = np.meshgrid(x, y)
Z = clf.predict(np.c_[X1.ravel(), X2.ravel()])
Z = Z.reshape(X1.shape)

plt.contourf(X1, X2, Z, alpha=0.3, cmap='viridis')
plt.title('Histogram-based Splitting using Decision Tree')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

### GOSS (Gradient-based One-Side Sampling)  
GOSSは、Gradient Boosting Decision Tree (GBDT)の効率を改善するためのテクニックです。GBDTは決定木モデルのアンサンブルであり、小さなデータセットには効果的ですが、非常に多くのデータがある場合、そのトレーニングには時間がかかります。この問題を解決するために、GOSSは適切なサンプルを選択することでトレーニングデータ全体ではなく、部分的なデータセットでモデルを学習させるというアプローチを取ります。  

GOSSは主に次の2つのステップを含みます：  
1. 高い勾配と低い勾配を持つサンプルの中からデータを選択します。ただし、高い勾配を持つサンプルはそのまま選び、低い勾配を持つサンプルはランダムに選びます。  
2. 勾配に基づいて選ばれたサンプルに再スケーリングを施し、元のデータセットの勾配分布を保持します。  

この技術により、GOSSは計算資源を節約しながらもモデルの性能を維持しやすくなっています。特に大規模なデータセットでのGBDTの効率を高めるために使用されます。  

#### 数式  
GOSSの要点は勾配
g\_iを使い、特定の条件を満たすサンプルを選びます。全てのサンプルi = 1, ..., n として勾配を計算します。高い勾配を持つ上位a\%のサンプルを全て取り、その後低い勾配を持つサンプルから、b\%のランダムサンプルを選びます。これにより、サンプル数は元の(a + b)\%になります。その次に、低勾配のサンプルに(1-a)\%/\(b\%\)を掛けて再スケーリングを行います：  

\[ g\_i' =
\begin{cases}
g\_i, & \text{if } i \in \text{high gradient subset}\\
\frac{1-a}{b}g\_i, & \text{if } i \in \text{low gradient subset}
\end{cases}
\]  

このサンプル再スケーリングは勾配の合計をできるだけ全データに近い状態で保つためです。

In [None]:
```python
import numpy as np

# サンプルデータを生成する
np.random.seed(42)
grads = np.random.rand(1000)  # サンプル数1000のランダム勾配データ

# パラメータを設定する
a_percent = 0.2  # 高勾配データの上位20%
b_percent = 0.1  # 低勾配データからランダムに選ぶ10%
a = int(a_percent * len(grads))
b = int(b_percent * len(grads))

# 高勾配と低勾配のインデックスを取得する
sorted_indices = np.argsort(grads)[::-1]  # 勾配の降順でインデックスを並べる
high_grad_indices = sorted_indices[:a]
low_grad_indices = sorted_indices[a:]
random_low_grad_indices = np.random.choice(low_grad_indices, b, replace=False)

# 新サンプルセットを作成する
g_selected = grads[high_grad_indices]
g_selected = np.concatenate((g_selected, grads[random_low_grad_indices]))

# 勾配のリスケーリング
def rescale_gradients(g_indices, original_grads, a, b):
    rescaled_grads = original_grads.copy()
    rescaled_grads[g_indices] *= (1.0 - a_percent) / b_percent
    return rescaled_grads

rescaled_grads = rescale_gradients(random_low_grad_indices, grads, a, b)

print("Original gradients: ", grads[:10])  # 元の勾配
print("Selected gradients: ", g_selected[:10])  # 選択された勾配
print("Rescaled gradients: ", rescaled_grads[:10])  # リスケーリングされた勾配
```

Exclusive Feature Bundling (EFB)は、特に大規模なデータセットで多くの特徴が存在する場合に、特徴量の冗長性を削減するための技術です。EFBは、互いに相互排他的である特徴（同時に非ゼロになることがない特徴）を1つの特徴に束ねることにより、メモリ消費を削減し、モデルの訓練速度を向上させます。これにより、高次元のデータセットに対しても効率的に学習を行うことが可能となります。EFBの背後にある基本的なアイデアは、特徴の相関関係を利用して、一度に1つのカテゴリーのみが有効となるカテゴリカル特徴を効率的に統合することです。このプロセスは通常、特徴選択や次元削減の一環として行われます。

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# サンプルデータの作成
X = np.array([
    ['A', '0', '0'],
    ['0', 'B', '0'],
    ['0', '0', 'C'],
    ['A', '0', '0'],
    ['0', 'B', '0'],
])

# OneHotEncoderを用いてカテゴリカルなデータをバイナリ特徴に変換
encoder = OneHotEncoder(sparse=False)
X_encoded = encoder.fit_transform(X)

# Exclusive Feature Bundlingの処理
# ここでは簡単な方法として、手動で排他的な特徴をまとめます
X_efb = np.array([X_encoded[:, 0] + X_encoded[:, 1] + X_encoded[:, 2],
                  X_encoded[:, 3] + X_encoded[:, 4] + X_encoded[:, 5],
                  X_encoded[:, 6] + X_encoded[:, 7] + X_encoded[:, 8]]).T

# データフレームにして表示
columns = ['FeatureBundle_1', 'FeatureBundle_2', 'FeatureBundle_3']
df_efb = pd.DataFrame(X_efb, columns=columns)
print(df_efb)

# 出力結果が元の相互排他的な特徴量の束ねられたバージョンであることを確認
"""
## コードの説明:
- カテゴリカルデータをOne-Hotエンコーディングで数値的なバイナリに変換します。
- この例では、3つの相互排他的な特徴があり、各サンプルで1つのカテゴリーのみが有効になります。
- EFBを適用するため、同時に1つしかアクティブにならない特徴を手動で束ねます。
- 各新しい特徴量は、元の相互排他的なカテゴリーを束ねたものになります。
"""

### Early Stopping

Early Stoppingは、機械学習モデルをトレーニングしている間に過学習を防ぐための技術です。トレーニング中、モデルの性能はトレーニングデータに対して改善され続けることが多いですが、テストデータ（または未使用のバリデーションデータセット）に対する性能はある地点で低下し始める可能性があります。過学習が発生すると、モデルはトレーニングデータに過剰に適合してしまい、新しいデータに対しての一般化性能が低下します。

Early Stoppingは、トレーニング中にバリデーションデータの性能を監視し、一定のエポック数（またはステップ数）連続して性能が改善されない場合にトレーニングを終了する方法です。こうすることで過学習を防ぎ、モデルの一般化性能を向上させることができます。

### 数式

Early Stoppingの基礎は以下のように形式化できます。

1. バリデーション損失 $L_{val}$ を追跡します。
2. $L_{val}$ が最小値に達したときを記録します。
3. その後、$n$エポックの間に$L_{val}$が改善しない場合、トレーニングを停止します。

このプロセスにより、最も良いバリデーション性能をもたらした重みを持つモデルが得られるようにします。

In [None]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
from keras.callbacks import EarlyStopping

# データの生成
X = np.random.rand(1000, 10)  # 特徴
y = np.random.rand(1000, 1)  # ターゲット

# 訓練データとテストデータに分割
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)

# モデルの構築
model = Sequential()
model.add(Dense(64, input_dim=10, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='linear'))

# コンパイル
model.compile(optimizer='adam', loss='mse')

# Early Stopping コールバックの設定
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

# モデルの訓練
model.fit(X_train, y_train, epochs=100, validation_data=(X_val, y_val), callbacks=[early_stopping])

### 学習率減衰 (Learning Rate Decay)

学習率減衰は、ニューラルネットワークのトレーニングにおいて、時間の経過とともに学習率（Learning Rate）を段階的に減少させる手法です。初期には高い学習率を設定して高速なコンバージェンスを図り、その後徐々に学習率を低下させることで最適解に滑らかに収束させます。

#### 理論

学習率減衰を用いることで、初期段階の高速な探索能力と、最終段階の安定した収束性を両立することが可能です。一般的な減衰方法は以下のようなものがあります:

- **ステップ減衰 (Step Decay):** 特定のエポック数が経過するごとに学習率を一定比率で減少させます。
  $$ \eta_t = \eta_0 \cdot \gamma^{\lfloor \frac{t}{T} \rfloor} $$
  ここで、$\eta_t$は時間$t$における学習率、$\eta_0$は初期学習率、$\gamma$は減衰率、$T$はステップ数です。
- **指数減衰 (Exponential Decay):** 指数関数的に学習率を減少させます。
  $$ \eta_t = \eta_0 \cdot e^{-kt} $$
  ここで、$k$は減衰定数です。
- **時間ベース減衰 (Time-based Decay):** 時間とともに徐々に学習率を減少させます。
  $$ \eta_t = \frac{\eta_0}{1 + kt} $$

#### 使用用途

学習率減衰は、特にディープラーニングにおいてトレーニングプロセスを最適化するためによく使われます。初期フェーズでの高速な収束を促しつつ、後半で精度を安定化させたい場合に有効です。これにより、オーバーフィッティングを防ぎ、モデルの汎化能力を高めることができるとされています。

In [None]:
```python
import numpy as np
import matplotlib.pyplot as plt

# 学習率減衰のタイプ
class LearningRateDecay:
    def __init__(self, initial_lr, decay_type='step', gamma=0.1, decay_step=10, k=0.1):
        self.initial_lr = initial_lr
        self.decay_type = decay_type
        self.gamma = gamma
        self.decay_step = decay_step
        self.k = k

    def get_lr(self, epoch):
        if self.decay_type == 'step':
            return self.initial_lr * np.power(self.gamma, np.floor(epoch / self.decay_step))
        elif self.decay_type == 'exponential':
            return self.initial_lr * np.exp(-self.k * epoch)
        elif self.decay_type == 'time-based':
            return self.initial_lr / (1 + self.k * epoch)
        else:
            raise ValueError(f"Unsupported decay type: {self.decay_type}")

# 学習率のプロット
initial_lr = 0.1
epochs = 100

for decay_type in ['step', 'exponential', 'time-based']:
    lr_decay = LearningRateDecay(initial_lr, decay_type)
    lrs = [lr_decay.get_lr(epoch) for epoch in range(epochs)]
    plt.plot(lrs, label=f'{decay_type} decay')

plt.title('Learning Rate Decay')
plt.xlabel('Epoch')
plt.ylabel('Learning Rate')
plt.legend()
plt.show()
```

### L1/L2 正則化の解説

**正則化**は、過学習を防ぐためにモデルの複雑さを制御するテクニックです。L1とL2正則化はその中でも特によく使われる手法です。

#### L1 正則化
- **概念**: L1正則化は損失関数に係数の絶対値の合計をペナルティとして追加します。
- **数式**: $\text{L1正則化} = \lambda \sum_{i=1}^{n} |w_i|$
- **使用用途**: 特徴選択に効果があり、非ゼロの特徴を重要視する。そのため、スパース性があるデータセットに向いています。

#### L2 正則化
- **概念**: L2正則化は損失関数に係数の二乗の合計をペナルティとして追加します。
- **数式**: $\text{L2正則化} = \lambda \sum_{i=1}^{n} w_i^2$
- **使用用途**: 小さなモデルパラメータの変更でも損失が変化しにくくなるため、スムーズで安定した学習に向いています。過学習を防ぐのに有効です。

In [None]:
# L1/L2 正則化の例
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# データセットの生成
X, y = make_regression(n_samples=100, n_features=20, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# L1正則化 (Lasso) の適用
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
print("Lasso 回帰係数:", lasso.coef_)
print("Lasso テストセットスコア:", lasso.score(X_test, y_test))

# L2正則化 (Ridge) の適用
ridge = Ridge(alpha=0.1)
ridge.fit(X_train, y_train)
print("Ridge 回帰係数:", ridge.coef_)
print("Ridge テストセットスコア:", ridge.score(X_test, y_test))

### SHAP値 (SHapley Additive exPlanations)の解説
SHAP値（SHapley Additive exPlanations）は、機械学習モデルの結果を解釈可能にするための手法の一つです。SHAPは各特徴量の寄与度をフェアに測定することを目指しています。これは、ゲーム理論におけるShapley値の概念に基づいており、各特徴量が予測結果にどの程度貢献したかを定量的に評価します。

SHAP値は、特徴量の組み合わせのすべてのパターンを考慮し、特徴量が追加されたときにどれだけモデルの予測が変化するかを計算します。これにより、特徴量の寄与を公平に評価することが可能になります。

#### SHAPの理論と数式
Shapley値の計算は次の数式で表されます：

$$
\phi_i(v) = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|! (|N| - |S| - 1)!}{|N|!} (v(S \cup \{i\}) - v(S))
$$

ここで、
- $N$ は特徴量の集合。
- $S$ は特徴量の部分集合。
- $v(S)$ はモデルの予測関数であり、特徴量の部分集合 $S$ に基づく予測値を返します。
- $\phi_i$ は特徴量iに対するSHAP値を表しています。

#### 使用用途
主に以下のような場合に用いられます：
- モデル予測の説明性向上
- 特徴量の重要性の評価
- モデルのバイアス検出

SHAP値は、勾配ブースティングモデル（例：XGBoost, LightGBM）やニューラルネットワークといった様々なモデルに対して適用可能で、特にブラックボックスモデルの解釈に有用です。

In [None]:
# PythonでSHAP値を計算し、視覚的に解釈するためのコード
```
import xgboost as xgb
import shap
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston

# データのロードと訓練/テストへの分割
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoostモデルの訓練
model = xgb.XGBRegressor(objective='reg:squarederror')
model.fit(X_train, y_train)

# SHAP値の計算
explainer = shap.Explainer(model)
shap_values = explainer(X_test)

# 単一の予測結果に対するSHAP値のプロット
shap.initjs()
shap.plots.waterfall(shap_values[0])

# 全体の特徴量の寄与を示すSummary Plot
shap.plots.beeswarm(shap_values)
```


Permutation Importance（順列重要度）とは、特定の特徴量がモデルの予測にどの程度寄与しているかを測るための手法の一つです。この手法は、各特徴量の値をランダムにシャッフルし、モデルの予測性能がどれだけ低下するかを観察することで、その特徴量の重要性を評価します。重要な特徴量であれば、その値をランダムにすることでモデルの予測性能が大きく低下します。具体的な手順は以下の通りです：  
1. 初期の性能メトリクス（例：精度やR²スコア）を計算する。  
2. 各特徴量に対して、その特徴量の値をランダムにシャッフル。  
3. シャッフル後のデータで再度モデルの性能を評価。  
4. 初期の性能との差を特徴量の重要度とする。この手法の利点は、モデルがどのアルゴリズムであっても適用可能であり、直接的に予測精度への影響を見ることができる点です。ただし、計算コストが高くなる可能性があることや、多重共線性のある特徴量間で結果が不安定になることもあります。数式として表すと、特徴量 \( j \) についてのPermutation Importanceは以下のように表されます：  
\[
PI(j) = E(L(f(X), Y)) - E(L(f(X_{\setminus j}^{\text{perm}}), Y))
\]  
ここで、\( PI(j) \) は特徴量 \( j \) の重要度、\( L \) は損失関数、\( f \) は学習済みモデル、\( X \) は入力データ、\( Y \) はターゲット、\( X_{\setminus j}^{\text{perm}} \) は特徴量 \( j \) がシャッフルされたデータです。

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import random

# データのロード
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# モデルの訓練
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 元のデータでの精度を計算
baseline_accuracy = accuracy_score(y_test, model.predict(X_test))

# Permutation Importanceを計算
def permutation_importance(model, X_test, y_test):
    baseline_accuracy = accuracy_score(y_test, model.predict(X_test))
    importances = {}
    for col in range(X_test.shape[1]):
        X_permuted = X_test.copy()
        random.shuffle(X_permuted[:, col])  # 特徴量をシャッフル
        shuffled_accuracy = accuracy_score(y_test, model.predict(X_permuted))
        importance = baseline_accuracy - shuffled_accuracy
        importances[col] = importance
    return importances

importances = permutation_importance(model, X_test, y_test)

# 結果を表示
for feature_idx, importance in importances.items():
    print(f"Feature {feature_idx}: {importance}")

### 決定木の構築について

決定木は、データを用いて物事を決定するためのツールであり、木構造に基づいて意思決定を行うアルゴリズムです。決定木は、分類問題や回帰問題に利用されます。

#### 理論

決定木はデータを特徴量に基づいて分割する方法です。それは、根ノードから始まり、各特徴量に基づいてノードが分割され、各ノードでの判断が行われます。これらのノードには最後に、すべての分割が終了した際の出力（クラスまたは値）が含まれており、これを葉ノードと呼びます。

決定木の構築は以下のステップを含みます。

1. **特徴選択**: 分割の基準として最適な特徴を選択します。一般的な基準にはジニ不純度、エントロピーを用いた情報利得などがあります。

2. **分割の実行**: 最適な基準に基づいてデータを分割します。

3. **停止条件の確認**: 分割を継続するか、停止して葉ノードとするかを決定します。条件には、データが十分に純粋である、指定した最大深さに達したなどがあります。

4. **終端処理**: 新しいデータポイントを分類するために、完成した決定木を使用します。

#### 数式

1. **ジニ不純度** $G_i = 1 - \sum_{k=1}^K p_{i,k}^2$
2. **情報利得** $IG(T, X) = H(T) - \sum_{i=1}^n \frac{|T_i|}{|T|} H(T_i)$

#### 使用用途

- **分類**: スパムメールの判定、がんの診断
- **回帰**: 家の価格の予測、売上の予測
- **特徴選択**や**ルール生成**


In [None]:
```python
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree
import matplotlib.pyplot as plt

# データセットのロード
iris = load_iris()
X, y = iris.data, iris.target

# データをトレーニングとテストに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 決定木のインスタンス化
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)

# モデルのトレーニング
clf.fit(X_train, y_train)

# モデルの可視化
plt.figure(figsize=(12,8))
tree.plot_tree(clf, filled=True)
plt.show()

# テストデータに対する予測
predictions = clf.predict(X_test)

# モデルの精度
accuracy = clf.score(X_test, y_test)
print(f'Accuracy: {accuracy * 100:.2f}%')
```


### ブートストラップサンプリングの解説

ブートストラップサンプリングは、与えられたデータセットから再サンプリングを行う手法で、統計推定の精度を評価するために広く使用されます。再サンプリングは置換抽出により行われ、元のデータセットと同じサイズの新しいデータセットを生成します。これにより、仮想的に独立したサンプルを多数作成し、統計量の分布や信頼区間を推定することができます。

#### 理論
ブートストラップ法では、以下の手順を実行します：
1. 元のデータセット $X = \{x_1, x_2, ..., x_n\}$ から置換ありでサンプルを取り、ブートストラップサンプル $X^*_b$ を生成します（ここで $b = 1, 2, ..., B$）。
2. 各ブートストラップサンプル $X^*_b$ に対して、関心のある統計量（例えば平均、分散、回帰係数など）を計算します。
3. ブートストラップサンプルで得られた統計量の分布を利用して、元の統計量の分布を推定します。

#### 使用用途
- **信頼区間の推定**: 統計量の真の値を囲む確率的な範囲を計算するのに使用されます。
- **統計的仮説検定**: データの特徴に基づく仮説の検証に効果的です。
- **モデルの性能評価**: 機械学習モデルの汎化性能を評価する際に用いられます。

In [None]:
# Pythonによるブートストラップサンプリングの実装例
import numpy as np

# 元のデータセット
original_data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# ブートストラップサンプリングの設定
n_iterations = 1000  # ブートストラップサンプルの数
n_size = len(original_data)  # ブートストラップサンプルのサイズ

# 統計量を保存するリスト
means = []

# ブートストラップサンプリングの実行
for _ in range(n_iterations):
    # ランダムにサンプリング
    sample = np.random.choice(original_data, size=n_size, replace=True)
    # サンプルの平均を計算して保存
    means.append(np.mean(sample))

# ブートストラップサンプルから得た平均の標準偏差を計算
std_error = np.std(means)
print(f"推定平均の標準誤差: {std_error}")

# 結果を使って95%信頼区間を計算
confidence_interval = np.percentile(means, [2.5, 97.5])
print(f"95%信頼区間: {confidence_interval}")

### ランダムフォレストの解説

**ランダムフォレスト**は、主に分類や回帰の問題を解決するために使用されるアンサンブル学習アルゴリズムの一つです。以下にその特徴や理論を説明します。

#### 理論
- **決定木の集まり**: ランダムフォレストは大量の決定木を使って予測を行います。これにより、一つの決定木では得られない精度や汎化性能を高めることができます。
- **バギング手法**: ランダムフォレストはバギング (Bootstrap Aggregating) と呼ばれる手法を使用しています。これは、データの中からランダムにサンプルを取得して複数のモデルを学習させ、その結果を平均化することで全体の予測精度を向上させる方法です。
- **特徴のランダム性**: 各決定木を作る際に、無作為に特徴量を選択して学習します。これによりモデルの多様性が増し、過学習を防ぐ効果が得られます。

#### 数式
ランダムフォレストは、個々の決定木 \(h(x, \Theta_k)\) の出力を集め、それらの平均を取ることで最終的な出力を決定します。ここで、\(x\) は入力データ、\(\Theta_k\) はランダムに生成されたパラメータです。
\[
\hat{y} = \frac{1}{K} \sum_{k=1}^{K} h(x, \Theta_k)
\]

#### 使用用途
- **分類問題**: スパムメールのフィルタリングや画像認識など、カテゴリ分けする問題に応用。
- **回帰問題**: 家の価格予測や在庫予測など、連続値の予測問題に応用。
- **特徴選択**: 特徴の重要度を評価する機能を持ち、多くの特徴量の中から重要な特徴を選択する際に利用可能。

ランダムフォレストは簡単に使えることに加え、様々な問題で強力な性能を示すため、機械学習の初心者から上級者まで広く利用されています。

In [None]:
```python
# ランダムフォレストの実装例
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# データのロード
iris = load_iris()
X, y = iris.data, iris.target

# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ランダムフォレストモデルの作成
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# モデルの訓練
clf.fit(X_train, y_train)

# 予測
y_pred = clf.predict(X_test)

# 精度の評価
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
```

このコードは、scikit-learnライブラリを用いてランダムフォレストを実装する簡単な例です。`load_iris`関数でデータセットを取得し、データを訓練用とテスト用に分割します。`RandomForestClassifier`を使用してモデルを訓練し、テストデータで予測を行った後、精度を出力します。

### アンサンブル学習について

アンサンブル学習とは、複数のモデルを組み合わせて予測性能を向上させる手法です。個別のモデルが持つ弱点を補い、より強力な予測力を持つモデルを生成することが目的です。アンサンブル学習は、モデルの多様性を利用することで、過学習を抑制し、汎化性能を向上させることが期待されます。

#### 主な手法
1. **バギング (Bagging)**: ブートストラップサンプリングによって複数のデータセットを生成し、それぞれにモデルを学習させ、最終的に予測する際にモデルの平均をとる手法です。ランダムフォレストが代表的な例です。

2. **ブースティング (Boosting)**: 弱学習器を順番に学習させ、誤分類されたデータにより重みを置くことで、次の学習器を訓練します。最終的な結果は重み付き多数決や加重平均によって出されます。AdaBoostやGradient Boostingが有名です。

3. **スタッキング (Stacking)**: 複数の異なるモデルの出力をメタ学習器に入力し、最終予測を生成する手法です。メタ学習器はこれらの出力から最適な予測を導き出します。

#### 使用用途
アンサンブル学習は広範な分野で使用され、多くの機械学習コンペティションでもその有効性が示されています。特に大量のデータがある場合や、単純なモデルを超える予測性能が求められる場合に効果的です。

In [None]:
```python
# アンサンブル学習の例: ランダムフォレストによる分類
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# データセットをロードし、トレーニングセットとテストセットに分割
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

# ランダムフォレストモデルのインスタンスを作成
model = RandomForestClassifier(n_estimators=100, random_state=42)

# モデルをトレーニング
model.fit(X_train, y_train)

# テストセットで予測
y_pred = model.predict(X_test)

# 予測精度を表示
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
```

## 交差検証 (Cross Validation)

交差検証は、モデルの性能を評価するためのテクニックです。データをいくつかの分割に分け、その分割を使ってモデルを訓練・テストします。最も一般的な方法は K-分割交差検証 (K-Fold Cross Validation) です。

### K-分割交差検証のプロセス

1. データセットを K 個の等しい部分に分割します。
2. そのうち K-1 個を訓練に使用し、残りの 1 個をテストに使います。
3. このプロセスを K 回繰り返し、すべての部分がテストデータとして一度使われるようにします。
4. 各反復で得られた評価指標（例：精度）を平均して、モデルの性能の推定値を得ます。

K-分割交差検証の利点は、データのバリエーションにかかわらず、より安定したモデル評価を提供することです。複数の分割を用いるため、特定の分割に依存する過学習を避けることができます。

### 数式

各分割における評価指標 (例えば、Accuracy) を $A_k$ とすると、最終的な評価指標は以下のように計算されます：

$$\text{Accuracy}_{CV} = \frac{1}{K} \sum_{k=1}^{K} A_k$$

ここで、$K$ は分割の数を示します。

### 使用用途

- **モデル選択**: モデルやハイパーパラメータの選択を行う際に利用されます。
- **パフォーマンス評価**: データの分割に依存しない性能評価を行うことができます。

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

# データセットのロード
iris = load_iris()
X, y = iris.data, iris.target

# モデルの定義
clf = DecisionTreeClassifier(random_state=0)

# K-分割交差検証 (K=5) を実行
scores = cross_val_score(clf, X, y, cv=5)

# 各分割のスコアと平均スコアを表示
print('Cross-validation scores: {}'.format(scores))
print('Mean accuracy: {:.2f}'.format(scores.mean()))

### ハイパーパラメータチューニング (GridSearch)

ハイパーパラメータチューニングは、モデルの性能を最適化するために使用する一連のプロセスです。ハイパーパラメータは、モデルのトレーニングプロセスにおいて事前に指定され、それによってモデルの挙動を制御する値です。これに対して、モデルによって学習されるパラメータはデータに基づいて決まるものです。

**GridSearch**とは、あらかじめ定義されたハイパーパラメータの組み合わせを網羅的に探索して、モデル性能を最大化するためのプロセスです。GridSearchでは、複数のハイパーパラメータに対して考えられるすべての組み合わせを試し、それぞれに対してモデルを訓練し、最適な組み合わせを見つけ出します。

#### 数式
ハイパーパラメータ空間 $\mathcal{H}$の探索において、GridSearchは次のように定義されます：

$$\mathcal{H} = \{ (h_1^{(i)}, h_2^{(j)}, \ldots, h_d^{(k)}) \ |\  i=1,\ldots,I; j=1,\ldots,J; \ldots; k=1,\ldots,K \}$$

ここで、$h_1^{(i)}, h_2^{(j)}, \ldots, h_d^{(k)}$はそれぞれのハイパーパラメータの可能な値を示しています。

#### 使用用途
GridSearchは、機械学習モデルのハイパーパラメータチューニングに用いられ、特に学術研究や実務で精度を改善するために広く利用されている手法です。計算コストが高い場合もありますが、全ての組み合わせを試すため、適切なハイパーパラメータを見つける可能性を十分に確保することができます。

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.svm import SVC

# データセットの読み込み
iris = load_iris()
X, y = iris.data, iris.target

# モデルとパラメータの定義
model = SVC()
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'linear']
}

# GridSearchの実行
grid = GridSearchCV(model, param_grid, refit=True, verbose=2, cv=5)
grid.fit(X, y)

# 最適なパラメータの表示
print("Best Parameters:", grid.best_params_)

# 最適なモデルのスコアの表示
print("Best Cross-validation Score:", grid.best_score_)


### バギング (Bagging)についての解説

**バギング (Bootstrap Aggregating)** は、機械学習において慎重に扱われるアンサンブル学習の一手法です。バギングは、元のデータセットから重複を許して複数のサブセットをリサンプルし、それぞれにモデルを訓練します。最終的な予測は、これらのモデルからの出力を集約することで行います。

#### 理論:
- **ブートストラップサンプリング**: 元のデータセットからサンプリングし、サイズの等しい新しいデータセットを作成します。サンプルは重複を許します。
- **平均化/多数決**: 回帰問題であれば予測値の平均を取り、分類問題であればモード（最頻値）を取ることで予測します。

バギングの主な利点は、モデルの分散を減少させることにあります。個々のモデルの誤差が互いに打ち消し合うことによって、全体としての予測精度が向上します。これは特に、決定木のように高い分散を持つモデルにおいて効果的です。

数式での表現は以下のようになります：

1. データセット $D = \{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$ からブートストラップサンプル $D^{(b)}$ を $B$ 個作成。
2. 各ブートストラップサンプルごとにモデル $f^{(b)}(x)$ を学習。
3. 予測はアンサンブル平均で計算されます。

\[
\hat{f}(x) = \frac{1}{B} \sum_{b=1}^{B} f^{(b)}(x)
\]

ここで、$\hat{f}(x)$ はアンサンブルモデルの出力です。

#### 使用用途:
- 決定木に基づくランダムフォレストは、バギングの代表例であり、競争力のある精度を特徴とします。
- ノイズに敏感なモデルにおける、精度の向上が期待されます。

In [None]:
```python
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データのロード
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 決定木ベースのバギング分類器を作成
bagging = BaggingClassifier(base_estimator=DecisionTreeClassifier(),
                            n_estimators=10, random_state=42)

# モデルの訓練
bagging.fit(X_train, y_train)

# 予測
y_pred = bagging.predict(X_test)

# 精度の評価
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
```

### ブースティング (Boosting) についての解説

ブースティング（Boosting）は、機械学習のアンサンブル学習手法の一つで、複数の弱学習器（通常、決定木）が連携して性能の高い予測を行う方法です。ブースティングは、モデルの過学習を防ぎつつ、予測精度を向上させることができます。

ブースティングの基本的なアイデアは、順次的な学習プロセスを用いて、前のモデルで間違えたデータポイントにより重点を置くことです。これは通常、アルゴリズムが満たされるたびに、新しいモデルが作られて誤分類されたデータに焦点を当てるような方法で行われます。最も一般的なブースティング手法としてAdaBoostやGradient Boosting、XGBoostなどがあります。

#### 数式
ブースティングでは、基本的に以下のような形式の予測モデルを構築します：

\[ F(x) = \sum_{m=1}^{M} w_m h_m(x) \]

- \( F(x) \) は最終的な予測結果。
- \( h_m(x) \) はそれぞれの弱学習器。
- \( w_m \) は各弱学習器の重み。

### 使用用途
- **分類問題**：画像認識、スパムフィルター、顧客離反予測
- **回帰問題**：家賃価格予測、売上予測

ブースティングが適しているのは、精度が非常に重要な場合や、データセットが複雑で異なる特徴を持っている場合です。

In [None]:
```python
# 必要なライブラリのインポート
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# データセットの作成
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42)

# データセットの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# モデルの初期化
model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# モデルの訓練
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)

# 評価
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"Accuracy: {accuracy:.2f}")
print("Classification Report:\n", report)
```
このコードでは、`sklearn`を用いて著名なブースティング技法であるGradient Boostingを実装しています。まず、`make_classification`でダミーデータセットを生成し、それをトレーニングデータとテストデータに分割します。その後、Gradient Boostingのモデルを訓練し、テストデータに対しての予測結果を評価しています。

### Log Loss (対数損失)
Log Lossは分類問題においてモデルの性能を評価するための損失関数です。特に二項分類問題によく使われます。

#### 理論
Log Lossは、確率を用いて予測の不確実性を測定します。具体的には、あるクラスに属する確率が高いほどLog Lossが低くなり、逆に確率が低い場合はLog Lossが高くなります。

数式で表すと、Log Lossは以下のようになります：

- \( y_i \) は実際のラベル (1 もしくは 0)、
- \( \hat{y_i} \) はモデルが予測したラベルが1になる確率。

\[ 	ext{Log Loss} = -
rac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y_i}) + (1-y_i) \log(1-\hat{y_i})
ight] \]

ここで、\( N \) はサンプルの数です。この式は、予測が正しいほど損失が小さく、予測が間違っているほど損失が大きくなるように設計されています。

#### 使用用途
- **評価指標**として：モデルの良し悪しを定量的に評価。
- **モデル最適化**：モデルのパラメータ調整時に、Log Lossを最小化することで、モデル精度を向上。

Log Lossは、特にクラス不均衡があるデータセットで役立つ指標です。なぜなら、正しいクラスの確率を考慮するため、単に正解率を考えるよりも、モデリングの精度をより詳細に評価できます。

In [None]:
# Python code to calculate Log Loss
import numpy as np

def log_loss(y_true, y_pred):
    """
    Calculate the log loss for binary classification.

    Parameters:
    y_true (numpy array): True binary labels (0 or 1).
    y_pred (numpy array): Predicted probabilities of the positive class.

    Returns:
    float: Log loss value.
    """
    # Add epsilon to prevent log(0)
    epsilon = 1e-15
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)

    # Calculate log loss
    loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    return loss

# Example usage:
y_true = np.array([1, 0, 1, 1, 0])
y_pred = np.array([0.9, 0.1, 0.8, 0.7, 0.6])
print("Log Loss:", log_loss(y_true, y_pred))

### データの重み付けの理論

データの重み付けとは、データの各サンプルや特徴に重要度を示すための値（重み）を割り当てる手法です。この手法は、より重要なデータに対して優先順位を与え、分析結果の精度を高める目的で使用されます。重み付けは、統計学、機械学習、データ分析などで広く利用されます。

### 数式

一般的な重み付けの数式は次のようになります:

\[
Y = \sum_{i=1}^{n} w_i \cdot x_i
\]

ここで、
- \(Y\) は重みを考慮した出力。
- \(w_i\) はサンプルや特徴に対する重み。
- \(x_i\) はデータポイント。
- \(n\) はデータポイントの数。

### 使用用途

1. **機械学習モデル**: 重み付けは、損失関数内で誤差の種類に応じて異なる重みを割り当てることで、モデルの精度向上に貢献します。
2. **アンケート調査**: 無作為抽出ではないデータセットで、参加者の重要度に応じて結果を調整するために使用されます。
3. **ポートフォリオ管理**: 個々の資産に対し異なる投資比率を割り当て、リスクを管理します。

In [None]:
# データの重み付けを示すシンプルなPythonコード

import numpy as np

def weighted_sum(weights, data):
    return np.dot(weights, data)

# サンプルデータ
weights = np.array([0.2, 0.3, 0.5])
data = np.array([10, 20, 30])

# 重み付き合計を計算
result = weighted_sum(weights, data)
print(f'Weighted Sum: {result}')

### ランダムサンプリング

ランダムサンプリングは、母集団から無作為にサンプルを抽出する手法です。この手法の目的は、母集団全体を代表するようなサンプルを得ることです。ランダムサンプリングは、例えばアンケート調査や品質管理など、各種統計分析の基礎となる手法です。理論的には、各要素がサンプルに選ばれる確率が等しいことから、『公平性』が担保されます。

#### 理論と数式

統計的には、サンプルの平均 \( \bar{x} \) は母平均 \( \mu \) の推定値として使用され、サンプル標準偏差 \( s \) は母標準偏差 \( \sigma \) の推定値として役立ちます。

\[
    \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
\]

\[
    s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
\]

ここで、\( x_i \) はサンプルの要素、\( n \) はサンプルサイズです。

In [None]:
import random

# 母集団を定義
population = [i for i in range(1, 101)]  # 1から100までの整数

# サンプルサイズ
sample_size = 10

# ランダムサンプリング
sample = random.sample(population, sample_size)

# 結果の表示
print("ランダムサンプル:", sample)

SHAP (SHapley Additive exPlanations) 値は、機械学習モデルの予測を説明するためのツールで、ゲーム理論に基づく手法です。SHAP値は各特徴量の寄与度を公正に割り当てることを目的としており、予測値への影響を定量化します。理論的には、SHAP値は特徴量の組み合わせ全体を考慮し、各特徴量が入ることで予測値がどれだけ変化するかを全特徴量で平均化して評価します。数式的には、\( v(S) \)を特徴量群\( S \)についての予測値とし、特徴量\( i \)の寄与を計算するためのSHAP値\( \phi_i \)は以下の式で表されます。

$$ \phi_i = \sum_{S \subseteq N \ \{ i \}} \frac{|S|!(|N|-|S|-1)!}{|N|!} (v(S \cup \{ i \}) - v(S)) $$

ここで、\( N \)はすべての特徴量の集合、\( |S| \)は特徴量群\( S \)の要素数です。SHAP値の利用用途には、モデルの透明性を高めるための可視化、特定の予測における主要なドライバーの特定、特徴量の重要度評価などがあります。SHAP値は累積的な影響を観察できるため、個々の予測に対する特徴量の効果を深く理解できます。

In [None]:
import numpy as np
import pandas as pd
import shap
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

# データを生成または読み込み
X, y = shap.datasets.boston()

# データを学習用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# モデルをトレーニング
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

# SHAP explainerの作成
explainer = shap.Explainer(model, X_train)

# SHAP値を計算
shap_values = explainer(X_test)

# 予測に対するSHAP値の可視化
shap.summary_plot(shap_values, X_test, plot_type='bar')

### ハイパーパラメータの最適化

ハイパーパラメータの最適化とは、機械学習モデルのパフォーマンスを最大化するために、モデルのハイパーパラメータを調整するプロセスです。ハイパーパラメータとは、モデルのトレーニングプロセス前に設定する必要のあるパラメータであり、学習率やバッチサイズ、正則化パラメータなどが含まれます。

#### 理論と数式

ハイパーパラメータの最適化は、通常次のような問題として定式化されます：

\[
\text{minimize}_{\theta \in \Theta} \ L(\theta, \mathcal{D}_{\text{train}})
\]

ここで、\(\theta\) はハイパーパラメータのセット、\(\Theta\) は許容されるハイパーパラメータの空間、\(L\) は損失関数、\(\mathcal{D}_{\text{train}}\) はトレーニングデータです。最適化は損失 \(L\) を最小化するように \(\theta\) を選ぶことです。

#### 使用用途

ハイパーパラメータの最適化は、特にディープラーニングや複雑な機械学習モデルで重要です。適切に設定されたハイパーパラメータはモデルの精度を大幅に向上させることができます。

最も一般的なハイパーパラメータ最適化手法には、グリッドサーチ、ランダムサーチ、ベイズ最適化などがあります。ベイズ最適化は特に有効で、ハイパーパラメータの空間を探索する際により少ない試行で良好な結果を得ることができます。

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

# データセットをロード
iris = load_iris()
X, y = iris.data, iris.target

# トレーニングデータとテストデータに分ける
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# SVMモデルを定義
model = SVC()

# ハイパーパラメータの選択肢を定義
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf']
}

# グリッドサーチによるハイパーパラメータの最適化
grid = GridSearchCV(model, param_grid, refit=True, verbose=2)
grid.fit(X_train, y_train)

# 最良のパラメータと精度を出力
print("Best Parameters:", grid.best_params_)
print("Best Cross-Validation Score:", grid.best_score_)

# テストデータでの性能を評価
score = grid.score(X_test, y_test)
print("Test Score:", score)

### 予測確率のキャリブレーション

予測確率のキャリブレーションとは、モデルが予測する確率の出力が現実の確率とどの程度一致しているかを評価し、調整するプロセスです。モデルが生成する予測確率がバイアスを持つ場合や、確率の分布が実際の分布と一致しない場合、キャリブレーションが必要となります。

#### 理論

キャリブレーションを評価するための方法の一つに**キャリブレーションプロット**があり、これはモデルの予測確率をビンに分け、それぞれのビンにおける予測確率と実際の事象の発生頻度を比較する方法です。また、Brierスコアもキャリブレーションを評価するための指標として用いられます。

キャリブレーションの理論的基盤は、特にロジスティック回帰やベイズ学習などの確率出力を持つモデルに関連します。これらのモデルでは、予測確率が単に確率密度の出力として利用されず、そのまま意思決定やリスク評価、ベイジアンネットワークの生成など、様々な応用に利用されます。

#### 数式

予測確率のキャリブレーションを数式で表すと、次のように定義できます。

- **キャリブレーション関数（Calibration Function, CF）**:
  \[ CF(p) = P(Y=1 \mid \hat{P}=p) \]
  ここで、\(\hat{P}\)はモデルの予測確率を表し、\(P(Y=1 \mid \hat{P}=p)\)は実際の事象が発生する確率を表します。

- **Brierスコア**:
  \[ \text{Brier Score} = \frac{1}{N} \sum_{i=1}^{N} (f_i - o_i)^2 \]
  ここで、\(f_i\)は予測確率、\(o_i\)は実際のイベント（0または1）です。

#### 使用用途

1. **分類問題の評価**: 分類モデルがどの程度信頼できるかを評価する際に使用されます。
2. **確率予測の信頼性**: AIが出力する確率を意思決定に利用する場合、その信頼性を確認するために重要です。
3. **リスク管理**: 金融や医療分野におけるリスク評価において、モデルの予測確率を正確にキャリブレーションすることで、より正確なリスク評価が可能となります。

In [None]:
import numpy as np
from sklearn.calibration import calibration_curve
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# データセットの作成
data = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10,
                          random_state=42)
X, y = data

# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ロジスティック回帰モデルの訓練
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# テストデータで予測確率の計算
prob_pos = model.predict_proba(X_test)[:, 1]

# キャリブレーション曲線の取得
fraction_of_positives, mean_predicted_value = calibration_curve(y_test, prob_pos, n_bins=10)

# キャリブレーションプロットの描画
plt.figure(figsize=(10, 8))
plt.plot(mean_predicted_value, fraction_of_positives, "s-")
plt.plot([0, 1], [0, 1], "--", color="gray")
plt.xlabel("Mean predicted value")
plt.ylabel("Fraction of positives")
plt.title("Calibration curve")
plt.show()

### 分布適応型のバギング (Balanced Bagging) に関する解説

バランスバギング（Balanced Bagging）は、特に不均衡なデータセットにおいてバギングの手法を改良して活用するための技法です。一般的なバギングは、複数のサブサンプルを用いてその平均で予測を行う手法で、モデルのバリアンスを減少させる目的で使われます。しかし、クラスの不均衡があるデータセットでは、サンプルの不均衡がそのまま影響するため、クラス不均衡を考慮したサンプリングが必要です。

Balanced Baggingはこの問題を解決するため、各サブサンプル内でクラスの分布が均等になるようにサンプリングを行います。そのため、マイノリティクラス（少数派のクラス）がバギングされたサンプリングにおいて適切な代表を持つことができるようになります。具体的には、各クラスからランダムにサンプルを抽出し、クラス数が均等になるようにリサンプリングを行います。

数式的には、従来のバギングがブートストラップサンプリングによって各サブセット $B_i$ を生成するのに対し、Balanced Baggingでは各クラス $c_j$ のサンプル数を均一化するリサンプリング手法を採用します。特に、以下のような式が用いられます：

- $N_c$: 各クラスのサンプル数
- $B_i^{(c_j)}$: クラス $c_j$ に属するサブセット $B_i$ のサンプル

$B_i^{(c_j)} = \text{resample}(D^{(c_j)}, n=N_{balanced})$

ここで、$N_{balanced}$ は各クラスから選出される目標サンプル数を示します。このようにして生成されたサブサンプルを用いて、それぞれの個別のモデルをトレーニングし、最終的なアンサンブルを作ります。

Balanced Baggingは、クラス間バランスが重要な影響を与える不均衡なデータセットで使用され、特にレアケースの重要性が高い医療診断などの領域で有用です。

In [None]:
```python
from imblearn.ensemble import BalancedBaggingClassifier
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# データセットの作成
X, y = make_classification(n_classes=3, class_sep=2, weights=[0.1, 0.3, 0.6], n_informative=3, n_redundant=1, flip_y=0, n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)

# トレーニングデータセットとテストデータセットに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Balanced Baggingのモデルを設定
bbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(),
                                sampling_strategy='auto',
                                replacement=False,
                                random_state=0)

# モデルのトレーニング
bbc.fit(X_train, y_train)

# 予測とパフォーマンスの評価
y_pred = bbc.predict(X_test)
print(classification_report(y_test, y_pred))
```

このコードでは、`imblearn` パッケージの `BalancedBaggingClassifier` を使用しており、クラス間の不均衡を考慮しながらブートストラップサンプルを生成しています。この方法では、各クラスが平等に代表されるようにしています。

### スパースデータの処理

スパースデータとは、多くの要素がゼロでほとんどの情報がわずかに非ゼロな要素に集中しているデータのことを指します。典型的な例としては、テキストデータの単語出現頻度ベクトル、ユーザ行動ログ、ソーシャルネットワークの隣接行列などがあります。

#### 理論
スパースデータの処理では、メモリ効率や計算効率が重要な課題となります。そのため、スパースデータを効率的に扱うために、特別なデータ構造（例えば、疎行列形式）を利用します。

スパースデータの処理では、以下のような手法を使用します。
- **圧縮形式の利用**: CSR (Compressed Sparse Row)、CSC (Compressed Sparse Column)、LIL (List of Lists) など。
- **次元削減**: 主成分分析(PCA)、特異値分解(SVD)などの手法を利用して次元を削減します。
- **正則化**: L1正則化（Lasso回帰）などを用いてモデルを学習します。

#### 数式
スパースデータの次元削減に関して、特異値分解 (SVD) を考えます。対象とするデータ行列 \( A \) を以下のように表現します。
\[
A = U \Sigma V^T
\]
ここで、\( U \) と \( V \) は直交行列であり、\( \Sigma \) は対角行列です。この分解をもとにデータを圧縮し、計算量を大幅に削減できます。

#### 使用用途
スパースデータは推薦システム、ドキュメント分類、画像処理、ネットワーク解析など、さまざまな分野で利用されています。情報の少ない大規模なデータセットで効率よく計算を行うことが必要な場合に特に有用です。

In [None]:
# Pythonでのスパースデータの例: SVDを用いた次元削減

from scipy.sparse import csr_matrix
from scipy.sparse.linalg import svds

# ダミーデータとしてスパース行列を定義します（例えば、ユーザー-アイテム行列）
data = [[0, 0, 3, 0, 4],
        [0, 0, 0, 0, 5],
        [0, 7, 0, 0, 0],
        [1, 0, 0, 0, 0]]

# サンプル行列をCSRフォーマットに変換します
sparse_matrix = csr_matrix(data)

# 特異値分解を行います
U, sigma, Vt = svds(sparse_matrix, k=2)  # 次元削減のため、kを小さくします

# 特異ベクトルと特異値を用いて再構築
sigma = np.diag(sigma)
approximation = U @ sigma @ Vt

print('Original Sparse Matrix:\n', sparse_matrix.toarray())
print('\nApproximated Matrix after SVD:\n', approximation)


学習曲線（Learning Curve）とは、機械学習モデルのパフォーマンスを可視化するためのプロットです。通常、横軸にはトレーニングデータ（トレーニングセットのサイズ）を、縦軸には誤差（例えば、損失やエラーレート）を配置します。これにより、トレーニングセットサイズに対するモデルのパフォーマンスを観察でき、以下のような問題の診断に役立ちます。

1. **過学習（Overfitting）**：トレーニングデータに対しては良好なパフォーマンスを示すものの、検証データや未知のデータに対してはパフォーマンスが低下している状態。
2. **学習不足（Underfitting）**：トレーニングデータでも検証データでもパフォーマンスが低い状態。

理論的には、学習曲線を描くための基本式は誤差関数 \(L\) の変化として表現されます。トレーニング誤差と検証誤差の間のギャップを観察することで、モデルのバイアス・バリアンスのトレードオフを理解する助けとなります。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.datasets import load_iris
from sklearn.svm import SVC

# データセットのロード
X, y = load_iris(return_X_y=True)

# 学習曲線の計算
train_sizes, train_scores, test_scores = learning_curve(
    SVC(), X, y, cv=5, scoring='accuracy',
    train_sizes=np.linspace(0.1, 1.0, 10)
)

# 平均と標準偏差を計算
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)

# 学習曲線のプロット
plt.figure()
plt.title('Learning Curves (SVM)')
plt.xlabel('Training examples')
plt.ylabel('Score')
plt.grid()

# トレーニングスコア
plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                 train_scores_mean + train_scores_std, alpha=0.1,
                 color="r")
plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
         label="Training score")

# テストスコア
plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                 test_scores_mean + test_scores_std, alpha=0.1, color="g")
plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
         label="Cross-validation score")

plt.legend(loc="best")
plt.show()

適応的学習率調整（Adaptive Learning Rate）は、最適化アルゴリズムにおいて、学習率を動的に調整する手法です。従来の勾配降下法では、固定の学習率を設定しますが、適応的学習率を使用することで学習率を各パラメータや更新ステップに応じて動的に調整できます。これにより、勾配が大きい場合は学習率を小さくし、勾配が小さい場合は学習率を大きくすることで、最適解に効率的に到達します。

代表的なアルゴリズムにはAdagrad、RMSprop、Adamなどがあります。これらのアルゴリズムは学習率の調整方法においてそれぞれ独特の特徴を持っており、

1. **Adagrad**: 二乗勾配の累積和で学習率を調整します。特に、疎なデータセットやオンライン学習に適しています。

   更新式は以下の通りです:
   \[ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \, g_t \]
   ここで、\(G_t\)は過去の勾配の二乗和、\(\epsilon\)は数値の安定性を確保するための小さい定数です。

2. **RMSprop**: Adagradの問題点である学習率の極端な減少を防ぐため、勾配の移動平均を利用します。

   更新式は以下の通りです:
   \[ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \, g_t \]
   ここで、\(E[g^2]_t\)は過去の勾配の二乗の指数移動平均です。

3. **Adam**: RMSpropを基にしながら、勾配の一階モーメントも考慮する。

   更新式は以下の通りです:
   \[ m_t = \beta_1 m_{t-1} + (1 - \beta_1)g_t \]
   \[ v_t = \beta_2 v_{t-1} + (1 - \beta_2)g_t^2 \]
   \[ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \]
   \[ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \]
   \[ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t + \epsilon}} \, \hat{m}_t \]
   ここで、\(m_t\)と\(v_t\)は一階および二階のモーメントの移動平均を保持します。

In [None]:
import numpy as np

def adagrad(gradients, learning_rate=0.01, epsilon=1e-8):
    cache = np.zeros_like(gradients[0])
    for g in gradients:
        cache += g ** 2
        adjusted_grad = learning_rate * g / (np.sqrt(cache) + epsilon)
        print(f'Adagrad adjusted grad: {adjusted_grad}')

# Example gradient
example_gradients = [np.array([0.1, 0.2, 0.3]), np.array([0.2, 0.1, 0.4])]

# Run Adagrad
adagrad(example_gradients)

def rmsprop(gradients, learning_rate=0.01, rho=0.9, epsilon=1e-8):
    cache = np.zeros_like(gradients[0])
    for g in gradients:
        cache = rho * cache + (1 - rho) * g ** 2
        adjusted_grad = learning_rate * g / (np.sqrt(cache) + epsilon)
        print(f'RMSprop adjusted grad: {adjusted_grad}')

# Run RMSprop
rmsprop(example_gradients)

def adam(gradients, learning_rate=0.01, beta1=0.9, beta2=0.999, epsilon=1e-8):
    m = np.zeros_like(gradients[0])
    v = np.zeros_like(gradients[0])
    t = 0
    for g in gradients:
        t += 1
        m = beta1 * m + (1 - beta1) * g
        v = beta2 * v + (1 - beta2) * np.square(g)
        m_hat = m / (1 - beta1**t)
        v_hat = v / (1 - beta2**t)
        adjusted_grad = learning_rate * m_hat / (np.sqrt(v_hat) + epsilon)
        print(f'Adam adjusted grad: {adjusted_grad}')

# Run Adam
adam(example_gradients)

### 対数尤度の計算について  

#### 理論  
対数尤度（Log-Likelihood）は、統計モデルが与えられたデータを説明する適合度を測るための尺度です。尤度は確率や確率密度の値を表しており、モデルによってデータがどれだけ生成されやすいかを示します。  
多くのパラメータ推定問題では、尤度関数を最大化することによってモデルのパラメータを推定します。この際、計算の簡略化と数値安定性のために、対数を用いて尤度関数を最大化するのが一般的です。  

#### 数式  
あるモデル $M$ とパラメータ $	heta$ の下でデータ $x$ が観測される確率を $P(x|	heta)$ としたとき、尤度 $L(	heta|x)$ は次のように定義されます。  

\[ L(	heta|x) = P(x|	heta) \]  

対数尤度はこの尤度の対数を取ったもので、次の式で表されます：  

\[ \ell(	heta|x) = \log L(	heta|x) = \log P(x|	heta) \]  

#### 使用用途  
対数尤度は主に以下のような状況で使用されます：  
- **推定**：パラメータ推定のために、対数尤度を最大化することにより最尤推定を行います。  
- **モデル比較**：異なるモデルの適合度を比較するために対数尤度比検定を用います。  
- **仮説検定**：対数尤度比を用いてモデルの適合度の違いを検証します。

In [None]:
```python
import numpy as np

# 簡単な例として、正規分布のデータを扱います
np.random.seed(42)
# 平均0、標準偏差1の正規分布に従う1000個のデータ
sample_data = np.random.normal(0, 1, 1000)

# 正規分布の対数尤度を計算する関数
def log_likelihood_normal(data, mu, sigma):
    n = len(data)
    log_likelihood = -n/2 * np.log(2 * np.pi) - n/2 * np.log(sigma**2) - 0.5 * np.sum((data - mu)**2) / sigma**2
    return log_likelihood

# 平均0、標準偏差1で計算
e_mu, e_sigma = 0, 1
log_likelihood = log_likelihood_normal(sample_data, e_mu, e_sigma)
print(f'Log-Likelihood: {log_likelihood}')
```
このコードでは、正規分布に基づくデータに対して与えられた平均と標準偏差に基づいて対数尤度を計算しています。

## 勾配ブースティング決定木 (GBDT) の解説

### 理論
勾配ブースティング決定木 (Gradient Boosting Decision Trees; GBDT) は、アンサンブル学習の一種で、特に回帰問題や分類問題における予測精度の向上を目的としています。GBDT は、弱学習器を逐次的に構築し、それぞれの弱学習器が前のものの誤差を修正することで最終的な強学習器を構成します。

具体的には、最初に簡単なモデル（通常は決定木）がデータに適合されます。その後、モデル全体の誤差を減少させることを目的として、この最初のモデルの誤差を説明する新たなモデルが追加されます。これが繰り返されることで、モデルの集合が作られます。

GBDTは以下の３つの要素に基づいています：
- **損失関数** \( L(y, F(x)) \): モデルがどれだけ良くデータを予測するかを評価します。一般的に二乗誤差や対数誤差が用いられます。
- **弱学習器**: 通常は決定木が使われます。
- **勾配降下法**: 誤差を最小化するための反復最適化手法です。

### 数式
モデルの更新において、損失関数の勾配を計算し、それに基づいてモデルを改善します。

1. 初期モデル: \(F_0(x) = \arg\min_\rho \sum_{i=1}^N L(y_i, \rho)\)
2. 次の反復でのモデル更新: \(F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)\)
   - ここで、\(h_m(x)\) は第m番目の弱学習器
   - \(\gamma_m\) は学習率
3. \(h_m(x)\) は以下のようにして得られる：\(h_m(x) = -g_m(x)\)
   - \(g_m(x)\) = 損失関数の勾配 = \(\left[\frac{\partial L(y, F(x))}{\partial F(x)}\right]_{F(x) = F_{m-1}(x)}\)

### 使用用途
GBDTはさまざまなデータ分析のタスクにおいて広く使用されています。特に複雑な非線形関係を持つデータセットにおいて、高い予測精度を達成するために用いられます。また、GBDTは特徴選択や外れ値の処理にも強い特性を持っています。

In [None]:
# PythonコードによるGBDTの基本的な手作り実装

import numpy as np
from sklearn.tree import DecisionTreeRegressor

class GradientBoostingRegressor:
    def __init__(self, n_estimators=100, learning_rate=0.1, max_depth=3):
        self.n_estimators = n_estimators
        self.learning_rate = learning_rate
        self.max_depth = max_depth
        self.models = []
        self.initial_model = None

    def fit(self, X, y):
        # 初期モデルの適合
        self.initial_model = np.mean(y)
        Fm = np.full(y.shape, self.initial_model)

        for _ in range(self.n_estimators):
            # 勾配(残差)の計算
            residuals = y - Fm

            # 決定木のモデルを適合
            model = DecisionTreeRegressor(max_depth=self.max_depth)
            model.fit(X, residuals)

            # モデルをリストに追加
            self.models.append(model)

            # モデルの予測を更新
            Fm += self.learning_rate * model.predict(X)

    def predict(self, X):
        # 初期モデルの予測から開始
        Fm = np.full((X.shape[0],), self.initial_model)

        for model in self.models:
            Fm += self.learning_rate * model.predict(X)

        return Fm

# 使用例:
# X, yに適当なデータをセットして実行
# gbr = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3)
# gbr.fit(X, y)
# predictions = gbr.predict(X_test)


### 推論速度の最適化とは

推論速度の最適化とは、機械学習モデルが新しいデータを使って予測を行う際の時間を短縮するための手法やプロセスを指します。これにより、リアルタイム処理が求められるシステムやリソースが限られているデバイス上での効率的な運用が可能になります。

#### 理論
推論速度の最適化は以下のような側面からアプローチされます。

1. **モデルの簡素化**: モデルパラメータの削減や、モデルの軽量化（例えば知識蒸留（Knowledge Distillation）やプルーニング（Pruning））を行います。
   - 知識蒸留では、より大きなモデルが与えた予測を小さなモデルが模倣することで、モデルのサイズを小さくします。
   - プルーニングでは、寄与の小さいモデル重みやニューロンを削除し、計算量を削減します。

2. **数値表現の変更**: モデルのパラメータや計算を固定小数点や半精度浮動小数点にすることにより、精度を若干犠牲にして計算速度を向上させます。
   - 特に`INT8`量子化はよく使われ、通常の`FP32`の重みを8ビット整数に変換し、計算量を削減します。

3. **並列化**: GPUやTPUの使用、バッチ処理による並列化など、ハードウェアを活用した並列計算により推論を高速化します。

4. **効率的なアルゴリズム**: より効率的なアルゴリズムを設計することにより、同じ作業をより少ない計算で実現します。

#### 使用用途
- **リアルタイム応答**: 自動運転車、音声アシスタント、リアルタイム翻訳など。
- **エッジデバイス**: スマートフォンやIoTデバイスなど、計算資源が限られるデバイス上での動作に必要。
- **大規模デプロイメント**: サーバーコストを削減しつつ、多くのリクエストに応答するシステムで必要。

In [None]:
```python
import tensorflow as tf
from tensorflow import keras

# モデルの定義例
model = keras.Sequential([
    keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    keras.layers.Dense(10, activation='softmax')
])

# 元のモデルのサイズと速度の確認
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# ダミーデータで計測
import numpy as np
data = np.random.rand(1000, 784).astype(np.float32)

import time
start_time = time.time()
model.predict(data)
end_time = time.time()
print("Original Model Inference Time: {}s".format(end_time - start_time))

# TensorFlowのモデル量子化
converter = tf.lite.TFLiteConverter.from_keras_model(model)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
tflite_quant_model = converter.convert()

# 量子化後のモデルの推論速度の確認
interpreter = tf.lite.Interpreter(model_content=tflite_quant_model)
interpreter.allocate_tensors()
input_details = interpreter.get_input_details()
output_details = interpreter.get_output_details()

start_time = time.time()
for _ in range(100):
    interpreter.set_tensor(input_details[0]['index'], data[:1])
    interpreter.invoke()
result = interpreter.get_tensor(output_details[0]['index'])
end_time = time.time()

print("Quantized Model Inference Time: {}s".format((end_time - start_time) / 100))
```

クラスタリングは、データセットをいくつかのグループ（クラスタ）に分けることで、同じクラスタ内のデータポイントが互いに似ている度合いを最大化し、異なるクラスタ間では異なる度合いを最大化する手法です。このプロセスは、探索的データ解析やパターン認識、データ圧縮などの用途で用いられます。代表的なクラスタリング手法には、k-meansクラスタリング、階層的クラスタリング、DBSCANなどがあります。クラスタリングとの組み合わせという概念は、クラスタリング技法と他の機械学習手法を組み合わせて、より強力なデータ分析を行います。たとえば、クラスタ解析を前処理として用いて、分類や回帰モデルの性能を向上させることがあります。数式として、k-meansクラスタリングは次のように表されます。与えられたn個のデータポイントをk個のクラスタに分けるために、各データポイント\(x_i\)に対するクラスタ中心\(\mu_j\)の割り当てを繰り返し最小化します。\[ \sum_{i=1}^{n} \sum_{j=1}^{k} ||x_i - \mu_j||^2 \] ここで、データポイント\(x_i\)とクラスタ中心\(\mu_j\)のユークリッド距離が計算され、全体の誤差が最小化されます。

In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# サンプルデータの作成
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# k-meansによるクラスタリング
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# クラスタ割り当てのプロット
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
plt.title('クラスタリング結果')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()