<a href="https://colab.research.google.com/github/shunya-yan/colab/blob/main/%E6%89%8B%E8%A9%B1_SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. ライブラリの準備・日本語フォント対応など

In [None]:
!sudo apt-get install fonts-ipaexfont
!sudo pip install japanize-matplotlib
!sudo rm -rf ~/.cache/matplotlib

import matplotlib
import matplotlib.pyplot as plt
import japanize_matplotlib

font_path = '/usr/share/fonts/opentype/ipaexfont-gothic/ipaexg.ttf'
ipaex_gothic = matplotlib.font_manager.FontProperties(fname=font_path)

# グラフのフォントに適用
plt.rcParams['font.family'] = ipaex_gothic.get_name()

## 2. データの表示

In [None]:
import numpy as np
import matplotlib.pyplot as plt

label = ["楽しい", "悲しい"]

cluster_0 = np.random.normal(loc=[0.3, 0.3], scale=0.03, size=(48, 2))
cluster_1 = np.random.normal(loc=[0.7, 0.7], scale=0.03, size=(48, 2))


sv_0 = np.array([[0.39, 0.39]])
sv_1 = np.array([[0.61, 0.61]])

X = np.vstack([cluster_0, sv_0, cluster_1, sv_1])
y = np.array([0]*49 + [1]*49)

# プロット
plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', label='楽しい')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', label='悲しい')
plt.xlabel("左手のy座標")
plt.ylabel("右手のy座標")
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.legend()
plt.grid(False)
plt.tight_layout()
plt.show()

## 3. 単純なSVM（分離境界とサポートベクトル）

In [None]:
# 再実行：セッションリセット後の再定義と描画

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC

# SVMの学習（ハードマージン寄り）
model = SVC(kernel='linear', C=1e6)
model.fit(X, y)

# パラメータ取得
w = model.coef_[0]
intercept = model.intercept_[0]
support_vectors = model.support_vectors_

# 分離境界用のx範囲（データ範囲に合わせる）
x_min, x_max = X[:, 0].min(), X[:, 0].max()
xx = np.linspace(x_min, x_max, 100)
slope = -w[0] / w[1]
yy = slope * xx - intercept / w[1]

# 描画
plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', label='楽しい')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', label='悲しい')
plt.plot(xx, yy, color='green', linestyle='--', label='分離境界')
plt.scatter(support_vectors[:, 0], support_vectors[:, 1],
            facecolors='none', edgecolors='purple', label='サポートベクター', s=120, linewidths=2)
plt.xlabel("左手のy座標")
plt.ylabel("右手のy座標")
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.legend()
plt.grid(False)
plt.tight_layout()
plt.show()


## 4. 単純なSVMによる分類予測

In [None]:
'''
例えば（特徴量1, 特徴量2）=（1, 2）の点に位置する新たなデータについて予測する場合は
point = np.array([[1, 2]])
と記入する

'''
point = np.array([[??, ??]])

prediction = model.predict(point)
print(label[prediction[0]])
# 分離境界再計算（既に定義済みでも再確認）
xx = np.linspace(X[:, 0].min(), X[:, 0].max(), 100)
yy = slope * xx - intercept / w[1]

# プロット
plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', label='楽しい')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', label='悲しい')
plt.plot(xx, yy, color='green', linestyle='--', label='分離境界')
plt.scatter(support_vectors[:, 0], support_vectors[:, 1],
            facecolors='none', edgecolors='purple', label='サポートベクター', s=120, linewidths=2)
plt.scatter(point[:, 0], point[:, 1], color='gold', marker='*', s=250, label='テストデータ')
plt.xlabel("左手のy座標")
plt.ylabel("右手のy座標")
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.legend()
plt.grid(False)
plt.tight_layout()
plt.show()


## 5. 複数（3クラスタ）で単純なSVM（データ表示）

In [None]:
# ラベル名
label = ["楽しい", "悲しい", "驚き"]

# 各クラスタのデータ作成（赤=左下, 青=右上, 緑=右下）
cluster_0 = np.random.normal(loc=[0.3, 0.3], scale=0.03, size=(48, 2))  # 楽しい
cluster_1 = np.random.normal(loc=[0.7, 0.7], scale=0.03, size=(48, 2))  # 悲しい
cluster_2 = np.random.normal(loc=[0.7, 0.3], scale=0.03, size=(48, 2))  # 驚き

# 各クラスタの代表点
sv_0 = np.array([[0.39, 0.39]])
sv_1 = np.array([[0.61, 0.61]])
sv_2 = np.array([[0.61, 0.39]])

# データ結合
X = np.vstack([cluster_0, sv_0, cluster_1, sv_1, cluster_2, sv_2])
y = np.array([0]*49 + [1]*49 + [2]*49)

# プロット
plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', label='楽しい')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', label='悲しい')
plt.scatter(X[y == 2][:, 0], X[y == 2][:, 1], color='green', label='驚き')
plt.xlabel("左手のy座標")
plt.ylabel("右手のy座標")
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.legend()
plt.grid(False)
plt.tight_layout()
plt.show()

## 6. 複数（3クラスタ）で単純なSVM（分離境界）

In [None]:
model = SVC(kernel='linear', decision_function_shape='ovr')  # One-vs-Rest を指定
model.fit(X, y)

# メッシュグリッドを作成して決定境界を描画
xx, yy = np.meshgrid(np.linspace(0, 1, 500),
                     np.linspace(0, 1, 500))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)

# 背景の色を薄くしてプロット
plt.figure(figsize=(8, 6))
plt.contourf(xx, yy, Z, alpha=0.1, cmap='coolwarm')  # 背景の決定領域をより薄く
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', alpha=0.8, label='楽しい')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', alpha=0.8, label='悲しい')
plt.scatter(X[y == 2][:, 0], X[y == 2][:, 1], color='green', alpha=0.8, label='驚き')
plt.xlabel("左手のy座標")
plt.ylabel("右手のy座標")
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.legend()
plt.grid(False)
plt.tight_layout()
plt.show()

## 7. データが3次元のSVM（データ表示）

In [None]:
# SVMで分離可能な3次元データを生成
from sklearn.datasets import make_classification

# ランダムな3次元データを生成（SVMで分離可能なデータ）
X_3d_svm, y_3d_svm = make_classification(
    n_samples=100, n_features=3, n_informative=3, n_redundant=0,
    n_clusters_per_class=1, class_sep=2.0, random_state=42
)

# 3次元空間でのデータ表示
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')

# データポイントのプロット（クラスごとに色分け）
ax.scatter(X_3d_svm[y_3d_svm == 0][:, 0], X_3d_svm[y_3d_svm == 0][:, 1], X_3d_svm[y_3d_svm == 0][:, 2],
           color='red', label='赤い点 (クラス 0)')
ax.scatter(X_3d_svm[y_3d_svm == 1][:, 0], X_3d_svm[y_3d_svm == 1][:, 1], X_3d_svm[y_3d_svm == 1][:, 2],
           color='blue', label='青い点 (クラス 1)')

# 軸ラベルとタイトル
ax.set_xlabel("特徴1")
ax.set_ylabel("特徴2")
ax.set_zlabel("特徴3 (Z軸)")
ax.set_title("3次元空間でのSVM分離可能なデータ")

# 固定視点
ax.view_init(elev=30, azim=125)

# 図全体の余白を調整
fig.subplots_adjust(left=0.2, right=0.85, top=0.85, bottom=0.2)

# 凡例を表示
ax.legend(loc='upper left', bbox_to_anchor=(1.05, 1))
plt.show()


## 8. データが3次元のSVM（分離**平面**）

In [None]:
# SVMモデルの学習
svm_model = SVC(kernel='linear')  # 線形カーネルを使用
svm_model.fit(X_3d_svm, y_3d_svm)

# メッシュグリッドを再生成（形状を合わせる）
xx, yy = np.meshgrid(
    np.linspace(X_3d_svm[:, 0].min(), X_3d_svm[:, 0].max(), 20),
    np.linspace(X_3d_svm[:, 1].min(), X_3d_svm[:, 1].max(), 20)
)

# 分離平面を計算（形状を合わせたメッシュに対応）
zz = -(svm_model.coef_[0, 0] * xx + svm_model.coef_[0, 1] * yy + svm_model.intercept_[0]) / svm_model.coef_[0, 2]

# 3次元空間でのデータ表示（分離平面付き）
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')

# データポイントのプロット（クラスごとに色分け）
ax.scatter(X_3d_svm[y_3d_svm == 0][:, 0], X_3d_svm[y_3d_svm == 0][:, 1], X_3d_svm[y_3d_svm == 0][:, 2],
           color='red', label='赤い点 (クラス 0)')
ax.scatter(X_3d_svm[y_3d_svm == 1][:, 0], X_3d_svm[y_3d_svm == 1][:, 1], X_3d_svm[y_3d_svm == 1][:, 2],
           color='blue', label='青い点 (クラス 1)')

# 分離平面のプロット（淡い青色）
ax.plot_surface(xx, yy, zz, color='lightblue', alpha=0.5, edgecolor='black')

# 軸ラベルとタイトル
ax.set_xlabel("特徴1")
ax.set_ylabel("特徴2")
ax.set_zlabel("特徴3 (Z軸)")
ax.set_title("3次元空間でのSVM分離平面表示")

# 固定視点
ax.view_init(elev=30, azim=125)

# Z軸の範囲をデータに合わせる
z_min, z_max = X_3d_svm[:, 2].min(), X_3d_svm[:, 2].max()
ax.set_zlim(z_min, z_max)

# 図全体の余白を調整
fig.subplots_adjust(left=0.2, right=0.85, top=0.85, bottom=0.2)

# 凡例を表示
ax.legend(loc='upper left', bbox_to_anchor=(1.05, 1))
plt.show()


## 9. 線形分離が困難なSVM（データ表示）

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles
from sklearn.svm import SVC

# データの作成（非線形データ）
X, y = make_circles(n_samples=200, factor=0.5, noise=0.1, random_state=42)

# グラフで非線形データを可視化
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='red', label='赤い点 (クラス 0)')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='blue', label='青い点 (クラス 1)')
plt.xlabel("特徴1")
plt.ylabel("特徴2")
plt.title("線形分離できないデータ")
plt.legend()
plt.show()


## 10.線形分離が困難なSVM（データ変換を用いて、分離しやすい形に）

この例では、クラス0と1が円状に分布しており、直線や平面で分離することができそう

x1, x2 を、それぞれ、x1^2 + x2^2 として、新たな3次元目（高さ）を作ることで、平面で切りやすくしている

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.font_manager as fm

# データの作成（非線形データ）
X, y = make_circles(n_samples=200, factor=0.5, noise=0.1, random_state=42)

# 高次元マッピング: φ(x1, x2) = (x1, x2, x1^2 + x2^2)
X_mapped = np.hstack((X, (X[:, 0]**2 + X[:, 1]**2).reshape(-1, 1)))

# 3次元グラフのプロット
fig = plt.figure(figsize=(8, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X_mapped[y == 0][:, 0], X_mapped[y == 0][:, 1], X_mapped[y == 0][:, 2],
           color='red', label='赤い点 (クラス 0)')
ax.scatter(X_mapped[y == 1][:, 0], X_mapped[y == 1][:, 1], X_mapped[y == 1][:, 2],
           color='blue', label='青い点 (クラス 1)')
ax.set_xlabel("特徴1 (x1)", fontproperties=jp_font)
ax.set_ylabel("特徴2 (x2)", fontproperties=jp_font)
ax.set_zlabel("x1^2 + x2^2", fontproperties=jp_font)
ax.set_title("3次元空間でのデータマッピング", fontproperties=jp_font)
ax.legend(prop=jp_font)
plt.show()


## 参考：特徴量変換すれば、何かしらの分離直線や分離平面は見つかる

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# データの生成（周期的なデータ）
np.random.seed(42)
x1 = np.linspace(0, 2 * np.pi, 200)  # 0から2πの範囲でデータを生成
x2 = np.random.uniform(0, 2 * np.pi, 200)  # ランダムなx2の値
labels = (np.sin(x1) + np.cos(x2) > 1).astype(int)  # sin(x1) + cos(x2) > 1で分類

# 2次元グラフのプロット
plt.figure(figsize=(6, 6))
plt.scatter(x1[labels == 0], x2[labels == 0], color='red', label='クラス 0')
plt.scatter(x1[labels == 1], x2[labels == 1], color='blue', label='クラス 1')
plt.xlabel("x1")
plt.ylabel("x2")
plt.title("非線形データの2次元空間")
plt.legend()
plt.grid()
plt.show()

# 高次元マッピング: z1 = sin(x1), z2 = cos(x2)
z1 = np.sin(x1)
z2 = np.cos(x2)

# 3次元グラフのプロット
fig = plt.figure(figsize=(8, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(z1[labels == 0], z2[labels == 0], x2[labels == 0], color='red', label='クラス 0')
ax.scatter(z1[labels == 1], z2[labels == 1], x2[labels == 1], color='blue', label='クラス 1')
ax.set_xlabel("sin(x1)")
ax.set_ylabel("cos(x2)")
ax.set_zlabel("x2")
ax.set_title("非線形データを3次元空間にマッピング")
ax.legend()
plt.show()


In [None]:
# 2次元グラフ（z1 = sin(x1), z2 = cos(x2)）のプロット
plt.figure(figsize=(6, 6))
plt.scatter(z1[labels == 0], z2[labels == 0], color='red', label='クラス 0')
plt.scatter(z1[labels == 1], z2[labels == 1], color='blue', label='クラス 1')
plt.xlabel("sin(x1)")
plt.ylabel("cos(x2)")
plt.title("z1 vs z2 の2次元空間")
plt.legend()
plt.grid()
plt.show()


In [None]:
# プロット（Y軸の範囲を [-1, 1] に制限）
plt.figure(figsize=(6, 6))
plt.scatter(z1[labels == 0], z2[labels == 0], color='red', label='クラス 0')
plt.scatter(z1[labels == 1], z2[labels == 1], color='blue', label='クラス 1')
plt.plot(xx, yy, color='green', linestyle='--', label='分離線')
plt.xlabel("sin(x1)")
plt.ylabel("cos(x2)")
plt.title("z1 vs z2 の2次元空間（分離線）")
plt.ylim(-1, 1)  # Y軸の範囲を [-1, 1] に制限
plt.legend()
plt.grid()
plt.show()
