# 1章 機械学習とデータの類似度

## 1.1 機械学習と人工知能
### 機械学習とは
  コンピュータにデータを学習させることによって、
  人間が学習を通じて獲得し得る能力を、
  コンピュータにも獲得させるための技術

- チェッカーでコンピュータが勝利（1992）
- チェスとオセロでコンピュータが勝利（1997）
- 「Googleの猫」猫の動画像をコンピュータが識別（2012）
- 囲碁でコンピュータが勝利（2017）
- 将棋でコンピュータが勝利

ボードゲームにおけるコンピュータの勝利は、コンピュータが人間を超える知能を獲得したことの証明であると考えられた

機械が人間と並ぶか、それ以上の知能を得た時、我々はそれを**人工知能**と呼ぶ

- 人間と会話するロボット
- 自動車の自動運転
- 無人飛行機

機械学習は人工知能を実現するために欠くことのできない技術上のピース

> 人工知能研究領域の本格的な誕生は、1956 年のダートマス会議にある とされる。ダートマス会議は、コンピュータ科学と認知科学の権威で、後 に「人工知能の父」と呼ばれるマービン・ミンスキー(Marvin Lee Minsky, 1927 – 2016)や、著名な電気工学者であり、数学者であり、「情報理論の 父」とも呼ばれるクロード・エルウッド・シャノン(Claude Elwood Shannon, 1916 – 2001)らが主唱した会議で、人工知能(Artificial Intelligence)と いう用語は、この会議で初めて正式に認知された。

機械学習の急速な発展の立役者の一つは**ビッグデータ**

> 「Google の猫」はインターネットを介して集められた1000 万を超える動画を学習


### データセットと特徴

- sklearnに用意されているデータセットの例

- Boston市の各地区の不動産情報に関わる

- 列が特徴、列見出しが特徴の名前

- 行がデータ

In [32]:
 # sklearnに用意されているデータを見てみる
import numpy as np
import pandas as pd
from sklearn import datasets
ds = datasets.load_wine()
wine = pd.DataFrame(ds.data, columns = ds.feature_names)
wine['types'] = np.array(ds.target)
wine

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,types
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


>**データセットの説明**
>
>`wine`の各列は、ワインの特性を表す**属性**、或いは、**特徴**と対応していて、
それぞれ属性の内容を表す名前が付与されています。
`wine.head()`の表示結果から、alcoholからtypesまで、14個の特徴が設定されていることがわかります。
>
>列見出し（属性名）がついた`wine`の特徴数＝列数は、
$13 + 1 = 14$個
（`ds.feature_names`で指定された13個と追加した`'types'`の計14個）です。
sklearnのドキュメントを読むと、特徴の意味は以下の表の通りです。
>
>| 特徴 | 内容 |
| :--- |:---|
| alcohol | アルコール濃度 (%) |
| malic_acid | リンゴ酸 (%) |
| ash | 灰分の含有量 |
| alcalinity_of_ash | 灰のアルカリ度 |
| magnesium | マグネシウム |
| total_phenols | 総フェノール類 |
| flavanoids | フラボノイド |
| nonflavanoid_phenols | 非フラボノイド芳香族 |
| proanthocyanins | プロアントシアニジン  |
| color_intensity | 色彩強度 |
| hue | 色調 |
| od280/od315_of_diluted_wines | ワイン溶液の 280 と 315nm の吸光度の比 |
| proline | プロリン |
| types | ワインの種類 |

##1.2 機械学習でできること
### 機械学習の3つの機能

1. 分類　Classification
1. 回帰　Regression
1. クラスタリング　Clustering

分類・回帰を機械学習を使って解く場合、訓練データを学習することにより、予測を行うためための規則やパターンを発見する。\
これを**モデル**と呼ぶ

---
#### 分類

データがもつ特徴を元に、データが所属するカテゴリー(クラス)を
予測する機能

<br/>

#### 回帰

データがもつ特徴を元に、データの属性である数値を予測する機能

<br/>

#### クラスタリング

類似しているデータ同士を集めてクラスターを生成する機能

<br/>
<br/>


**分類問題も回帰問題も**似た様な問題の構造を持っています。主な違いは、回帰では**連続な値**(身長、値段など)を予測するのに対し、分類では**カテゴリカルな値**(血液型、職業など)を予測します。またどちらの問題も<font color="red">**教師あり学習**</font>に分類されます。<br>

一方、**クラスタリング問題**は、どのデータをどのクラスターに属するのかの答えが存在しない状態で行うため、**教師無し**学習と呼ばれています。

<br>
<br>

ここでは、これら３つの問題を解くための代表的な手法を紹介します。

### 学習の種別

---

#### 教師有り学習（Supervised Learning）
分類・回帰では答えが付随しているデータを学習する

<br/>

#### 教師無し学習（Unsupervised Learning）
クラスタリングでは、予め仕分けの基準が与えられず、データの類似性のみに基づい て仕分けを行う

---


### 1.2.1 分類(Classification)
分類問題は、様々な手法が存在しますが、このノートブックでは簡単な例として、線形分類器である、ロジスティック回帰(Logistic regression)と線形SVM(Linear Support Vector Machine)を紹介します。

まずは、分類問題で扱うデータを可視化してみましょう。<font color = "red">ここでは、データ加工の一環として、**Z-score Normalization**と呼ばれる手法を用いることにします。難しい手法ではなく、特徴量の平均$\mu$を$0$に、標準偏差$\sigma$を$１$に加工することを指します。詳しい意味付けは2.9節に任せて、このノートブックでは、とりあえず深く考えずに用いることにします。</font>

#### 線形分類器

In [33]:
import pandas as pd
import plotly.express as px

wine_clf = wine[["alcohol","ash","types"]][wine.types != 2].copy()
wine_clf[["alcohol","ash"]] -= wine_clf[["alcohol","ash"]].mean(axis=0)
wine_clf[["alcohol","ash"]] /= wine_clf[["alcohol","ash"]].std(axis=0)
X = wine_clf[["alcohol","ash"]]
y = wine_clf.types
wine_clf["types"] = wine_clf["types"].apply(lambda x : str(x)).copy()
fig = px.scatter(wine_clf, x = "alcohol", y = "ash", color = "types"
,width=600, height=600)
fig.show()

線形分離器では、この平面に直線を引き、２つに領域を分割します。そして、与えられたデータが、どちらの領域に属するかで、どのクラスに分類するかを選びます。人間が適当に分ける場合、例えば以下の２つのような先の引き方が考えられます。


In [34]:
import pandas as pd
import plotly.graph_objects as go
fig = px.scatter(wine_clf, x = "alcohol", y = "ash", color = "types",width=800, height=600)

fig.update_layout(
    title="ash vs alcohol",
    xaxis_title="height",
    yaxis_title="weight",
    font=dict(
        size=18,
    )
)
fig.add_trace(
    go.Scatter(
        x = [-1, 1],
        y = [4, -4],
        mode = "lines",
        name = 'separation line 1'
    )
)

fig.add_trace(
    go.Scatter(
        x = [-0.1, -0.1],
        y = [-4, 4],
        mode = "lines",
        name = 'separation line 2'
    )
)

fig.update_layout(yaxis_range=[-3.5, 3.5])
fig.update_yaxes(
    scaleanchor = "x",
    scaleratio = 1,
  )

fig.show()

この２つの先以外でも、たくさんの**分類直線**が考えられます。実際に異なる線形分類機では、異なる思想に基づいたアルゴリズムを用いて、どのように**分類直線**を引くのが最適であるのかを考えます。したがって、線形分類機の中でも用いる手法によっては、選ばれる分類直線が異なることになります。

次に、実際に**1.3.1**で紹介されているアルゴリズムに基づいた、最適な分類直線を求めてみましょう。


1.3.1によると、分離超平面
$$
H : c_0 + c_1 X_1 + \cdots + c_d X_D = 0
$$
の係数はそれぞれ
$$
\begin{aligned}
c_0 &= m - n \\
c_1 &= \sum^m_{i=1} a_{i1} - \sum^n_{i=1} b_{i1}\\
& \ \ \vdots \\
c_d &= \sum^m_{i=1} a_{id} - \sum^n_{i=1} b_{id}
\end{aligned}
$$
で与えられる。（現れる変数については、本文参照）
さて、$type = 0$　であるデータを正例とし、$type = １$　であるデータを負例として係数を出す。

In [35]:
X = wine_clf[["alcohol","ash"]]
y = wine_clf.types
Xp = np.array(X[y == "0"])
Xn = np.array(X[y == "1"])
Xp = np.insert(Xp, 0, 1, axis=1)
Xn = np.insert(Xn, 0, 1, axis=1)
c = Xp.sum(axis=0) - Xn.sum(axis=0)
c = c/np.linalg.norm(c)

import pandas as pd
import plotly.graph_objects as go
fig = px.scatter(wine_clf, x = "alcohol", y = "ash", color = "types"
,width=800, height=600)

fig.update_layout(
    title="ash vs alcohol",
    xaxis_title="height",
    yaxis_title="weight",
    font=dict(
        size=18,
    )
)

x_list = np.linspace(-4, 4, 5)
y_list =-x_list * (c[1]/c[2]) - c[0]/c[2]

fig.add_trace(
    go.Scatter(
        x = x_list,
        y = y_list,
        mode = "lines",
        name = 'separation line 1'
    )
)


fig.update_layout(yaxis_range=[-3.5, 3.5])
fig.update_yaxes(
    scaleanchor = "x",
    scaleratio = 1,
  )
fig.show()

となり、それとなく二つのクラスを分離した直線が求められていることがわかります。

<br>

一見このアルゴリズムは、線形分離するための手法として十分な結果を出せそうに思えますが、実は明らかな欠陥を抱えています。

例えば、データ加工(Z-score Normalization)を事前に施さなかったとしましょう。すると

In [36]:
wine_clf2 = wine[["alcohol","ash","types"]][wine.types != 2].copy()
X = wine_clf2[["alcohol","ash"]]
wine_clf2["types"] = wine_clf2["types"].apply(lambda x : str(x)).copy()
Xp = np.array(X[wine_clf2.types == "0"])
Xn = np.array(X[wine_clf2.types == "1"])
Xp = np.insert(Xp, 0, 1, axis=1)
Xn = np.insert(Xn, 0, 1, axis=1)
c = Xp.sum(axis=0) - Xn.sum(axis=0)
c = c/np.linalg.norm(c)

fig = px.scatter(wine_clf2, x = "alcohol", y = "ash", color = "types"
,width=800, height=600)

fig.update_layout(
    title="ash vs alcohol",
    xaxis_title="height",
    yaxis_title="weight",
    font=dict(
        size=18,
    )
)

x_list = np.linspace(np.min(X.alcohol), np.max(X.alcohol), 5)
y_list =-x_list * (c[1]/c[2]) - c[0]/c[2]

fig.add_trace(
    go.Scatter(
        x = x_list,
        y = y_list,
        mode = "lines",
        name = 'separation line 1'
    )
)


fig.show()

という直線が引かれますが、明らかに赤と青を分離できている直線ではないことがわかります。

#### 課題 1.
上記の様に、明らかに分離直線ではない解を求めてしまう簡単な例を自身で考え、実際にグラフに描画することで確認せよ。

ヒント：正例と負例の数が一致している場合は、分離直線の切片はどのようになるか？

### 1.2.2 回帰(Regression)

回帰問題において、一番簡単な手法は、**線形回帰(Linear Regression)**と呼ばれる手法です。

例えば、身長のデータから、体重のデータを予測する回帰問題を扱うとします。身長を$X$, 体重を $Y$とした時、パラメーター$c$と$b$を用いて<br><br>
$$
Y = cX + b
$$
という簡単な式を使って予測します。線形回帰では、この二つのパラメーター$c,b$を求めます。<br><br>


> **フックの法則に基づく線形回帰の例**
>
> **フックの法則.** バネの伸び$y$は張力$x$に比例し、
  定数係数$c$に対して$y = cx$と表されます。
>
> **線形回帰.** 張力と伸びのデータ、
$(\xi_1, \eta_1
), \dots, (\xi_N, \eta_N)$をプロットし、
最も当てはまる直線$y = cx$を探索する問題に帰着します。この例では、 $b = 0$であるとして、パラメーター$c$のみを求めます。
>
> **最小二乗法による解法.**
誤差の二乗和$S$は$c$の二次関数を最小にする$c$を求めます。
>
> $$
    S(c) = \sum_{i=1}^N (\eta_i - c\xi_{i})^2
    = \left(\sum_{i=1}^N \xi_{i}^2\right) c^2
    - 2 \left(\sum_{i=1}^N \xi_{i}\eta_i\right) c
    + \sum_{i=1}^N \eta_i^2
    = \left(\sum_{i=1}^N \xi_{i}^2\right) (c - \bar c)^2
    - \left(\sum_{i=1}^N \xi_{i}^2\right) \bar c^2 
    + \sum_{i=1}^N \eta_i^2
  $$
>
> $$
   c = \bar c = \left.\sum_{i=1}^N \xi_{i}\eta_i\right/
   \sum_{i=1}^N \xi_{i}^2
  $$
> $c = \bar c$の時に$S(c)$は最小になるため、
>
> $h(x) = \bar cx$が最適なモデルであると考えられます。

実際にプログラムを用いて、フックの法則に基づく線形回帰を見てみます。
ここでは、実際のデータは持ち合わせていないため、人工的にバネの伸び$y$と張力$x$のデータセットを作成します。

今回用いるバネの正しい係数を$c=10$だと想定して、異なる10種類の張力に対してバネの伸びを図ったとします。測定には誤差が伴うので、その誤差を人工的に付与してデータを作成します。

実際に以下のコードを用いて、作成したデータをプロットしてみましょう。

``` python
import plotly.graph_objects as go
np.random.seed(0)
x = np.arange(10.0)
y = 10*x + np.random.normal(0, 5, 10)
raw = go.Scatter(x=x, y=y, mode='markers', name="データ")
```


ここでは、与えられたデータを$y = cx + b$の形で線型回帰をすることを想定しています。線形回帰を解くにあたって、`numpy`の`polyfit`が有効に使えるので、今回はこの関数を用いて最小二乗法を解きます。polyfitの詳しい説明は、[公式のドキュメント](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html)を参照してください。

実際に以下のコードを用いて、最適な$\bar{c}$を探してみましょう。

```python
c, b = np.polyfit(x, y, 1)
reg = go.Scatter(x = [0, 10], y=[b, c*10 + b], mode='lines', name='回帰直線 c = {:.2f}'.format(c))
fig = go.Figure([raw, reg])
fig.show()
```

In [37]:
 # 線形回帰の例
import plotly.graph_objects as go
np.random.seed(0)
x_reg = np.arange(10.0)
y_reg = 10*x_reg + np.random.normal(0, 5, 10)
raw = go.Scatter(x=x_reg, y=y_reg, mode='markers', name="データ")
c, b = np.polyfit(x_reg, y_reg, 1)
reg = go.Scatter(x = [0, 10], y=[b, c*10 + b], mode='lines', name='回帰直線 c = {:.2f}, b = {:.2f}'.format(c,b))
fig = go.Figure([raw, reg])
fig.show()

最適化の結果、$c = 9.15$だとわかりました。今回用いたバネ $c=10$ から少しづれていますが、これは、データセットの数が十分ではないためだと考えられます。

#### 課題 2.1

データセットの数を十分増やすことで、誤差を0.1以内に抑えられることを確認せよ。

#### 課題 2.2

モデルを$Y = cX + b$とした時、データセット$\{(x_1, y_1), (x_2, y_2), .., (x_N, y_N) \}$に対して、誤差の二乗和が最小になるcとbを求め、その結果を用いてpolyfit関数を自作せよ。また、上記の例で同じ計算結果が得られることを確認せよ。

### 1.2.3 クラスタリング(Clustering)
クラスタリングとは、データを複数のグループ（クラスターとも言う）に分けるタスクのことを指します。言葉だけだと分かりづらいので、まずは下のグラフを見てください。

In [41]:
import pandas as pd
df = pd.read_csv("content/sample_data/basic_1.csv", index_col=0)
# df = pd.read_csv("data/basic_1.csv", index_col=0)
fig = px.scatter(df, x = "Feature0", y = "Feature1",width=700, height=700)
fig.update_yaxes(
    scaleanchor = "x",
    scaleratio = 1,
  )
fig.show()

FileNotFoundError: ignored

In [40]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


みなさんならこのデータ何個のクラスターにどのように分類しますか？ 一番簡単なのは、２つのクラスターに分けることです。しかしながら、更に複雑なデータ（多変量データなど）になると実際に可視化して判断することが難しくなります。そのため、定量的な判断を下すためのアルゴリズムが必要となります。今回はそんなアルゴリズムの一例として、**階層型クラスタリング**を紹介しつつ、クラスタリングの流れを確認していきます。

#### 階層型クラスタリング
まずは、クラスター$C$と$D$の間の距離$d(C,D)$を以下で定義します。
$$
d(C,D) = \frac{1}{|C|\cdot |D|} \sum_{x \in C} \sum_{y \in D} d(x,y)
$$
詳しい記号の意味は、教科書1.3.3を参考にしてください。

この距離関数を用いて、階層型クラスタリングのアルゴリズムは以下のようになります。

1. それぞれ丁度1個のデータを含む、n個のクラスター$C_i = \{x_i\}_{i=1,..,n}$を定義する。
2. 現在のクラスターの個数が一個の時は終了する(**終了条件**)。
3. 二個以上のクラスターが存在する時は、最も距離が近い２つのクラスターを結合し、step 2へ戻る。

では、実際にsklearnと呼ばれるライブラリーの中のsklearn.cluster.AgglomerativeClusteringを用いて階層型クラスタリングを実装してみます。デンドログラムも同じくscipy.cluster.hierarchy.dendrogramを用いて描画してみます。描画にはsklearnが[例](https://scikit-learn.org/stable/auto_examples/cluster/plot_agglomerative_dendrogram.html)として示している関数を用いました。

In [None]:
from scipy.cluster.hierarchy import dendrogram
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt

def plot_dendrogram(model, **kwargs):
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # leaf node
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack(
        [model.children_, model.distances_, counts]
    ).astype(np.float64)

    dendrogram(linkage_matrix, **kwargs)

In [None]:
model = AgglomerativeClustering(distance_threshold=0, n_clusters=None, linkage = "average", affinity = "euclidean")
X = np.array(df.iloc[:, :2])
model.fit(X)


plt.title("Hierarchical Clustering Dendrogram")
# plot the top three levels of the dendrogram
plot_dendrogram(model, truncate_mode="level")
plt.tick_params(
    axis='x',  
    which='both',
    bottom=False,
    top=False,
    labelbottom=False) 
plt.show()

このグラフを見ると明らかに２つのクラスターに別れていることがわかります。「結局、目で見て判断してるじゃないか」と思われるかもしれませんが、多次元のデータなどを扱う際にはデータを可視化すること自体が容易では無いため、この様なプロセスの元可視化して判断することは重要になります。念の為、２つにクラスタリングした際には、どの点がどのクラスターに属しているかグラフにプロットしてみましょう。

In [None]:
model = AgglomerativeClustering(n_clusters=2, linkage = "average", affinity = "euclidean")
cluster_t = model.fit_predict(X)
df["pred"] = cluster_t
df["pred"] = df["pred"].apply(lambda x : str(x)).copy()
fig = px.scatter(df, x = "Feature0", y = "Feature1",color = "pred", width=700, height=700)
fig.update_yaxes(
    scaleanchor = "x",
    scaleratio = 1,
  )
fig.show()

となり、人間によって予想されるクラスタリングが実現されたことが確認できました。

## 1.3 類似度関数を用いたアプローチ(教科書1.4節)

この節では、上記で紹介した３つの基礎的なアルゴリズムを、類似度関数を用いて表現し直すことを目標とします。

### 1.3.1 線形分類器
1.2.1でも見たように、クラスが未知のデータ$z = (z_1,..,z_d)$のラベル$\pm$は、

$$
\begin{aligned}
h(z) &= m - n + (\sum^m_{i=1} a_{i1} - \sum^n_{i=1} b_{i1})z_1  + \dots + (\sum^m_{i=1} a_{id} - \sum^n_{i=1} b_{id})z_d \\
\end{aligned}
$$
の符号を用いて振り分けされます。ここで、$a_{li}, b_{lj}$は、それぞれ**$i\ ( j )$**番目の正例(負例)データの$l$番目の成分です。

以上の式を用いて、線形分類機を類似度行列(類似度関数)のみを用いて構成します。

まずは２つのデータ$x, x^\prime$間の類似度を計算する関数を作成します。今回はベクトル間の内積が類似度に対応しているため、ただの内積の結果を返す関数を定義することにします。

In [None]:
def sml(a, b):
    return np.dot(a,b) #返り値は、アルゴリズムで使用する類似度の定義による。

次に以上の関数を用いて図13,14に登場する

類似度行列

\begin{pmatrix}
f(x_1, x_1) & \cdots  & f(x_1,x_n)\\
\vdots & \ddots & \vdots \\
f(x_n, x_1) &  \cdots & f(x_n, x_n)
\end{pmatrix}

と類似度ベクトル
$$
\begin{equation}
\left(f(z,x_1) , ..., f(z, x_n) \right)
\end{equation}
$$
を返す関数を作成します。

In [None]:
def sml_mat(X):
    n = X.shape[0]
    f = np.empty((n, n),dtype=np.float64)
    for i in range(n):
        for j in range(i,n):
            f[i,j] = sml(X[i], X[j])
            f[j,i] = sml(X[j], X[i])
    return f

def sml_vec(z,X):
    n = X.shape[0]
    f = np.empty(n,dtype=np.float64)
    for i in range(n):
        f[i] = sml(z, X[i])
    return f

さて、準備はできたので、あとは学習を行い未知のデータzに対する予測ラベルを計算してみましょう。

作り方は千差万別ですが、ここでは**クラス**を用いることで分類モデルを作成します。メソッドの説明は以下のとおりです。


- fit
    
    類似度行列とラベルyを引数とします。ここで、扱いやすいようにラベル0を+1 ラベル1を-1として付け替え作業も含まれています。

- predict 

    類似度ベクトルを引数として、未知データの予測ラベルを返します。


In [None]:
class linear_clf():
    def __init__(self):
        self.F = None
        self.y = None
        self.c_0 = None

    def fit(self,F,y):
        self.F = F
        self.y = -np.array(y).astype(np.float64)*2 + 1
        self.c_0 = np.sum(self.y)
    
    def predict(self, f):
        return np.sign(np.dot(f,self.y)+self.c_0)

コードを見ればわかるように、このアルゴリズムはとてもシンプルで、類似度行列を用いる必要はありません。


では、実際にコードを動かして、1.2.1で得られた結果と同じ結果を得られるか確認します。

まずは、fit()メソッドを呼び出して、モデルの学習を行います。

In [None]:
X_array = np.array(X)
F = sml_mat(X_array)
model = linear_clf()
model.fit(F, y)

$x \in [-4,4], y \in [-4, 4] $の範囲の中の2500個の点に対してそれぞれ類似度ベク

1.   リスト項目
2.   リスト項目

トルを計算し、それぞれの点に対して予測ラベルを計算します。

そして、その予測結果を色で表すことで、どの領域で正(負)とラベリングされるかを描画してみましょう。

In [None]:
t = np.linspace(-4,4,50)
points = [[x,y] for x in t for y in t]
points = np.array(points)
fs = [sml_vec(p, X_array) for p in points]
fs = np.array(fs)
labels = model.predict(fs)

In [None]:
import pandas as pd
import plotly.graph_objects as go
fig = px.scatter(wine_clf, x = "alcohol", y = "ash", color = "types"
,width=1000, height=600)

fig.update_layout(
    title="ash vs alcohol",
    xaxis_title="ash",
    yaxis_title="alcohol",
    font=dict(
        size=18,
    )
)

x_list = np.linspace(-3.5, 3.5, 5)
y_list =-x_list * (c[1]/c[2]) - c[0]/c[2]

fig.add_trace(go.Scatter(
        x = x_list,
        y = y_list,
        mode = "lines",
        name = 'separation line (above‐mentioned)'
    )
)

fig.add_trace(go.Scatter(x=points[:,0], y=points[:,1], mode='markers', marker_symbol="square", showlegend = False, marker=dict(color=labels, opacity = 0.1,size = 10)))

fig.update_yaxes(
    scaleanchor = "x",
    scaleratio = 1,
)
fig.update_layout(yaxis_range=[-3.5, 3.5])
fig.show()

以上の通り、1.2.1で計算した分離直線が隔てる領域ごとに違う色(ラベル)を予測していることがわかりました。これは、線形分類モデルとして見たときに、同じモデルであることを示しています。

### 1.3.2 線形回帰

次に線形回帰を類似度関数を用いて書き直します。考え方は線形分類器とほとんど同様なため、簡単な補足だけ加えてコード例を提示します。

疑似逆行列は、numpyのnumpy.linalg.pinvを用いて計算しています。

In [None]:
class linear_reg():
    def __init__(self):
        pass
    
    def fit(self, F, y):
        self.y = np.array(y).astype(np.float64)
        self.pinv_F = np.linalg.pinv(F)
        self.ypinv_F = self.y @ np.linalg.pinv(F)
    
    def predict(self, f):
        if f.ndim == 1:
            f = f.reshape(-1, 1)
        return self.ypinv_F @ f.T

    @staticmethod
    def sml(a,b):
        return np.dot(a,b)+1

    @staticmethod
    def sml_mat(X):
        n = X.shape[0]
        f = np.empty((n, n),dtype=np.float64)
        for i in range(n):
            for j in range(i,n):
                f[i,j] = linear_reg.sml(X[i], X[j])
                f[j,i] = linear_reg.sml(X[j], X[i])
        return f
    @staticmethod
    def sml_vec(z,X):
        n = X.shape[0]
        f = np.empty(n,dtype=np.float64)
        for i in range(n):
            f[i] = linear_reg.sml(z, X[i])
        return f

In [31]:
F = linear_reg.sml_mat(x_reg)
t = np.linspace(0,10,50)
points = [[x] for x in t]
points = np.array(points)
fs = [linear_reg.sml_vec(p, x_reg) for p in points]
fs = np.array(fs)
model = linear_reg()
model.fit(F, y_reg)
y_pred = model.predict(fs)

NameError: ignored

In [None]:
 # 線形回帰の例
import plotly.graph_objects as go
raw = go.Scatter(x=x_reg, y=y_reg, mode='markers', name="データ")
reg = go.Scatter(x = t, y=y_pred, mode='lines', name='類似度を用いた線型回帰')
fig = go.Figure([raw, reg])
fig.show()

先程と同様に1.2.2の結果と同様の回帰直線を得られました。

### 1.3.3 階層型クラスタリング

このアルゴリズムは、明らかに類似度行列($f(x,y) = d(x,y)$)のみを用いて学習を行うので、類似度行列による書き換えの必要はありません。

## 1.4 多様なデータ形式の類似度関数

教科書では、1.5〜1.6を通して様々な類似度関数を紹介していますが、これらは今後別のノートブックで詳しく触れるので、このノートブックでは省略します。