# 4章　線形代数

- 線形代数はベクトル空間を扱う数学の一分野
- ベクトルはオブジェクトであり、有次元空間内の点
- ベクトルは数値データを表現する非常に優れた方法。簡単に数値のリストをn次元のベクトルとして表現できる
- 数値のリストとしてベクトルを表現するのが最も簡単。本章ではfloatのリストである型エイリアスVectorを使って表現する。
- Pythonのリストはベクトル無くベクトル演算の機能が提供されていない

In [1]:
from typing import List

# typingはPython3.5で追加された機能
#  型エイリアスは型をエイリアスに代入することで定義し
# コンテナ内の要素に期待する型を記述できる
# 型アノテーションを無視してしまっても本章はざっくり理解できるかも

Vector = List[float]

height_weight_age = [70, 170, 40]
grades = [95, 80, 75, 62]


In [4]:
# リストはベクトル演算の機能が提供されていないため
# まずベクトルに対する算術演算機能を作る
# ※ベクトルのリストの四則演算、内包表記を使って個々の要素の計算を行なう方法で実現しています

#  加算
def add(v: Vector, w: Vector) -> Vector:
    """対応する要素の和"""
    assert len(v) == len(w), "vectors must be same length"
    return [v_i  + w_i  for v_i, w_i in zip(v, w)]

assert add([1, 2, 3], [4, 5, 6]) == [5,7,9], "NG"

In [5]:
def add(v, w):
    """対応する要素の和"""
    assert len(v) == len(w), "vectors must be same length"
    return [v_i  + w_i  for v_i, w_i in zip(v, w)]

assert add([1, 2, 3], [4, 5, 6]) == [5,7,9], "NG"

In [6]:
# 減算
def subtract(v: Vector, w: Vector) -> Vector:
    assert len(v) == len(w), "vectors must be the same length"
    return [v_i - w_i for v_i, w_i in zip(v, w)]

assert subtract([5,7,9], [4,5,6])  == [1,2,3]

In [7]:
# 要素ごとの和

def vector_sum(vectors: List[Vector]) -> Vector:
    assert vectors, "no vectors rovided!"
    num_elements = len(vectors[0])
    assert all(len(v) == num_elements for v in vectors), "different sizes"
    
    return  [sum(vector[i] for vector in vectors)
             for i in range(num_elements)]

assert vector_sum([[1, 2], [3, 4], [5, 6],[7, 8]]) == [16, 20]

In [6]:
# ベクトルとスカラー（この場合スカラーはベクトルに対して量だけの値）の乗算

def scalar_multiply(c: float, v: Vector) -> Vector:
    return [c * v_i for v_i in v]
assert scalar_multiply(2, [1, 2, 3]) == [2, 4, 6]

In [10]:
# ベクトルの要素ごとの平均
# 上記のvector_sum(), scalar_multiply()を利用

def vector_mean(vectors:List[Vector]) -> Vector:
    n = len(vectors)
    return scalar_multiply(1/n, vector_sum(vectors))

assert vector_mean([[1, 2], [3, 4], [5, 6]]) == [3, 4]

In [13]:
# ドット積（内積）の計算
# ドット積はベクトルvがwの方向にどれだけ広がるかを示す（vとwの角度を示すと考えることもできる）
# ２つのベクトルのドット積は要素ごとの積の総和
# 「出番は多くない」とありますが、ビット化したベクトルでの共起の計算、類似性算出（コサイン類似度）など
# ベクトルの計算で内積を使う頻度は高い（自分比。ただしnumpy.dotで）

def dot(v: Vector, w: Vector) -> float:
    assert len(v) == len(w), "vectors must be same length"
    return sum(v_i * w_i for v_i, w_i  in zip(v, w))

assert dot([1, 2, 3], [4, 5, 6])  == 32


In [14]:
# ベクトルの二乗和の計算
# ※ベクトルの大きさは二乗和の平方根なので、この計算が有用、ということなのかも？

def sum_of_squares(v: Vector) -> float:
    return dot(v, v)
    
assert sum_of_squares([1, 2, 3]) == 14

In [17]:
# ベクトルのマグニチュード（一般的には"ベクトルの大きさ"）
# ３平方の定理による"二乗和の平方根"で算出されていると考えるとわかりやすいかも

import math

def magnitude(v: Vector) -> float:
    return math.sqrt(sum_of_squares(v))

assert magnitude([3, 4]) == 5

In [18]:
# 以上の関数（ベクトルの各要素の減算をするsubtract(), ベクトルの二乗和を計算するsum_of_squares()）と
# 平方根を使ってベクトルのおおきさを計算できる
# ベクトルの距離はこのように二点間のユークリッド距離を指すのが一般的かもしれないが、他にもいろいろあるらしい

def squared_distance (v: Vector, w: Vector) -> float:
    return sum_of_squarese(subtract(v, w))

def distance(v: Vector, w: Vector) -> float: 
    return math.sqrt(squared_distance(v, w))

In [19]:
# 上で定義したmagtnitude()を使うとわかりやすい？
# ベクトルの二乗和を引数にベクトルの大きさを計算するmagnitude()）でも
def distance(v: Vector, w: Vector) -> float:
    return magnitude(subtract(v, w))

## 4.2 行列

- 行列は数値を二次元に配置したもの
- 行列はリストのリストとして表現できる（ここではそう表現する）
- リストの中にある同じ長さのリストが行列の行を表す（＊ただしPythonのデータ構造は常に行指向とは限らない）
- 行列がn行k列を持つ場合、n × k行列と呼ぶ。
- n × k行列の各行は、長さkのベクトル、各列は長さnのベクトルとみなせる
- 行列は複数のベクトルで構成されるデータを表現できる（1000人の身長,体重,年齢のように）
- n × k行列はk次元のベクトルからn次元のベクトルへの写像を行う線形関数とみなすことができる
- 行列は二項関係を表現するのにも使うことができる

In [9]:
# 行列A（行列は慣習的に大文字で表されることた多い）
# A[i][j]はi行j列の要素

# 型エイリアス
Matrix = List[List[float]]

A = [[1, 2, 3],
        [4, 5, 6]]  # Aは2行３列の行列

B = [[1, 2],
        [3, 4],
        [5, 6]]  #　Bは三行２列の行列


In [10]:
# リストのリスト形式である行列Aは、len(A)行とlen(A[0])列の大きさの行列
# このような行列の各次元の大きさをあらわす属性をshapeという

from typing import Tuple

def shape(A: Matrix) -> Tuple[int, int]:
    num_rows = len(A)
    num_cols = len(A[0]) if A else 0
    return num_rows, num_cols

assert shape([[1, 2, 3], [4, 5, 6]]) == (2, 3)

In [11]:
# n × k行列の各行の　ベクトル得る。列は各行のj番目の要素のリスト。

# Aのi番目の行をベクトルとして返す
def get_row(A: Matrix, i: int) -> Vector:
    return A[i]

# Aのj番目の列をベクトルとして返す
def get_column(A: Matrix, j: int) -> Vector:
    return [A_i[j]
               for A_i in A]

In [12]:
from typing import Callable

# Callableは関数の引数,返り値の定義をまとめたもので、Callable([引数型]、返り値型)と言う記法
# 関数が引数になる場合、または関数を返すような関数（高階関数という）で利用する
# 本章のこのケースではmake_matrixの3番目の引数が整数値（2個）を引数に数値を返すようなlamda式

def make_matrix(num_rows: int, 
                               num_cols: int,
                               entry_fn: Callable[[int, int], float]) -> Matrix:
    return [[entry_fn(i, j)
                    for j in range(num_cols)]
                     for i in range(num_rows)]


In [13]:
# make_matrix()を使い 5×5の単位行列（対角の要素が１でそれ以外が0の行列/ 
# どのような行列をかけても、どのようなベクトルをかけても元の行列・ベクトルのままという性質がある）を作成する

def identity_matrix(n: int) -> Matrix:
    return make_matrix(n, n, lambda i, j: 1 if i == j else 0)

identity_matrix(5)

[[1, 0, 0, 0, 0],
 [0, 1, 0, 0, 0],
 [0, 0, 1, 0, 0],
 [0, 0, 0, 1, 0],
 [0, 0, 0, 0, 1]]

In [15]:
# 二項関係のエッジを示す値のペア（i, j）の集まりを行列で示すことができる
# ノードiとjが接続されている場合はA[i][j]の値を１に、
# 接続されていない場合を0にすることで隣接行列としてグラフを表すことができる

friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

# エッジのリストを隣接行列として表現すると、、
friend_matrix = [[0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
                             [1, 0, 1, 1, 0, 0, 0, 0, 0, 0], 
                             [1, 1, 0, 1, 0, 0, 0, 0, 0, 0], 
                             [0, 1, 1, 0, 1, 0, 0, 0, 0, 0], 
                             [0, 0, 0, 1, 0, 1, 0, 0, 0, 0], 
                             [0, 0, 0, 0, 1, 0, 1, 1, 0, 0], 
                             [0, 0, 0, 0, 0, 1, 0, 0, 1, 0], 
                             [0, 0, 0, 0, 0, 1, 0, 0, 1, 0],
                             [0, 0, 0, 0, 0, 0, 1, 1, 0, 1], 
                             [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]]

# エッジリストでは接続のうむを調べるのに、全ての要素をなめて調べる必要があるが
# 行列を使えば、下記のように素早く検査が可能

assert friend_matrix[0][2] == 1
assert friend_matrix[0][8] == 0

In [16]:
# 同様にノードに対応する列（または行）をみたらそのノードが持つ接続を調べることができる

friends_of_five = [i
                                  for i, is_friend in enumerate(friend_matrix[5])
                                   if is_friend]
friends_of_five

[4, 6, 7]

### Appendix: numpyを使ってみる

4章の最後に『この章で作った仕組みは、NumPy(https://numpy.org/)にはすでに備わっている 機能です(NumPy を使えば、さらに多くの利点が得られます)。』とあるように、データの集計にリストを使うことはあまり効率が良い方法ではなく、多くの場合NumpyやpandasのDataFrameなどにデータを変換し扱うのではないかと思います。

以下、本章で紹介されている四則演算や内積をnumpyで計算してみたいと思います

In [18]:
#　上記のリストを使った四則演算をNumpyを使った一次元の配列の四則演算で行った場合
# 配列同士で対応する要素の直接の演算が可能

import numpy as np

a  = np.array([1,2,3])
b = np.array([4,5,6])
actual = a + b
expected = np.array([5, 7, 9])

# numpyの演算でassertする場合all()などでラップする必要がある
assert all(actual == expected), "なんか違う"

In [43]:
# 内積をデータ処理で利用する一例として、
# numpy.dotを使って文章の類似性を算出してみる
# lit2go（https://etc.usf.edu/lit2go）より取得した書籍の一部（chapter1に当たる範囲）をサンプルにします

import numpy as np
import re
import itertools
from collections import defaultdict

book_list = [
    "The Adventures of Huckleberry Finn_chapter_1.txt",
    "The Adventures of Sherlock Holmes_adventure1.txt",
    "The Adventures of Sherlock Holmes_adventure2.txt",
    "The Adventures of Tom Sawyer_chapter_1.txt",
    "Alice's Adventures in Wonderland CHAPTER I.txt"
]

# Bag of wordsの作成
word_lists = {}
for i, path in enumerate(book_list):
    f = open(path, "r")
    doc = f.read()
    word_lists[i] = re.split(r'[ ,.-]+', doc)  # 単語のdelimiterは厳密に検討すべきと思いますが、今回は適当


In [46]:
# 単語辞書を作る
words = []
for l in word_lists.values():
    words.extend(l)
words = list(set(words))

In [45]:
# 単語の出現数をカウントする(２章(2.11.1)の方法を利用)
words_counts = {}
for i in range(5):
    wc = defaultdict(int)
    for word in word_lists[i]:
        wc[word] += 1
    words_counts[i] = wc

In [47]:
# 各書籍のカウントの値を単語辞書を使ってそれぞれベクトルに変換する
count_vectors = {}
for i, counts in words_counts.items():
    # mapオブジェクトをnp.arrayに変換
    count_vectors[i] = np.fromiter(map(lambda x: counts[x], words), dtype=np.int)


In [48]:
# ベクトルからcos類似度を計算する
# count_vectorsのベクトルの順列を作り、numpy.dot()に渡す

# 入れ物として5 × 5行列を作っておく
ranking = [[0 for i in range(5)] for j in range(5)]

for items in (itertools.permutations(count_vectors.items(), 2)):
    # 内積を２つのベクトルの大きさ（norm）の積で割った値がcos類似度
    cos_sim = np.dot(items[0][1], items[1][1]) / (np.linalg.norm(items[0][1]) *  np.linalg.norm(items[1][1]))
    ranking[items[0][0]][items[1][0]] = cos_sim
    
print(np.matrix(ranking))


[[0.         0.81772389 0.77045505 0.82149981 0.80158292]
 [0.81772389 0.         0.96179959 0.87908088 0.82548032]
 [0.77045505 0.96179959 0.         0.85808552 0.76824475]
 [0.82149981 0.87908088 0.85808552 0.         0.78396747]
 [0.80158292 0.82548032 0.76824475 0.78396747 0.        ]]


- 実際は単純な単語出現数のコサイン類似度で文章を比較することはあまり無いと思います（TF-IDF、word2vecなど他のアルゴリズムを使うはず）
- また文章の類似度判定は色々ライブラリを使えるので、スクラッチはあまりしない気がします
- でも単純でnumpyのままの処理であれば非常に高速なので、ちょいちょい近いことをアプリケーションの部品として実装することはあるかもしれません