- author: Lee Meng
- date: 2019-12-08 11:00
- title: 化繁為簡：直觀理解主成分分析 PCA 與 Autoencoder
- slug: a-intuitive-guide-to-principal-component-analysis-pca-and-auto-encoder
- tags: 機器學習, 線性代數, Python, PCA, manim
- description: 誰不喜歡讓問題變簡單？透過生動動畫以及幾個真實世界的例子，本文將帶領讀者直觀理解機器學習領域中一個十分經典的線性降維技術：主成分分析 PCA。文中也將說明 PCA 與近年來十分熱門的神經網路：Autoencoder 之間的緊密關係，以及為何後者很自然地是前者的延伸。閱讀完本文，你將能對 PCA 與 Autoencoder 有足夠直觀的理解，並能透過 Python 將此技術實際應用在任何個人問題或是企業數據之上。
- summary: 誰不喜歡讓問題變簡單？透過生動動畫以及幾個真實世界的例子，本文將帶領讀者直觀理解機器學習領域中一個十分經典的線性降維技術：主成分分析 PCA。文中也將說明 PCA 與近年來十分熱門的神經網路：Autoencoder 之間的緊密關係，以及為何後者很自然地是前者的延伸。閱讀完本文，你將能對 PCA 與 Autoencoder 有足夠直觀的理解，並能透過 Python 將此技術實際應用在任何個人問題或是企業數據之上。
- image: 
- status: draft


In [0]:
#ignore
#@title Setup Manim Native Dep.
from IPython.display import clear_output, display, HTML
!apt-get update
!apt install sox ffmpeg libcairo2 libcairo2-dev
!apt install texlive texlive-latex-extra texlive-fonts-extra \
    texlive-latex-recommended texlive-science texlive-fonts-extra tipa --fix-missing
!pip install jupyter-manim
!pip install pyyaml
!pip install tqdm
clear_output()

In [0]:
#ignore
#@title  載入個人版本 Manim
import os
import sys
%tensorflow_version 2.x

username = 'leemengtaiwan'  #@param {type: "string"}
password = ''  #@param {type: "string"}
branch = 'develop'  #@param {type: "string"}
repo = 'manim-private'  #@param {type: "string"}

os.system(
    f"git clone --single-branch --branch {branch} https://{username}:{password}@github.com/leemengtaiwan/{repo}.git")

if not repo in sys.path:
    sys.path = [repo] + sys.path

assert sys.path[0] == repo

from manimlib.imports import *
import jupyter_manim

clear_output()

In [0]:
#ignore
#@title 環境變數
n_features = 2  #@param {type:"integer"}
n_components = 2   #@param {type:"integer"}
n_dim_to_recover = 1  #@param {type:"integer"}
stardardize = False  #@param {type:"boolean"}
minus_mean_only = True  #@param {type:"boolean"}


In [0]:
#ignore
#@title PrincipleComponentsAnalysisScene 
import numpy as np

def expand_to_3d(data):
    """負責將以 1, 2 維表示的數據點擴充到 3 維. data 預設維度為 (n_samples, n_features)"""
    n_samples, n_features = data.shape
    if n_features == 1:
        vectors = [np.append(np.append(v, 0), 0) for v in data]
    elif n_features == 2:
        vectors = [np.append(v, 0) for v in data]
    elif n_features == 3:
        vectors = data
    else:
        raise NotImplementedError

    return vectors


def get_projection(vector_to_project, stable_vector):
    """計算 vector_to_project 投影到 stable_vector"""
    v1, v2 = vector_to_project, stable_vector
    return  v2 * np.dot(v1, v2) / (np.linalg.norm(v2) ** 2)


def get_connected_lines(dots, proj_dots, dash_length=0.15, positive_space_ratio=0.6, color=None):
    """取得兩組 dot mobs 之間的連接線. 參考 ProjectOntoUnitVectorNumberline"""
    # 預設使用 source dots 的顏色
    color = dots[0].get_color() if not color else color

    return VGroup(*[
        Line(
            d1.get_center(),
            d2.get_center(),
            buff=0,
            color=color
        ) 
        for d1, d2 in zip(dots, proj_dots)
    ])


class PrincipleComponentsAnalysisScene(LinearTransformationScene):
    CONFIG = {
        "pca": None,
        "proj_color": YELLOW,
        "transform_color": YELLOW,
        "dot_config": {
            "color": WHITE,
            "radius": 0.1,
        },
        "include_background_plane": False,
        "foreground_plane_kwargs": {
            "axis_config": {
                "include_ticks": True
            }
        },
        "show_coordinates": True,
        "show_basis_vectors": True,
        "i_hat_color": BLUE,
        "j_hat_color": RED,
        "k_hat_color": YELLOW_C,
        "transformation_run_time": 3,  # 預設的（線性）轉換動畫時間
    }
    
    def setup(self):
        """初始化所有會在 PCA 場景內使用到的 mobs"""
        super().setup()
        self.moving_dots = []  # 用來儲存所有在場景內新增的 Dots
        
        # 為預設被 show 的 basis vectors 建立標籤並 remove
        self.remove(self.basis_vectors)
        for i, (vect, text) in enumerate(zip(self.basis_vectors, ['i', 'j'])):
            label = TexMobject(r"\vec{\textbf{" + text +  "}}")
            label.set_color(vect.get_color())
            
            if i == 0:
                label.move_to(RIGHT * 0.5 + DOWN * 0.5)
            else:
                label.move_to(LEFT * 0.5 + UP * 0.5)
            vect.label = label    
            
        self.basis_labels = VGroup(*[vect.label for vect in self.basis_vectors])
            
        # 原始數據點
        self.dots = self.dots_orig = self.get_dots(X_orig)
        
        # 正規化的話：mean = 0, std = 1；minue_mean_only 則不保證 std = 1
        if stardardize or minus_mean_only:
            self.dots = self.get_dots(X)
            
        # 數據點各特徵分別減去其平均
        self.dots_minus_mean = self.get_dots(X_minus_mean)
        
        # 建立 PC vects 以及其在原空間各自 span 出的 project line
        self.pcs, self.proj_lines,  self.labels = self.get_project_vectors_and_lines()
        
        # 讓 labels 跟著 principal components 變動
        self.labels.add_updater(self.update_labels)
        
        # 合併 pcs 與 labels 方便顯示
        self.pcs_with_labels = VGroup(*self.pcs, *self.labels)
        
        # 在原空間中投影到 PC1 (& 2) 後的數據點。同時計算其在新空間中的 Component repr.
        self.dots_proj = self.get_dots(X_proj, target_matrix=X_trans[:n_dim_to_recover], 
                                       color=self.proj_color)
        
        # 讓原空間中的投影點跟著投影線變動
        self.dots_proj.add_updater(self.update_projected_dot_positions)
        
        # 生成已減去平均的數據點與投影點之間的 line segments 並讓其與投影線一起變動
        self.connected_lines = get_connected_lines(self.dots_minus_mean, self.dots_proj)
        self.connected_lines.add_updater(self.update_connected_lines)
        
        # 生成 error text 以及擺放位置
        self.error_text = TextMobject("Reconstruction Error")
        self.error_text.add_background_rectangle()
        self.error_text.to_edge(UP)
        
        # 計算實際 error 並依據投影線改變
        self.error = DecimalNumber(0, num_decimal_places=2, include_sign=True, unit=None)
        self.error.add_background_rectangle()
        self.error.next_to(self.error_text, DOWN * 2)
        self.update_reconstruction_error(self.error)
        self.error.add_updater(lambda m: self.update_reconstruction_error(m))
        self.error_group = VGroup(self.error_text, self.error)

        # 投影後在原空間中加上特徵平均的數據點
        self.dots_proj_add_mean = self.get_dots(X_proj_add_mean)
        
        # 初始化以 PC 為 basis vects 所 span 出的 2 維空間，之後可以做轉換
        self.grid = self.plane
        self.transformed_grid = self.grid.copy()
        transform = self.get_matrix_transformation(self.pca.components_.T)
        self.transformed_grid.apply_function(transform)
        self.grid.target = self.transformed_grid
        
    
    def get_project_vectors_and_lines(self, vect_prefix="pc", label_scale=1):
        """將 PCA 的 PCs 轉換成 Vects及對應的 Line mobs. 同時也將其對應到的 x, y, z 軸作為 target 回傳"""
        vects = []
        labels = []
        proj_lines = []
        
        colors = [self.i_hat_color, self.j_hat_color, self.k_hat_color]
                
        
        for i, (pc, var) in enumerate(zip(self.pca.components_, self.pca.explained_variance_)):
            # principal components default 為 unit length
            vect = Vector(pc, color=colors[i])
            
            # 設置其對應到轉換後空間的 basis. PC1 -> x 軸, PC2 - > y 軸. 還有分 unit length 版本以及 scaled by variance 版本
            if i == 0:
                target_vect = np.array([1, 0, 0])
            elif i == 1:
                target_vect = np.array([0, 1, 0])
            elif i == 2:
                target_vect = np.array([0, 0, 1])
                
            vect.target = Vector(target_vect, color=colors[i])    
                
            # scaled 版本。顯示一個 eigen vector 所代表的 variance (eigenvalue) 
            scaler = 3 * np.sqrt(var)
            scaled_vect = target_vect * scaler
            vect.scaled_target = Vector(scaled_vect, color=colors[i])
            
            # 建立對應 label
            label = TexMobject(r"\vec{\textbf{" + vect_prefix + "}_{" + str(i + 1) + "}}")
            label.scale(label_scale)
            label.set_color(vect.get_color())
            label.next_to(vect.get_end(), RIGHT * pc[0] + UP * pc[1], buff=SMALL_BUFF)
            vect.label = label    
            
            labels.append(label)
            vects.append(vect)
            
            # 原空間中由 PCs span 出來的 Projection Line 以及其在 Transform space 裡的新 line
            start = np.append(pc, 0) * FRAME_X_RADIUS
#             end = -start * scaler
            end = -start
            line = Line(start, end, color=colors[i])
                        
            target_start = target_vect * FRAME_X_RADIUS
#             target_end = -target_start * scaler
            target_end = -target_start
            line.target = Line(target_start, target_end, color=colors[i])
            proj_lines.append(line)
            
        return VGroup(*vects), VGroup(*proj_lines), VGroup(*labels)    
    
    def get_dots(self, matrix, observation='column', target_matrix=None, 
                            color=None, transform_color=None, add_to_moving_dots=False):
        """回傳一個 matrix 裡頭包含的 2 或 3 維數據點所代表的 Dot mob
        
        target_matrix 為以 PCs 作為 basis vects 的 component repr. (i.e., X_trans[:n_dim_to_recover])
        """
        # matrix.shape 預設是 (n_features, n_samples), 也就是每個 observation 為 column vector
        # 將輸入進來的矩陣都轉成 (n_samples, n_features)
        if observation == 'column':
            vectors = matrix.T
            target_vectors = target_matrix.T if target_matrix is not None else None
        else:
            vectors = matrix
            target_vectors = target_matrix
        
        # 將 3 維以下的輸入數據點加入必要的維度
        vectors = expand_to_3d(vectors)
        if target_vectors is not None:
            target_vectors = expand_to_3d(target_vectors)
            
        # 建立 Dot mobs, 並各自使用不同的顏色（如果有指定的話）
        dots = []
        dot_config = dict(self.dot_config)
        transform_dot_config = dict(self.dot_config)
        if color:
            dot_config['color'] = color
        if transform_color:
            transform_dot_config['color'] = transform_color
        
        # 實際為每個 vect 生成 Dot mob
        for i, vect in enumerate(vectors):
            dot = Dot(vect, **dot_config)
            if target_vectors is not None:
                dot.target = Dot(target_vectors[i], **transform_dot_config)
            dots.append(dot)
        
        # 如果生成的 Dots 之後會拿來做線性轉換可以選擇加入
        dots = VGroup(*dots)
        if add_to_moving_dots:
            self.moving_dots += dots
        
        return dots
    
    def get_projection_on_principal_component(self, dot, pc_idx=0):
        """計算某個 Dot mob 投影到某個 principal component 上的 np array"""
        return get_projection(dot.get_center(), self.proj_lines[pc_idx].get_vector())
    
    def update_projected_dot_positions(self, dots):
        """讓投影後的 Dot mobs 的位置隨著原本的 Dots 以及投影線變動"""
        for i, d in enumerate(dots):
            d.move_to(self.get_projection_on_principal_component(self.dots_minus_mean[i]))
            
    def update_labels(self, labels):
        """讓 principal components 對應的 label 跟著變動位置"""
        for i, label in enumerate(labels):
            pc = self.pca.components_[i]
            label.next_to(self.pcs[i].get_end(), RIGHT * pc[0] + UP * pc[1], buff=SMALL_BUFF)
            
    def update_connected_lines(self, lines):
        """用減去平均的點與投影點之間的 line segments 依據投影線的角度更新位置"""
        for i, line in enumerate(lines):
            d1 = self.dots_minus_mean[i]
            # 關鍵： 還是要自己再算一次 X_proj 在新的投影線上的位置，不能說 X_proj 有 updater 就不用算
            # 這跟 `self.update_projected_dot_positions` 做的事情要一致
            d2 = self.get_projection_on_principal_component(self.dots_minus_mean[i])
            
            # 關鍵：只有這個 func 可以讓 DashedLine 依舊是 DashedLine
            line.put_start_and_end_on(d1.get_center(), d2)
            
    def update_reconstruction_error(self, decimal):
        """用來計算減去平均的點雨投影點之間的距離"""
        arr1 = np.array([d.get_center() for d in self.dots_minus_mean]).T
        arr2 = np.array([self.get_projection_on_principal_component(d) for d in self.dots_minus_mean]).T
        error = np.linalg.norm(arr1 - arr2)
        decimal.set_value(error)
        
    def get_dot_movement(self, func):
        """準備 Dot mobs 的（線性）轉換"""
        for d in self.moving_dots:
            d.target = Dot(func(d.get_arc_center()), color=d.get_color(), radius=d.radius)
        return self.get_piece_movement(self.moving_dots)


    def apply_function(self, function, added_anims=[], **kwargs):
        if "run_time" not in kwargs:
            kwargs["run_time"] = self.transformation_run_time
        animations = [
            ApplyPointwiseFunction(function, t_mob)
            for t_mob in self.transformable_mobjects
        ] + [
            self.get_vector_movement(function),
            self.get_dot_movement(function),
            self.get_transformable_label_movement(),
            self.get_moving_mobject_movement(function),
        ] + [
            Animation(f_mob) for f_mob in self.foreground_mobjects
        ] + added_anims
        self.play(*animations, **kwargs)


!quote
- 線性代數真的是一門很棒的學問。我的意思是，如果所有東西都是線性的，還有什麼事情會出錯呢？
- Gilbert Strang, 美國數學家 

[主成分分析（**P**rincipal **C**omponent **A**nalysis, 後簡稱 PCA）](https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90)在 100 年前由英國數學家[卡爾·皮爾森](https://zh.wikipedia.org/wiki/%E5%8D%A1%E5%B0%94%C2%B7%E7%9A%AE%E5%B0%94%E9%80%8A)發明，是一個至今仍在機器學習與統計學領域中被廣泛用來[分析資料、去噪並降低數據維度](https://zh.wikipedia.org/wiki/%E9%99%8D%E7%BB%B4)的**線性降維**方法。

因為其概念簡單且歷史悠久，網路上已有不少優質的[機器學習課程](https://youtu.be/iwh5o_M4BNU)以及[部落格](https://notsquirrel.com/pca/)探討其概念。在這篇文章裡，我則將透過 [Manim](https://github.com/3b1b/manim) 動畫、 [scikit-learn](https://scikit-learn.org/stable/index.html) 與 [Plotly](https://plot.ly/python/) 等 Python 函式庫，跟你一起用最直觀的方式理解、複習經典的 PCA 以及其背後關鍵的[線性代數](https://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0)精神。在了解 PCA 的本質之後，我們還將踏入[深度學習](https://leemeng.tw/deep-learning-resources.html)領域，探討 PCA 與神經網路 [Autoencoder](https://youtu.be/PSOt7u8u23w) 之間的緊密關係。


In [0]:
# teaser PCA 動畫（change of basis?）



閱讀完本文，我相信你將能夠：
- 直觀地理解 PCA 並欣賞其背後的數學概念
- 運用 PCA 分析任何個人問題或是企業數據
- 了解 PCA 與 Autoencoder 之間的緊密關係
- 具備能夠深入了解相關機器學習概念的基礎

希望你跟我一樣迫不及待地想要開始了！在正式踏上旅途之前，有一些你需要事先具備的知識。



## 一些你需先具備的基礎知識

如同以往文章，我會盡可能地用最淺顯的方式來闡述 PCA。但如果你不想囫圇吞棗，且希望自己能夠內化本文內容，我會強烈建議先行觀看 3Blue1Brown 在 [YouTube 上的線性代數本質](https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab)。你得確保自己對以下的線代概念有些直觀的理解：
- 線性轉換 Linear Transformation
- 內積 Dot Product
- 座標轉換 Change of Basis
- Eigenvectors 與 Eigenvalues


!quote
- 最有效率的教學方式是引導讀者去該領域中最好的學習資源。


我的上一篇文章，[給所有人的深度學習入門：直觀理解神經網路與線性代數](https://leemeng.tw/deep-learning-for-everyone-understand-neural-net-and-linear-algebra.html)也用了大量動畫說明矩陣相乘（Matrix Multiplication）、線性轉換以及神經網路裡頭的權重（weights）與線代之間的緊密關係。了解該文內容後，我們等下可輕易地將 PCA 與 Autoencoder 做連結。


!mp4
- images/manim/00010.mp4
- 《給所有人的深度學習入門》一文展示了神經網路解決二元分類的過程

我接著會假設你已將[上篇文章](https://leemeng.tw/deep-learning-for-everyone-understand-neural-net-and-linear-algebra.html)以及 3Blue1Brown 的[影片](https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab)看過一遍，或是至少已了解剛剛提到的幾個基本線代概念。當然，我懂你想要直接閱讀的心情，你也完全可以這樣做！不過如果你等等發現自己的線代基礎不是那麼穩固，我會建議回到本節打好底子，或是點擊我在當下附上的連結。


行前準備很重要，但現在假設你已經準備完畢。讓我們馬上開始這趟 PCA 與 Autoencoder 的旅程吧！

## 世上最簡單的降維：從 2 維空間到 1 維空間


我們前面提到 PCA 可以用來有效地降低數據維度。跟[上篇文章討論過的二元分類](https://leemeng.tw/deep-learning-for-everyone-understand-neural-net-and-linear-algebra.html)不同，[降維（Dimensionality Reduction）](https://en.wikipedia.org/wiki/Dimensionality_reduction)是一種[無監督學習](https://en.wikipedia.org/wiki/Unsupervised_learning)，其最主要的目的是「化繁為簡」：將原本**高維**的數據（比方說 $N$ 維）重新以一個**相較低維**的形式表達（比方說 $K$ 維，且 $K < N$）。理想上只要該 $K$ 維的 representation 具有代表性，能夠抓住原來 $N$ 維數據的大部分特性，我們就能在沒有損失什麼資訊的情況下，用更簡潔的方式呈現該組數據，進而對其本質有更深的理解。


!quote
- 數學的本質不是將簡單的事情變複雜，而是將複雜的事物簡化。
- Stan Gudder


現在想像你這幾天都在重複進行一項複雜的實驗，好不容易取得了 20 個有效樣本（samples）。你將這些觀測值（observations）以一個[矩陣（matrix）](https://zh.wikipedia.org/zh-hant/%E7%9F%A9%E9%98%B5)的形式存了下來。該數據矩陣 $X$ 裡頭的每一行代表著一個特定樣本，而每一列則代表著一個特定[特徵（feature）](https://en.wikipedia.org/wiki/Feature_(machine_learning)的觀測結果：


In [5]:
"""
為了教學目的，使用 numpy 隨機初始化一些 demo 用數據
現在你只需要關注最後生成的矩陣 `X` 即可（稍後我們會討論其他處理細節）
"""
import numpy as np
from numpy.testing import assert_almost_equal

# 顯示小數點下兩位，保持畫面簡潔
np.set_printoptions(precision=2)

# reproductivity, 讓你可以跟著重現此 demo 數據
# 我也鼓勵你自行複製貼上這段程式碼動手玩玩看
rng = np.random.RandomState(1)
 
# 初始化實驗數據並減去平均（文後會說明為何要減去平均）
W = rng.rand(2, 2)
X_normal = rng.normal(scale=5, size=(2, 20))
X_orig = W @ X_normal  # @ 就是你學過的矩陣相乘運算
X_mean = X_orig.mean(axis=1)[:, np.newaxis]
X = X_orig - X_mean
mean = X.mean(axis=1)

# 測試 numerical 相等，確保樣本的平均已經為 0
# 這個判斷在你需要自己實作 ML 演算法時十分重要
assert_almost_equal(0, mean)

print('X.shape:', X.shape, '\n')
print(X)

X.shape: (2, 20) 

[[ 2.89  0.32  5.8  -6.52  3.94 -4.21  0.45  2.14  1.3  -4.98 -2.4  -3.1
   0.69 -1.59 -3.64 -0.24  6.81  4.63 -2.24 -0.06]
 [ 1.52  0.91  1.52 -0.88 -0.03 -1.26 -0.25  0.96 -0.89 -0.45 -0.88 -1.12
  -0.86  0.13 -1.53  0.51  2.66  1.28 -0.14 -1.19]]


注意在這個例子中我們是怎麼解讀矩陣 $X$ 的：
- $X$ 維度為 `(n_features, n_samples)`
- 每一行（column）代表著一個特定的樣本 $x$
- 每一列（row）則代表某特徵觀測到的所有值


在數據矩陣 $X$ 中，每個樣本 $x$ 都是一個 2 維的行向量（column vector）。要取得第 1 個樣本 $x_1$ 可以：

In [6]:
"""
每個樣本為一個 column vector，索引從 0 開始
"""
X[:, 0]


array([2.89, 1.52])

有實際用過 [NumPy](https://numpy.org/)、[scikit-learn](https://scikit-learn.org/stable/) 或是 [TensorFlow](https://www.tensorflow.org/) 等函式庫做矩陣運算的讀者們應該都清楚，實作上我們會將代表數據的矩陣 $X$ 做[轉置（transpose）](https://en.wikipedia.org/wiki/Transpose)，使其維度變成 `(n_samples, n_features)`。這樣的好處是每一個列向量（row vector）都直接對應到一個樣本。這樣使得我們可以更輕鬆地存取特定樣本：

In [7]:
"""
跟上例一樣取出第一個樣本。
因第一維度為 n_samples ，只需要一維索引即可
"""
# sanity check
assert_almost_equal(X[:, 0], X.T[0])
X.T[0]



array([2.89, 1.52])

雖然大多數 Python 函式庫的實作會先轉置數據 $X$ 再對其進行矩陣運算，本文為了與線性代數文獻中的 convention 一致，文中皆會以直立的**行向量**（column vector）來表示每個樣本。這讓你不需把之前從線代課學到的矩陣相乘概念再做一次轉置。等內化本文概念以後，你可以自由地轉置數據 $X$。


為了幫助你進入狀況，底下展示如何取得數據 $X$ 裡特定一或多個樣本 $x$：





In [8]:
#ignore
#@title IndexingDataMatrixScene
%%manim IndexingDataMatrix -l --base64

import numpy as np
COLOR = YELLOW
NUM_SAMPLES = 6


def get_braces_and_texts_of_a_matrix(m):
    """用來生成一個 Matrix mob 的左側與底側的括號與說明文字"""
    descriptions = []
    for direction, dim_desc, color in zip([None, LEFT], ['samples', 'features'], [BLUE, RED]):
        text = TextMobject("\\centering n", "\_", dim_desc)
        text.set_color_by_tex(dim_desc, color)

        if direction is not None:
            brace = Brace(m, direction)
        else:
            brace = Brace(m)

        brace.put_at_tip(text)
        brace.text = text
        descriptions += [brace, text]
        
    return descriptions


class IndexingDataMatrixScene(Scene):
    def construct(self):
        
        # 建立初始 indexer
        text_args = ["X", "[", ":", ",", "]"]
        text = list(text_args)
        text.insert(-1, ":1")
        indexer = TextMobject(*text)
        indexer.shift(UP * 2)
        
        # 建立初始矩陣 mob
        m = FloatMatrix(X[:, :1])
        
        # 建立初始括號與說明文字
        btm_brace, btm_text, left_brace, left_text = get_braces_and_texts_of_a_matrix(m)
            
        # 顯示初始狀態
        self.add(indexer, m)
        self.play(GrowFromCenter(left_brace), Write(left_text))
        self.wait(0.5)
        self.play(GrowFromCenter(btm_brace), Write(btm_text))
        
        # 逐漸擴大 X 的選取範圍
        for i in range(1, NUM_SAMPLES):
            transforms = []
            
            # 更新 indexer 的索引
            new_text = list(text_args)
            new_text.insert(-1, f":{i + 1}")
            indexer.target = TextMobject(*new_text)
            indexer.target.set_color_by_tex(str(i), COLOR)
            indexer.target.shift(UP * 2)
            transforms.append(Transform(indexer, indexer.target))
            
            # 更新當前 matrix
            m.target = FloatMatrix(X[:, :i + 1])
            transforms.append(Transform(m, m.target))
            
            # 更新 matrix 的 brace 以及 description
            old_desc = VGroup( btm_brace, btm_text, left_brace, left_text)
            new_desc = VGroup(*get_braces_and_texts_of_a_matrix(m.target))
            transforms.append(Transform(old_desc, new_desc))
            
            self.play(*transforms, run_time=1.3)
        
        # 隨著單一索引 highlight 當前 column vector
        columns = m.target.get_columns()
        for i in range(NUM_SAMPLES):
            transforms = []
            
            # 更新 indexer 的索引
            new_text = list(text_args)
            new_text.insert(-1, str(i))
            indexer.target = TextMobject(*new_text)
            indexer.target.set_color_by_tex(str(i), COLOR)
            indexer.target.shift(UP * 2)
            transforms.append(Transform(indexer, indexer.target))
            
            # highlight 當前 column vector
            col = columns[i]
            col.target = col.copy()
            col.target.set_color(COLOR)
            transforms.append(Transform(col, col.target))
            
            # 復原前一個 ｃｏｌｕｍｎ ｖｅｃｔｏｒ
            if i:
                prev_col = columns[i - 1]
                prev_col.target = prev_col.copy()
                prev_col.target.set_color(WHITE)
                transforms.append(Transform(prev_col, prev_col.target))
            
            self.play(*transforms, run_time=1.3)

        self.wait(1)
        
        

是的，在機器學習領域裡矩陣索引（indexing）十分基本，基本到你可能從沒想過竟然會有人特地為此做動畫。不過我想不論背景，你現在應該都可以在腦中想像如何透過 Python 操作數據 $X$ 並取得特定的樣本了。這很直覺，卻也十分重要。

在[淺談神經機器翻譯](https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html)裡，我們也會運用相同的索引方式存取高達 4 維空間的數據。

所見即所得，我們可以再次確認數據 $X$ 跟影片中內容相同：

In [9]:
X[:, :6]

array([[ 2.89,  0.32,  5.8 , -6.52,  3.94, -4.21],
       [ 1.52,  0.91,  1.52, -0.88, -0.03, -1.26]])

了解如何操作 $X$ 後，讓我們再次回到降維的話題。

現在想像你興沖沖地跑去見指導教授，迫不及待地獻上你剛搜集到的熱騰騰數據 $X$。教授僅看了一眼便道：



!quote
- **兩個**特徵有點多，你能不能想辦法只用**一個**特徵來表示這些樣本的**特性**？

你連忙點頭稱是，接著便離開教授的辦公室。

回到螢幕前，你看著 $X$ 裡頭的這些數字越想越不對勁。到底要怎樣才能把這些 2 維向量用**一個**新的數值表示，同時又能保持這些樣本的**特性**不變呢？

事實上因為這些樣本只有**兩個**特徵，我想絕大多數人的第一個念頭是：選擇**一個**我們從小到大最為熟悉的[笛卡爾座標系統(Cartesian coordinate system)](https://zh.wikipedia.org/wiki/%E7%AC%9B%E5%8D%A1%E5%B0%94%E5%9D%90%E6%A0%87%E7%B3%BB)，將每個樣本裡頭的特徵值個別視為此系統裡的 x 與 y 座標並呈現這些樣本：

In [0]:
#@title 預先計算出所有中介矩陣以初始化 PCA 場景
#ignore
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

equal = assert_almost_equal

random_state = 9527
pca = PCA(n_components, random_state=random_state)
X_trans_sk = pca.fit_transform(X.T).T

# manual: X_trans = P @ (X - X_mean)
P = pca.components_ 
X_mean = pca.mean_[:, np.newaxis]
X_minus_mean = X - X_mean
X_trans = P @ X_minus_mean

# test
equal(X.mean(axis=1), X_mean[:, 0])
equal(X, X_minus_mean)
equal(X_trans_sk, X_trans)    # (n_pcs, n_samples) = (2, 20)

# manual (P = pca.components_)
equal(P.T, pca.components_.T)

# X_proj = P_inverse @ X_trans
# X_new = X_proj + X_mean
# (n_orig_features, n_pcs) @ (n_pc_comp_rep, n_samples) + (n_orig_features, 1)
X_proj = P.T[:, :n_dim_to_recover] @ X_trans[:n_dim_to_recover, :]
X_proj_add_mean= X_proj + X_mean

if n_features == n_components:
    equal(np.linalg.inv(P), P.T)  # 因為 P 是 orthogonal  且 fully span

# 只投影到 PC1 的話跟 pca1d 的結果比較
if n_dim_to_recover == 1:
    pca1d = PCA(1, random_state=random_state)
    X_trans1d = pca1d.fit_transform(X.T).T
    X_proj_add_mean_sk = pca1d.inverse_transform(X_trans1d.T).T
    equal(X_trans[:1, :], X_trans1d)
# 2 維等於直接還原原數據點 X
elif n_dim_to_recover == 2:
    X_proj_add_mean_sk = pca.inverse_transform(X_trans.T).T

# 如果是 2 維再還原 2 維， 理論上要完全重疊
equal(X_proj_add_mean_sk, X_proj_add_mean)

In [12]:
#ignore
#@title PlotDataOnCartesianBasisScene
%%manim PlotDataOnCartesianBasisScene -l --base64

import numpy as np

N_SAMPLES = 3


class PlotDataOnCartesianBasisScene(PrincipleComponentsAnalysisScene):
    CONFIG = {'pca': pca}
    
    def construct(self):
        # 為 NUM_SAMPLES 個樣本建立 component repr. 的 column vector mobs
        col_matrices = []
        arrows = []
        shift = UP * 2 
        for i in range(N_SAMPLES):
            arr =X[:, i:i + 1]
            m = FloatMatrix(arr)
            for row, color in zip(m.get_rows(), [self.i_hat_color, self.j_hat_color]):
                row.set_color(color)
            m.move_to(arr[0][0] * RIGHT + arr[1][0] * UP + shift)
            col_matrices.append(m)
            
            # 建立從點指向 vector mob 的 arrow
            end_pos = np.append(arr.T[0], 0)
            arrow = Arrow(end_pos + shift * 0.6, end_pos)
            arrows.append(arrow)
            
        col_matrices = VGroup(*col_matrices)
        arrows = VGroup(*arrows)
        
        # 去除預設會顯示的座標系
        self.remove(self.grid)
        
        # 生成 basis  vectors
        self.play(*map(ShowCreation, [self.i_hat, self.i_hat.label]), lag_ratio=0.5)
        self.play(*map(ShowCreation, [self.j_hat, self.j_hat.label]), lag_ratio=0.5)
    
        # 生成此 basis vectors 所組成的座標網格
        self.play(ShowCreation(self.grid))
        
        # 顯示座標數值單位
        coords = self.grid.get_coordinate_labels()
        self.play(ShowCreation(coords), run_time=1.3)
        
        # 繪上前 N_SAMPLES 個點以及其對應的 ｃｏｍｐｏｎｅｎｔ repr.
        for i in range(N_SAMPLES):
            self.play(Write(col_matrices[i]))
            self.wait(1)
            self.play(Write(arrows[i]), run_time=0.3)
            self.play(ShowCreation(self.dots[i]), run_time=0.3)
        
        # 稍微淡化數據點以外的所有 mobs， 讓人看出兩維之間有線性關係
        fade_group = VGroup(self.grid, *coords, *self.basis_vectors, *self.basis_labels, *col_matrices, *arrows)
        for mob in fade_group:
            mob.target = mob.copy()
            mob.target.fade(0.85)
        
        self.play(*[Transform(mob, mob.target) for mob in fade_group], run_time=2)
        
        # 生成剩下的所有數據點
        self.play(ShowCreation(self.dots[N_SAMPLES:]), lag_ratio=0.5, run_time=2)
        self.wait(1)
        
        # 隱約顯示一個最好的投影線
        self.play(Write(self.proj_lines))     
        
        self.wait(1.5)
        


我們在之前的文章就介紹過 i, j


幾何（Geometry）的直覺’

線性代數幫助我們拓展到 N 維空間（儘管我們無法想像）




!quote
- 在線性代數裡頭，所有基底（basis）
- 


all the based are create equal until the problem you're solving helps you choose a basis

In [10]:
!youtube
- UYPa347-DdE
- 李宏毅教授講解目前 NLP 領域的最新研究是如何讓機器讀懂文字的（我超愛這截圖）

SyntaxError: ignored

另外值得一提的是，本文從台大電機[李宏毅教授](http://speech.ee.ntu.edu.tw/~tlkagk/index.html)在 2016 年底公開的 [Unsupervised Learning - Linear Methods](https://youtu.be/iwh5o_M4BNU) 以及圖靈獎得主 Geoffrey Hinton 的 [From PCA to autoencoders](https://youtu.be/PSOt7u8u23w) 裡頭獲得不少靈感。如果你想要對 PCA 有更多完整的認識，可以之後找時間觀看學習。

第一行到「深」

這是聖經中著名的[巴別塔](https://zh.wikipedia.org/wiki/%E5%B7%B4%E5%88%A5%E5%A1%94)橋段，用來解釋為何當今世上有那麼多種語言。當年的上帝或許過於杞人憂天，但近年多虧了[深度學習](https://zh.wikipedia.org/zh-hant/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0)，[機器翻譯](https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E7%BF%BB%E8%AF%91)的快速發展讓人不禁覺得，或許巴別塔很快就不再只是虛幻傳說了。
