# PCA - ตัวอย่างการวิเคราะห์ข้อมูลเชิงสำรวจ

ในโน้ตบุ๊กนี้ คุณจะ:

- ทำซ้ำตัวอย่างของ Andrew เกี่ยวกับ PCA
- แสดงภาพว่า PCA ทำงานอย่างไรกับชุดข้อมูล 2 มิติขนาดเล็ก และการฉายภาพแบบใดที่ "ไม่ดี"
- แสดงภาพว่าข้อมูล 3 มิติสามารถอยู่ในสเปซย่อย 2 มิติได้อย่างไร
- ใช้ PCA เพื่อค้นหารูปแบบที่ซ่อนอยู่ในชุดข้อมูลที่มีมิติสูง

## นำเข้าไลบรารี (Importing the libraries)

In [None]:
from google.colab import output
output.enable_custom_widget_manager()
try:
  %matplotlib widget
  print("widget is already installed")
except:
  print("widget is not been installed, install now..")
  !pip install ipympl

In [None]:
!git clone https://github.com/Smith-WeStrideTH/Unsupervised_Learning_Course.git
%cd Unsupervised_Learning_Course/work 

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from pca_utils import plot_widget
from bokeh.io import show, output_notebook
from bokeh.plotting import figure
import matplotlib.pyplot as plt
import plotly.offline as py

In [None]:
py.init_notebook_mode()

In [None]:
output_notebook()

ตัวอย่างการบรรยาย

เราจะทำงานกับตัวอย่างเดียวกันกับที่เราได้แสดงไว้ในบรรยาย

In [None]:
X = np.array([[ 99,  -1],
       [ 98,  -1],
       [ 97,  -2],
       [101,   1],
       [102,   1],
       [103,   2]])

In [None]:
plt.plot(X[:,0], X[:,1], 'ro')

In [None]:
# Loading the PCA algorithm
pca_2 = PCA(n_components=2)
pca_2

In [None]:
# Let's fit the data. We do not need to scale it, since sklearn's implementation already handles it.
pca_2.fit(X)

In [None]:
pca_2.explained_variance_ratio_

พิกัดบนหลักการประกอบหลักแรก (แกนแรก) เพียงพอที่จะเก็บรักษาข้อมูล 99.24% ("ความแปรปรวนที่อธิบายได้") หลักการประกอบหลักที่สองเพิ่มข้อมูลอีก 0.76% ("ความแปรปรวนที่อธิบายได้") ที่ไม่ได้ถูกเก็บไว้ในพิกัดของหลักการประกอบหลักแรก

In [None]:
X_trans_2 = pca_2.transform(X)
X_trans_2

คิดว่าคอลัมน์แรกเป็นพิกัดตามหลักส่วนประกอบหลักแรก (แกนใหม่แรก) และคอลัมน์ที่สองเป็นพิกัดตามหลักส่วนประกอบหลักที่สอง (แกนใหม่ที่สอง) คุณอาจเลือกเพียงหลักส่วนประกอบแรกเนื่องจากเก็บข้อมูลไว้ 99% (ความแปรปรวนที่อธิบาย)

In [None]:
pca_1 = PCA(n_components=1)
pca_1

In [None]:
pca_1.fit(X)
pca_1.explained_variance_ratio_

In [None]:
X_trans_1 = pca_1.transform(X)
X_trans_1

สังเกตว่าคอลัมน์นี้เป็นเพียงคอลัมน์แรกของ `X_trans_2`.

หากคุณมี 2 คุณลักษณะ (สองคอลัมน์ของข้อมูล) และเลือก 2 ส่วนประกอบหลัก คุณจะเก็บข้อมูลทั้งหมดไว้ และข้อมูลจะเหมือนกับข้อมูลเดิม

In [None]:
X_reduced_2 = pca_2.inverse_transform(X_trans_2)
X_reduced_2

In [None]:
plt.plot(X_reduced_2[:,0], X_reduced_2[:,1], 'ro')

ลดมิติเหลือ 1 มิติ แทนที่จะเป็น 2 มิติ

In [None]:
X_reduced_1 = pca_1.inverse_transform(X_trans_1)
X_reduced_1

In [None]:
plt.plot(X_reduced_1[:,0], X_reduced_1[:,1], 'ro')

สังเกตว่าข้อมูลตอนนี้อยู่บนเส้นเดียว (เส้นนี้คือองค์ประกอบหลักเดียวที่ใช้ในการอธิบายข้อมูล และตัวอย่างแต่ละตัวมี "พิกัด" เดียวตามแกนนั้นเพื่ออธิบายตำแหน่ง)

## การมองเห็นภาพอัลกอริทึม PCA

มากำหนดจุด $10$ จุดบนระนาบและใช้เป็นตัวอย่างในการมองเห็นภาพว่าเราสามารถบีบอัดจุดเหล่านี้ใน 1 มิติได้อย่างไร คุณจะเห็นว่ามีวิธีที่ดีและวิธีที่ไม่ดี"

In [None]:
X = np.array([[-0.83934975, -0.21160323],
       [ 0.67508491,  0.25113527],
       [-0.05495253,  0.36339613],
       [-0.57524042,  0.24450324],
       [ 0.58468572,  0.95337657],
       [ 0.5663363 ,  0.07555096],
       [-0.50228538, -0.65749982],
       [-0.14075593,  0.02713815],
       [ 0.2587186 , -0.26890678],
       [ 0.02775847, -0.77709049]])

In [None]:
p = figure(title = '10-point scatterplot', x_axis_label = 'x-axis', y_axis_label = 'y-axis') ## Creates the figure object
p.scatter(X[:,0],X[:,1],marker = 'o', color = '#C00000', size = 5) ## Add the scatter plot

## Some visual adjustments
p.grid.visible = False
p.grid.visible = False
p.outline_line_color = None 
p.toolbar.logo = None
p.toolbar_location = None
p.xaxis.axis_line_color = "#f0f0f0"
p.xaxis.axis_line_width = 5
p.yaxis.axis_line_color = "#f0f0f0"
p.yaxis.axis_line_width = 5

## Shows the figure
show(p)
plt.show()

## การมองเห็นข้อมูล 3 มิติ

ในส่วนนี้ เราจะดูวิธีการย่อข้อมูล 3 มิติ ให้เหลือเพียง 2 มิติ 

In [None]:
from pca_utils import random_point_circle, plot_3d_2d_graphs

In [None]:
X = random_point_circle(n = 150)

In [None]:
deb = plot_3d_2d_graphs(X)

In [None]:
deb.update_layout(yaxis2 = dict(title_text = 'test', visible=True))
deb.show(renderer='colab')

## การใช้ PCA ในการวิเคราะห์เชิงสำรวจ

มาโหลดชุดข้อมูลตัวอย่างที่มี 500 ตัวอย่างและ 1,000 ฟีเจอร์กัน

In [None]:
df = pd.read_csv("toy_dataset.csv")

In [None]:
df.head()

นี่คือชุดข้อมูลที่มี 1,000 ฟีเจอร์

ลองดูว่ามีรูปแบบในข้อมูลหรือไม่ ฟังก์ชันต่อไปนี้จะสุ่มตัวอย่างคู่ (x,y) ของฟีเจอร์ 100 คู่ เพื่อให้เราสามารถพล็อตกราฟแบบกระจายได้

In [None]:
def get_pairs(n = 100):
    from random import randint
    i = 0
    tuples = []
    while i < 100:
        x = df.columns[randint(0,999)]
        y = df.columns[randint(0,999)]
        while x == y or (x,y) in tuples or (y,x) in tuples:
            y = df.columns[randint(0,999)]
        tuples.append((x,y))
        i+=1
    return tuples
            

In [None]:
pairs = get_pairs()

ตอนนี้มาพล็อตกราฟกัน!

In [None]:
fig, axs = plt.subplots(10,10, figsize = (35,35))
i = 0
for rows in axs:
    for ax in rows:
        ax.scatter(df[pairs[i][0]],df[pairs[i][1]], color = "#C00000")
        ax.set_xlabel(pairs[i][0])
        ax.set_ylabel(pairs[i][1])
        i+=1

ดูเหมือนว่าจะไม่มีข้อมูลซ่อนอยู่ในฟีเจอร์คู่มากนัก นอกจากนี้ ยังไม่สามารถตรวจสอบทุกๆ คอมบิเนชันได้ เนื่องจากจำนวนฟีเจอร์มากเกินไป ลองดูความสัมพันธ์เชิงเส้นระหว่างพวกมันกันเถอะ

In [None]:
# This may take 1 minute to run
corr = df.corr()

In [None]:
## This will show all the features that have correlation > 0.5 in absolute value. We remove the features 
## with correlation == 1 to remove the correlation of a feature with itself

mask = (abs(corr) > 0.5) & (abs(corr) != 1)
corr.where(mask).stack().sort_values()

ค่าความสัมพันธ์สูงสุดและต่ำสุดอยู่ที่ประมาณ 0.631 ถึง 0.632 ซึ่งไม่ได้แสดงให้เห็นถึงความสัมพันธ์ที่มากนัก

ลองใช้การย่อยสลาย PCA เพื่อบีบอัดข้อมูลของเราลงในพื้นที่ย่อย 2 มิติ (ระนาบ) เพื่อให้เราสามารถพล็อตเป็นแผนภาพกระจายได้

In [None]:
# Loading the PCA object
pca = PCA(n_components = 2) # Here we choose the number of components that we will keep.
X_pca = pca.fit_transform(df)
df_pca = pd.DataFrame(X_pca, columns = ['principal_component_1','principal_component_2'])

In [None]:
df_pca.head()

In [None]:
plt.scatter(df_pca['principal_component_1'],df_pca['principal_component_2'], color = "#C00000")
plt.xlabel('principal_component_1')
plt.ylabel('principal_component_2')
plt.title('PCA decomposition')

นี่เยี่ยมมาก! เราสามารถเห็นกลุ่มที่กำหนดไว้อย่างชัดเจน

In [None]:
# pca.explained_variance_ration_ returns a list where it shows the amount of variance explained by each principal component.
sum(pca.explained_variance_ratio_)

และเราได้เก็บรักษาความแปรปรวนไว้เพียงประมาณ 14.6% เท่านั้น!

น่าประทับใจมาก! เราสามารถเห็นกลุ่มข้อมูลได้อย่างชัดเจน ซึ่งเป็นสิ่งที่เราไม่สามารถมองเห็นได้มาก่อน คุณสามารถระบุกลุ่มได้กี่กลุ่ม? 8, 10?

หากเราใช้ PCA เพื่อพล็อต 3 มิติ เราจะได้รับข้อมูลเพิ่มเติมจากข้อมูล

In [None]:
pca_3 = PCA(n_components = 3).fit(df)
X_t = pca_3.transform(df)
df_pca_3 = pd.DataFrame(X_t,columns = ['principal_component_1','principal_component_2','principal_component_3'])

In [None]:
import plotly.express as px

In [None]:
fig = px.scatter_3d(df_pca_3, x = 'principal_component_1', y = 'principal_component_2', z = 'principal_component_3').update_traces(marker = dict(color = "#C00000"))
fig.show(renderer='colab')

In [None]:
sum(pca_3.explained_variance_ratio_)

ตอนนี้เราได้เก็บรักษาความแปรปรวนไว้ 19% และเราสามารถเห็น 10 กลุ่มได้อย่างชัดเจน

ขอแสดงความยินดีที่คุณทำโน้ตบุ๊กนี้เสร็จ!