<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Метод главных компонент PCA и </b> <span style="font-weight:bold; color:green">NumPy/SciPy/Sklearn</span></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Собственные числа и собственные векторы</a></li>
        <li><a href="#2">Метод главных компонент (PCA)</a></li>
        <li><a href="#3">Уменьшение размерности с PCA при классификации</a>
        <li><a href="#4">Источники</a>
        </li>
    </ol>
</div>

<p><b>Подключение библиотек</b></p>

In [None]:
import numpy as np
from numpy import linalg

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
from sklearn.decomposition import PCA

In [None]:
from sklearn import linear_model

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Собственные числа и собственные векторы</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p><b>Исходные данные</b></p>

|$X_1$|$X_2$|$Y$|
|-|-|-|
|1|2|0|
|2|3|0|
|3|5|0|
|4|2|0|
|4|5|1|
|6|4|1|
|7|6|1|
|8|5|1|

In [None]:
x1 = np.array([1,2,3,4,4,6,7,8])
x2 = np.array([2,3,5,2,5,4,6,5])
y  = np.array([0,0,0,0,1,1,1,1])

In [None]:
X = np.vstack((x1, x2))
X

<p>График</p>

In [None]:
plt.figure(figsize=[6,6])
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)
plt.tight_layout()
plt.show()

<p><b>Среднее значение</b></p>

In [None]:
x1_mean = np.mean(X[0,:])
x2_mean = np.mean(X[1,:])
x1_mean, x2_mean

<p><b>Дисперсия</b></p>

In [None]:
x1_var = np.var(X[0,:], ddof=0)
x2_var = np.var(X[1,:], ddof=0)
x1_var, x2_var

<p><b>Вычисление ковариационной матрицы</b></p>

In [None]:
cov_matrix = np.cov(X, ddof=0)
cov_matrix

<p><b>Вычисление собственных чисел и векторов</b></p>

In [None]:
eigen_values, eigen_vectors = linalg.eig(cov_matrix)

In [None]:
eigen_values

<p>Собственные векторы</p>

In [None]:
eigen_vectors

<p>Первый собственный вектор</p>

In [None]:
v1 = eigen_vectors[:,0]
v1

<p>Второй собственный вектор</p>

In [None]:
v2 = eigen_vectors[:,1]
v2

<p>Вычисление направляющих собственных векторов</p>

<p><i>Способ 1</i></p>

In [None]:
xx = np.array([-6, 6])

In [None]:
t1 = v1.reshape(-1,1).dot(xx.reshape(1,-1)) + np.array([[x1_mean], [x2_mean]])
t1

In [None]:
t2 = v2.reshape(-1,1).dot(xx.reshape(1,-1)) + np.array([[x1_mean], [x2_mean]])
t2

<p><i>Способ 2</i></p>

In [None]:
xx = np.array([0, 9])

In [None]:
f_v1 = lambda x: v1[1]/v1[0] * (x - x1_mean) + x2_mean
f_v2 = lambda x: v2[1]/v2[0] * (x - x1_mean) + x2_mean

<p>Графики</p>

In [None]:
plt.figure(figsize=[12,6])

plt.subplot(1, 2, 1)
plt.title("Approach 1")
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.plot(t1[0,:], t1[1,:], "--", c="green")
plt.plot(t2[0,:], t2[1,:], "--", c="orange")
plt.arrow(x1_mean, x2_mean, v1[0], v1[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.arrow(x1_mean, x2_mean, v2[0], v2[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.xlim([0,9])
plt.ylim([0,9])
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.title("Approach 2")
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.plot(xx, f_v1(xx), "--", c="green")
plt.plot(xx, f_v2(xx), "--", c="orange")
plt.arrow(x1_mean, x2_mean, v1[0], v1[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.arrow(x1_mean, x2_mean, v2[0], v2[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.xlim([0,9])
plt.ylim([0,9])
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.tight_layout()

plt.show()

<p><b>Преобразование исходных данных в новый базис</b></p>

<p>Перенос центра координат</p>

In [None]:
X_adj = X - np.array([[x1_mean], [x2_mean]])
X_adj

<p>Преобразование</p>

In [None]:
eigen_vectors.T

In [None]:
X_new = eigen_vectors.T.dot(X_adj)
X_new

<p>Проекция на первый собственный вектор</p>

In [None]:
x1_new = v1.dot(X_adj)
x1_new

<p>Проекция на второй собственный вектор</p>

In [None]:
x2_new = v2.dot(X_adj)
x2_new

<p>График</p>

In [None]:
plt.figure(figsize=[6,6])

plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
#plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm)
plt.scatter(X_new[0,:], X_new[1,:], c=y, cmap=plt.cm.coolwarm)


plt.grid(True)
plt.title("New Coordinates along Eigenvectors")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=10)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=10)

plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])

plt.xlabel("$X_1'$")
plt.ylabel("$X_2'$")

plt.tight_layout()

plt.show()

<p>Графики проекций</p>

In [None]:
plt.figure(figsize=[12,6])

plt.subplot(1, 2, 1)
plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.vlines(x1_new, ymin=0, ymax=x2_new, colors="black", linestyles="dotted", lw=1, zorder=3)
plt.plot(x1_new, np.zeros(len(x1_new)), "x", color="black", lw=2, zorder=3)
plt.title("Projection onto First Eigenvector")
plt.grid(True)
plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])
plt.xlabel("$X_1'$")
plt.ylabel("$X_2'$")

plt.subplot(1, 2, 2)
plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.hlines(x2_new, xmin=0, xmax=x1_new, colors="black", linestyles="dotted", lw=1, zorder=3)
plt.plot(np.zeros(len(x2_new)), x2_new, "x", color="black", lw=2, zorder=3)
plt.title("Projection onto Second Eigenvector")
plt.grid(True)
plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])
plt.xlabel("$X_1'$")
plt.ylabel("$X_2'$")

plt.tight_layout()

plt.show()

<p><b>Восстановление преобразованных данных в исходную систему координат</b></p>

<p>Преобразованные данные в 1D</p>

In [None]:
x1_new

<p>Собственный вектор, использованный при преобразовании</p>

In [None]:
v1

<p>Восстановление в 2D</p>

<p><i>Преобразование в матричный вид</i></p>

In [None]:
v1_mat_T = v1.reshape(1,-1)
v1_mat_T

In [None]:
X1_mat = x1_new.reshape(-1,1)
X1_mat

<p><i>Восстановление</i></p>

In [None]:
X_init = X1_mat.dot(v1_mat_T) + np.array([[x1_mean, x2_mean]])
X_init

<p>Графики</p>

In [None]:
plt.figure(figsize=[12,6])

plt.subplot(1, 2, 1)
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(xx, f_v1(xx), "--", c="green")
plt.scatter(X_init[:,0], X_init[:,1], c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Reconstructed")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.tight_layout()

plt.show()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Метод главных компонент (PCA)</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
from sklearn.decomposition import PCA

<p>Конфигурирование PCA с одной главной компонентой</p>

In [None]:
pca = PCA(n_components=1)
pca

<p>Выполнение PCA</p>

In [None]:
pca.fit(X.T)

<p>Полученные параметры</p>

<p><i>Среднее значение</i></p>

In [None]:
pca.mean_

In [None]:
x1_mean, x2_mean

<p><i>Компоненты</i></p>

In [None]:
pca.components_

In [None]:
eigen_vectors # при сравнении обратите внимание на знаки векторов

<p><i>Дисперсия</i></p>

In [None]:
pca.explained_variance_

In [None]:
eigen_values

In [None]:
np.var(x1_new, ddof=0)

In [None]:
np.var(x2_new, ddof=0)

<p>PCA преобразование 2D в 1D</p>

<p><i>С использованием sklearn PCA</i></p>

In [None]:
X1_mat_pca = pca.transform(X.T)
X1_mat_pca

<p><i>Ранее полученный результат преобразования. Обратите внимание на знак</i></p>

In [None]:
X1_mat

<p>Обратное преобразование из 1D в 2D</p>

<p><i>С использованием метода inverse_transform</i></p>

In [None]:
X_2d_pca = pca.inverse_transform(X1_mat_pca)
X_2d_pca

<p><i>Формулой</i></p>

In [None]:
X_2d_pca = np.dot(X1_mat_pca, pca.components_) + pca.mean_
X_2d_pca

<p><i>Ранее полученный результат восстановления</i></p>

In [None]:
X_init

<p>График</p>

In [None]:
xx = np.array([-6, 6]).reshape(-1,1)
xy = pca.inverse_transform(xx)
xy

In [None]:
plt.figure(figsize=[6,6])

plt.scatter(X_2d_pca[:,0], X_2d_pca[:,1], s=80, c="blue", cmap=plt.cm.coolwarm, label="PCA")
plt.scatter(X[0,:], X[1,:], c="black", cmap=plt.cm.coolwarm, label="Initial")
plt.scatter(X_init[:,0], X_init[:,1], c="red", cmap=plt.cm.coolwarm, zorder=3, label="Eigenvectors")
plt.plot(xy[:,0], xy[:,1], "--", c="green")
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.legend()
plt.grid(True)

plt.tight_layout()

plt.show()

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Уменьшение размерности с PCA при классификации</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p><b>Пример с логистической регрессией</b></p>

<p>Исходные данные</p>

In [None]:
x1 = np.array([1,2,3,4,4,6,7,8])
x2 = np.array([2,3,5,2,5,4,6,5])
X = np.vstack((x1, x2))

y1 = np.array([0,0,0,0,1,1,1,1])
y2 = np.array([0,0,0,0,1,0,1,1])

<p>Графики</p>

In [None]:
plt.figure(figsize=[12,6])

plt.subplot(1, 2, 1)

plt.scatter(X[0,:], X[1,:], c=y1, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data 1")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.scatter(X[0,:], X[1,:], c=y2, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data 2")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)


plt.tight_layout()
plt.show()

<p>Обучение и тестирование для исходных данных 1</p>

In [None]:
logReg = linear_model.LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5, 
                                         solver="lbfgs", random_state=1234)
logReg.fit(X.T, y1)
accuracy_score_1 = logReg.score(X.T, y1)
accuracy_score_1

<p>Обучение и тестирование для исходных данных 2</p>

In [None]:
logReg.fit(X.T, y2)
accuracy_score_2 = logReg.score(X.T, y2)
accuracy_score_2

<p><b>Уменьшение размерности до одного признака с использованием PCA</b></p>

In [None]:
pca = PCA(n_components=1)
pca.fit(X.T)
X1_mat_pca = pca.transform(X.T)
X1_mat_pca

<p>Обучение и тестирование для преобразованных данных 1</p>

In [None]:
logReg.fit(X1_mat_pca, y1)
accuracy_score_pca_1 = logReg.score(X1_mat_pca, y1)
accuracy_score_pca_1

<p>Обучение и тестирование для преобразованных данных 2</p>

In [None]:
logReg.fit(X1_mat_pca, y2)
accuracy_score_pca_2 = logReg.score(X1_mat_pca, y2)
accuracy_score_pca_2

<p><b>В чем проблема?</b><br> Почему получили такой результат?<br> Какая особенность PCA повлияла?</p>

<a name="4"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">4. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf