# СЕМИНАР. Метод главных компонент PCA
---
Папулин С.Ю. (papulin.study@yandex.ru)

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Собственные числа и собственные векторы</a></li>
        <li><a href="#2">Метод главных компонент (PCA)</a></li>
        <li><a href="#3">Уменьшение размерности при классификации</a>
        <li><a href="#4">Уменьшение размерности для визуализации</a>
        <li><a href="#5">Сжатие данных</a>    
        <li><a href="#6">Источники</a>
        </li>
    </ol>
</div>

<p><b>Подключение библиотек</b></p>

In [None]:
import numpy as np
from numpy import linalg

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
from sklearn.decomposition import PCA

In [None]:
from sklearn.linear_model import LogisticRegression

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Собственные числа и собственные векторы</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p><b>Исходные данные</b></p>

|$X_1$|$X_2$|$Y$|
|-|-|-|
|1|2|0|
|2|3|0|
|3|5|0|
|4|2|0|
|4|5|1|
|6|4|1|
|7|6|1|
|8|5|1|

In [None]:
x1 = np.array([1,2,3,4,4,6,7,8])
x2 = np.array([2,3,5,2,5,4,6,5])
y  = np.array([0,0,0,0,1,1,1,1])

In [None]:
X = np.vstack((x1, x2))
X

<p>График</p>

In [None]:
plt.figure(figsize=[4,4])
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)
plt.tight_layout()
plt.show()

<p><b>Среднее значение</b></p>

In [None]:
x1_mean = np.mean(X[0,:])
x2_mean = np.mean(X[1,:])
x1_mean, x2_mean

<p><b>Дисперсия</b></p>

In [None]:
x1_var = np.var(X[0,:], ddof=1)
x2_var = np.var(X[1,:], ddof=1)
x1_var, x2_var

<p><b>Вычисление ковариационной матрицы</b></p>

In [None]:
cov_matrix = np.cov(X, ddof=1)
cov_matrix

<p><b>Вычисление собственных чисел и векторов</b></p>

In [None]:
eigen_values, eigen_vectors = linalg.eig(cov_matrix)

In [None]:
eigen_values

<p>Собственные векторы</p>

In [None]:
eigen_vectors

<p>Первый собственный вектор</p>

In [None]:
v1 = eigen_vectors[:,0]
v1

<p>Второй собственный вектор</p>

In [None]:
v2 = eigen_vectors[:,1]
v2

**Построение графика направлений главных компонент**

Вычисление направляющих собственных векторов

<p><i>Способ 1</i></p>

In [None]:
xx = np.array([-6, 6])

In [None]:
t1 = v1.reshape(-1,1) @ xx.reshape(1,-1) + np.array([[x1_mean], [x2_mean]])
t1

In [None]:
t2 = v2.reshape(-1,1) @ xx.reshape(1,-1) + np.array([[x1_mean], [x2_mean]])
t2

<p><i>Способ 2</i></p>

In [None]:
xx = np.array([0, 9])

In [None]:
f_v1 = lambda x: v1[1]/v1[0] * (x - x1_mean) + x2_mean
f_v2 = lambda x: v2[1]/v2[0] * (x - x1_mean) + x2_mean

<p>Графики</p>

In [None]:
plt.figure(figsize=[8,4])

plt.subplot(1, 2, 1)
plt.title("Approach 1")
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.plot(t1[0,:], t1[1,:], "--", c="green")
plt.plot(t2[0,:], t2[1,:], "--", c="orange")
plt.arrow(x1_mean, x2_mean, v1[0], v1[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.arrow(x1_mean, x2_mean, v2[0], v2[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.title("Approach 2")
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.plot(xx, f_v1(xx), "--", c="green")
plt.plot(xx, f_v2(xx), "--", c="orange")
plt.arrow(x1_mean, x2_mean, v1[0], v1[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.arrow(x1_mean, x2_mean, v2[0], v2[1], linewidth=2, head_width=0.05, 
          head_length=0.1, color="black", zorder=10)
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.tight_layout()

plt.show()

<p><b>Преобразование исходных данных в новый базис</b></p>

<p>Перенос центра координат</p>

In [None]:
X_adj = X - np.array([[x1_mean], [x2_mean]])
X_adj

<p>Преобразование</p>

In [None]:
eigen_vectors.T

In [None]:
X_new = eigen_vectors.T @ X_adj
X_new

<p>Проекция на первый собственный вектор</p>

In [None]:
x1_new = v1 @ X_adj
x1_new

<p>Проекция на второй собственный вектор</p>

In [None]:
x2_new = v2 @ X_adj
x2_new

<p>График</p>

In [None]:
plt.figure(figsize=[4,4])

plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
#plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm)
plt.scatter(X_new[0,:], X_new[1,:], c=y, cmap=plt.cm.coolwarm)


plt.grid(True)
plt.title("New Coordinates along Eigenvectors")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=10)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=10)

plt.xticks(np.arange(-5, 5, 1))

plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])

plt.xlabel("$Z_1$")
plt.ylabel("$Z_2$")

plt.tight_layout()

plt.show()

<p>Графики проекций</p>

In [None]:
plt.figure(figsize=[8,4])

plt.subplot(1, 2, 1)
plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.vlines(x1_new, ymin=0, ymax=x2_new, colors="black", linestyles="dotted", lw=1, zorder=3)
plt.plot(x1_new, np.zeros(len(x1_new)), "x", color="black", lw=2, zorder=3)
plt.title("Projection onto First Eigenvector")
plt.grid(True)
plt.xticks(np.arange(-5, 5, 1))
plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])
plt.xlabel("$Z_1$")
plt.ylabel("$Z_2$")

plt.subplot(1, 2, 2)
plt.axvline(x=0, lw=2, c="orange", ls="--")
plt.axhline(y=0, lw=2, c="green", ls="--")
plt.arrow(0, 0, 0, 1, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.arrow(0, 0, 1, 0, linewidth=2, head_width=0.05, head_length=0.1, color="black", zorder=2)
plt.scatter(x1_new, x2_new, c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.hlines(x2_new, xmin=0, xmax=x1_new, colors="black", linestyles="dotted", lw=1, zorder=3)
plt.plot(np.zeros(len(x2_new)), x2_new, "x", color="black", lw=2, zorder=3)
plt.title("Projection onto Second Eigenvector")
plt.grid(True)
plt.xticks(np.arange(-5, 5, 1))
plt.xlim([-4.5,4.5])
plt.ylim([-4.5,4.5])
plt.xlabel("$Z_1$")
plt.ylabel("$Z_2$")

plt.tight_layout()

plt.show()

Доля объяснимой дисперсии при выборе первой главной компоненты:

In [None]:
eigen_values[:1].sum()/eigen_values.sum()

Ковариационная матрица преобразованных данных

In [None]:
np.cov(X_new, ddof=1)

<p><b>Восстановление преобразованных данных в исходную систему координат</b></p>

<p>Преобразованные данные в 1D</p>

In [None]:
x1_new

<p>Собственный вектор, использованный при преобразовании</p>

In [None]:
v1

<p>Восстановление в 2D</p>

<p><i>Преобразование в матричный вид</i></p>

In [None]:
v1_mat_T = v1.reshape(-1, 1)
v1_mat_T

In [None]:
X1_mat = x1_new.reshape(1, -1)
X1_mat

In [None]:
v1_mat_T.shape, X1_mat.shape

<p><i>Восстановление</i></p>

In [None]:
X_init = v1_mat_T @ X1_mat + np.array([[x1_mean], [x2_mean]])
X_init

<p>Графики</p>

In [None]:
plt.figure(figsize=[8,4])

plt.subplot(1, 2, 1)
plt.scatter(X[0,:], X[1,:], c=y, cmap=plt.cm.coolwarm)
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(xx, f_v1(xx), "--", c="green")
plt.scatter(X_init[0,:], X_init[1,:], c=y, cmap=plt.cm.coolwarm, zorder=3)
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Reconstructed")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.tight_layout()

plt.show()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Метод главных компонент (PCA)</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
from sklearn.decomposition import PCA

<p>Конфигурирование PCA с одной главной компонентой</p>

In [None]:
pca = PCA(n_components=1)
pca

<p>Выполнение PCA</p>

In [None]:
pca.fit(X.T)

<p>Полученные параметры</p>

<p><i>Среднее значение</i></p>

In [None]:
pca.mean_

In [None]:
x1_mean, x2_mean

<p><i>Компоненты</i></p>

In [None]:
pca.components_

In [None]:
eigen_vectors  # при сравнении обратите внимание на знаки векторов

<p><i>Дисперсия</i></p>

In [None]:
pca.explained_variance_

In [None]:
eigen_values

In [None]:
np.var(x1_new, ddof=1)

In [None]:
np.var(x2_new, ddof=1)

In [None]:
pca.explained_variance_ratio_

<p>PCA преобразование 2D в 1D</p>

<p><i>С использованием sklearn PCA</i></p>

In [None]:
X1_mat_pca = pca.transform(X.T)
X1_mat_pca

<p><i>Ранее полученный результат преобразования. Обратите внимание на знак</i></p>

In [None]:
X1_mat

<p>Обратное преобразование из 1D в 2D</p>

<p><i>С использованием метода inverse_transform</i></p>

In [None]:
X_2d_pca = pca.inverse_transform(X1_mat_pca)
X_2d_pca

<p><i>Формулой</i></p>

In [None]:
X_2d_pca = X1_mat_pca @ pca.components_ + pca.mean_
X_2d_pca

<p><i>Ранее полученный результат восстановления</i></p>

In [None]:
X_init

<p>График</p>

In [None]:
xx = np.array([-6, 6]).reshape(-1,1)
xy = pca.inverse_transform(xx)
xy

In [None]:
plt.figure(figsize=[4,4])

plt.scatter(X_2d_pca[:,0], X_2d_pca[:,1], s=80, c="blue", label="PCA")
plt.scatter(X[0,:], X[1,:], c="black", label="Initial")
plt.scatter(X_init[0,:], X_init[1,:], c="red", zorder=3, label="Eigenvectors")
plt.plot(xy[:,0], xy[:,1], "--", c="green")
plt.xticks(np.arange(0, 10, 1))
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.legend()
plt.grid(True)

plt.tight_layout()

plt.show()

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Уменьшение размерности при классификации</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p><b>Пример с логистической регрессией</b></p>

<p>Исходные данные</p>

In [None]:
x1 = np.array([1,2,3,4,4,6,7,8])
x2 = np.array([2,3,5,2,5,4,6,5])
X = np.vstack((x1, x2))

y1 = np.array([0,0,0,0,1,1,1,1])
y2 = np.array([0,0,0,0,1,0,1,1])

<p>Графики</p>

In [None]:
plt.figure(figsize=[12,6])

plt.subplot(1, 2, 1)

plt.scatter(X[0,:], X[1,:], c=y1, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data 1")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.scatter(X[0,:], X[1,:], c=y2, cmap=plt.cm.coolwarm)
plt.xlim([0,9])
plt.ylim([0,9])
plt.title("Initial Data 2")
plt.xlabel("$X_1$")
plt.ylabel("$X_2$")
plt.grid(True)


plt.tight_layout()
plt.show()

<p>Обучение и тестирование для исходных данных 1</p>

In [None]:
logReg = LogisticRegression(
    penalty="l2", fit_intercept=True, max_iter=100, 
    C=1e5, solver="lbfgs", random_state=1234)
logReg.fit(X.T, y1)
accuracy_score_1 = logReg.score(X.T, y1)
accuracy_score_1

<p>Обучение и тестирование для исходных данных 2</p>

In [None]:
logReg.fit(X.T, y2)
accuracy_score_2 = logReg.score(X.T, y2)
accuracy_score_2

<p><b>Уменьшение размерности до одного признака с использованием PCA</b></p>

In [None]:
pca = PCA(n_components=1)
pca.fit(X.T)
X1_mat_pca = pca.transform(X.T)
X1_mat_pca

<p>Обучение и тестирование для преобразованных данных 1</p>

In [None]:
logReg.fit(X1_mat_pca, y1)
accuracy_score_pca_1 = logReg.score(X1_mat_pca, y1)
accuracy_score_pca_1

<p>Обучение и тестирование для преобразованных данных 2</p>

In [None]:
logReg.fit(X1_mat_pca, y2)
accuracy_score_pca_2 = logReg.score(X1_mat_pca, y2)
accuracy_score_pca_2

<p><b>В чем проблема?</b><br> Почему получили такой результат?<br> Какая особенность PCA повлияла?</p>

### Распознавание цифр

In [None]:
from sklearn import datasets

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV, KFold, train_test_split

In [None]:
RANDOM_STATE = 12345

In [None]:
# Загрузка исходных данных
digits = datasets.load_digits()

IMAGE_INDX = 3

# Отображение одного изображения
print("Image:")
plt.figure(figsize=[4, 4])
plt.imshow(digits.images[IMAGE_INDX])
plt.show()
print("Feature matrix:\n", digits.images[IMAGE_INDX])
print("\nTarget value:", digits.target[IMAGE_INDX])

In [None]:
X = digits.images.reshape(-1, 64)
y_true = digits.target

In [None]:
# Разбиение данных на обучающее и тестовое множества
X_train, X_test, y_train, y_test = train_test_split(
    X, y_true, test_size=0.3, random_state=RANDOM_STATE)

#### Базовая отметка

In [None]:
model = LogisticRegression(
    penalty="l2", 
    fit_intercept=True, 
    max_iter=200, 
    solver="newton-cg",
    multi_class="ovr",
    random_state=RANDOM_STATE
)
    
model.fit(X_train, y_train)
model.score(X_test, y_test)

#### Выбор количества главных компонент

Доля объяснимой дисперсии

In [None]:
# Доля объяснимой дисперсии для разного количества главных компонент
ratios_per_component = (
    PCA(n_components=X_train.shape[1])
    .fit(X_train)
    .explained_variance_ratio_
)
ratios = [ratios_per_component[:n].sum() for n in range(1, X_train.shape[1]+1)]

In [None]:
# График выбора количества главных компонент
plt.figure(figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("Dimension Reduction")
plt.plot(range(1, X_train.shape[1]+1), ratios, "o-")
plt.xlabel("Components")
plt.ylabel("Explained Variance Ratio")
plt.grid(True)

plt.show()

In [None]:
pipeline = Pipeline([
    # Уменьшение размерности
    ("reduction", PCA(n_components=20)), 
    # Классификация
    ("model", LogisticRegression(
        penalty="l2", 
        fit_intercept=True, 
        max_iter=200, 
        solver="newton-cg",
        multi_class="ovr",
        random_state=RANDOM_STATE)
    )
])
pipeline.fit(X_train, y_train)

In [None]:
# Проверка на тестовом множестве
pipeline.score(X_test, y_test)

Использование кросс-валидации

In [None]:
# Последовательность операций
pipeline = Pipeline([
    # Уменьшение размерности
    ("reduction", PCA()), 
    # Классификация
    ("model", LogisticRegression(
        penalty="l2", 
        fit_intercept=True, 
        max_iter=200, 
        solver="newton-cg",
        multi_class="ovr",
        random_state=RANDOM_STATE)
    )
])

In [None]:
# Инициализация делителя для кросс-валидации
kf = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

In [None]:
# Количество главных компонент
n_components = np.arange(5, 64, 5)

# Сетка параметров
param_grid = {
    "reduction__n_components": n_components,
}

# Аргументы GridSearchCV
grid_search_args = {
    "estimator": pipeline,
    "param_grid": param_grid,
    "cv": kf,
    "scoring": "accuracy",
    "return_train_score": True
}

# Обучение
grid_search = GridSearchCV(**grid_search_args)
grid_search.fit(X_train, y_train)

In [None]:
# График выбора количества главных компонент
plt.figure(figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("Dimension Reduction")
plt.plot(n_components, grid_search.cv_results_["mean_test_score"], "o-", label="Validation")
plt.plot(n_components, grid_search.cv_results_["mean_train_score"], "o-", label="Train")
plt.xlabel("$Components$")
plt.ylabel("$Accuracy$")
plt.legend()
plt.grid(True)

plt.show()

In [None]:
# Лучшая модель
print("Best params \t=", grid_search.best_params_)
print("Test Accuracy \t=", grid_search.score(X_test, y_test))

In [None]:
# Проверка на тестовом множестве
grid_search.score(X_test, y_test)

<a name="4"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">4. Уменьшение размерности для визуализации</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

### 2D

In [None]:
X = digits.data  # матрица признаков
y_true = digits.target  # целевые значения (цифры)

# PCA трансформация с двумя компонентами
X_transformed = PCA(n_components=2).fit_transform(X)

In [None]:
# Отображение всех наблюдений в новом пространстве
plt.figure(figsize=[8, 6])
plt.title("Visualization of digits using PCA transformation")
for i in range(10):
    # Генерация цвета для класса
    np.random.seed(i*15)
    random_color = list(np.random.rand(3))
    # Добавление прозрачности
    random_color.append(0.5)
    # Определение расположения центра для класса
    class_center = X_transformed[y_true==i,:].mean(axis=0)
    # Отображение данных класса
    plt.scatter(X_transformed[y_true==i,0], X_transformed[y_true==i, 1], 
                color=random_color)
    plt.scatter(*class_center, marker="o", s=200, color=random_color[:3], 
                linewidth=4, edgecolors="black", zorder=5, 
                label=i)
plt.grid(True)
leg = plt.legend(markerscale=1, fontsize=14)
# Изменение ширины контура маркера
for handler in leg.legend_handles:
    handler.set_linewidth(1.0)
plt.xlabel("$Z_1$")
plt.ylabel("$Z_2$")
plt.show()

### 3D

In [None]:
# Вывод графика в отдельном окне
%matplotlib qt

In [None]:
# PCA трансформация с двумя компонентами
X_transformed = PCA(n_components=3).fit_transform(X)

# Отображение всех наблюдений в новом пространстве
fig = plt.figure(figsize=[8, 6])

"""
For new version of matplotlib
"""
ax = fig.add_subplot(1, 1, 1, projection="3d")

ax.set_title("Visualization of digits using PCA transformation")

for i in range(10):
    # Генерация цвета для класса
    np.random.seed(i*15)
    random_color = list(np.random.rand(3))
    # Добавление прозрачности
    random_color.append(0.5)
    # Определение расположения центра для класса
    class_center = X_transformed[y_true==i,:].mean(axis=0)
    # Отображение данных класса
    ax.scatter(X_transformed[y_true==i, 0], X_transformed[y_true==i, 1], X_transformed[y_true==i, 2],
                color=random_color)
    ax.scatter(*class_center, marker="o", s=200, color=random_color[:3], 
                linewidth=4, edgecolors="black", zorder=5, 
                label=i)
ax.grid(True)
leg = ax.legend(markerscale=1, fontsize=14, loc=2)
# Изменение ширины контура маркера
for handler in leg.legend_handles:
    handler.set_linewidth(1.0)
ax.set_xlabel("$X_1$")
ax.set_ylabel("$X_2$")
ax.set_zlabel("$X_3$")
plt.show()

<a name="5"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">5. Сжатие данных</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

### Загрузка изображения

In [None]:
# Вывод графика в отдельном окне
%matplotlib inline

In [None]:
from skimage import io
from skimage.color import rgb2gray

In [None]:
IMAGE_URL = "https://s0.rbk.ru/v6_top_pics/resized/1440xH/media/img/2/07/755821895761072.jpg"

In [None]:
image = io.imread(IMAGE_URL)
image.shape

In [None]:
# import PIL
# import urllib

# image = np.array(PIL.Image.open(urllib.request.urlopen(IMAGE_URL)))
# image.shape

In [None]:
image.min(), image.max()

In [None]:
# Преобразование в монохромный вид
X = rgb2gray(image)
X.shape

In [None]:
X.min(), X.max()

In [None]:
# Количество элементов (пикселей)
size__original = np.multiply(*X.shape)
size__original

In [None]:
# Вывод изображения
plt.figure(figsize=[6,6])
plt.imshow(X, cmap=plt.cm.gray)
plt.show()

### Сжатие изображения

In [None]:
# Инициализвания PCA с указанием доли объяснимой дисперсии
pca = PCA(n_components=0.99)

# Обучение и преобразование
X__transformed = pca.fit_transform(X)

In [None]:
# Количество компонент
pca.n_components_

In [None]:
# доля объяснимой дисперсии
pca.explained_variance_ratio_.sum()

In [None]:
# Размерность преобразованного изображения
X__transformed.shape

In [None]:
X__transformed.min(), X__transformed.max()

In [None]:
# Количество элементов преобразованного изображения
size__transformed = np.multiply(*X__transformed.shape)
size__transformed

In [None]:
# Во сколько раз уменьшилось изображение
size__original / size__transformed

### Восстановление изображения

In [None]:
# Обратное преобразование
X__recovered = pca.inverse_transform(X__transformed)

In [None]:
X__recovered.min(), X__recovered.max()

In [None]:
# Вывод исходного (до сжатия) и восстановленного изображения (после сжатия)
plt.figure(figsize=[14,8])

plt.subplot(1,2,1)
plt.title('Original')
plt.imshow(X, cmap=plt.cm.gray)

plt.subplot(1,2,2)
plt.title('Recovered')
plt.imshow(X__recovered, cmap=plt.cm.gray)

plt.show()

In [None]:
# Вывод первых компонент и их суммы для изображения в исходной системе координат
plt.figure(figsize=[14, 4])
num_components = min(pca.n_components_, 5)

X_sum = np.zeros_like(X)
for i in range(num_components):
    plt.subplot(1, num_components+1, i+1)
    plt.title(f'Component {i+1}')
    X_ = np.dot(X__transformed[:,i].reshape(-1,1), pca.components_[i].reshape(1,-1))
    X_sum += X_
    plt.imshow(X_, cmap=plt.cm.gray)
    plt.axis("off")

X_sum += pca.mean_
plt.subplot(1, num_components+1, num_components+1)
plt.title(f'Sum')
plt.imshow(X_sum, cmap=plt.cm.gray)
plt.axis("off")
plt.show()

<a name="6"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">5. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

[A tutorial on Principal Components Analysis](http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf)