# Сжатие изображения без потери качества при помощи PCA

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import cv2

from scipy.stats import stats
from sklearn.decomposition import PCA

Загрузим картинку и нарисуем ее в монохромный формат

In [None]:
%%capture
!wget -O flower.png "https://www.dropbox.com/s/xoos0myk285efyu/flower.png?dl=0"

In [None]:
img = cv2.cvtColor(cv2.imread('flower.png'), cv2.COLOR_BGR2GRAY)
plt.imshow(img)
plt.show()

Посмотрим на матрицу изображения

In [None]:
img

### PCA

In [None]:
img = img / 255

In [None]:
pca = PCA(n_components=60)

imgpca = pca.fit_transform(img)

In [None]:
prop_var = pca.explained_variance_ratio_
prop_var

Доля дисперсии, объясняемой каждой из первых 50-ти компонент.

In [None]:
PC_numbers = np.arange(pca.n_components_) + 1

plt.plot(PC_numbers,
         prop_var,
         'ro-')
plt.ylabel('Proportion of Variance', fontsize=8)
plt.show()

### Восстанавливаем изображение

Восстановим изображение, используя pca.inverse_transform.

In [None]:
img1 = pca.inverse_transform(imgpca)

Нарисуем рядом два изображения: исходное и восстановленное (по своим 50 компонентам).

In [None]:
plt.imshow(img)
plt.show()
plt.imshow(img1)
plt.show()

Подберем минимальное количество компонент, при которых сжатое изображение визуально практически не отличается от исходного. Подбор происходит перебором, ориентируемся на визуальный результат.

In [None]:
pca = PCA(n_components=100)
imgpca = pca.fit_transform(img)
img1 = pca.inverse_transform(imgpca)

plt.imshow(img)
plt.show()
plt.imshow(img1)
plt.show()

С цветным изображением

In [None]:
img = cv2.cvtColor(cv2.imread('flower.png'), cv2.COLOR_BGR2RGB)
plt.imshow(img)
plt.show()

Отличия от предыдущих шагов заключаются в том, что цветное RGB-изображение состоит из трех каналов - это матрица яркостей красного, матрица яркостей зеленого и матрица яркостей синего цветов.

Все действия выше нужно проделать с каждым каналом в отдельности, а потом объединить преобразованные изображения для каждого канала - чтобы получить итоговую картинку со сниженной размерностью.

In [None]:
imgred = img[:,:,0]
pca = PCA(n_components=100)
imgpcar = pca.fit_transform(imgred)
img1r = pca.inverse_transform(imgpcar)


imgb = img[:,:,1]
pca = PCA(n_components=100)
imgpcab = pca.fit_transform(imgb)
img1b = pca.inverse_transform(imgpcab)

imgg = img[:,:,2]
pca = PCA(n_components=100)
imgpcag = pca.fit_transform(imgg)
img1g = pca.inverse_transform(imgpcag)

imgrgb = img1r + img1g + img1b

plt.imshow(img)
plt.show()
plt.imshow(img1r)
plt.show()
plt.imshow(img1b)
plt.show()
plt.imshow(img1g)
plt.show()
plt.imshow(imgrgb)
plt.show()