# Семинар 3
## Вычислительная линейная алгебра

In [None]:
# Импортируем все библиотеки, которые нам сегодня понадобятся
import os

import pandas as pd
import numpy as np
import scipy as sp
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

In [None]:
# Настроим библиотеки отрисовки
%matplotlib inline

sns.set(font_scale=1.3)

red   = '#FF3300'
blue  = '#0099CC'
green = '#00CC66'

На этом занятии мы:
* Вспомним как работать с векторами и матрицами в numpy
* Посмотрим как пользоваться SVD разложением
* Посмотрим как пользоваться PCA
* Применим PCA для сжатия изображения
* Применим PCA в задаче классификации для уменьшения размера признакового пространства

## 0. Работа с матрицами

In [None]:
# Создадим при помощи numpy две матрицы 2х2, одну матрицу 2х3 и два вектора длины 2 и один вектор длин 3 с произвольными числами

A = np.array([[1,2],
              [3,-4]])
B = np.array([[2, 0],
              [0, 1]])
C = np.array([[1, -2, 0],
              [3, 0, -1]])

x = np.array([1, -1])
y = np.array([2, 1])
z = np.array([1, 4, 2])

### Умножение матриц и векторов

In [None]:
# Посчитаем что получится при поэлементном умножении матриц A и B (*)

print(...)

In [None]:
# Посчитаем что получится при математическом умножении матриц A и B (@ или np.dot)

print(...)

In [None]:
# Посчитаем что получится при математическом умножении матриц A и C (@ или np.dot)

print(...)

In [None]:
# Получится ли умножить матрицу C на матрицу A?

print(...)

In [None]:
# Умножим матрицу A на вектор x справа и слева математически (@ или np.dot)

print(...)
print(...)

In [None]:
# Умножим матрицу C на вектор z справа математически (@ или np.dot)

print(...)

# Получится ли у нас умножить слева?
print(...)

In [None]:
# Умножим математически вектор x и y

print(...)

In [None]:
# Если хочется еще что-то поумножать, то можем попрактиковаться:)
...

### Полезные матрицы

In [None]:
# Единичная матрица (np.eye)

print(...)

In [None]:
# Матрица из единиц (np.ones)

print(...)

In [None]:
# Матрица из нулей (np.zeros)

print(...)

In [None]:
# Диагональная матрица (np.diag)

print(...)

### Полезные функции

In [None]:
# Определитель [применим на матрицы A и B] (np.linalg.det)

print(...)
print(...)

# Что если применить на матрице C
print(...)

In [None]:
# Собственные вектора и значения [применим на матрицу B] (np.linalg.eigh)

print(...)

# Можно ли применить на матрицу C?

In [None]:
# Обратная матрица [применим на матрицы A и B] (np.linalg.inv)

print(...)
print(...)

In [None]:
# Проверим, что она действительно обратная. Как мы можем это сделать?

print(...)
print(...)

## 1. SVD-разложение

Для того, чтобы ручками потрогать SVD разложение, воспользуемся его реализацией в scipy и сгенерированным датасетом.

In [None]:
# Сгенерируем матрицу размера 100 на 10 из нормального распределения при помощи функции normal модуля random
X = ...
print(X.shape)

In [None]:
# Воспользуемся функцией svd модуля linalg библиотеки scipy для того, чтобы получить svd разложение нашей матрицы X
# У этой функции есть параметр full_matrices, предлагается попробовать оба варианта значения этого параметра, чтобы понять, что он изменяет

U, D, V = ...
print(U.shape, D.shape, V.shape)

In [None]:
# Посмотрим, что из себя представляет матрица D

print(...)

In [None]:
# Переведем D в матричный вид при помощи умножения на единичную матрицу поэлементно (*)

print(...)

In [None]:
# Проверим, что SVD работает верно, умножив последовательно матрицы U, D и V
X_restored = ...

print(np.allclose(X_restored, X))

Восстановленная версия действительно очень близка к исходной.

## 2. PCA (Principal component analysis)

### Метод главных компонент

Интерактивная визуализация PCA и собственных векторов:

* <a href="http://setosa.io/ev/principal-component-analysis/">Principal Component Analysis</a>

* <a href="http://setosa.io/ev/eigenvectors-and-eigenvalues/">Eigenvectors and Eigenvalues</a>





Реализация из sklearn:

<a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA">`sklearn.decomposition.PCA`</a>`(n_components=None)`

Методы класса:
* `fit(X)` — обучиться на данных `X`;
* `fit_transforn(X)` — обучиться на данных `X` и вернуть сжатое представление `X`;
* `transform(X_new)` — вернуть сжатое представление `X_new` для обученной ранее модели;
* `inverse_transform(Y)` — восстановить сжатые данные `Y` в исходное пространство.

Атрибуты класса:

* `components_` — главные компоненты в порядке убывания собственных чисел, размер (n_components, n_features);
* `explained_variance_` — дисперсия вдоль главных компонент, равны собственным числам, размер (n_components,);
* `explained_variance_ratio_` —- доля дисперсии, объясняемая каждой компонентой, размер (n_components,);
* `mean_` — среднее по данным, размер (n_components,);
* `noise_variance_` — оценка дисперсии шума для метода Probabilistic PCA.

Другие модификации, реализованные в sklearn:

* <a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.KernelPCA">`KernelPCA`</a>;
* <a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.SparsePCA">`SparsePCA`</a>;
* <a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.IncrementalPCA">`IncrementalPCA`</a>.

Для демонстрации работы PCA сгенерируем двумерный датасет из нормального распределения.

In [None]:
# Сгенерируем двухмерный датасет при помощи функции multivariate_normal из модуля random библиотеки numpy
# Например, размера 150, со средними [0,3] и ковариацией [[3, 1], [1, 1]]

X = ...

Почему мы просто не воспользовались `np.random.normal`, как в прошлом примере?

In [None]:
# Посмотрим, что матрица того размера, который мы предполагали
...

In [None]:
# Создадим объект класса PCA с числом компонент, равным 1
pca = ...

In [None]:
# Обучим и преобразуем нашу матрицу X при помощи метода fit_transform
Y = ...

In [None]:
# Преобразуем наши данные в исходнрый размер при помощи метода inverse_transform
# Это можно понять следующий образом: если SVD возвращает U, S, V и U@S -- это PCA преобразование
# То множение еще и на V, то это обратное преобразование

X_hat = ...

In [None]:
# Выведем размеры матриц X, Y и X_hat
print(...)
print(...)
print(...)

In [None]:
# Посмотрим на главные компоненты (точнее, одну компоненту) при помощи переменную components_
...

In [None]:
# Посомтрим на вектор средних, вызвав переменную mean_
...

Построим следующие графики: 
* На первом графике синим отмечены исходные точки, красным - они же после проецирования и обратного преобразования.

* На втором графике точки, спроецированные на главную компоненту в одномерном пространстве. Иными словами распределение точек вдоль главной компоненты.

In [None]:
fig, axes = plt.subplots(ncols=1, nrows=2, figsize=(12, 8), sharex=True, gridspec_kw={'height_ratios': [4, 1]})

# Отрисуем точки, поспользовавшись первой колонкой матрицы X как координатами точек по оси х
# и второй колонкой как координатами точек по оси y
axes[0].scatter(..., ..., alpha=0.7, color=blue)
# Аналогично с преобразованной матрицей X_hat
axes[0].scatter(..., ..., color=red, alpha=0.7)

axes[0].set_xlabel('Исходный признак 1')
axes[0].set_ylabel('Исходный признак 2')

# Отрисуем распределения точек вдоль главной компоненты, передав в качестве координат по оси x вектор -Y
# (подумайте почему в нашем случае -Y, а не Y. Подсказка -- посмотрите на главную компоненту),
# а в качестве координат по оси y нули
axes[1].scatter(..., ..., alpha=0.5, color=red)

axes[1].set_xlabel('Проекция на первую главную компоненту')

plt.show()

Другие методы снижения размерности:

* http://scikit-learn.org/stable/modules/manifold.html#manifold

Примеры с визуализацией:

* http://scikit-learn.org/stable/auto_examples/manifold/plot_compare_methods.html#sphx-glr-auto-examples-manifold-plot-compare-methods-py

* http://scikit-learn.org/stable/auto_examples/manifold/plot_manifold_sphere.html#sphx-glr-auto-examples-manifold-plot-manifold-sphere-py

## 3. Cжатие изображений с помощью PCA

In [None]:
# Скачаем картинку
! wget https://www.dropbox.com/s/ehhrw5l46rpnv61/3840x2400.png

In [None]:
# Считаем картинку при помощи функции imread библиотеки matplotlib
image = ...

In [None]:
# Посмотрим какой размер изображения. За что отвечает каждая размерность?
...

In [None]:
# Посмотрим что из себя представляет image
...

In [None]:
# Отрисуем картику при помощи функции imshow библиотеки matplotlib
...

**Что предлагается сделать:**

Давайте разобьем наше изображение на 24 равных кусочка (нарежем изображение на равные части). 

Применим к картинке преобразования для выделения 24 блоков размера 600x640. То есть из массива `(2400, 3840, 3)` сделаем массивом `(24, 600, 640, 3)`, чтобы потом каждый кусочек растянуть в один вектор, то есть получить массив `(24, 600 * 640 * 3)`

Для этого мы будем использовать простую логику: если мы хотим разделить какую-то размерность(например из 2400 сделать 4 и 600), то мы должны перенести ее в конец, а если мы хотим соединить две размерности (из 4 и 600 сделать 2400), то мы также должны перенести их обе в конец друг за другом.

Для этого нам нужны две функции:
* Для переноса размерностей используют метод `transpose(<на какую позицию переместить нулевую размерность>, <на какую позицию переместить первую размерность>, и т.д.)`;
* Для склейки и разделения размерностей используют метод `reshape(<новый размер>)`.

In [None]:
# Размерность изначального изображения
image.shape

In [None]:
# Размерность после перестановки нулевой оси на первую позицию, первой на вторую, а вторую на нулевую
image.transpose((1, 2, 0))\
    .shape

In [None]:
# Разбиваем высоту и посмотрим размерность
image.transpose((1, 2, 0))\
    .reshape((3840, 3, 4, 600))\
    .shape 

In [None]:
# Переставляем размерности, чтобы разбить ширину и смотрим размерность
image.transpose((1, 2, 0))\
    .reshape((3840, 3, 4, 600))\
    .transpose((1, 2, 3, 0))\
    .shape 

In [None]:
# Разбиваем ширину и смотрим размерность
image.transpose((1, 2, 0))\
    .reshape((3840, 3, 4, 600))\
    .transpose((1, 2, 3, 0))\
    .reshape((3, 4, 600, 6, 640))\
    .shape 

In [None]:
# Переставляем размерности, чтобы схлопнуть размерности
image.transpose((1, 2, 0))\
    .reshape((3840, 3, 4, 600))\
    .transpose((1, 2, 3, 0))\
    .reshape((3, 4, 600, 6, 640))\
    .transpose((1, 3, 2, 4, 0))\
    .shape 

In [None]:
# И наконец склеиваем размерности, чтобы получить 24 строки и смотрим какие получились размерности
image.transpose((1, 2, 0))\
    .reshape((3840, 3, 4, 600))\
    .transpose((1, 2, 3, 0))\
    .reshape((3, 4, 600, 6, 640))\
    .transpose((1, 3, 2, 4, 0))\
    .reshape((4 * 6, 600 * 640 * 3))\
    .shape 

Ура, мы справились с этой довольно сложной задачей! Давайте теперь соберем все вместе.

In [None]:
# Итого:
X = ...
print(X.shape)
# На самом деле мы получили в некотором смысле матрицу объект-признак для нашего изображения
# Ведь если так подумать, то объектом для картинки является ее кусочек, а признаками какое-то 
# Представление кусочков

In [None]:
# Визуализируем получившиеся блоки, чтобы понять, что мы нигде не ошиблись
# Если у нас сложится целая картинка, то все сделано верно

plt.figure(figsize=(11, 7))
for i in range(24):
    plt.subplot(4, 6, i + 1)
    plt.imshow(X[i].reshape((600, 640, 3)))
    plt.axis('off');

# Как видим, все правильно.

Воспользуемся следующими функциями, что исследовать влияние выбора числа главных компонент на качество изображения.

Вспомните -- ведь мы можем выбрать число компонент (тем самым усекая матрицы в SVD разложении), которые хотим оставить и потом возвращаться в исходные размеры, домножая на третью усеченую матрицу в SVD разложении.

In [None]:
# Итак, посмотрим, что делают предложенные функции
def draw_components(pca, n, m):
    """
    Функция отрисовывает главные компоненты по обученной PCA модели

    pca - обученная PCA модель
    n - количество горизонтальных блоков картинки
    m - количество вертикальных блоков картинки
    """
    print('Среднее изображение')
    plt.figure(figsize=(1, 1))
    plt.imshow(pca.mean_.reshape((n, m, 3)), cmap='gray')
    plt.axis('off')
    plt.show()

    print('Главные компоненты')
    plt.figure(figsize=(11, len(pca.components_) // 10 + 1))
    for i, comp in enumerate(pca.components_):
        plt.subplot(len(pca.components_) // 10 + 1, 10, i + 1)
        img = pca.components_[i].reshape((n, m, 3))
        plt.imshow((img - img.min()) / (img.max() - img.min()), cmap='gray')
        plt.axis('off')
    plt.show()

        
def image_pca(image, n, m, n_components=20, draw_picture=True, 
              draw_comp=True, visualization=True):
    """
    Функция сжимает изображение согласно заданному числу главных компонент, а затем 
    возвращает в исходный вид и рисует результат.

    image - исходаня картинка
    n - количество горизонтальных блоков картинки
    m - количество вертикальных блоков картинки
    n_components - количество главных компонент
    draw_picture - показывать ли исходную картинку
    draw_comp - рисовать ли главные компоненты
    visualization - рисовать ли проекцию на первые три компоненты
    """

    # Показываем исходную картинку
    if draw_picture:
        plt.figure(figsize=(15, 7))
        plt.imshow(image)
        plt.axis('off')
        plt.show()
    print("Размерность оригинальной картинки: ", image.shape)
    
    # Разбиение на блоки
    N, M, K = image.shape
    X = image.transpose((1, 2, 0))\
             .reshape((M, K, N // n, n)) \
             .transpose((1, 2, 3, 0))\
             .reshape((K, N // n, n, M // m, m)) \
             .transpose((1, 3, 2, 4, 0))\
             .reshape((N * M // (n * m), n * m * K))   
    
    # Применение PCA
    pca = PCA(n_components=n_components)
    Y = pca.fit_transform(X)
    X_hat = pca.inverse_transform(Y)
    
    # Разбираемся с интенсивностью цвета
    max_value = X.max()
    X_hat = X_hat * (X_hat <= max_value) + max_value * (X_hat > max_value)
    X_hat = X_hat * (X_hat >= 0)
    
    # Собираем картинку из блоков
    X_hat = X_hat.reshape((N // n, M // m, n, m, K)).transpose((1, 3, 4, 0, 2))\
                 .reshape((M // m, m, K, N)).transpose((3, 2, 0, 1))\
                 .reshape((N, K, M)).transpose((0, 2, 1))
    
    # Рисуем восстановленную картинку
    plt.figure(figsize=(15, 7))
    plt.imshow(X_hat)
    plt.axis('off')
    plt.title('Восстановленное изображение при {} главных компонентах.\n'.format(n_components))
    plt.show()
    print("Размерность сжатой картинки: ", X_hat.shape)
    
    # Если нужно, рисуем главные компоненты 
    if draw_comp:
        draw_components(pca, n, m)
    
    # Визуализируем проекцию на первые три компоненты (третья - цвет)
    if visualization:
        pca = PCA(n_components=3)
        Y = pca.fit_transform(X)
        plt.figure(figsize=(15, 10))
        plt.scatter(Y[:, 0], Y[:, 1], c=Y[:, 2], alpha=0.1)
        plt.xlabel('Проекция на первую главную компоненту')
        plt.ylabel('Проекция на вторую главную компоненту')
        plt.title('Проекция на первые три компоненты (третья - цвет)')
        plt.show()
    plt.imsave('im1.png', image)
    print("Размер оригинального файла", os.path.getsize('im1.png'))

    plt.imsave('im2.png', X_hat)
    print("Размер сжатого файла", os.path.getsize('im2.png'))

In [None]:
# Воспользуемся функцией image_pca и будем разбивать изображение на 12 секций по горизонтали на 16 секций по вертикале
...

In [None]:
# Посмотрим как будет менять изображение в зависимости от разного числа собственных векторов
for n_components in [15, 10, 5, 4, 3, 2, 1]:
    image_pca(
        image, 12, 16, 
        n_components=n_components, 
        draw_picture=False,
        draw_comp=False, 
        visualization=False
    )

Вот так можно производить сжатие изображения при помощи PCA.
Но на самом деле это можно делать и со звуком и с видео, ведь все это можно представить как матрицы и от нас требуетсся только править выделить из этих матриц объекты и признаки, чтобы применить PCA!

## 4. PCA для MNIST

Однако PCA нас интересует все же как способ уменьшения размерности данных, а не метод сжатия данных.

Поэтому предлагается применить его для решения задачи классификации на датасете MNIST, который представляет из себя изображения нарисованных от руки цифр и меток, какая именно цифра нарисована. То есть необходимо решить задачу многоклассовой классификации.

In [None]:
# Скачаем тренировочные данные
! wget https://www.dropbox.com/s/gq1tj9bzj8dkcul/mnist_train.csv

In [None]:
# Загрузим данные mnist_train.csv при помощи функции read_csv библиотеки pandas
mnist_data_all = ...

In [None]:
# Посмотрим на данные. Что является таргетом и в какой колонке он находится?
...

In [None]:
# Разделим данные на признаки и метки
mnist_label = ...
mnist_data = ...

In [None]:
# Посмотрим на размер признаков. Почему их именно столько? Как это связано с обещанными картинками?
...

In [None]:
# Выведем метку какого-нибудь элемента и отрисуем его при помощи функции imshow библиотеки matplotlib
plt.figure(figsize=(6,5))

idx = ...

print("Label: ", ...)

# Необходимо выбрать объект, конвертировать его в numpy, а затем сделать reshape() в нужный размер
grid_data = ...
plt.imshow(grid_data, interpolation = "none", cmap = "gray")
plt.show()

В нашем датасете каждый объект описывается 784 фичами. Как нам одним взглядом посмотреть на весь датасет? 

К нам на помощь опять приходит PCA!

In [None]:
# Создадим объект класса PCA с числом компонент, равным 2 (чтобы отрисовать точки на плоскости)
pca = ...

In [None]:
# Обучим PCA на наших признаках при помощи метода fit
...

In [None]:
# Трансформируем наш датасет в 2d при помощи метода transform
mnist_data_2D = ...

In [None]:
# Посмотрим на размер получившегося датасета
...

In [None]:
# Отрисуем точки на плоскости при помощи функции scatter и зададим им цвет согласно их классу передав в аргумент c=mnist_label
plt.figure(figsize=(10,8))

...

plt.colorbar()
plt.show()

Зачем нам вообще нужно уменьшать число признаков? Верно, у нас есть проклятье размерности, но что это для нас значит с точки зрения людей, которые работают с данными?

**Проклятие размерности**

Большая размерность приводит к следующим проблемам:

*   Нужно много памяти.
*   Трудоемкие вычисления.
*   Все элементы выборки начинают находится примерно на одинаковом расстоянии друг от друга!



Мы можем продемострировать как большое число (зачастую шумовых) признаков влияет на работу алгорима машинного обучения. Для этого мы решим задачу классфикации на датасете MNIST с применением алгоритма PCA в качестве метода уменьшения размерности.

In [None]:
# Скачаем тестовые данные
! wget https://www.dropbox.com/s/xuya93ez6ff712x/mnist_test.csv

In [None]:
# Загрузим данные mnist_test.csv при помощи функции read_csv библиотеки pandas
mnist_data_test_all = ...

In [None]:
# Разделим признаки и метки
mnist_label_test = ...
mnist_data_test = ...

In [None]:
# Посморим на размер тестового датасета
...

In [None]:
# Будем решать задачу при помощи алгоритма ближайших соседей, поэтому импортируем этот алгоритм из sklearn
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Воспользуемся следующей функцией -- она принимает тренировочный и тестовый датасет и число компонентв в PCA, преобразуют данные
# обучает модель и возвращает качество на тестовом датасете
def reduce_and_learn(X_train, y_train, X_test, y_test, dim=2):
    pca = PCA(n_components=dim)
    
    pca.fit(X_train)
    X_train_dim_D = pca.transform(X_train)

    knn = KNeighborsClassifier(n_neighbors=5)
    knn.fit(X_train_dim_D, y_train)

    X_test_dim_D = pca.transform(X_test)

    predict_quality = knn.score(X_test_dim_D, y_test)
    return predict_quality

In [None]:
dims = [2, 5, 10, 20, 40, 80, 160, 320, 640, 784]
predicts_quality = []

# В цикле по числу компонент, запускаем функцию reduce_and_learn и сохраняем качество в массив predicts_quality
for dim in dims:
    predicts_quality.append(...)

In [None]:
# Отрисуем зависимость качества от числа компонент в PCA
plt.figure(figsize=(10,8))

...

plt.rc('font', size=12)
plt.xlabel('Размерность')
plt.ylabel('Качество предсказания')
plt.grid()
plt.show()

In [None]:
# Выведем число компонент при котором качество максимально и максимальное качество
print(f"Лучшее качество при {...} компонентах")
print(f"Максимальное качество = {...}")

Мы получили не большой прирост (но все же прирост), но даже он может уменьшать убытки компании на миллионы. Кроме того, другие алгоритмы могут иметь большую разницу в качестве и такие эксперименты предлагаются слушателю в качестве упражнения.

Кроме того, вы наверняка заметили разницу в скорости работы алгоритмов с разным числом признаков. Часто скорость работы является одним из важнейших пунктов выбора алгоритма и набора признаков.