# Операции с матрицами

Матрицы *A* и *B* могут быть перемножены, если они совместимы в том смысле, что число столбцов матрицы *A* равно числу строк *B*. 

\begin{equation*}
A = \left(
\begin{array}{cccc}
a_{11} & a_{12} & \ldots & a_{1n}\\
a_{21} & a_{22} & \ldots & a_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
a_{n1} & a_{n2} & \ldots & a_{nn}
\end{array}
\right)
\end{equation*}

\begin{equation*}
B = \left(
\begin{array}{cccc}
b_{11} & b_{12} & \ldots & b_{1n}\\
b_{21} & b_{22} & \ldots & b_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
b_{n1} & b_{n2} & \ldots & b_{nn}
\end{array}
\right)
\end{equation*}

Тогда существует матрица *C*, такая что $c_{ij}=\sum_{r=1}^m{a_{ir}b_{rj}}$

$
\left(
\begin{array}{ccc}
1 & 2 & 3\\
0 & 1 & 2\\
2 & 3 & 4
\end{array}
\right)
*
\left(
\begin{array}{ccc}
1 & 2 & 3\\
0 & 1 & 2\\
2 & 3 & 4
\end{array}
\right)
= 
\left(
\begin{array}{ccc}
1*1+2*0+3*2 & 1*2+2*1+3*3 & 1*3+2*2+3*4\\
0*1+1*0+2*2 & 0*2+1*1+2*3 & 0*3+1*2+2*4\\
2*1+3*0+4*2 & 2*2+3*1+4*3 & 2*3+3*2+4*4
\end{array}
\right)
= 
\left(
\begin{array}{ccc}
7 & 13 & 19\\
4 & 7 & 10\\
10 & 19 & 28
\end{array}
\right)
$

Для матрицы *А* может существовать обратная матрица $A^*$ такая, что $A*A^*=I$, где $I$ - единичная матрица, у которой все элементы, кроме диагональных, равны 0, а диагональные равны 1.

Мы можем считать, что матрица состоит из векторов, то есть описывает совокупность точек. Тогда умножение такой матрицы на диагональную матрицу с ненулевыми элементами на диагонали эквивалентно масштабированию векторов по этим координатам.

$
\left(
\begin{array}{ccc}
1 & 2 & 3\\
0 & 1 & 2\\
2 & 3 & 4
\end{array}
\right)
*
\left(
\begin{array}{ccc}
2 & 0 & 0\\
0 & 3 & 0\\
0 & 0 & 4
\end{array}
\right)
= 
\left(
\begin{array}{ccc}
2 & 6 & 12\\
0 & 3 & 8\\
4 & 9 & 16
\end{array}
\right)
$

Матрицей поворота в n-мерном пространстве в некоторой плоскости на угол $\alpha$ будет матрица следующего вида.

\begin{equation*}
B = \left(
\begin{array}{ccccc}
\cos{\alpha} & -\sin{\alpha} & 0 & \ldots & 0\\
\sin{\alpha} & \cos{\alpha} & 0 &\ldots & 0\\
0 & 0 & 1 &\ldots & 0\\
\vdots & \vdots & \vdots & \ddots & \vdots\\
0 & 0 & 0 & \ldots & 1
\end{array}
\right)
\end{equation*}

Здесь косинусы и синусы угла $\alpha$ должны стоять на пересечении тех строк и столбцов, которые представляют две координаты плоскости.

Помимо этого, существует разложение матрицы на произведение двух матриц, называемое факторизацией. Пусть дана матрица $A$, тогда при соблюдении некоторых условий должны существовать матрицы $B$ и $C$ такие, что $A=BC$.

Например, при решении системы линейных алгебраичесских уравнений используются методы LU, LQ, QR и других разложений, которые позволяют решить систему гораздо быстрее. В их основе лежит представление матрицы в виде произведения двух матриц.


In [20]:
import numpy as np

In [39]:
a = np.array([[1,2,3,4], [11,12,13,14], [1,2,3,4], [11,12,13,14]])
x = np.array([2,4,6,8])
b = np.dot(a, x)
a, x, b

(array([[ 1,  2,  3,  4],
        [11, 12, 13, 14],
        [ 1,  2,  3,  4],
        [11, 12, 13, 14]]),
 array([2, 4, 6, 8]),
 array([ 60, 260,  60, 260]))

In [70]:
q, r = np.linalg.qr(a)
q, r

(array([[-0.06401844,  0.70420284,  0.70691342,  0.01653513],
        [-0.70420284, -0.06401844,  0.01653513, -0.70691342],
        [-0.06401844,  0.70420284, -0.70691342, -0.01653513],
        [-0.70420284, -0.06401844, -0.01653513,  0.70691342]]),
 array([[-1.56204994e+01, -1.71569419e+01, -1.86933845e+01,
         -2.02298270e+01],
        [ 0.00000000e+00,  1.28036880e+00,  2.56073760e+00,
          3.84110640e+00],
        [ 0.00000000e+00,  0.00000000e+00,  4.95309802e-15,
          4.84379964e-15],
        [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
         -3.02824409e-16]]))

In [68]:
np.dot(q, r)

array([[ 1.,  2.,  3.,  4.],
       [11., 12., 13., 14.],
       [ 1.,  2.,  3.,  4.],
       [11., 12., 13., 14.]])

$ QRx = b$  
$ Q^TQRx = Q^Tb$  
$ Rx = Q^Tb$  
$ R^{-1}Rx = R^{-1}Q^Tb$  
$ x = R^{-1}Q^Tb$  

Здесь следует обратить внимание, что матрица $R$ является верхнетреугольной, поэтому её обратная матрица ищется значительно проще. Как следствие, решение уравнений ведется быстрее. Самое главное, что если нам надо решать одну и ту же систему уравнений для разных входных значений, то перемножить матрицы можно один раз заранее.

На практитке выяснятеся, что обычная инверсия работает не совсем корректно на наших данных, поэтому здесь я использую дооооолгий метод, включающий SVD.

In [77]:
r, np.linalg.inv(r), np.dot(r, np.linalg.pinv(r))

(array([[-1.56204994e+01, -1.71569419e+01, -1.86933845e+01,
         -2.02298270e+01],
        [ 0.00000000e+00,  1.28036880e+00,  2.56073760e+00,
          3.84110640e+00],
        [ 0.00000000e+00,  0.00000000e+00,  4.95309802e-15,
          4.84379964e-15],
        [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
         -3.02824409e-16]]),
 array([[-6.40184400e-02, -8.57847096e-01,  2.01893844e+14,
         -3.37511324e+15],
        [ 0.00000000e+00,  7.81024968e-01, -4.03787688e+14,
          3.44798276e+15],
        [ 0.00000000e+00,  0.00000000e+00,  2.01893844e+14,
          3.22937419e+15],
        [-0.00000000e+00, -0.00000000e+00, -0.00000000e+00,
         -3.30224371e+15]]),
 array([[ 1.00000000e+00, -1.66694210e-16,  3.03095384e-17,
         -3.87726925e-18],
        [ 7.70754001e-18,  1.00000000e+00,  1.55815931e-15,
         -7.56067503e-17],
        [ 3.03095384e-17,  1.55815931e-15,  2.42877909e-30,
         -1.17924880e-31],
        [-3.87726925e-18, -7.56067503e-

In [78]:
np.dot(np.dot(np.linalg.pinv(r), q.transpose()), b)

array([2., 4., 6., 8.])

## Тематическое моделирование

Мы уже использовали снижение размерности пространства при анализе текстов. Еще одним вариантом такого снижения является тематическое моделирование. Для него используются следующие рассуждения.

Пусть дан набор текстов, в каждом тексте имеются определенные слова. В таком случае можно посчитать матрицу термины-документы, в которой по строкам будут идти термины, по столбцам документы, а на пересечении будет стоять частота термина в данном документе. 
<img  width="40%" src="img/term-document-matrix-bow-annotated.png">


При помощи элементарных математических преобразований (метод SVD) данную матрицу можно представить в виде произведения трех матриц: матрицы слово на тематику, матрицы тематик и матрицы тематика на документ. Средняя из матриц будет квадратной и диагональной и будет содержать некоторые коэффициенты важности, которые можно отсортировать по убыванию. В этом случае размерность матрицы можно серьезно сократить, отбросив неактуальные темы. Для сокращения числа коэффициентов надо снизить размер матрицы $\Sigma$.

<img  width="40%" src="img/1024px-Singular-Value-Decomposition.svg.png"> 
<img  width="40%" src="img/800px-Singular_value_decomposition_visualisation.svg.png">

 $U U^∗ = I$ и $V V^∗ = I$
 

На основе SVD работает метод латентно-семантического анализа (LSA), который позволяет более четко найти связи между терминами и документами. Его более быстрая реализация, LDA, проводит нечеткий поиск. LSI является модификацией для задач информационного поиска.

Рассмотрим теперь пример применения SVD для задач классификации.

In [16]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import pymorphy2
import re
from tqdm.auto import tqdm
import umap

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

from sklearn.ensemble import RandomForestClassifier

# Разложение матрицы на три с сокращением размерности.
from sklearn.decomposition import TruncatedSVD
# Разложение матрицы на произведение двух.
from sklearn.decomposition import NMF

Возьмем по тысяче научных текстов из пяти разных областей науки. (Они занимают 140 Мб и не влезают на Гит, так что доступны по запросу.)

In [3]:
sci_texts = pd.read_csv("data/kaggle-science-texts_train.tsv", header=0, sep = ';')

In [4]:
sci_texts.head()

Unnamed: 0,ID,Target,Text
0,1,0,...
1,2,0,...
2,3,0,...
3,4,0,...
4,5,0,...


In [5]:
%%time
# Считаем матрицу термин-документ, но не с частотами, а со значениями Tf*Idf
X = TfidfVectorizer().fit_transform(sci_texts['Text'])
# Проводим SVD-разложение по 20 компонентам.
svd = TruncatedSVD(n_components=20)
X2 = svd.fit_transform(X)

explained_variance = svd.explained_variance_ratio_.sum()
print(f"Explained variance of the SVD step: {int(explained_variance * 100)}%")
# Просто чтобы посмотреть, что там в самом деле вектора.
print(X2.shape, X2)

Explained variance of the SVD step: 8%
(5000, 20) [[ 0.18716104  0.05641818 -0.0960269  ... -0.05742942 -0.09035204
  -0.00729402]
 [ 0.15355927 -0.0017868  -0.0600151  ...  0.01290683 -0.02614199
   0.00550857]
 [ 0.12449795  0.01570744 -0.06641631 ... -0.09204764  0.02928297
  -0.0480637 ]
 ...
 [ 0.27208788 -0.08811325 -0.06229885 ... -0.1048896  -0.06448673
  -0.03261453]
 [ 0.16188171 -0.07406504 -0.04232777 ... -0.05924854 -0.02868713
  -0.02078627]
 [ 0.33845172 -0.15522904 -0.07595739 ... -0.03040848 -0.1027167
  -0.00082302]]
CPU times: user 17.4 s, sys: 10.5 s, total: 27.9 s
Wall time: 13.7 s


In [6]:
X

<5000x509412 sparse matrix of type '<class 'numpy.float64'>'
	with 5699630 stored elements in Compressed Sparse Row format>

Исходно, код ниже выполнялся 37 минут. Но если поставить  
`pip install pymorphy2[fast]`
то библиотека начинает работать горазо быстрее.

Если морфология работает медленно, но в тексте вссегда есть повторяющиеся слова (кто знает что такое закон Ципфа?), то может быть результаты медленной морфологии надо кешировать в быстром словаре (dict)?

In [7]:
# Список значимых частей речи. 
# Они нам потом понадобятся в немного другом виде. Так что сделаем словарь. чтобы два раза не вставать.
conv_pos = {'ADJF':'ADJ', 'ADJS':'ADJ', 'ADV':'ADV', 'NOUN':'NOUN', 
            'VERB':'VERB', 'PRTF':'ADJ', 'PRTS':'ADJ', 'GRND':'VERB'}

tmp_dict = {} # Кеш значимых слов.
nones = {} # Кеш незначимых слов.

morph = pymorphy2.MorphAnalyzer()

# Фильтруем по части речи и возвращаем только начальную форму.
def normalizePymorphy(text, need_pos=True):
    tokens = re.findall('[A-Za-zА-Яа-яЁё]+\-[A-Za-zА-Яа-яЁё]+|[A-Za-zА-Яа-яЁё]+', text)
    words = []
    for t in tokens:
        # Если токен уже был закеширован, быстро возьмем результат из него.
        if t in tmp_dict.keys():
            words.append(tmp_dict[t])
        # Аналогично, если он в кеше незначимых слов.
        elif t in nones.keys():
            pass
        # Слово еще не встретилось, будем проводить медленный морфологический анализ.
        else:
            pv = morph.parse(t)
            if pv[0].tag.POS != None:
                if pv[0].tag.POS in conv_pos.keys():
                    if need_pos:
                        word = pv[0].normal_form+"_"+conv_pos[pv[0].tag.POS]
                    else:
                        word = pv[0].normal_form
                    # Отправляем слово в результат, ...
                    words.append(word)
                    # ... и кешируем результат его разбора.
                    tmp_dict[t] = word
                else:
                    # Для незначимых слов можно даже ничего не хранить. Лишь бы потом не обращаться к морфологии.
                    nones[t] = ""
                    
    return words

In [8]:
%%time
# Приведем слова в текстах к начальным формам.
sci_texts['NText'] = sci_texts['Text'].map(lambda x:' '.join(normalizePymorphy(x)))

CPU times: user 1min 24s, sys: 64.6 ms, total: 1min 24s
Wall time: 1min 24s


In [9]:
%%time
X_l = TfidfVectorizer().fit_transform(sci_texts['NText'])
svd = TruncatedSVD(n_components=10)
X2_l = svd.fit_transform(X)

CPU times: user 11.9 s, sys: 7.93 s, total: 19.8 s
Wall time: 10.2 s


In [10]:
# Подготовим целевые переменные. Мы же знаем, что там ровно по 1000 текстов для каждой области.
classes = np.ones(5000)
for i in range(2, 6):
    classes[(i-1)*1000: i*1000] = i

In [11]:
def classify_texts(data, target):
    # Делим данные на обучающую и проверочную выборки.
    X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=333)
    #Обучаем классификатор и оцениваем точность результатов.
    tree = RandomForestClassifier(criterion='entropy', random_state=333)
    tree.fit(X_train, y_train)
    y_hat = tree.predict(X_test)
    print(f"accuracy = {accuracy_score(y_hat, y_test)}")
    print(confusion_matrix(y_test, y_hat))

А теперь сравним точность работы классификатора, запущенного на разных данных: с и без лемматизации; векторизация при помощи TF*IDF или SVD.

In [12]:
%%time
# TF*Idf без лемматизации.
classify_texts(X, classes)

accuracy = 0.979
[[204   0   3   0   2]
 [  2 185   2   1   0]
 [  4   0 199   2   1]
 [  0   0   1 190   2]
 [  0   0   1   0 201]]
CPU times: user 14.8 s, sys: 23.8 ms, total: 14.8 s
Wall time: 14.8 s


In [13]:
%%time
# TF*Idf с лемматизацией.
classify_texts(X_l, classes)

accuracy = 0.97
[[201   0   3   2   3]
 [  4 180   6   0   0]
 [  3   0 200   2   1]
 [  1   0   0 190   2]
 [  0   0   0   3 199]]
CPU times: user 8.15 s, sys: 7.51 ms, total: 8.16 s
Wall time: 8.16 s


In [14]:
%%time
# SVD без лемматизации.
classify_texts(X2, classes)

accuracy = 0.971
[[202   1   4   1   1]
 [  2 181   6   1   0]
 [  1   1 202   2   0]
 [  0   2   2 187   2]
 [  0   0   0   3 199]]
CPU times: user 1.3 s, sys: 3.45 ms, total: 1.31 s
Wall time: 1.31 s


In [15]:
%%time
# SVD с лемматизацией.
classify_texts(X2_l, classes)

accuracy = 0.967
[[203   1   3   1   1]
 [  2 179   9   0   0]
 [  3   1 200   2   0]
 [  1   2   1 187   2]
 [  0   0   0   4 198]]
CPU times: user 894 ms, sys: 275 µs, total: 895 ms
Wall time: 894 ms


Получается, что с 10 компонентами, полученными при помощи SVD работает в 10 раз быстрее и немного точнее.

Вообще, для тематического моделирования текстов существует большая библиотека [BigARTM](http://bigartm.org/), но она не ставится так просто и не входит в стандартные библиотеки.

Ещё можно разложить на две матрицы. Это будет аналог кластеризации.

In [19]:
%%time
nm = NMF(n_components=10)
X_nm = nm.fit_transform(X)

CPU times: user 3 µs, sys: 0 ns, total: 3 µs
Wall time: 4.53 µs
