# Теория

Уменьшение размерности --  задача из машинного обучения (изначально -- из статистики), где алгоритм "собирает" многочисленные признаки в высокоуровневые абстракции.

**Где используется уменьшение размерности:**<br>
- Рекомендательные системы
- Риск-менеджмент
- Красивые визуализации
- Определение похожих текстов (тематическое моделирование)


**Популярные алгоритмы:** <br>
- Метод главных компонент (PCA)
- Латентное размещение Дирихле (LDA)
- Сингулярное разложение (SVD)
- t-SNE, UMAP (для визуализации)

**Как работает объединение признаков в абстракцию:**<br>
 - CV: "собака с треугольными ушами" + "с длинным носом" + "с большим хвостом" >> овчарка
 - NLP:  текст с фразами "нарезать кубиками", "200 грамм", "при температуре" >> кулинарный рецепт
 - RecSys: "пользователь слушает Alice Coltrane" + "лайкнул альбом Луи Армстронга" >> любитель джаза

! *важно отметить, что не все абстракции хорошо интерпретируемы (тк мы работаем с многомерными пространствами)*

Уменьшение размерности хорошо работает для определения тематик текстов (Topic Modelling). Идея такая же: документ с текстом представляют как некоторую абстракцию из более низкоуровневых признаков. 

# Практика

Сегодня будем делать топик-моделлинг на [корпусе новостей](https://scikit-learn.org/stable/datasets/real_world.html#the-20-newsgroups-text-dataset)

наши алгоритмы --- LDA (Latent Dirichlet Allocation), SVD (Single Value Decomosition) и NMF (Non-negative Matrix Factorization).

## LDA

<img src="https://lh4.googleusercontent.com/AGwwstY_3RaSvOzI4qYCmeotnnNw7pdQpHCEHg7Mz226GKJC_gp0veP-12cc8DsqY12mSroIir62uWvSIS06WTfDkb-WrOJZV24Dlfg4jlGOkqKGbpmO3NHr2g6IjgZr_rA9Z-E" alt="" class="lazyloaded" data-ll-status="loaded">

[ссылка на картинку](https://www.mygreatlearning.com/blog/understanding-latent-dirichlet-allocation/#:~:text=LDA%20Algorithm,by%20a%20statistical%20generative%20process.&text=In%20the%20process%20of%20generating,the%20multinomial%20topic%2Dword%20distributions.)

- Корпус -- это коллекция из D документов.

- Документ состоит из N слов.

- В одном документе может встретиться K тем.

Слова в корпусе -- единственная явная переменная. Скрытые (латентные) переменные - это распределение тем в корпусе и распределение слов в документе. Задача алгоритма LDA -- используя наблюдаемые слова извлечь информацию о структуре тем в корпусе.

Для LDA нужны две матрицы: *“темы x слова"* и  *“документы x темы”*. 
Они получаются из матрицы "документы x слова"

In [None]:
import matplotlib.pyplot as plt # viz
%matplotlib inline
import seaborn as sns

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer # векторизация текстов
from sklearn.decomposition import TruncatedSVD, NMF, LatentDirichletAllocation # dimred

from sklearn.datasets import fetch_20newsgroups # data

import warnings
warnings.filterwarnings("ignore")

In [None]:
# зададим несколько переменных, будем использовать их как параметры функций

n_samples = 2000 # размер корпуса
n_features = 1000 # максимальное количество слов в матрице "слово x документ" (= top1000 частотных их всех в корпусе)
n_components = 10 # число тем в корпусе
n_top_words = 20 # порог частотности для визуализаций

Сначала загрузим датасет и возьмем оттуда только текстовую часть (без заголовков, сносок и тд)

In [None]:
# если возникает ошибка загрузки, раскомментьте ячейки ниже
# import ssl
# try:
#     _create_unverified_https_context = ssl._create_unverified_context
# except AttributeError:
#     pass
# else:
#     ssl._create_default_https_context = _create_unverified_https_context


data, _ = fetch_20newsgroups(remove=('headers', 'footers','quotes'),
                             return_X_y=True) # y нам не нужен, на самом деле 

In [None]:
# для работы возьмем часть датасета
data_samples = data[:n_samples] 

print("Общий датасет: {} документов;\nФрагмент для работы: {} документов".format(len(data),len(data_samples)))


Теперь документы надо векторизовать

In [None]:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=1, # игнорируем слова,которые только в 1 доке или в 95% документов.
                                max_features=n_features,
                                stop_words='english')

tf = tf_vectorizer.fit_transform(data_samples)

In [None]:
display(tf.shape) # матрица "слова x документы"

tf_vectorizer.get_feature_names()[100:107]

Теперь отдадим эту матрицу алгоритму снижения размерности

параметры в скобках: 
- n_components: число тем в корпусе
-  max_iter: количество итераций алгоритма
- learning_offset: параметр, который занижает значение ранних итераций (тк более важная часть обучения случается на поздних), обычно устанавливается больше чем 1 

[про модель](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html#examples-using-sklearn-decomposition-latentdirichletallocation)

In [None]:
lda = LatentDirichletAllocation(n_components=n_components, max_iter=20,learning_offset=50)

lda.fit(tf)

используем функцию для упрощения визуализации топа частотности по темам:  

In [None]:
def plot_top_words(model, feature_names, n_top_words, title):
    
    fig, axes = plt.subplots(2, 5, figsize=(30, 15)) # параметры отображения 
    axes = axes.flatten()
    
    for topic_idx, topic in enumerate(model.components_):
        top_features_ind = topic.argsort()[:-n_top_words - 1:-1] 
        top_features = [feature_names[i] for i in top_features_ind]
        weights = topic[top_features_ind]

        ax = axes[topic_idx]
        ax.barh(top_features, weights, height=0.7)
        ax.set_title(f'Topic {topic_idx +1}',
                     fontdict={'fontsize': 30})
        ax.invert_yaxis()
        ax.tick_params(axis='both', which='major', labelsize=20)
        for i in 'top right left'.split():
            ax.spines[i].set_visible(False)
        fig.suptitle(title, fontsize=40)

    plt.show()


In [None]:
tf_feature_names = tf_vectorizer.get_feature_names()

plot_top_words(lda, tf_feature_names, n_top_words, 'Распределение по темам, LDA-модель')

## SVD

Уменьшение размерности с помощью метода SVD часто называется латентным семантическим анализом (LSA)

[про модель](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html)

In [None]:
# обучаем модель
lsa_model = TruncatedSVD(n_components=n_components)

lsa_topic_matrix = lsa_model.fit_transform(tf)

In [None]:
tf_feature_names = tf_vectorizer.get_feature_names()

plot_top_words(lda, tf_feature_names, n_top_words, 'Распределение по темам, SVD-модель')

##  NMF
NMF -- альтернативный способ разложения матрицы, который подразумевает, что данные не-негативные (т.е. >=0). 
NMF часто заменяет PCA. При разложении изначальная матрица превращается в две, при этом оптимизируются два параметра: расстояние между матрицами и их произведение.


[про модель](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html#sklearn.decomposition.NMF)

In [None]:
# для NMF понадобится tf-idf-векторизация, тк tf-idf не бывает негативным

tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=1,
                                   max_features=n_features,
                                   stop_words='english')

tfidf = tfidf_vectorizer.fit_transform(data_samples)


In [None]:
# обучаем первую модель

nmf = NMF(n_components=n_components).fit(tfidf)


tfidf_feature_names = tfidf_vectorizer.get_feature_names()
plot_top_words(nmf, tfidf_feature_names, n_top_words,
               'Распределение по темам, NMF-модель (Frobenius norm)')

Для второй версии добавим параметров:

- beta-loss : мера оптимизации расстояния между матрицами (дивергенции)
- solver: еще один параметр оптимизации, для KL-дивергенции нужен Multiplicative Update ('mu')

In [None]:
# обучаем вторую модель

nmf = NMF(n_components=n_components, random_state=1,
          beta_loss='kullback-leibler', solver='mu').fit(tfidf)


tfidf_feature_names = tfidf_vectorizer.get_feature_names()
plot_top_words(nmf, tfidf_feature_names, n_top_words,
               'Распределение по темам, NMF-модель(generalized KL-divergence)')
