<h1 style="text-align: center;"><b>Предобработка текста.</b></h1>


## Часть 1

### Токенизация

In [None]:
# @title Текст заголовка по умолчанию

# Импортируем библиотеку Natural Language Toolkit (NLTK) для работы с текстом
import nltk

# Скачиваем модель 'punkt_tab', необходимую для токенизации текста
nltk.download('punkt_tab')

# Подключаем функции для разбиения текста: word_tokenize — на слова, sent_tokenize — на предложения
from nltk.tokenize import word_tokenize, sent_tokenize

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [None]:
data = "All work and no play makes jack a dull boy, all work and no play"

# Преобразуем текст в нижний регистр и разбиваем его на отдельные слова (токены)
tokens = word_tokenize(data.lower())
print(tokens)

['all', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']


In [None]:
# Разбиваем текст на отдельные предложения
print(sent_tokenize("I was going home when she rung. It was a surprise."))

['I was going home when she rung.', 'It was a surprise.']


[<img src="https://raw.githubusercontent.com/natasha/natasha-logos/master/natasha.svg">](https://github.com/natasha/natasha)

[Razdel](https://natasha.github.io/razdel/)

In [None]:
# Установка библиотеки razdel для токенизации русского текста
!pip install -q razdel

In [None]:
from razdel import tokenize, sentenize
text = 'Кружка-термос на 0.5л (50/64 см³, 516;...)'
list(tokenize(text))

[Substring(0, 13, 'Кружка-термос'),
 Substring(14, 16, 'на'),
 Substring(17, 20, '0.5'),
 Substring(20, 21, 'л'),
 Substring(22, 23, '('),
 Substring(23, 28, '50/64'),
 Substring(29, 32, 'см³'),
 Substring(32, 33, ','),
 Substring(34, 37, '516'),
 Substring(37, 38, ';'),
 Substring(38, 41, '...'),
 Substring(41, 42, ')')]

#### Регулярные выражения

Исчерпывающий пост https://habr.com/ru/post/349860/

Опять же используем регулярные выражения для предобработки текста от лишних символов

In [None]:
import re
word = 'supercalifragilisticexpialidocious'
re.findall('[abc]|up|super', word)

['super', 'c', 'a', 'a', 'c', 'a', 'c']

In [None]:
re.findall('\d{1,3}', 'These are some numbers: 49 and 432312')

['49', '432', '312']

In [None]:
re.sub('[,\.?!]','','How, to? split. text!')

'How to split text'

In [None]:
re.sub('[^A-z]',' ','I 123 can 45 play 67 football').split()

['I', 'can', 'play', 'football']

### Удаление неинформативных слов

#### N-граммы

<img src="https://res.cloudinary.com/practicaldev/image/fetch/s--466CQV1q--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_66%2Cw_880/https://thepracticaldev.s3.amazonaws.com/i/78nf1vryed8h1tz05fim.gif" height=400>

In [None]:
# Создаем список униграмм (последовательности из 1 слова) на основе токенов
unigram = list(nltk.ngrams(tokens, 1))

# Создаем список биграмм (последовательности из 2 слов) на основе токенов
bigram = list(nltk.ngrams(tokens, 2))

print(unigram[:5])
print(bigram[:5])

[('all',), ('work',), ('and',), ('no',), ('play',)]
[('all', 'work'), ('work', 'and'), ('and', 'no'), ('no', 'play'), ('play', 'makes')]


In [None]:
# Импортируем класс FreqDist для подсчёта частоты элементов (униграмм и биграмм)
from nltk import FreqDist

print('Популярные униграммы: ', FreqDist(unigram).most_common(5))
print('Популярные биграммы: ', FreqDist(bigram).most_common(5))

Популярные униграммы:  [(('all',), 2), (('work',), 2), (('and',), 2), (('no',), 2), (('play',), 2)]
Популярные биграммы:  [(('all', 'work'), 2), (('work', 'and'), 2), (('and', 'no'), 2), (('no', 'play'), 2), (('play', 'makes'), 1)]


#### Стоп-слова

In [None]:
# Скачиваем набор стоп-слов (распространённых слов, которые обычно исключают из анализа)
nltk.download('stopwords')

# Импортируем список стоп-слов на разных языках из корпуса NLTK
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
# Загружаем стоп-слова для английского языка и сохраняем их в множество
stopWords = set(stopwords.words('english'))
print(stopWords)

{'haven', 'shan', 'she', 'between', 'before', "needn't", 'off', 'during', 'having', 'to', 'itself', 'be', "hasn't", 'hadn', 'where', 'of', 'with', 'because', 'mustn', 'yourself', 'me', 'was', 'mightn', 'had', 'no', 'which', 'very', 'will', 'i', 'ain', 'shouldn', 'at', 'until', 'yours', 'through', 'while', 'some', 'these', 'has', 's', "hadn't", 'themselves', "wasn't", 'again', 'in', 'been', 'all', 'yourselves', 'then', 're', 'most', "couldn't", 'now', 'm', 'by', "wouldn't", 'myself', "doesn't", 'but', 'is', 'theirs', 'from', "you're", 'him', 'you', "you've", "she's", 'am', 'than', 'himself', 'have', 'hasn', 'ourselves', 'don', "don't", 'both', 'do', 'should', 'ma', 'weren', 'there', 'this', 'were', 'those', 'after', 'did', 'own', 'doesn', 'does', 'it', 'into', 'the', "it's", 'we', 'few', 'their', 'its', 'hers', "you'll", 'up', 'can', "isn't", 'about', 'when', "weren't", "won't", 'once', 't', 'what', 'down', "mustn't", 'didn', 'any', 'my', 'more', 'only', 'being', 'd', 've', 'each', 'bel

In [None]:
print([word for word in tokens if word not in stopWords])

['work', 'play', 'makes', 'jack', 'dull', 'boy', ',', 'work', 'play']


In [None]:
# Импортируем модуль string для работы с символами
import string

# Посмотрим на строку, содержащую все знаки пунктуации
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


#### Стемминг vs Лемматизация
* ‘Caring’ -> Лемматизация -> ‘Care’
* ‘Caring’ -> Стемминг -> ‘Car’

### Стемминг
* процесс нахождения основы слова для заданного исходного слова

In [None]:
# Импортируем стеммеры Porter и Snowball для приведения слов к базовой форме
from nltk.stem import PorterStemmer, SnowballStemmer

# Список английских слов для стемминга
words = ["game", "gaming", "gamed", "games", "compacted"]

# Список русских слов для стемминга
words_ru = ['корова', 'мальчики', 'мужчины', 'столом', 'убежала']

In [None]:
# Создаем экземпляр стеммера Porter для английского языка
ps = PorterStemmer()

# Применяем стемминг к каждому слову в списке words и преобразуем результат в список
list(map(ps.stem, words))

['game', 'game', 'game', 'game', 'compact']

In [None]:
# Создаем экземпляр SnowballStemmer для русского языка
ss = SnowballStemmer(language='russian')

# Применяем стемминг к каждому слову в списке words_ru и преобразуем результат в список
list(map(ss.stem, words_ru))

['коров', 'мальчик', 'мужчин', 'стол', 'убежа']

### Лематизация
* процесс приведения словоформы к лемме — её нормальной (словарной) форме

In [None]:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""

raw_ru = """Не существует научных доказательств в пользу эффективности НЛП, оно
признано псевдонаукой. Систематические обзоры указывают, что НЛП основано на
устаревших представлениях об устройстве мозга, несовместимо с современной
неврологией и содержит ряд фактических ошибок."""

In [None]:
# Установка библиотеки pymorphy3 для морфологического анализа русского текста
!pip install -q pymorphy3

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m20.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import pymorphy3
# Создаем экземпляр морфологического анализатора для русского языка
morph = pymorphy3.MorphAnalyzer()

# Разбиваем сырой текст raw_ru на слова и выполняем морфологический разбор каждого слова
pymorphy_results = list(map(lambda x: morph.parse(x), raw_ru.split(' ')))

# Для каждого разобранного слова берем его нормальную (начальную) форму и объединяем в строку
print(' '.join([res[0].normal_form for res in pymorphy_results]))

не существовать научный доказательство в польза эффективность нлп, оно
признать псевдонаукой. систематический обзор указывают, что нлп основать на
устаревший представление о устройство мозга, несовместимый с современной
неврология и содержать ряд фактический ошибок.


In [None]:
import spacy

# Загружаем предобученную модель spaCy для обработки английского текста
nlp = spacy.load('en_core_web_sm')

# Обрабатываем сырой текст raw с помощью spaCy
spacy_results = nlp(raw)

# Для каждого токена извлекаем лемму (начальную форму слова) и объединяем в строку
print(' '.join([token.lemma_ for token in spacy_results]))

DENNIS : listen , strange woman lie in pond distribute sword 
 be no basis for a system of government .   Supreme executive power derive from 
 a mandate from the masse , not from some farcical aquatic ceremony .


[Сравнение PyMorphy2 и PyMystem3](https://habr.com/ru/post/503420/)

### Part-of-Speech

In [None]:
# Для первых 9 результатов морфологического разбора получаем пары (нормальная_форма, тег)
[(res[0].normal_form, res[0].tag) for res in pymorphy_results[:9]]

[('не', OpencorporaTag('PRCL')),
 ('существовать', OpencorporaTag('VERB,impf,intr sing,3per,pres,indc')),
 ('научный', OpencorporaTag('ADJF,Qual plur,gent')),
 ('доказательство', OpencorporaTag('NOUN,inan,neut plur,gent')),
 ('в', OpencorporaTag('PREP')),
 ('польза', OpencorporaTag('NOUN,inan,femn sing,accs')),
 ('эффективность', OpencorporaTag('NOUN,inan,femn sing,gent')),
 ('нлп,', OpencorporaTag('UNKN')),
 ('оно\nпризнать', OpencorporaTag('PRTS,perf,past,pssv neut,sing'))]

In [None]:
# Для первых 7 токенов извлекаем пары (лемма, часть речи) из результатов анализа spaCy
[(token.lemma_, token.pos_) for token in spacy_results[:7]]

[('DENNIS', 'PROPN'),
 (':', 'PUNCT'),
 ('listen', 'VERB'),
 (',', 'PUNCT'),
 ('strange', 'ADJ'),
 ('woman', 'NOUN'),
 ('lie', 'VERB')]

### Named entities recognition

In [None]:
# Обрабатываем текст с помощью spaCy для извлечения именованных сущностей
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')

# Выводим информацию о каждой найденной сущности: текст, позиции в строке и тип сущности
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


## Часть 2

### Задача классификации

#### 20 newsgroups
Датасет с 18000 новостей, сгруппированных по 20 темам.

In [None]:
# Импортируем набор данных 20 Newsgroups из библиотеки scikit-learn
from sklearn.datasets import fetch_20newsgroups

# Загружаем обучающую часть датасета 20 Newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

In [None]:
# Выводим список названий категорий (тем) в датасете 20 Newsgroups
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [None]:
newsgroups_train.filenames.shape

(11314,)

#### Рассмотрим подвыборку

In [None]:
# Определяем список интересующих категорий из датасета 20 Newsgroups
categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']

# Загружаем обучающую часть датасета только для указанных категорий
newsgroups_train = fetch_20newsgroups(subset='train', categories=categories)

# Выводим форму массива с путями к файлам (количество примеров)
newsgroups_train.filenames.shape

(2034,)

In [None]:
print(newsgroups_train.data[0])

From: rych@festival.ed.ac.uk (R Hawkes)
Subject: 3DS: Where did all the texture rules go?
Lines: 21

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych

Rycharde Hawkes				email: rych@festival.ed.ac.uk
Virtual Environment Laboratory
Dept. of Psychology			Tel  : +44 31 650 3426
Univ. of Edinburgh			Fax  : +44 31 667 0150



In [None]:
# Выводим первые 10 меток классов (целевых значений) из обучающего набора
newsgroups_train.target[:10]

array([1, 3, 2, 0, 2, 0, 2, 1, 2, 1])

#### TF-IDF(напоминание)

$n_{\mathbb{d}\mathbb{w}}$ - число вхождений слова $\mathbb{w}$ в документ $\mathbb{d}$;<br>
$N_{\mathbb{w}}$ - число документов, содержащих $\mathbb{w}$;<br>
$N$ - число документов; <br><br>

$p(\mathbb{w}, \mathbb{d}) = N_{\mathbb{w}} / N$ - вероятность наличия слова $\mathbb{w}$ в любом документе $\mathbb{d}$
<br>
$P(\mathbb{w}, \mathbb{d}, n_{\mathbb{d}\mathbb{w}}) = (N_{\mathbb{w}} / N)^{n_{\mathbb{d}\mathbb{w}}}$ - вероятность встретить $n_{\mathbb{d}\mathbb{w}}$ раз слово $\mathbb{w}$ в документе $\mathbb{d}$<br><br>

$-\log{P(\mathbb{w}, \mathbb{d}, n_{\mathbb{d}\mathbb{w}})} = n_{\mathbb{d}\mathbb{w}} \cdot \log{(N / N_{\mathbb{w}})} = TF(\mathbb{w}, \mathbb{d}) \cdot IDF(\mathbb{w})$<br><br>

$TF(\mathbb{w}, \mathbb{d}) = n_{\mathbb{d}\mathbb{w}}$ - term frequency;<br>
$IDF(\mathbb{w}) = \log{(N /N_{\mathbb{w}})}$ - inverted document frequency;

#### Давайте векторизуем эти тексты с помощью TF-IDF

In [None]:
# Импортируем TfidfVectorizer для преобразования текстовых данных в матрицу TF-IDF признаков
from sklearn.feature_extraction.text import TfidfVectorizer

#### Некоторые параметры TfidfVectorizer:
* input : string {‘filename’, ‘file’, ‘content’} — определяет тип входных данных (по умолчанию 'content')
* lowercase : boolean, default True — преобразует текст к нижнему регистру, если True
* preprocessor : callable or None (default) — пользовательская функция предобработки текста
* tokenizer : callable or None (default) — пользовательская функция токенизации текста
* stop_words : string {‘english’}, list, or None (default) — задает стоп-слова для удаления
* ngram_range : tuple (min_n, max_n) — диапазон длин последовательностей слов (n-грамм)
* max_df : float in range [0.0, 1.0] or int, default=1.0 — исключает слова, которые слишком частые
* min_df : float in range [0.0, 1.0] or int, default=1 — исключает слова, которые слишком редкие
* max_features : int or None, default=None — ограничивает количество признаков (слов) в матрице

#### Перебор параметров

In [None]:
# Создаем экземпляр TfidfVectorizer (по умолчанию преобразует текст к нижнему регистру)
vectorizer = TfidfVectorizer()

# Преобразуем текстовые данные в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(newsgroups_train.data)

# Выводим размер матрицы: количество документов x количество уникальных слов
vectors.shape

(2034, 34118)

In [None]:
# Создаем TfidfVectorizer с отключенным преобразованием в нижний регистр
vectorizer = TfidfVectorizer(lowercase=False)

# Преобразуем текстовые данные в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(newsgroups_train.data)

# Выводим размер матрицы: количество документов x количество уникальных слов
vectors.shape

(2034, 42307)

In [None]:
# Выводим первые 10 названий признаков (слов) из векторизатора
vectorizer.get_feature_names_out()[:10]

array(['00', '000', '0000', '00000', '000000', '000005102000', '000021',
       '000062David42', '0000VEC', '0001'], dtype=object)

In [None]:
# Создаем TfidfVectorizer с фильтрацией слов: учитываются только те, что встречаются как минимум в 80% документов
vectorizer = TfidfVectorizer(min_df=0.8)

# Преобразуем текстовые данные в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(newsgroups_train.data)

# Выводим размер полученной матрицы: количество документов x количество отфильтрованных уникальных слов
vectors.shape

(2034, 9)

In [None]:
# Получаем массив названий признаков (уникальных слов) после трансформации с текущим векторизатором
vectorizer.get_feature_names_out()

array(['and', 'from', 'in', 'lines', 'of', 'organization', 'subject',
       'the', 'to'], dtype=object)

In [None]:
# Создаем TfidfVectorizer с фильтрацией слов:
# учитываем только слова, встречающиеся как минимум в 1% документов и не более чем в 80%
vectorizer = TfidfVectorizer(min_df=0.01, max_df=0.8)

# Преобразуем текстовые данные в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(newsgroups_train.data)

# Выводим размер полученной матрицы: количество документов x количество отфильтрованных уникальных слов
vectors.shape

(2034, 2391)

In [None]:
# Создаем TfidfVectorizer с настройкой ngram_range: учитываем униграммы, биграммы и триграммы
# Также фильтруем слова, встречающиеся как минимум в 3% и не более чем в 90% документов
vectorizer = TfidfVectorizer(ngram_range=(1, 3), min_df=0.03, max_df=0.9)

# Преобразуем текстовые данные в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(newsgroups_train.data)

# Выводим размер полученной матрицы: количество документов x количество отфильтрованных n-грамм
vectors.shape

(2034, 1236)

In [None]:
# Подключаем обработку стоп-слов и лемматизацию из NLTK
from nltk.corpus import stopwords
stopWords = set(stopwords.words('english'))  # Загружаем английские стоп-слова
nltk.download('wordnet')  # Скачиваем ресурс wordnet для лемматизации
wnl = nltk.WordNetLemmatizer()  # Создаем экземпляр лемматизатора

# Функция предобработки текста: приведение к нижнему регистру, удаление стоп-слов, лемматизация
def preproc_nltk(text):
    # Опционально: удаление пунктуации через регулярные выражения (закомментировано)
    # text = re.sub(f'[{string.punctuation}]', ' ', text)
    return ' '.join([
        wnl.lemmatize(word)  # Лемматизируем слово
        for word in word_tokenize(text.lower())  # Разбиваем на слова и приводим к нижнему регистру
        if word not in stopWords  # Исключаем стоп-слова
    ])

# Пример строки для обработки
st = "Oh, I think I ve landed Where there are miracles at work,  For the thirst and for the hunger Come the conference of birds"

# Применяем функцию предобработки к примеру
preproc_nltk(st)

[nltk_data] Downloading package wordnet to /root/nltk_data...


'oh , think landed miracle work , thirst hunger come conference bird'

In [None]:
# %%time  # Закомментировано: магическая команда Jupyter для измерения времени выполнения ячейки
vectorizer = TfidfVectorizer(preprocessor=preproc_nltk)  # Используем пользовательскую функцию предобработки текста

# Преобразуем текстовые данные в матрицу TF-IDF признаков с учетом предобработки
vectors = vectorizer.fit_transform(newsgroups_train.data)

CPU times: user 8.51 s, sys: 43.7 ms, total: 8.55 s
Wall time: 8.64 s


In [None]:
# Загружаем модель spaCy для обработки английского языка
nlp = spacy.load("en_core_web_sm")

# Копируем текстовые данные из датасета для последующей обработки
texts = newsgroups_train.data.copy()

# Функция предобработки текста с использованием spaCy:
# лемматизация и удаление стоп-слов
def preproc_spacy(text):
    spacy_results = nlp(text)  # Обрабатываем текст с помощью spaCy
    return ' '.join([
        token.lemma_  # Берем лемму слова
        for token in spacy_results
        if token.lemma_ not in stopWords  # Исключаем стоп-слова
    ])

# Применяем функцию предобработки к примеру текста
preproc_spacy(st)



'oh , I think I land miracle work ,   thirst hunger come conference bird'

In [None]:
# %%time  # Закомментировано: магическая команда Jupyter для измерения времени выполнения ячейки

# Инициализируем список для хранения обработанных текстов
new_texts = []

# Обрабатываем тексты пакетно с помощью spaCy (ускоренная обработка):
# - batch_size=32: обрабатываем по 32 документа за раз
# - n_process=3: используем 3 процесса параллельно
# - отключаем ненужные компоненты ("parser", "ner") для ускорения
for doc in nlp.pipe(texts, batch_size=32, n_process=3, disable=["parser", "ner"]):
    # Лемматизируем и исключаем стоп-слова, затем объединяем в строку
    new_texts.append(' '.join([tok.lemma_ for tok in doc if tok.lemma_ not in stopWords]))

# Создаем экземпляр TfidfVectorizer без предобработки
vectorizer = TfidfVectorizer()

# Преобразуем предобработанные тексты в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(new_texts)

CPU times: user 16.3 s, sys: 523 ms, total: 16.8 s
Wall time: 1min 28s


#### Итоговая модель

In [None]:
# Создаем TfidfVectorizer с настройками:
# - учитываем униграммы, биграммы и триграммы (ngram_range=(1, 3))
# - исключаем слова, встречающиеся более чем в 50% документов (max_df=0.5)
# - ограничиваем количество признаков до 1000 (max_features=1000)
vectorizer = TfidfVectorizer(ngram_range=(1, 3), max_df=0.5, max_features=1000)

# Преобразуем предобработанные тексты в матрицу TF-IDF признаков
vectors = vectorizer.fit_transform(new_texts)

# Получаем список названий признаков (n-грамм) и выводим каждый 100-й элемент для демонстрации
vectorizer.get_feature_names_out()[::100]

array(['000', 'attempt', 'choose', 'engineering', 'human', 'look',
       'of this', 'report', 'technology', 'understand'], dtype=object)

#### Можем посмотреть на косинусную меру между векторами

In [None]:
# Импортируем библиотеку numpy для работы с массивами и матрицами
import numpy as np
# Импортируем функцию norm для вычисления нормы вектора из линейной алгебры numpy
from numpy.linalg import norm

# Выводим тип объекта vectors (обычно это разреженная матрица типа scipy.sparse)
type(vectors)

In [None]:
# Преобразуем первый документ из разреженной матрицы в плотный вектор (numpy matrix)
vector = vectors.todense()[0]

# Считаем количество ненулевых элементов в векторе (т.е. сколько уникальных n-грамм присутствует в документе)
(vector != 0).sum()

52

In [None]:
vector.shape

(1, 1000)

In [None]:
# Вычисляем среднее количество ненулевых элементов по всем векторам:
# - преобразуем каждый вектор в плотный формат
# - считаем количество ненулевых признаков для каждого документа
# - находим среднее значение по всем документам
np.mean(list(map(lambda x: (x != 0).sum(), vectors.todense())))

89.8023598820059

In [None]:
# Преобразуем разреженную матрицу TF-IDF в плотный массив (матрицу)
dense_vectors = vectors.todense()

# Выводим размерность полученной плотной матрицы: количество документов x количество признаков
dense_vectors.shape

(2034, 1000)

In [None]:
# Функция для вычисления косинусного сходства между двумя векторами v1 и v2
def cosine_sim(v1, v2):
    # v1, v2 — одномерные векторы размерности (1 x dim)
    return np.array(v1 @ v2.T / norm(v1) / norm(v2))[0][0]  # Вычисляем косинус угла между векторами

In [None]:
# Вычисляем косинусное сходство первого документа с самим собой
cosine_sim(dense_vectors[0], dense_vectors[0])

1.0

In [None]:
# Вычисляем косинусное сходство между первым документом и первыми 10 документами
cosines = []
for i in range(10):
    # Для каждого из первых 10 документов считаем сходство с нулевым (первым) документом
    cosines.append(cosine_sim(dense_vectors[0], dense_vectors[i]))

In [None]:
# Выводим список косинусных сходств между первым документом и первыми 10 документами
cosines

[1.0,
 0.04191279776414235,
 0.00586838361101993,
 0.09771238093526101,
 0.0706091645327028,
 0.06745764842966308,
 0.026714182362747592,
 0.22853760897260952,
 0.03163642012466395,
 0.0692866259316149]

#### Обучим любую известную модель на полученных признаках

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import svm # svm для использования метода опорных векторов
from sklearn.linear_model import SGDClassifier # SGDClassifier для стохастического градиентного спуска

# Разделяем данные на обучающую и тестовую выборки (80% обучение, 20% тестирование)
X_train, X_test, y_train, y_test = train_test_split(
    dense_vectors,
    newsgroups_train.target,
    test_size=0.2,
    random_state=0  # Фиксируем случайное разбиение
)
y_train.shape, y_test.shape

((1627,), (407,))

In [None]:
X_train = np.asarray(X_train)
y_train = np.asarray(y_train)
X_test= np.asarray(X_test)
y_test= np.asarray(y_test)

In [None]:
%%time
svc = svm.SVC()
svc.fit(X_train, y_train)

CPU times: user 1.37 s, sys: 14.8 ms, total: 1.38 s
Wall time: 1.41 s


In [None]:
accuracy_score(y_test, svc.predict(X_test))

0.9262899262899262

In [None]:
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
accuracy_score(y_test, sgd.predict(X_test))

0.914004914004914

### Embeddings

In [None]:
# Импортируем модуль для загрузки предобученных эмбеддингов из библиотеки gensim
import gensim.downloader as api

# Загружаем предобученные векторные представления слов (эмбеддинги) с названием 'glove-twitter-25'
embeddings_pretrained = api.load('glove-twitter-25')



In [None]:
# Импортируем модель Word2Vec для обучения собственных эмбеддингов слов
from gensim.models import Word2Vec

# Предобрабатываем тексты с помощью ранее определенной функции preproc_nltk и разбиваем на слова
proc_words = [preproc_nltk(text).split() for text in newsgroups_train.data]

# Обучаем модель Word2Vec на обработанных текстах:
# - vector_size=100: размерность вектора слова
# - min_count=3: игнорируем редкие слова, встречающиеся реже 3 раз
# - window=3: размер окна контекста вокруг слова
embeddings_trained = Word2Vec(proc_words, vector_size=100, min_count=3, window=3).wv

In [None]:
def vectorize_sum(comment, embeddings):
    """
    Преобразует предобработанный комментарий в вектор,
    представляющий собой сумму эмбеддингов входящих в него слов.

    Параметры:
    - comment: текст комментария (строка)
    - embeddings: модель эмбеддингов (например, Word2Vec или GloVe)

    Возвращает:
    - вектор текста (numpy массив)
    """
    # Получаем размерность эмбеддингов
    embedding_dim = embeddings.vectors.shape[1]

    # Инициализируем нулевой вектор признаков
    features = np.zeros([embedding_dim], dtype='float32')

    # Предобрабатываем комментарий и разбиваем на слова
    for word in preproc_nltk(comment).split():
        if word in embeddings:
            # Добавляем вектор слова к общему представлению текста
            features += embeddings[word]

    return features

In [None]:
# Выводим количество уникальных слов в словаре обученной модели эмбеддингов Word2Vec
len(embeddings_trained.index_to_key)

13553

In [None]:
# Преобразуем все тексты из датасета в векторное представление с помощью предобученных эмбеддингов
X_wv = np.stack([vectorize_sum(text, embeddings_pretrained) for text in newsgroups_train.data])

X_train_wv, X_test_wv, y_train, y_test = train_test_split(
    X_wv,
    newsgroups_train.target,
    test_size=0.2,
    random_state=0
)
X_train_wv.shape, X_test_wv.shape

((1627, 25), (407, 25))

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=5000)

# Обучаем модель на обучающей выборке с векторным представлением текстов
wv_model = clf.fit(X_train_wv, y_train)
accuracy_score(y_test, wv_model.predict(X_test_wv))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.6953316953316954

In [None]:
# Преобразуем все тексты из датасета в векторное представление с помощью обученных эмбеддингов (Word2Vec)
X_wv = np.stack([vectorize_sum(text, embeddings_trained) for text in newsgroups_train.data])


X_train_wv, X_test_wv, y_train, y_test = train_test_split(
    X_wv,
    newsgroups_train.target,
    test_size=0.2,
    random_state=0  # Фиксируем случайное разбиение
)
X_train_wv.shape, X_test_wv.shape

((1627, 100), (407, 100))

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=10000)

# Обучаем модель на обучающей выборке с векторным представлением текстов на основе обученных эмбеддингов
wv_model = clf.fit(X_train_wv, y_train)
accuracy_score(y_test, wv_model.predict(X_test_wv))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8353808353808354