# Предобработка текста

## Часть 1

### Токенизация

In [85]:
# @title Default title text
import nltk
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize, sent_tokenize

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [86]:
data = "All work and no play makes jack a dull boy, all work and no play"
tokens = word_tokenize(data.lower())
print(tokens)

['all', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']


In [87]:
print(sent_tokenize("I was going home when she rung. It was a surprise."))

['I was going home when she rung.', 'It was a surprise.']


#### Библиотека Natasha и Razdel отлично справляются с русскими текстами

[Natasha](https://github.com/natasha/natasha)

[Razdel](https://natasha.github.io/razdel/)

In [88]:
!pip install -q razdel
print('Successfully uploaded')

Successfully uploaded


In [89]:
from razdel import tokenize, sentenize
text = 'Кружка-термос на 0.5л (50/64 см³, 516;...)'
list(tokenize(text))

[Substring(0, 13, 'Кружка-термос'),
 Substring(14, 16, 'на'),
 Substring(17, 20, '0.5'),
 Substring(20, 21, 'л'),
 Substring(22, 23, '('),
 Substring(23, 28, '50/64'),
 Substring(29, 32, 'см³'),
 Substring(32, 33, ','),
 Substring(34, 37, '516'),
 Substring(37, 38, ';'),
 Substring(38, 41, '...'),
 Substring(41, 42, ')')]

#### Регулярные выражения

Исчерпывающий пост https://habr.com/ru/post/349860/

In [90]:
import re
word = 'supercalifragilisticexpialidocious'
re.findall('[abc]|up|super', word)

['super', 'c', 'a', 'a', 'c', 'a', 'c']

In [91]:
re.findall('\d{1,3}', 'These are some numbers: 49 and 4323')

['49', '432', '3']

In [92]:
text = 'How, to? split. text!'
re.sub('[,\.?!]', '', text)

'How to split text'

In [93]:
text = 'I 123 can 45 play 67 football'
re.sub('[^A-z]',' ', text).split()

['I', 'can', 'play', 'football']

## Удаление неинформативных слов

#### N-граммы

<img src="https://res.cloudinary.com/practicaldev/image/fetch/s--466CQV1q--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_66%2Cw_880/https://thepracticaldev.s3.amazonaws.com/i/78nf1vryed8h1tz05fim.gif" height=400>

In [94]:
unigram = list(nltk.ngrams(tokens, 1))
bigram = list(nltk.ngrams(tokens, 2))
print(unigram[:5])
print(bigram[:5])

[('all',), ('work',), ('and',), ('no',), ('play',)]
[('all', 'work'), ('work', 'and'), ('and', 'no'), ('no', 'play'), ('play', 'makes')]


In [95]:
from nltk import FreqDist
print('Популярные униграммы: ', FreqDist(unigram).most_common(5))
print('Популярные биграммы: ', FreqDist(bigram).most_common(5))

Популярные униграммы:  [(('all',), 2), (('work',), 2), (('and',), 2), (('no',), 2), (('play',), 2)]
Популярные биграммы:  [(('all', 'work'), 2), (('work', 'and'), 2), (('and', 'no'), 2), (('no', 'play'), 2), (('play', 'makes'), 1)]


## Стоп-слова

In [96]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [97]:
stopWords = set(stopwords.words('english'))
print(stopWords)

{'whom', 'as', 'these', 'the', 'theirs', 'they', "should've", "that'll", 'have', 'ain', 'ours', "mustn't", 'isn', 'their', 'has', 've', 'yourselves', 'does', 'about', 'itself', "needn't", 'not', 'or', "wasn't", "isn't", 'own', 'up', 'now', "won't", 'him', 'himself', 'once', 'of', 'a', 'such', 'off', 'needn', 'her', 'do', 'to', 'doesn', "shouldn't", 'mightn', 'yourself', 'was', 'his', 'over', 'during', 'he', 'until', "didn't", 'should', 'again', 'so', 'on', 'can', 'ma', 'this', 'ourselves', 'few', 'for', 'aren', 'it', 'its', 'other', "you'd", "doesn't", "hasn't", "you'll", 'you', 'don', 'through', 'there', 'll', 'did', "she's", 're', 'only', 'and', 'herself', "haven't", 'being', 'were', 'but', 'after', 'yours', 'my', 'm', 'having', 'while', "couldn't", 'd', 'by', 'who', 'why', 'with', 'at', 'nor', "you've", 'is', 'because', 'then', "weren't", 'same', 'what', 'didn', 'that', "hadn't", 'under', 'any', 'me', 'which', 'very', 'will', 'between', 'she', 'we', 'our', 'those', 'above', "you're"

In [98]:
print([word for word in tokens if word not in stopWords])

['work', 'play', 'makes', 'jack', 'dull', 'boy', ',', 'work', 'play']


In [99]:
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


## Стемминг vs Лемматизация
* ‘Caring’ -> Стемминг -> ‘Car’
* ‘Caring’ -> Лемматизация -> ‘Care’

## Стемминг
* процесс нахождения основы слова для заданного исходного слова

In [100]:
from nltk.stem import PorterStemmer, SnowballStemmer
words = ["game", "gaming", "gamed", "games", "compacted"]
words_ru = ['корова', 'мальчики', 'мужчины', 'столом', 'убежала']

In [101]:
ps = PorterStemmer()
list(map(ps.stem, words))

['game', 'game', 'game', 'game', 'compact']

In [102]:
ss = SnowballStemmer(language='russian')
list(map(ss.stem, words_ru))

['коров', 'мальчик', 'мужчин', 'стол', 'убежа']

## Лематизация
* процесс приведения словоформы к лемме — её нормальной (словарной) форме

In [103]:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""

raw_ru = """Не существует научных доказательств в пользу эффективности НЛП, оно
признано псевдонаукой. Систематические обзоры указывают, что НЛП основано на
устаревших представлениях об устройстве мозга, несовместимо с современной
неврологией и содержит ряд фактических ошибок."""

In [104]:
!pip install -q pymorphy3

In [105]:
# 1 - pymorphy3 работает с русским языком. может не очень хорошо, но работает
import pymorphy3
# Создаем экземпляр анализатора
morph = pymorphy3.MorphAnalyzer()
pymorphy_results = list(map(lambda x: morph.parse(x), raw_ru.split(' ')))
print(' '.join([res[0].normal_form for res in pymorphy_results]))

не существовать научный доказательство в польза эффективность нлп, оно
признать псевдонаукой. систематический обзор указывают, что нлп основать на
устаревший представление о устройство мозга, несовместимый с современной
неврология и содержать ряд фактический ошибок.


In [106]:
# 2 - spacy отлично работает с английским текстом
import spacy
nlp = spacy.load('en_core_web_sm')
spacy_results = nlp(raw)
print(' '.join([token.lemma_ for token in spacy_results]))



DENNIS : listen , strange woman lie in pond distribute sword 
 be no basis for a system of government .   Supreme executive power derive from 
 a mandate from the masse , not from some farcical aquatic ceremony .


[Сравнение PyMorphy2 и PyMystem3](https://habr.com/ru/post/503420/)

## Part-of-Speech

Задача Part-of-Speech (POS) tagging (определение частей речи) — это одна из ключевых задач в обработке естественного языка (NLP). Её цель — присвоить каждому слову в тексте метку, указывающую на его часть речи (например, существительное, глагол, прилагательное и т.д.) и, возможно, дополнительные грамматические характеристики (род, число, падеж, время и т.д.)

признаки слов можно использовать как признаки текста.
часть речи тоже можно считать фичёй наших слов нашего предложения

In [107]:
# 1 - используем pymorphy3, чтобы посмотреть на признаки слов (части речи) текста
[(res[0].normal_form, res[0].tag) for res in pymorphy_results[:9]]

[('не', OpencorporaTag('PRCL')),
 ('существовать', OpencorporaTag('VERB,impf,intr sing,3per,pres,indc')),
 ('научный', OpencorporaTag('ADJF,Qual plur,gent')),
 ('доказательство', OpencorporaTag('NOUN,inan,neut plur,gent')),
 ('в', OpencorporaTag('PREP')),
 ('польза', OpencorporaTag('NOUN,inan,femn sing,accs')),
 ('эффективность', OpencorporaTag('NOUN,inan,femn sing,gent')),
 ('нлп,', OpencorporaTag('UNKN')),
 ('оно\nпризнать', OpencorporaTag('PRTS,perf,past,pssv neut,sing'))]

In [108]:
# 2 - тоже самое, только с английскими словами
[(token.lemma_, token.pos_) for token in spacy_results[:7]]

[('DENNIS', 'PROPN'),
 (':', 'PUNCT'),
 ('listen', 'VERB'),
 (',', 'PUNCT'),
 ('strange', 'ADJ'),
 ('woman', 'NOUN'),
 ('lie', 'VERB')]

In [109]:
# 3 - как уже говорилось pymorphy3 не очень хорошо справляется с задачей,
# поэтому используем библиотеку rnnmorph на основе рекуррентных нейросетей

! pip install -q rnnmorph

In [110]:
from rnnmorph.predictor import RNNMorphPredictor

# predictor = RNNMorphPredictor(language='ru')
# ru_predict = predictor.predict(raw_ru.split(' '))
# [(token.normal_form, token.pos, token.tag) for token in ru_predict[0:7]]

## Named entities recognition

Задача Named Entity Recognition (NER) (распознавание именованных сущностей) — это одна из ключевых задач в обработке естественного языка (NLP). Её цель — идентифицировать и классифицировать именованные сущности в тексте, такие как имена людей, организации, локации, даты, суммы денег и другие категории.

Что такое именованные сущности?

Именованные сущности — это слова или словосочетания, которые обозначают конкретные объекты, такие как:

Персоны (Person): "Иван Иванов", "Мария Петрова".

Организации (Organization): "Google", "ООН".

Локации (Location): "Москва", "Тихий океан".

Даты (Date): "12 мая 2023 года".

Суммы денег (Money): "$100", "500 рублей".

Проценты (Percent): "25%".

Время (Time): "15:30".

In [111]:
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


# **Часть 2**

### **Задача классификации**

#### 20 newsgroups
Датасет с 18000 новостей, сгруппированных по 20 темам.

In [112]:
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

In [113]:
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [114]:
newsgroups_train.filenames.shape

(11314,)

#### Рассмотрим подвыборку

Отберем только 4 класса, чтобы уменьшить нашу выборку. В итоге у нас останется 2034 новостей из 11314

In [115]:
categories = ['alt.atheism', 'talk.religion.misc',
              'comp.graphics', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train',
                                      categories=categories)
newsgroups_train.filenames.shape

(2034,)

Посмотрим как выглядит новость. Каждая новость имеет один и тот же шаблон

In [116]:
print(newsgroups_train.data[0])

From: rych@festival.ed.ac.uk (R Hawkes)
Subject: 3DS: Where did all the texture rules go?
Lines: 21

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych

Rycharde Hawkes				email: rych@festival.ed.ac.uk
Virtual Environment Laboratory
Dept. of Psychology			Tel  : +44 31 650 3426
Univ. of Edinburgh			Fax  : +44 31 667 0150



In [117]:
newsgroups_train.target[:10] # И так у нас всего 4 класса (от 0 до 3) для train

array([1, 3, 2, 0, 2, 0, 2, 1, 2, 1])

#### TF-IDF(напоминание)

Простыми словами, TF-IDF помогает понять, насколько значимо слово в конкретном документе по сравнению с другими документами.

Разберем по частям:

**TF (Term Frequency)** — частота термина:
Это мера того, как часто слово встречается в документе.
Чем чаще слово встречается в документе, тем выше его TF.

Формула:
TF(t, d) =
количество раз, когда слово t встречается в документе d /
общее количество слов в документе d

**IDF (Inverse Document Frequency)** — обратная частота документа:
Это мера того, насколько редким является слово во всем корпусе документов.
Чем реже слово встречается в других документах, тем выше его IDF.

Формула:
IDF(t, D) = log
⁡(общее количество документов в корпусе D /
количество документов, содержащих слово t)

**TF-IDF:**
Это произведение TF и IDF.

Формула:
TF-IDF(t,d,D)=TF(t,d) × IDF(t,D)

#### Давайте векторизуем эти тексты с помощью TF-IDF

In [118]:
from sklearn.feature_extraction.text import TfidfVectorizer

#### Некоторые параметры:
* input : string {‘filename’, ‘file’, ‘content’}
*  lowercase : boolean, default True
*  preprocessor : callable or None (default)
*  tokenizer : callable or None (default)
*  stop_words : string {‘english’}, list, or None (default)
*  ngram_range : tuple (min_n, max_n)
*  max_df : float in range [0.0, 1.0] or int, default=1.0
*  min_df : float in range [0.0, 1.0] or int, default=1
*  max_features : int or None, default=None

#### Перебор параметров

In [119]:
# lowercase
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

# тут мы видим, что с lowercase у нас получилось 34тыс слов, в то время как без него (см ниже) получилось 42тыс слов

(2034, 34118)

In [120]:
vectorizer = TfidfVectorizer(lowercase=False)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 42307)

Посмотрим на первые 10 слов, которые встречаются у нас в векторайзере. Видим, что
это какие-то не нужные слова

In [121]:
vectorizer.get_feature_names_out()[:10]

array(['00', '000', '0000', '00000', '000000', '000005102000', '000021',
       '000062David42', '0000VEC', '0001'], dtype=object)

А давайте посмотрим векторы только тех слов, которые встречаются в тексте в 80 и более процентов случаев

In [122]:
# min_df, max_df
vectorizer = TfidfVectorizer(min_df=0.8)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

# тут всего 9 слов. посмотрим на них ниже

(2034, 9)

оказывается - это слова, которые встречаются в каждой новости, тк каждая новость имеет один и тот же шаблон написания

In [123]:
vectorizer.get_feature_names_out()

array(['and', 'from', 'in', 'lines', 'of', 'organization', 'subject',
       'the', 'to'], dtype=object)

Чтобы избавиться от ненужных слов возьмем к примеру такие значения min_df=0.01, max_df=0.8. По итогу у нас останется только 2391 слов

In [124]:
vectorizer = TfidfVectorizer(min_df=0.01, max_df=0.8)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 2391)

Тоже самое можно сделать с помощью ngram. Но в этом случае будет выявляться не только частота появления слов (токенов), но и будет отлавливаться взаимодействие последних между собой. По итогу останется только 1236 слов

In [125]:
# ngram_range
vectorizer = TfidfVectorizer(ngram_range=(1, 3), min_df=0.03, max_df=0.9)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 1236)

Пример Лематизации слов некоего текста. Лематизация только тех слов, которые не относятся к стоп-словам

In [126]:
# стоп-слова, preprocess
from nltk.corpus import stopwords
stopWords = set(stopwords.words('english'))
nltk.download('wordnet')
wnl = nltk.WordNetLemmatizer()

def preproc_nltk(text):
    #text = re.sub(f'[{string.punctuation}]', ' ', text)
    return ' '.join([wnl.lemmatize(word) for word in word_tokenize(text.lower()) if word not in stopWords])

st = "Oh, I think I ve landed Where there are miracles at work,  For the thirst and for the hunger Come the conference of birds"
preproc_nltk(st)

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


'oh , think landed miracle work , thirst hunger come conference bird'

Тут мы берем нашу выборку из 2034 новостей и получаем векторы из лематизированных слов, избавившись от стоп-слов.

В данном случае используем библиотеку nltk и функцию preproc_nltk

In [127]:
%%time
vectorizer = TfidfVectorizer(preprocessor=preproc_nltk)
vectors = vectorizer.fit_transform(newsgroups_train.data)

CPU times: user 12.6 s, sys: 18.8 ms, total: 12.7 s
Wall time: 20.2 s


Здесь мы делаем тоже самое, что в предыдущей функции def preproc_nltk(text), только тут используем библиотеку spacy, а не nltk

In [128]:
# preproc_spacy
nlp = spacy.load("en_core_web_sm")
texts = newsgroups_train.data.copy()

def preproc_spacy(text):
    spacy_results = nlp(text)
    return ' '.join([token.lemma_ for token in spacy_results if token.lemma_ not in stopWords])
preproc_spacy(st)

'oh , I think I land miracle work ,   thirst hunger come conference bird'

Тут мы снова берем нашу выборку из 2036 новостей и получаем векторы из лематизированных слов, избавившись от стоп-слов.

В данном случае используем библиотеку spacy и для ускорения работы програмы, мы не будем использовать для лематизации функцию preproc_spacy, а будем делать preprocess, используя pipeline spacy.

Таким образом наша тестовая выборка newsgroups_train изменится и в новой выборке new_texts будут храниться новости с лематизированными токенами

In [129]:
%%time
new_texts = []
for doc in nlp.pipe(texts, batch_size=32, n_process=3, disable=["parser", "ner"]):
    new_texts.append(' '.join([tok.lemma_ for tok in doc if tok.lemma not in stopWords]))
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(new_texts)

CPU times: user 17.2 s, sys: 503 ms, total: 17.7 s
Wall time: 1min 47s


Давайте посмотрим как поменялась первая новость из нашей выборки

In [130]:
print(newsgroups_train.data[0]) # оригинал

From: rych@festival.ed.ac.uk (R Hawkes)
Subject: 3DS: Where did all the texture rules go?
Lines: 21

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych

Rycharde Hawkes				email: rych@festival.ed.ac.uk
Virtual Environment Laboratory
Dept. of Psychology			Tel  : +44 31 650 3426
Univ. of Edinburgh			Fax  : +44 31 667 0150



In [131]:
print(new_texts[0]) # после лематизации

from : rych@festival.ed.ac.uk ( R Hawkes ) 
 subject : 3ds : where do all the texture rule go ? 
 line : 21 

 Hi , 

 I have notice that if you only save a model ( with all your mapping plane 
 position carefully ) to a .3ds file that when you reload it after restart 
 3ds , they be give a default position and orientation .   but if you save 
 to a .prj file their position / orientation be preserve .   do anyone 
 know why this information be not store in the .3ds file ?   nothing be 
 explicitly say in the manual about save texture rule in the .prj file . 
 I would like to be able to read the texture rule information , do anyone have 
 the format for the .PRJ file ? 

 be the .cel file format available from somewhere ? 

 rych 

 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
 Rycharde Hawkes 				 email : rych@festival.ed.ac.uk 
 Virtual Environment Laboratory 
 Dept . of psychology 			 Tel 

In [132]:
print(len(new_texts[0]))

1213


#### Итоговая модель

тк библиотека spacy лучше nltk, то будем использовать текст, лематизированный с помощью spacy.

теперь получаем tfidf векторы с помощью Vectorizer, используя ngram.

**ngram_range=(1, 3)** означает, что будут учитываться униграммы, биграммы и триграммы. Это полезно для учета контекста и фраз, состоящих из нескольких слов.

**max_df=0.5** Этот параметр задает максимальную частоту документа, при которой слово будет включено в словарь.
Значение 0.5 означает, что слова, которые встречаются более чем в 50% документов, будут игнорироваться.
Это полезно для исключения слишком частых слов (например, стоп-слов), которые не несут полезной информации для анализа.

**max_features=1000** означает, что будут выбраны 1000 самых важных слов (или n-грамм) на основе их TF-IDF-значений.
Это полезно для:
Уменьшения размерности данных, Ускорения обработки, Упрощения модели (например, для машинного обучения).

In [133]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3), max_df=0.5, max_features=1000)
vectors = vectorizer.fit_transform(new_texts)
vectorizer.get_feature_names_out()[::100] # смотрим на 10 слов, которые отобрались

array(['000', 'attempt', 'choose', 'engineering', 'human', 'look',
       'of this', 'report', 'technology', 'understand'], dtype=object)

In [134]:
print(vectors.shape)

(2034, 1000)


#### Можем посмотреть на косинусную меру между векторами

In [135]:
import numpy as np
from numpy.linalg import norm

type(vectors)

Метод todense() преобразует разреженную матрицу (например, результат работы TfidfVectorizer или CountVectorizer) в плотную матрицу.

Разреженная матрица — это способ хранения данных, при котором хранятся только ненулевые элементы, а все нули игнорируются.
Плотная матрица — это обычная матрица, в которой хранятся все элементы, включая нули.
Она занимает больше памяти, но с ней проще работать, если вам нужно визуализировать данные или выполнять операции, которые не поддерживаются для разреженных матриц.

Это может быть полезно, если:
Вам нужно визуализировать данные.
Вы хотите работать с матрицей как с обычным массивом (например, использовать NumPy).
Ваши инструменты или алгоритмы не поддерживают разреженные матрицы.

In [136]:
vector = vectors.todense()[0]
print(vector.shape)
(vector != 0).sum() # в первом векторе только 52 значения не нулевые

(1, 1000)


52

In [137]:
np.mean(list(map(lambda x: (x != 0).sum(), vectors.todense())))

89.8023598820059

In [138]:
dense_vectors = vectors.todense()
dense_vectors.shape

(2034, 1000)

In [139]:
def cosine_sim(v1, v2):
    # v1, v2 (1 x dim)
    return np.array(v1 @ v2.T / norm(v1) / norm(v2))[0][0]

проверим функцию, закинем в неё одинаковые векторы. similarity должно получиться максимальным, т.е. 1

In [140]:
cosine_sim(dense_vectors[0], dense_vectors[0])

1.0

ну и посмотрим на cosine similarity первого вектора (первой новости) и первых 10 векторов новостей.

на основании cosine similarity можно видеть насколько новости могут быть связаны между собой

In [141]:
cosines = []
for i in range(10):
    cosines.append(cosine_sim(dense_vectors[0], dense_vectors[i]))

In [142]:
# [1, 3, 2, 0, 2, 0, 2, 1, 2, 1]
cosines

[1.0,
 0.04191279776414235,
 0.00586838361101993,
 0.09771238093526101,
 0.0706091645327028,
 0.06745764842966308,
 0.026714182362747592,
 0.22853760897260952,
 0.03163642012466395,
 0.0692866259316149]

#### Обучим любую известную модель на полученных признаках

In [143]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import svm
from sklearn.linear_model import SGDClassifier

X_train, X_test, y_train, y_test= train_test_split(dense_vectors, newsgroups_train.target, test_size=0.2, random_state=0)

y_train.shape, y_test.shape

((1627,), (407,))

In [144]:
X_train = np.asarray(X_train)
y_train = np.asarray(y_train)
X_test= np.asarray(X_test)
y_test= np.asarray(y_test)

In [145]:
%%time
svc = svm.SVC()
svc.fit(X_train, y_train)

CPU times: user 2.32 s, sys: 5.78 ms, total: 2.32 s
Wall time: 2.95 s


In [146]:
accuracy_score(y_test, svc.predict(X_test))

0.9262899262899262

In [147]:
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
accuracy_score(y_test, sgd.predict(X_test))

0.9066339066339066

### Embeddings

In [148]:
# эмбеддинги слов, предобученные на twitter
import gensim.downloader as api
embeddings_pretrained = api.load('glove-twitter-25') # vector size = 25



Если не использовать предобуенные эмбеддинги, то можно обучить эмбеддинги на словах из наших текстов новостей. Для этого будем использовать Word2Vec

In [161]:
embeddings_pretrained[f'mother']

array([-1.1538  ,  0.35302 ,  0.42336 ,  0.6585  ,  0.41522 , -0.59161 ,
        1.6598  ,  0.032121, -0.42962 ,  0.18534 , -0.30366 ,  0.21844 ,
       -3.8577  ,  0.24523 , -0.32361 , -0.31029 ,  0.70883 , -0.083037,
       -0.051809, -0.053355,  0.99868 ,  0.81361 , -0.39237 , -0.33642 ,
       -0.021506], dtype=float32)

In [151]:
embeddings_pretrained.vectors.shape # 1 193 514 векторов эмбеддингов, каждый имеет размер 25

(1193514, 25)

In [149]:
from gensim.models import Word2Vec

# сначала сгенерим список всех лематизированных слов из нашего новостного датасета
proc_words = [preproc_nltk(text).split() for text in newsgroups_train.data]

embeddings_trained = Word2Vec(
    proc_words,                     # data for model to train on
    vector_size=100,                # embedding size
    min_count=3,                    # слово должно быть в документах минимум 3 раза
    window=3                        # используем контекст окном = 3 (2 влево, 2 вправо от слова)
    ).wv

In [154]:
len(embeddings_trained.index_to_key)

13553

In [156]:
def vectorize_sum(comment, embeddings):
    """
    функция для суммирования векторов эмбеддингов слов нашей train выборки
    на входе: текст (лематизирован) , эмбеддинги
    на выходе: np.array
    """
    embedding_dim = embeddings.vectors.shape[1]
    features = np.zeros([embedding_dim], dtype='float32')

    for word in preproc_nltk(comment).split():
        if word in embeddings:
            features += embeddings[f'{word}']

    return features

Посмотрим, как просуммируются векторы слов первой новости

In [169]:
for text in newsgroups_train.data:
    print(len(text), '\n')                              # кол-во слов в первой новости
    print(embeddings_pretrained[f'text'], '\n')         # посмотрим на вектор первого слова
    print(vectorize_sum(text, embeddings_pretrained))   # сумма векторов всех слов первой новости
    break

1022 

[ 4.0059e-02  8.2022e-01  7.3379e-01 -3.9085e-02  1.6341e-01 -4.7094e-01
  1.4084e+00  3.9711e-01 -3.4106e-01  7.6480e-01 -1.3201e+00  4.5895e-01
 -3.8149e+00 -6.8482e-01  7.4633e-02  1.1220e+00  1.0326e+00 -1.4022e+00
 -8.3862e-01 -1.0037e+00  8.4522e-01 -7.5224e-01  1.8968e-03  9.4971e-01
 -1.6414e+00] 

[  25.91275     10.819377    -8.594759    -7.584552     4.162523
  -15.178511    51.55236      7.481656    29.581816    24.038748
   14.629449     8.070628  -265.04852     -9.63217     13.107918
   -5.261657     8.711996    -1.8654139  -14.5107355  -23.969913
  -12.99577    -39.125378   -27.167242     9.886188   -22.441137 ]


Готовим данные, используя предобученные эмбеддинги

In [170]:
X_wv = np.stack([vectorize_sum(text, embeddings_pretrained) for text in newsgroups_train.data])

X_train_wv, X_test_wv, y_train, y_test = train_test_split(X_wv, newsgroups_train.target, test_size=0.2, random_state=0)

X_train_wv.shape, X_test_wv.shape

((1627, 25), (407, 25))

Обучаем

In [171]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=5000)
wv_model = clf.fit(X_train_wv, y_train)

accuracy_score(y_test, wv_model.predict(X_test_wv))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.6953316953316954

Готовим данные, используя эмбеддинги, обученные на нашей выборке

In [None]:
X_wv = np.stack([vectorize_sum(text, embeddings_trained) for text in newsgroups_train.data])
X_train_wv, X_test_wv, y_train, y_test = train_test_split(X_wv, newsgroups_train.target, test_size=0.2, random_state=0)
X_train_wv.shape, X_test_wv.shape

((1627, 100), (407, 100))

Обучаем

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=10000)
wv_model = clf.fit(X_train_wv, y_train)
accuracy_score(y_test, wv_model.predict(X_test_wv))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8427518427518428