# Предобработка текста

## Часть 1

### Токенизация

In [1]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\BIT\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
data = "All work and no play makes jack a dull boy, all work and no play"
tokens = word_tokenize(data.lower())
print(tokens)

['all', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']


In [3]:
print(sent_tokenize("I was going home when she rung. It was a surprise."))

['I was going home when she rung.', 'It was a surprise.']


[<img src="https://raw.githubusercontent.com/natasha/natasha-logos/master/natasha.svg">](https://github.com/natasha/natasha)

[Razdel](https://natasha.github.io/razdel/)

In [4]:
!pip install -q razdel

In [5]:
from razdel import tokenize, sentenize
text = 'Кружка-термос на 0.5л (50/64 см³, 516;...)'
tokenize(text)

<generator object find_substrings at 0x000002997831B890>

#### Регулярные выражения

Исчерпывающий пост https://habr.com/ru/post/349860/

In [6]:
import re
word = 'supercalifragilisticexpialidocious'
re.findall('[abc]|up|super', word) # нахождение шаблонов
# при нахождении любого символа в строке 'abc' мы его выводим
# | позволяет задавать несколько шаблонов (оператор "ИЛИ")

['super', 'c', 'a', 'a', 'c', 'a', 'c']

In [7]:
re.findall('[abc]|su|super', word) # 'super' не появился из-за обработки 'su' -- первые два символа стали считаться обработанными

['su', 'c', 'a', 'a', 'c', 'a', 'c']

In [8]:
re.findall('\d{1,3}', 'These are some numbers: 49 and 432312') # \d{1,3} означает поиск чисел от 1-значных до 3-значных

['49', '432', '312']

In [9]:
re.sub('[,\.?!]','','How, to? split. text!') # вместо найденных шаблона вставляется строка
# вместо знаков в 1 аргументе (набор знаков) вставляем 2 аргумент в 3 аргумент 

'How to split text'

In [10]:
re.sub('[^A-z]',' ','I 123 can 45 play 67 football').split()
# галочка означает всё кроме, тире означает диапазон

['I', 'can', 'play', 'football']

### Удаление неинформативных слов

#### N-граммы

<img src="https://res.cloudinary.com/practicaldev/image/fetch/s--466CQV1q--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_66%2Cw_880/https://thepracticaldev.s3.amazonaws.com/i/78nf1vryed8h1tz05fim.gif" height=400>

In [11]:
unigram = list(nltk.ngrams(tokens, 1)) # позволяет оценить популярность слова
bigram = list(nltk.ngrams(tokens, 2)) # позволяет оценить популярнось взаимодействия двух слов
print(unigram[:5])
print(bigram[:5])

[('all',), ('work',), ('and',), ('no',), ('play',)]
[('all', 'work'), ('work', 'and'), ('and', 'no'), ('no', 'play'), ('play', 'makes')]


In [12]:
from nltk import FreqDist
print('Популярные униграммы: ', FreqDist(unigram).most_common(5))
print('Популярные биграммы: ', FreqDist(bigram).most_common(5))

Популярные униграммы:  [(('all',), 2), (('work',), 2), (('and',), 2), (('no',), 2), (('play',), 2)]
Популярные биграммы:  [(('all', 'work'), 2), (('work', 'and'), 2), (('and', 'no'), 2), (('no', 'play'), 2), (('play', 'makes'), 1)]


### с помощью n-грамм можно уменьшить словарь убрав редкие или часто встречающееся n-граммы

### Слово которое встречается 1 раз может быть опечаткой
### Слова которые встречаются много раз являются служебными (для грамматики)
### Шаблоны также могут быть вредны (шаблон электронного письма)

#### Стоп-слова

In [13]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\BIT\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [14]:
stopWords = set(stopwords.words('english'))
print(stopWords)

{'mustn', 'y', 'doing', "won't", 'more', 'll', "it's", 'those', "weren't", 'ours', 'his', 'is', 've', 'some', 'because', "isn't", 'out', 'own', 'having', 'before', 'where', 'no', 'isn', "mightn't", 'why', 'then', 'doesn', 'wouldn', 'did', 'he', 'aren', 'yours', 'had', 'off', "couldn't", 'ain', 'her', 'your', 'ourselves', 'you', "wasn't", 'there', "haven't", 'same', "should've", 'not', 'them', 'until', 'didn', 'any', "aren't", 'haven', 'what', 'these', 'for', "don't", 're', 'only', 'hasn', 'if', 'into', 'very', 'too', 'me', "hasn't", 'hers', 'ma', "didn't", 'himself', "that'll", 'been', 'here', 'down', 'to', 'between', 'yourselves', 'on', 'under', 'as', 'shan', 'once', 'all', 's', 'can', 'o', 'she', 'hadn', 'itself', 'through', 'further', 'him', 'couldn', 'now', "she's", 'd', 'than', 'has', 'this', 'won', 'themselves', 'that', 'when', 'such', 'myself', 'theirs', 'an', 'above', 'in', 'nor', 't', "shan't", 'against', 'don', 'below', 'its', 'does', 'each', 'while', "hadn't", "mustn't", "ne

In [15]:
stopWords = set(stopwords.words('russian'))
print(stopWords)

{'или', 'потому', 'ни', 'много', 'его', 'все', 'ты', 'всего', 'том', 'и', 'ли', 'в', 'есть', 'ж', 'сам', 'нет', 'ему', 'так', 'ведь', 'теперь', 'про', 'при', 'тут', 'чуть', 'для', 'у', 'надо', 'они', 'перед', 'такой', 'потом', 'моя', 'он', 'о', 'нас', 'им', 'что', 'только', 'хорошо', 'же', 'еще', 'ей', 'не', 'нибудь', 'об', 'ним', 'было', 'кто', 'но', 'лучше', 'зачем', 'ну', 'два', 'тот', 'мой', 'она', 'будто', 'за', 'другой', 'где', 'меня', 'над', 'этой', 'более', 'всю', 'конечно', 'впрочем', 'чтобы', 'по', 'того', 'опять', 'из', 'совсем', 'свою', 'их', 'со', 'себя', 'этого', 'без', 'разве', 'него', 'до', 'почти', 'то', 'да', 'если', 'тебя', 'под', 'ничего', 'никогда', 'них', 'чтоб', 'всегда', 'через', 'там', 'чем', 'во', 'на', 'нельзя', 'мне', 'можно', 'быть', 'сейчас', 'какой', 'наконец', 'к', 'вот', 'как', 'я', 'чего', 'здесь', 'нее', 'больше', 'с', 'уже', 'мы', 'тоже', 'между', 'ее', 'хоть', 'эту', 'иногда', 'себе', 'вам', 'может', 'когда', 'а', 'всех', 'была', 'от', 'был', 'эти',

In [16]:
print([word for word in tokens if word not in stopWords]) # удалили стоп-слова из списка tokens

['all', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']


### в случае классификации текста по тональности слово 'нет'  может быть важно (например, в отзывах к фильмам)

In [17]:
import string
print(string.punctuation) # помогает разделить предложения

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


#### Стемминг vs Лемматизация
* ‘Caring’ -> Лемматизация -> ‘Care’
* ‘Caring’ -> Стемминг -> ‘Car’

### Борьба с различными видами слова (слово имеет разные формы, но одно и тоже значение)

### Стемминг
* процесс нахождения основы слова для заданного исходного слова (убираем из конца несколько символов)

In [18]:
from nltk.stem import PorterStemmer, SnowballStemmer
words = ["game", "gaming", "gamed", "games", "compacted"]
words_ru = ['корова', 'мальчики', 'мужчины', 'столом', 'убежала']

In [19]:
ps = PorterStemmer() # более старый стеммер
list(map(ps.stem, words)) # хороший пример

['game', 'game', 'game', 'game', 'compact']

In [20]:
ss = SnowballStemmer(language='russian') # усовершенствованная версия PorterStemmer (более новая)
list(map(ss.stem, words_ru)) # плохой пример

['коров', 'мальчик', 'мужчин', 'стол', 'убежа']

### Лематизация
* процесс приведения словоформы к лемме — её нормальной (словарной) форме

In [21]:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""

raw_ru = """Не существует научных доказательств в пользу эффективности НЛП, оно 
признано псевдонаукой. Систематические обзоры указывают, что НЛП основано на 
устаревших представлениях об устройстве мозга, несовместимо с современной 
неврологией и содержит ряд фактических ошибок."""

In [22]:
#!pip install -q pymorphy2

In [23]:
# 1
import pymorphy2 # rule-based библиотека (основана только на слове, контекст не смотрится)
# у нас нас есть правилао и мы слово по этому правилу интрепретируем
morph = pymorphy2.MorphAnalyzer() # анализатор морфологии
pymorphy_results = list(map(lambda x: morph.parse(x), raw_ru.split(' ')))
print(' '.join([res[0].normal_form for res in pymorphy_results]))

не существовать научный доказательство в польза эффективность нлп, оно 
признать псевдонаукой. систематический обзор указывают, что нлп основать на 
устаревший представление о устройство мозга, несовместимый с современный 
неврология и содержать ряд фактический ошибок.


In [24]:
pymorphy_results[2]

[Parse(word='научных', tag=OpencorporaTag('ADJF,Qual plur,gent'), normal_form='научный', score=0.774193, methods_stack=((DictionaryAnalyzer(), 'научных', 12, 21),)),
 Parse(word='научных', tag=OpencorporaTag('ADJF,Qual plur,loct'), normal_form='научный', score=0.209677, methods_stack=((DictionaryAnalyzer(), 'научных', 12, 26),)),
 Parse(word='научных', tag=OpencorporaTag('ADJF,Qual anim,plur,accs'), normal_form='научный', score=0.016129, methods_stack=((DictionaryAnalyzer(), 'научных', 12, 23),))]

In [25]:
# 2
import spacy # нейросетевой подход (с рассмотрением контекста)
nlp = spacy.load('en_core_web_sm')
spacy_results = nlp(raw)
print(' '.join([token.lemma_ for token in spacy_results]))



dennis : listen , strange woman lie in pond distribute sword 
 be no basis for a system of government .   Supreme executive power derive from 
 a mandate from the masse , not from some farcical aquatic ceremony .


[Сравнение PyMorphy2 и PyMystem3](https://habr.com/ru/post/503420/)

### Минус PyMystem3 в долгой инициализации (хотя если объединить все тексты, лемматизируем, затем разделим, то будет быстро)

### Part-of-Speech (определение части речи)

### уменьшили словарь и его помощью описываем текст (слово признак текста)
### признаки слов тоже могут быть признаками текста

In [26]:
# 1
[(res[0].normal_form, res[0].tag) for res in pymorphy_results[:9]]

[('не', OpencorporaTag('PRCL')),
 ('существовать', OpencorporaTag('VERB,impf,intr sing,3per,pres,indc')),
 ('научный', OpencorporaTag('ADJF,Qual plur,gent')),
 ('доказательство', OpencorporaTag('NOUN,inan,neut plur,gent')),
 ('в', OpencorporaTag('PREP')),
 ('польза', OpencorporaTag('NOUN,inan,femn sing,accs')),
 ('эффективность', OpencorporaTag('NOUN,inan,femn sing,gent')),
 ('нлп,', OpencorporaTag('UNKN')),
 ('оно', OpencorporaTag('NPRO,neut,3per,Anph sing,nomn'))]

In [27]:
# 2
[(token.lemma_, token.pos_) for token in spacy_results[:7]]

[('dennis', 'NOUN'),
 (':', 'PUNCT'),
 ('listen', 'VERB'),
 (',', 'PUNCT'),
 ('strange', 'ADJ'),
 ('woman', 'NOUN'),
 ('lie', 'VERB')]

In [28]:
#!pip install -q rnnmorph

### Named entities recognition

In [29]:
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


In [30]:
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


### если привести всё к нижнему регистру, то имена компаний могут не распознаться (Apple - apple)

## при работе с текстом нет идеального пайплайна (для каждого он свой: нужно предварительно анализировать текст)

## Часть 2

### Задача классификации

#### 20 newsgroups
Датасет с 18000 новостей, сгруппированных по 20 темам.

In [31]:
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

In [32]:
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [34]:
newsgroups_train.filenames

array(['C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.autos\\102994',
       'C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.mac.hardware\\51861',
       'C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.mac.hardware\\51879',
       ...,
       'C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.ibm.pc.hardware\\60695',
       'C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.graphics\\38319',
       'C:\\Users\\BIT\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.motorcycles\\104440'],
      dtype='<U93')

In [33]:
newsgroups_train.filenames.shape

(11314,)

#### Рассмотрим подвыборку

In [35]:
categories = ['alt.atheism', 'talk.religion.misc',
              'comp.graphics', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train',
                                      categories=categories)
newsgroups_train.filenames.shape

(2034,)

In [36]:
print(newsgroups_train.data[0])

From: rych@festival.ed.ac.uk (R Hawkes)
Subject: 3DS: Where did all the texture rules go?
Lines: 21

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych

Rycharde Hawkes				email: rych@festival.ed.ac.uk
Virtual Environment Laboratory
Dept. of Psychology			Tel  : +44 31 650 3426
Univ. of Edinburgh			Fax  : +44 31 667 0150



In [37]:
newsgroups_train.target[:10]

array([1, 3, 2, 0, 2, 0, 2, 1, 2, 1], dtype=int64)

#### TF-IDF(напоминание)

$n_{\mathbb{d}\mathbb{w}}$ - число вхождений слова $\mathbb{w}$ в документ $\mathbb{d}$;<br>
$N_{\mathbb{w}}$ - число документов, содержащих $\mathbb{w}$;<br>
$N$ - число документов; <br><br>

$p(\mathbb{w}, \mathbb{d}) = N_{\mathbb{w}} / N$ - вероятность наличия слова $\mathbb{w}$ в любом документе $\mathbb{d}$
<br>
$P(\mathbb{w}, \mathbb{d}, n_{\mathbb{d}\mathbb{w}}) = (N_{\mathbb{w}} / N)^{n_{\mathbb{d}\mathbb{w}}}$ - вероятность встретить $n_{\mathbb{d}\mathbb{w}}$ раз слово $\mathbb{w}$ в документе $\mathbb{d}$<br><br>

$-\log{P(\mathbb{w}, \mathbb{d}, n_{\mathbb{d}\mathbb{w}})} = n_{\mathbb{d}\mathbb{w}} \cdot \log{(N / N_{\mathbb{w}})} = TF(\mathbb{w}, \mathbb{d}) \cdot IDF(\mathbb{w})$<br><br>

$TF(\mathbb{w}, \mathbb{d}) = n_{\mathbb{d}\mathbb{w}}$ - term frequency;<br>
$IDF(\mathbb{w}) = \log{(N /N_{\mathbb{w}})}$ - inverted document frequency;

### Чем меньше вероятность слова w, тем оно важнее для документа D
### Чем TF-IDF больше, тем важнее слово

#### Давайте векторизуем эти тексты с помощью TF-IDF

In [38]:
from sklearn.feature_extraction.text import TfidfVectorizer

#### Некоторые параметры: 
* input : string {‘filename’, ‘file’, ‘content’}
*  lowercase : boolean, default True
*  preprocessor : callable or None (default)
*  tokenizer : callable or None (default)
*  stop_words : string {‘english’}, list, or None (default)
*  ngram_range : tuple (min_n, max_n)
*  max_df : float in range [0.0, 1.0] or int, default=1.0
*  min_df : float in range [0.0, 1.0] or int, default=1
*  max_features : int or None, default=None

#### Перебор параметров

In [39]:
# lowercase
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 34118)

In [40]:
vectorizer = TfidfVectorizer(lowercase=False)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 42307)

### Число признаков уменьшилось на 8 тысяч (с 42307 до 34118)

In [41]:
vectorizer.get_feature_names()[:10]

['00',
 '000',
 '0000',
 '00000',
 '000000',
 '000005102000',
 '000021',
 '000062David42',
 '0000VEC',
 '0001']

### в признаки записались неинформативные слова, поэтому ограничиваем TF-IDF на min и max

In [48]:
# min_df, max_df
vectorizer = TfidfVectorizer(min_df=0.8)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 9)

In [49]:
vectorizer.get_feature_names() # самые часто встречаемые слова (находятся в шаблоне) (не важны для классификации)

['and', 'from', 'in', 'lines', 'of', 'organization', 'subject', 'the', 'to']

In [50]:
vectorizer = TfidfVectorizer(min_df=0.01, max_df=0.8) # ограничили слова на min и max tf-idf
# уменьшили кол-во признаков до 2391
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 2391)

In [52]:
# ngram_range
# уменьшили кол-во признаков до 1236
vectorizer = TfidfVectorizer(ngram_range=(1, 3), min_df=0.03, max_df=0.9)
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape

(2034, 1236)

In [53]:
# стоп-слова, preproc
from nltk.corpus import stopwords # импортировали стоп-слова из модуля nltk.corpus
stopWords = set(stopwords.words('english'))
nltk.download('wordnet')
wnl = nltk.WordNetLemmatizer()

def preproc_nltk(text):
    #text = re.sub(f'[{string.punctuation}]', ' ', text)
    # text разбивается на слова с помощью word_tokenize c lower(), убираются стоп слова и лемматизируются WordNetLemmatizer 
    # и конкатерируются в исходную строку через пробелы 
    return ' '.join([wnl.lemmatize(word) for word in word_tokenize(text.lower()) if word not in stopWords])

st = "Oh, I think I ve landed Where there are miracles at work,  For the thirst and for the hunger Come the conference of birds"
preproc_nltk(st)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\BIT\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


'oh , think landed miracle work , thirst hunger come conference bird'

In [54]:
%%time # замер скорости с preproc_nltk
vectorizer = TfidfVectorizer(preprocessor=preproc_nltk) # препроцесс в векторайзере
vectors = vectorizer.fit_transform(newsgroups_train.data)

Wall time: 10.1 s


In [55]:
# preproc_spacy
nlp = spacy.load("en_core_web_sm")
texts = newsgroups_train.data.copy()

def preproc_spacy(text):
    spacy_results = nlp(text)
    return ' '.join([token.lemma_ for token in spacy_results if token.lemma_ not in stopWords])
preproc_spacy(st)

'oh , I think I land miracle work ,   thirst hunger come conference bird'

In [56]:
%%time
new_texts = []
for doc in nlp.pipe(texts, batch_size=32, n_process=3, disable=["parser", "ner"]): # ручной препроцесс
    # также можно делать парс текста и решается задача named entities recognition
    # убрали стоп-слова и лемматизировали с использованием pipeline из spacy
    new_texts.append(' '.join([tok.lemma_ for tok in doc if tok.lemma not in stopWords]))
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(new_texts)

Wall time: 48.6 s


In [59]:
print(newsgroups_train.data[0])

From: rych@festival.ed.ac.uk (R Hawkes)
Subject: 3DS: Where did all the texture rules go?
Lines: 21

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych

Rycharde Hawkes				email: rych@festival.ed.ac.uk
Virtual Environment Laboratory
Dept. of Psychology			Tel  : +44 31 650 3426
Univ. of Edinburgh			Fax  : +44 31 667 0150



In [58]:
print(new_texts[0])

from : rych@festival.ed.ac.uk ( R Hawkes ) 
 subject : 3ds : where do all the texture rule go ? 
 line : 21 

 hi , 

 I 've notice that if you only save a model ( with all your mapping plane 
 position carefully ) to a .3ds file that when you reload it after restart 
 3ds , they be give a default position and orientation .   but if you save 
 to a .PRJ file their position / orientation be preserve .   do anyone 
 know why this information be not store in the .3ds file ?   nothing be 
 explicitly say in the manual about save texture rule in the .prj file . 
 I 'd like to be able to read the texture rule information , do anyone have 
 the format for the .PRJ file ? 

 be the .cel file format available from somewhere ? 

 rych 

 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
 Rycharde Hawkes 				 email : rych@festival.ed.ac.uk 
 Virtual Environment Laboratory 
 Dept . of psychology 			 Tel   : 

### скорее всего у spacy получилось лучше чем у nltk (но nltk быстрее)

#### Итоговая модель

In [60]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3), max_df=0.5, max_features=1000)
vectors = vectorizer.fit_transform(new_texts) # использовали ручной препроцес с использованием spacy
vectorizer.get_feature_names()[::100]
# каждое письмо заменили на вектор (1,1000) со значениями tf-idf

['000',
 'atheism',
 'center',
 'edu keith',
 'history',
 'list',
 'of course',
 'regard',
 'system',
 'uk']

#### Можем посмотреть на косинусную меру между векторами

In [69]:
vectors.todense()[0] # вектор tf-idf первого письма (его численное представление)

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.09244108,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.08977755,
         0.09028781, 0.04727086, 0.        , 0.        , 0.18679336,
         0.20551589, 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.06969078, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.09551821, 0.        , 0.08504219, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0

In [64]:
vector = vectors.todense()[0]
(vector != 0).sum() # кол-во ненулевых значений

51

In [65]:
vector.shape

(1, 1000)

In [73]:
import numpy as np
from numpy.linalg import norm

type(vectors) # sparse-matrix -- разреженная матрица (позволяет экономно её хранить)

scipy.sparse.csr.csr_matrix

In [74]:
np.mean(list(map(lambda x: (x != 0).sum(), vectors.todense()))) # в среднем 89 ненулевых значений в векторах

88.9031465093412

In [75]:
dense_vectors = vectors.todense()
dense_vectors.shape

(2034, 1000)

In [77]:
def cosine_sim(v1, v2): # косинусная схожесть
    # v1, v2 (1 x dim)
    return np.array(v1 @ v2.T / norm(v1) / norm(v2))[0][0]
# косинусное расстояние = 1 - косинусная схожесть
# чем меньше расстояние тем лучше ; чем больше схожесть тем лучше

In [78]:
cosine_sim(dense_vectors[0], dense_vectors[0]) # схожесть слова с самим собой равна 1

1.0

In [79]:
cosines = []
for i in range(10):
    cosines.append(cosine_sim(dense_vectors[0], dense_vectors[i]))

In [80]:
# [1, 3, 2, 0, 2, 0, 2, 1, 2, 1] метки классов этих векторов
cosines # схожести между вектором 0 и векторами 0-9

[1.0,
 0.041994526657641695,
 0.005915875089722349,
 0.060537611541265704,
 0.07089007602730961,
 0.0473229115770439,
 0.0336722125307721,
 0.22677999604707713,
 0.030437028116848494,
 0.04013968640436646]

#### Обучим любую известную модель на полученных признаках

In [81]:
# используем модели машинного обучения и разбиваем выборку
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import svm
from sklearn.linear_model import SGDClassifier

X_train, X_test, y_train, y_test= train_test_split(dense_vectors, newsgroups_train.target, test_size=0.2, random_state=0)
y_train.shape, y_test.shape

((1627,), (407,))

In [82]:
%%time
svc = svm.SVC()
svc.fit(X_train, y_train)

Wall time: 1.45 s


SVC()

In [83]:
accuracy_score(y_test, svc.predict(X_test))

0.9238329238329238

In [84]:
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
accuracy_score(y_test, sgd.predict(X_test))

0.9164619164619164

### без обучения качество примерно 0.25 (т.к 4 класса)

### Embeddings

### embeddings -- числовое предствление текстов (вектор)

In [85]:
import gensim.downloader as api
embeddings_pretrained = api.load('glove-twitter-25')
# embeddings обученные на твиттере (внутри вектора размерности 25)



In [86]:
from gensim.models import Word2Vec 

proc_words = [preproc_nltk(text).split() for text in newsgroups_train.data]
embeddings_trained = Word2Vec(proc_words, # обучаем свои embeddings с помощью Word2Vec
                 size=100,                 # размерность вектора
                 min_count=3,             # минимальное кол-во вхожений слова в текста
                 window=3                 # с окном размерности 3 смотрим на 2 влево и на 2 вправо от слова
                ).wv

In [87]:
def vectorize_sum(comment, embeddings):
    """
    реализация функции, которая преобразует предварительно обработанный комментарий в сумму векторов токенов
    """
    embedding_dim = embeddings.vectors.shape[1] # размерность вектора из embeddings
    features = np.zeros([embedding_dim], dtype='float32') # иницализация фичей нулями

    for word in preproc_nltk(comment).split():
        if word in embeddings:
            features += embeddings[f'{word}'] # сложили все вектора слов в тексте и получили вектор описывающий текст
    
    return features
# минус -- достаточно примитивно
# для аккумуляции знаний со всех эмбидингов можно использовать CNN, RNN

In [100]:
embeddings_pretrained.index2word # слова в предобученных эмбидингах

['<user>',
 '.',
 ':',
 'rt',
 ',',
 '<repeat>',
 '<hashtag>',
 '<number>',
 '<url>',
 '!',
 'i',
 'a',
 '"',
 'the',
 '?',
 'you',
 'to',
 '(',
 '<allcaps>',
 '<elong>',
 ')',
 'me',
 'de',
 '<smile>',
 '！',
 'que',
 'and',
 '。',
 '-',
 'my',
 'no',
 '、',
 'is',
 'it',
 '…',
 'in',
 'n',
 'for',
 '/',
 'of',
 'la',
 "'s",
 '*',
 'do',
 "n't",
 'that',
 'on',
 'y',
 "'",
 'e',
 'o',
 'u',
 'en',
 'this',
 'el',
 'so',
 'be',
 "'m",
 'with',
 'just',
 '>',
 'your',
 '^',
 'like',
 'have',
 'te',
 'at',
 '？',
 'love',
 'se',
 'are',
 '<',
 'm',
 'r',
 'if',
 'all',
 'b',
 '・',
 'not',
 'but',
 'we',
 'es',
 'ya',
 '&',
 'follow',
 'up',
 'what',
 'get',
 'lol',
 'un',
 '♥',
 'lo',
 'when',
 'was',
 '“',
 '”',
 'one',
 'por',
 'si',
 'out',
 '_',
 'mi',
 'can',
 '<sadface>',
 'من',
 '♡',
 '´',
 'he',
 'con',
 'they',
 'now',
 'go',
 '،',
 'para',
 'los',
 'know',
 'haha',
 'good',
 'tu',
 'back',
 '~',
 'about',
 'new',
 ';',
 'as',
 'day',
 'how',
 'who',
 'will',
 'want',
 'people',
 'y

In [98]:
len(embeddings_pretrained.index2word) # количество слов в предобученных эмбидингах

1193514

In [97]:
embeddings_trained.index2word # слова в обученных эмбидингах

[',',
 '.',
 '>',
 ':',
 '--',
 ')',
 '(',
 '*',
 '@',
 "''",
 '?',
 '|',
 '``',
 "'s",
 "n't",
 '-',
 'line',
 'subject',
 '<',
 'organization',
 '!',
 'one',
 'would',
 'writes',
 'article',
 ';',
 'god',
 '...',
 'space',
 'people',
 'like',
 ']',
 '[',
 'know',
 'think',
 '#',
 'university',
 'system',
 'nntp-posting-host',
 'say',
 'time',
 'image',
 'also',
 '$',
 'get',
 'thing',
 'could',
 "'",
 'see',
 'u',
 "'m",
 'many',
 'may',
 'way',
 'point',
 'good',
 'make',
 'file',
 'even',
 'christian',
 'well',
 'world',
 'year',
 'program',
 'jesus',
 'use',
 'first',
 'much',
 '1',
 'new',
 'question',
 'said',
 '+',
 'need',
 'want',
 'data',
 'work',
 'science',
 '=',
 'believe',
 'find',
 'something',
 'mean',
 'graphic',
 'ca',
 'atheist',
 'anyone',
 'right',
 'nasa',
 'life',
 'problem',
 'must',
 'go',
 'two',
 'book',
 "'ve",
 'please',
 'distribution',
 'read',
 'take',
 'group',
 'religion',
 '&',
 'word',
 'version',
 'computer',
 'since',
 'used',
 'come',
 '2',
 'mig

In [88]:
len(embeddings_trained.index2word) # количество слов в обученных эмбидингах

13566

In [93]:
X_wv = np.stack([vectorize_sum(text, embeddings_pretrained) for text in newsgroups_train.data])
X_train_wv, X_test_wv, y_train, y_test = train_test_split(X_wv, newsgroups_train.target, test_size=0.2, random_state=0)
X_train_wv.shape, X_test_wv.shape

((1627, 25), (407, 25))

In [94]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=5000)
wv_model = clf.fit(X_train_wv, y_train)
accuracy_score(y_test, wv_model.predict(X_test_wv))
# обучение с претреннированными эмбидингами

0.7027027027027027

In [95]:
X_wv = np.stack([vectorize_sum(text, embeddings_trained) for text in newsgroups_train.data])
X_train_wv, X_test_wv, y_train, y_test = train_test_split(X_wv, newsgroups_train.target, test_size=0.2, random_state=0)
X_train_wv.shape, X_test_wv.shape

((1627, 100), (407, 100))

In [96]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

clf = LogisticRegression(max_iter=10000)
wv_model = clf.fit(X_train_wv, y_train)
accuracy_score(y_test, wv_model.predict(X_test_wv))
# обучение с обученными эмбидингами (почему ами????)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8624078624078624

### результат хуже из-за малой размерности векторов и примитивности операций (сложение векторов)