# Предобработка текста

## Часть 1

### Токенизация

In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
data = "All work and no play makes jack a dull boy, all work and no play"
tokens = word_tokenize(data.lower())
print(tokens)

['all', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']


In [None]:
print(sent_tokenize("I was going home when she rung. It was a surprise."))

['I was going home when she rung.', 'It was a surprise.']


[<img src="https://raw.githubusercontent.com/natasha/natasha-logos/master/natasha.svg">](https://github.com/natasha/natasha)

[Razdel](https://natasha.github.io/razdel/)

In [None]:
!pip install -q razdel

In [None]:
from razdel import tokenize, sentenize
text = 'Кружка-термос на 0.5л (50/64 см³, 516;...)'
list(tokenize(text))

[Substring(0, 13, 'Кружка-термос'),
 Substring(14, 16, 'на'),
 Substring(17, 20, '0.5'),
 Substring(20, 21, 'л'),
 Substring(22, 23, '('),
 Substring(23, 28, '50/64'),
 Substring(29, 32, 'см³'),
 Substring(32, 33, ','),
 Substring(34, 37, '516'),
 Substring(37, 38, ';'),
 Substring(38, 41, '...'),
 Substring(41, 42, ')')]

#### Регулярные выражения

Исчерпывающий пост https://habr.com/ru/post/349860/

In [None]:
import re
word = 'supercalifragilisticexpialidocious'
re.findall('[abc]|up|super', word)

['super', 'c', 'a', 'a', 'c', 'a', 'c']

In [None]:
re.findall('\d{1,3}', 'These are some numbers: 49 and 432312')

['49', '432', '312']

In [None]:
re.sub('[,\.?!]','','How, to? split. text!')

'How to split text'

In [None]:
re.sub('[^A-z]',' ','I 123 can 45 play 67 football').split()

['I', 'can', 'play', 'football']

### Удаление неинформативных слов

#### N-граммы

<img src="https://res.cloudinary.com/practicaldev/image/fetch/s--466CQV1q--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_66%2Cw_880/https://thepracticaldev.s3.amazonaws.com/i/78nf1vryed8h1tz05fim.gif" height=400>

In [None]:
unigram = list(nltk.ngrams(tokens, 1))
bigram = list(nltk.ngrams(tokens, 2))
print(unigram[:5])
print(bigram[:5])

[('all',), ('work',), ('and',), ('no',), ('play',)]
[('all', 'work'), ('work', 'and'), ('and', 'no'), ('no', 'play'), ('play', 'makes')]


In [None]:
from nltk import FreqDist
print('Популярные униграммы: ', FreqDist(unigram).most_common(5))
print('Популярные биграммы: ', FreqDist(bigram).most_common(5))

Популярные униграммы:  [(('all',), 2), (('work',), 2), (('and',), 2), (('no',), 2), (('play',), 2)]
Популярные биграммы:  [(('all', 'work'), 2), (('work', 'and'), 2), (('and', 'no'), 2), (('no', 'play'), 2), (('play', 'makes'), 1)]


#### Стоп-слова

In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
stopWords = set(stopwords.words('english'))
print(stopWords)

{'myself', 'how', 'but', 'ourselves', 'wasn', 'her', 'being', "shan't", 'just', 'it', "aren't", 'him', "you've", 'himself', 'been', 've', 'up', "wouldn't", 'through', 'yours', 'these', 'between', 'from', 'are', 'because', 'if', 'which', 'own', 'during', "wasn't", 'be', 's', "won't", 'those', 'again', 'll', 'don', 'them', 'ain', 'have', 'their', 'weren', 'has', 'as', 're', 'my', 'to', 'what', 'your', 'itself', 'shouldn', 'some', 'off', 'wouldn', "doesn't", 'an', 'is', 'having', 'too', 'a', 'such', 'here', 'yourself', "should've", 'didn', 'and', 'was', 'most', 'when', 'hasn', 'themselves', 'above', 'mustn', 'by', 'i', 'where', 'no', "weren't", 'he', 'theirs', "hasn't", 'isn', 'under', 'did', 'our', "mightn't", "shouldn't", 'of', 'you', 'couldn', 'can', 'does', "you'd", 'about', 'further', 'needn', 'after', 'ours', "haven't", 'into', 'his', 'against', 'd', 'o', 'with', 'very', "didn't", 'out', 'doesn', 'ma', 'while', 'herself', 'y', 'the', 'each', 'won', 'then', 'both', 'aren', 'mightn', 

In [None]:
print([word for word in tokens if word not in stopWords])

['work', 'play', 'makes', 'jack', 'dull', 'boy', ',', 'work', 'play']


In [None]:
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


#### Стемминг vs Лемматизация
* ‘Caring’ -> Лемматизация -> ‘Care’
* ‘Caring’ -> Стемминг -> ‘Car’

### Стемминг
* процесс нахождения основы слова для заданного исходного слова

In [None]:
from nltk.stem import PorterStemmer, SnowballStemmer
words = ["game", "gaming", "gamed", "games", "compacted"]
words_ru = ['корова', 'мальчики', 'мужчины', 'столом', 'убежала']

In [None]:
ps = PorterStemmer()
list(map(ps.stem, words))

['game', 'game', 'game', 'game', 'compact']

In [None]:
ss = SnowballStemmer(language='russian')
list(map(ss.stem, words_ru))

['коров', 'мальчик', 'мужчин', 'стол', 'убежа']

### Лематизация
* процесс приведения словоформы к лемме — её нормальной (словарной) форме

In [None]:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""

raw_ru = """Не существует научных доказательств в пользу эффективности НЛП, оно
признано псевдонаукой. Систематические обзоры указывают, что НЛП основано на
устаревших представлениях об устройстве мозга, несовместимо с современной
неврологией и содержит ряд фактических ошибок."""

In [None]:
!pip install -q pymorphy2

[K     |████████████████████████████████| 61kB 3.1MB/s 
[K     |████████████████████████████████| 8.2MB 7.4MB/s 
[?25h

In [None]:
# 1
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
pymorphy_results = list(map(lambda x: morph.parse(x), raw_ru.split(' ')))
print(' '.join([res[0].normal_form for res in pymorphy_results]))

не существовать научный доказательство в польза эффективность нлп, оно 
признать псевдонаукой. систематический обзор указывают, что нлп основать на 
устаревший представление о устройство мозга, несовместимый с современный 
неврология и содержать ряд фактический ошибок.


In [None]:
# 2
import spacy
nlp = spacy.load('en')
spacy_results = nlp(raw)
print(' '.join([token.lemma_ for token in spacy_results]))

denni : listen , strange woman lie in pond distribute sword 
 be no basis for a system of government .   Supreme executive power derive from 
 a mandate from the masse , not from some farcical aquatic ceremony .


[Сравнение PyMorphy2 и PyMystem3](https://habr.com/ru/post/503420/)

### Part-of-Speech

In [None]:
# 1
[(res[0].normal_form, res[0].tag) for res in pymorphy_results[:9]]

[('не', OpencorporaTag('PRCL')),
 ('существовать', OpencorporaTag('VERB,impf,intr sing,3per,pres,indc')),
 ('научный', OpencorporaTag('ADJF,Qual plur,gent')),
 ('доказательство', OpencorporaTag('NOUN,inan,neut plur,gent')),
 ('в', OpencorporaTag('PREP')),
 ('польза', OpencorporaTag('NOUN,inan,femn sing,accs')),
 ('эффективность', OpencorporaTag('NOUN,inan,femn sing,gent')),
 ('нлп,', OpencorporaTag('UNKN')),
 ('оно', OpencorporaTag('NPRO,neut,3per,Anph sing,nomn'))]

In [None]:
# 2
[(token.lemma_, token.pos_) for token in spacy_results[:7]]

[('denni', 'NOUN'),
 (':', 'PUNCT'),
 ('listen', 'VERB'),
 (',', 'PUNCT'),
 ('strange', 'ADJ'),
 ('woman', 'NOUN'),
 ('lie', 'VERB')]

In [None]:
!pip install -q rnnmorph

[K     |████████████████████████████████| 10.5MB 6.2MB/s 
[?25h  Building wheel for rnnmorph (setup.py) ... [?25l[?25hdone
  Building wheel for russian-tagsets (setup.py) ... [?25l[?25hdone


In [None]:
# 3
from rnnmorph.predictor import RNNMorphPredictor
predictor = RNNMorphPredictor(language="ru")
rnnmorph_result = predictor.predict(raw_ru.split(' '))
[(token.normal_form, token.pos, token.tag) for token in rnnmorph_result[:7]]

[('не', 'PART', '_'),
 ('существовать',
  'VERB',
  'Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Act'),
 ('научный', 'ADJ', 'Case=Gen|Degree=Pos|Number=Plur'),
 ('доказательство', 'NOUN', 'Case=Gen|Gender=Neut|Number=Plur'),
 ('в', 'ADP', '_'),
 ('польза', 'NOUN', 'Case=Acc|Gender=Fem|Number=Sing'),
 ('эффективность', 'NOUN', 'Case=Gen|Gender=Fem|Number=Sing')]

### Named entities recognition

In [None]:
doc = nlp('Apple is looking at buying U.K. startup for $1 billion')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


## Часть 2

### Задача классификации

#### 20 newsgroups
Датасет с 18000 новостей, сгруппированных по 20 темам.

In [None]:
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

In [None]:
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [None]:
newsgroups_train.filenames.shape

(11314,)

#### Выполните классификацию текста на подвыборке из 4 тем новостей 3 методами машинного обучения. <br>В качестве метрики возьмите матрицу ошибок. <br>Сделайте выводы по полученным результатам

In [None]:
categories = ['rec.autos', 'talk.religion.misc',
              'sci.crypt', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train',
                                      categories=categories)
newsgroups_train.filenames.shape

(2159,)

In [None]:
newsgroups_train.filenames[0]

'/root/scikit_learn_data/20news_home/20news-bydate-train/talk.religion.misc/82814'

In [None]:
print(newsgroups_train.data[0])
print(newsgroups_train.target[0])

From: daveb@pogo.wv.tek.com (Dave Butler)
Subject: Re: NEW BIBLICAL CONTRADICTIONS [still not] ANSWERED (Judas)
Organization: Tektronix, Inc., Wilsonville,  OR.
Lines: 180

Mr DeCenso, in spite of requiring Scholarly opinion on the hanging of Judas,
rejects that the scholarly opinion of the those scholars and then rephrases
those scholars opinion on the subject:

> ...we do know from Matthew that he did hang himself and Acts probably records
> his death.  Although it's possible and plausible that he fell from the hanging
> and hit some rocks, thereby bursting open, I can no longer assume that to be
> the case.  Therefore, no contradiction.  Matthew did not say Judas died as a
>                                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
> result of the hanging, did he?  Most scholars believe he iprobably did, but..?
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
> 
> I quoted all that to show that I highly regard the scholars' explanat

In [None]:
import re
import numpy as np
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Почистим данные и преобразуем текста в списки слов

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
reg = re.compile(r"[^a-zA-z ]")
data = np.array(newsgroups_train.data)
func = np.vectorize(lambda s: re.sub(r"[\^\]\[]","",re.sub(reg, "", "".join(s.split("\n")[1:]))).lower())
data = func(data)
data = [[token.lemma_ for token in nlp(str(s))] for s in data]

In [None]:
data[0]

['subject',
 're',
 'new',
 'biblical',
 'contradiction',
 'still',
 'not',
 'answer',
 'judasorganization',
 'tektronix',
 'inc',
 'wilsonville',
 ' ',
 'orline',
 'mr',
 'decenso',
 'in',
 'spite',
 'of',
 'require',
 'scholarly',
 'opinion',
 'on',
 'the',
 'hanging',
 'of',
 'judasreject',
 'that',
 'the',
 'scholarly',
 'opinion',
 'of',
 'the',
 'those',
 'scholar',
 'and',
 'then',
 'rephrasesthose',
 'scholars',
 'opinion',
 'on',
 'the',
 'subject',
 'we',
 'do',
 'know',
 'from',
 'matthew',
 'that',
 'he',
 'do',
 'hang',
 'himself',
 'and',
 'act',
 'probably',
 'record',
 'his',
 'death',
 ' ',
 'although',
 'its',
 'possible',
 'and',
 'plausible',
 'that',
 'he',
 'fall',
 'from',
 'the',
 'hanging',
 'and',
 'hit',
 'some',
 'rock',
 'thereby',
 'burst',
 'open',
 'I',
 'can',
 'no',
 'long',
 'assume',
 'that',
 'to',
 'be',
 'the',
 'case',
 ' ',
 'therefore',
 'no',
 'contradiction',
 ' ',
 'matthew',
 'do',
 'not',
 'say',
 'judas',
 'die',
 'as',
 'a',
 '          

Сделаем список со всеми уникальными словами и создадим словарь, где каждому слову будет соответствовать его индекс.

In [None]:
vocab = list(set(word for s in data for word in s))
word_to_index = {word: i for i, word in enumerate(vocab)}
len(vocab)

52412

Преобразуем все текста в векторы

In [None]:
vData = []
for s in data:
    vector = [0] * len(vocab)
    for word in s:
        vector[word_to_index[word]] = 1
    vData.append(vector)

In [None]:
len(vData)

2159

In [None]:
np.bincount(newsgroups_train.target)

array([594, 595, 593, 377])

Дисбаланс классов наблюдается только в полседнем классе (не критичный)

Обучим модель

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [None]:
X_train, X_test, y_train, y_test = train_test_split(vData, newsgroups_train.target,
                                                    test_size=0.25,
                                                    random_state=3)

In [None]:
from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.9296296296296296

Получили неплохой результат score (accuracy)

In [None]:
predicted = model.predict(X_test)

In [None]:
confusion_matrix(y_test, predicted)

array([[137,   1,   7,   2],
       [  6, 137,   8,   0],
       [  3,   0, 151,   0],
       [  3,   1,   7,  77]])

Хороший результат, мы видим, что на главной диагонали высокие значения, модель ошиблась больше всего во втором классе. Самый лучший класс - 3, всего 3 ошибки из 154 вариантов

In [None]:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.5259259259259259

In [None]:
predicted = model.predict(X_test)
confusion_matrix(y_test, predicted)

array([[147,   0,   0,   0],
       [ 98,  52,   1,   0],
       [101,   1,  52,   0],
       [ 55,   0,   0,  33]])

Модель показала плохие результаты, она начала выдавать с большей вероятностью первый класс, поэтому первый класс безошибочный, а остальные - плохие.

In [None]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.8629629629629629

In [None]:
predicted = model.predict(X_test)
confusion_matrix(y_test, predicted)

array([[132,   3,   7,   5],
       [  8, 133,   8,   2],
       [  9,   5, 134,   6],
       [  8,   6,   7,  67]])

Результаты неплохие, но хуже чем у SVC, ошибок примерно одинаково во всех классах, но больше всего в минорном 4 классе.

Вывод: лучший результат показала SVC - 93%, следовательно она подхожит лучше для задачи классификации на этом наборе данных. (Возможно если сбалансировать классы, то DecisionTree поборолся бы с ним за первое место)