#  Лекция 1: Предобработка текста

# 1. Токенизация

## 1.1 Библиотека nltk

In [1]:
!pip install nltk

[33mYou are using pip version 18.0, however version 18.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [1]:
from nltk import tokenize

In [2]:
dir(tokenize)[:16] # столько токенизаторов доступно в nltk

['BlanklineTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordTokenizer',
 'TweetTokenizer',
 'WhitespaceTokenizer',
 'WordPunctTokenizer']

In [4]:
text = "В XIX веке, когда А. Дюма-отец создавал свой цикл о мушкетерах, фантастичность мемуаров Д'Артаньяна былауже хорошо известна."

In [3]:
tok1 = tokenize.WordPunctTokenizer()

In [5]:
tokens1 = tok1.tokenize(text)
print (tokens1)
print(len(tokens1))

['В', 'XIX', 'веке', ',', 'когда', 'А', '.', 'Дюма', '-', 'отец', 'создавал', 'свой', 'цикл', 'о', 'мушкетерах', ',', 'фантастичность', 'мемуаров', 'Д', "'", 'Артаньяна', 'былауже', 'хорошо', 'известна', '.']
25


In [6]:
tok2 = tokenize.WhitespaceTokenizer()

In [7]:
tokens2 = tok2.tokenize(text)
print (tokens2)
print(len(tokens2))


['В', 'XIX', 'веке,', 'когда', 'А.', 'Дюма-отец', 'создавал', 'свой', 'цикл', 'о', 'мушкетерах,', 'фантастичность', 'мемуаров', "Д'Артаньяна", 'былауже', 'хорошо', 'известна.']
17


In [8]:
tok3 = tokenize.TreebankWordTokenizer()

In [9]:
tokens3 = tok3.tokenize(text)
print (tokens3)
print(len(tokens3))


['В', 'XIX', 'веке', ',', 'когда', 'А.', 'Дюма-отец', 'создавал', 'свой', 'цикл', 'о', 'мушкетерах', ',', 'фантастичность', 'мемуаров', "Д'Артаньяна", 'былауже', 'хорошо', 'известна', '.']
20


## ! Какой из токенизаторов (TreebankWordTokenizer, WhitespaceTokenizer, WordPunctTokenizer) формирует максимальное количество токенов для корпуса onegin?

In [10]:
with open("data/onegin.txt") as f_in:
    content = f_in.read()

tokens1 = tok1.tokenize(content)
print(len(tokens1))

28765


In [11]:
tokens2 = tok2.tokenize(content)
print(len(tokens2))

22728


In [12]:
tokens3 = tok3.tokenize(content)
print(len(tokens3))

27774


#### Для обработки языка есть еще неплохая библиотека Spacy
https://spacy.io/

# 2. Стемминг

In [13]:
from nltk import stem

In [14]:
dir(stem)[:6]  # стеммеры в nltk

['ISRIStemmer',
 'LancasterStemmer',
 'PorterStemmer',
 'RSLPStemmer',
 'RegexpStemmer',
 'SnowballStemmer']

In [15]:
text = "Los Angeles created the first municipal zoning ordinance in the United States"

In [16]:
stemmer1 = stem.PorterStemmer()
for token in text.split():
    print(stemmer1.stem(token), end=" ")

lo angel creat the first municip zone ordin in the unit state 

In [17]:
stemmer2 = stem.LancasterStemmer()
for token in text.split():
    print(stemmer2.stem(token), end=" ")

los angel cre the first municip zon ordin in the unit stat 

In [18]:
stemmer3 = stem.SnowballStemmer('english')
for token in text.split():
    print(stemmer3.stem(token), end=" ")

los angel creat the first municip zone ordin in the unit state 

### C русским языком работает SnowballStemmer

In [19]:
text_rus = "варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове"

In [20]:
stemmer_rus = stem.SnowballStemmer('russian')
for token in text_rus.split():
    print(stemmer_rus.stem(token), end=" ")

варка хливк шорьк пыря по нав и хрюкота зелюк как мюмзик в мов 

# 3. Лемматизация

## 3.1. Библиотека pymorphy2

In [28]:
!pip install pymorphy2
!pip install pymorphy2-dicts

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/a3/33/fff9675c68b5f6c63ec8c6e6ff57827dda28a1fa5b2c2d727dffff92dd47/pymorphy2-0.8-py2.py3-none-any.whl (46kB)
[K    100% |████████████████████████████████| 51kB 1.1MB/s ta 0:00:01
[?25hCollecting dawg-python>=0.7 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2)
[?25l  Downloading https://files.pythonhosted.org/packages/02/51/2465fd4f72328ab50877b54777764d928da8cb15b74e2680fc1bd8cb3173/pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.whl (7.1MB)
[K    100% |████████████████████████████████| 7.1MB 5.1MB/s eta 0:00:01
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/a2/55/8f8cab2afd404cf578136ef2cc5dfb50baa1761b68c9da1fb1e4eed343c9/docopt-0.6.2.tar.gz
Building wheels for col

In [21]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

### Выполним морфологический разбор слова "стали"

In [22]:
word = "стали"

In [23]:
p = morph.parse('стали') #  возвращает все возможные разборы слова "стали"
p

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [24]:
p[0].normal_form # лемма для глагола

'стать'

In [25]:
p[1].normal_form # лемма для существительного

'сталь'

### Выполним морфологический разбор несловарных слов

In [35]:
word = "бутявка"

In [37]:
type(morph.parse(word)[0])

pymorphy2.analyzer.Parse

In [27]:
p = morph.parse(word)[0]
p

Parse(word='бутявка', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явка', 8, 0), (<UnknownPrefixAnalyzer>, 'бут')))

Расшифровку граммем можно найти [здесь](https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html)

### pymorphy умеет склонять слова, даже несловарные

In [28]:
p.inflect({'plur', 'gent'}) # ставит в родительный падеж, множественное число

Parse(word='бутявок', tag=OpencorporaTag('NOUN,inan,femn plur,gent'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явок', 8, 8), (<UnknownPrefixAnalyzer>, 'бут')))

## ! Выполните морфологический разбор токенов предложения 
Для каких токенов нормальная форма не совпадает с истинной (определите сами)?

In [29]:
bredos = "варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове"

In [34]:
### DO IT!
tok2 = tokenize.WhitespaceTokenizer()
text1 = tok2.tokenize(bredos)
for word in text1:
    print ((morph.parse(word)[0]).normal_form)

варкалось
хливкий
шорёк
пыряться
по
нава
и
хрюкоталь
зелюк
как
мюмзика
в
мов


## 3.2. MyStem

In [41]:
!pip install pymystem3

[33mYou are using pip version 18.0, however version 18.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [42]:
from pymystem3 import Mystem
m = Mystem()

In [43]:
word = "стали"
m.analyze(word)

[{'analysis': [{'lex': 'становиться',
    'wt': 0.9821285244,
    'gr': 'V,нп=прош,мн,изъяв,сов'}],
  'text': 'стали'},
 {'text': '\n'}]

In [44]:
m.lemmatize(word)

['становиться', '\n']

### Mystem тоже умеет выполнять морфологический разбор несловарных слов

In [45]:
word = "бутявки"
m.analyze(word)

[{'analysis': [{'lex': 'бутявка',
    'wt': 0.562536298,
    'qual': 'bastard',
    'gr': 'S,жен,неод=(вин,мн|род,ед|им,мн)'}],
  'text': 'бутявки'},
 {'text': '\n'}]

## ! Выполните морфологический разбор токенов предложения 
Для каких токенов нормальная форма не совпадает с истинной (определите сами)?

In [46]:
bredos = "варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове"

In [47]:
# DO IT!
text2 = tok2.tokenize(bredos)
text2

['варкалось',
 'хливкие',
 'шорьки',
 'пырялись',
 'по',
 'наве',
 'и',
 'хрюкотали',
 'зелюки',
 'как',
 'мюмзики',
 'в',
 'мове']

In [51]:
for word in text2:
    print(m.analyze(word))
    print()

[{'analysis': [{'lex': 'варкаться', 'wt': 1, 'qual': 'bastard', 'gr': 'V,несов,нп=прош,ед,изъяв,сред'}], 'text': 'варкалось'}, {'text': '\n'}]

[{'analysis': [{'lex': 'хливкий', 'wt': 0.9958436629, 'qual': 'bastard', 'gr': 'A=(вин,мн,полн,неод|им,мн,полн)'}], 'text': 'хливкие'}, {'text': '\n'}]

[{'analysis': [{'lex': 'шорька', 'wt': 0.3092010264, 'qual': 'bastard', 'gr': 'S,жен,неод=(вин,мн|род,ед|им,мн)'}], 'text': 'шорьки'}, {'text': '\n'}]

[{'analysis': [{'lex': 'пыряться', 'wt': 1, 'gr': 'V,несов,нп=прош,мн,изъяв'}], 'text': 'пырялись'}, {'text': '\n'}]

[{'analysis': [{'lex': 'по', 'wt': 1, 'gr': 'PR='}], 'text': 'по'}, {'text': '\n'}]

[{'analysis': [{'lex': 'нав', 'wt': 1, 'gr': 'S,имя,муж,од=пр,ед'}], 'text': 'наве'}, {'text': '\n'}]

[{'analysis': [{'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}], 'text': 'и'}, {'text': '\n'}]

[{'analysis': [{'lex': 'хрюкотать', 'wt': 0.4794674503, 'qual': 'bastard', 'gr': 'V,несов,нп=прош,мн,изъяв'}], 'text': 'хрюкотали'}, {'text': '\n'}]
