<a href="https://colab.research.google.com/github/IlyaGalyukshev/colab/blob/main/re%2Btokenization%2Bstemming%2Blemmatization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Регулярные выражения**

In [1]:
import re

In [2]:
re.search('Н.', 'Ниф-Наф-Нуф')

<re.Match object; span=(0, 2), match='Ни'>

In [3]:
re.findall('Н.', 'Ниф-Наф-Нуф')

['Ни', 'На', 'Ну']

In [4]:
re.sub('Н.', '', 'Ниф-Наф-Нуф')

'ф-ф-ф'

In [11]:
re_obj = re.compile('Н.')

print(re_obj.search('Ниф-Наф-Нуф'))
print(re_obj.findall('Ниф-Наф-Нуф'))
print(re_obj.sub('', 'Ниф-Наф-Нуф'))
print(re_obj.sub(lambda x: x.group().upper(), 'Ниф-Наф-Нуф'))

<re.Match object; span=(0, 2), match='Ни'>
['Ни', 'На', 'Ну']
ф-ф-ф
НИф-НАф-НУф


**Сербская транслитирация**

In [12]:
cyr = ['а', 'б', 'в', 'г', 'д', 'ђ', 'е', 'ж', 'з', 'и', 'ј', 'к', 'л', 'љ', 'м', 'н', 'њ', 'о', 'п', 'р', 'с', 'т', 'ћ', 'у', 'ф', 'х', 'ц', 'ч', 'џ', 'ш']
lat = ['a', 'b', 'v', 'g', 'd', 'đ', 'e', 'ž', 'z', 'i', 'j', 'k', 'l', 'lj', 'm', 'n', 'nj', 'o', 'p', 'r', 's', 't', 'ć', 'u', 'f', 'h', 'c', 'č', 'dž', 'š']

pangram_lat = "ljubazni fenjerdžija čađavog lica hoće da mi pokaže štos"
pangram_cyr = "љубазни фењерџија чађавог лица хоће да ми покаже штос"

In [22]:
dictionary = dict(zip(lat, cyr))
pattern = 'lj|dž|nj|\w'
repl = lambda x: dictionary[x.group()]

print('source:', pangram_lat)
print('result:', re.sub(pattern, repl, pangram_lat))
print('true:  ', pangram_cyr)

source: ljubazni fenjerdžija čađavog lica hoće da mi pokaže štos
result: љубазни фењерџија чађавог лица хоће да ми покаже штос
true:   љубазни фењерџија чађавог лица хоће да ми покаже штос


**Text preprocessing**

**Tokenization**

Разбиение текста на сущности

In [46]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [25]:
text = '''Good muffins cost $3.88\nin New York.  Please buy me two of them.\n\nThanks.'''
text

'Good muffins cost $3.88\nin New York.  Please buy me two of them.\n\nThanks.'

In [23]:
from nltk.tokenize import WordPunctTokenizer

tokenizer = WordPunctTokenizer()
tokenizer

WordPunctTokenizer(pattern='\\w+|[^\\w\\s]+', gaps=False, discard_empty=True, flags=re.UNICODE|re.MULTILINE|re.DOTALL)

In [28]:
tokens = tokenizer.tokenize(text)
print(tokens)

['Good', 'muffins', 'cost', '$', '3', '.', '88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']


In [38]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import wordpunct_tokenize
from nltk.tokenize import word_tokenize

print(sent_tokenize(text))
print(word_tokenize(text))
print(wordpunct_tokenize(text))

['Good muffins cost $3.88\nin New York.', 'Please buy me two of them.', 'Thanks.']
['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']
['Good', 'muffins', 'cost', '$', '3', '.', '88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']


**Stemming**

Усечение слов до их основ

In [42]:
from nltk import SnowballStemmer

print(SnowballStemmer('english').stem(text))
print('-------')
print(SnowballStemmer('porter').stem(text))

good muffins cost $3.88
in new york.  please buy me two of them.

thanks.
-------
good muffins cost $3.88
in new york.  please buy me two of them.

thanks.


In [44]:
from nltk.stem import PorterStemmer

porter = PorterStemmer()
[(word, porter.stem(word)) for word in tokens]

[('Good', 'good'),
 ('muffins', 'muffin'),
 ('cost', 'cost'),
 ('$', '$'),
 ('3.88', '3.88'),
 ('in', 'in'),
 ('New', 'new'),
 ('York', 'york'),
 ('.', '.'),
 ('Please', 'pleas'),
 ('buy', 'buy'),
 ('me', 'me'),
 ('two', 'two'),
 ('of', 'of'),
 ('them', 'them'),
 ('.', '.'),
 ('Thanks', 'thank'),
 ('.', '.')]

**Lemmatization**

Приведение слов к их начальным формам


In [47]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
[(word, lemmatizer.lemmatize(word)) for word in tokens]

[('Good', 'Good'),
 ('muffins', 'muffin'),
 ('cost', 'cost'),
 ('$', '$'),
 ('3.88', '3.88'),
 ('in', 'in'),
 ('New', 'New'),
 ('York', 'York'),
 ('.', '.'),
 ('Please', 'Please'),
 ('buy', 'buy'),
 ('me', 'me'),
 ('two', 'two'),
 ('of', 'of'),
 ('them', 'them'),
 ('.', '.'),
 ('Thanks', 'Thanks'),
 ('.', '.')]

**Для текста на русском языке**

In [48]:
!pip install -q razdel natasha pymorphy2 pymystem3

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.4/34.4 MB[0m [31m28.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m74.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Building wheel for intervaltree (setup.py) ... [?25l[?25hdone


In [51]:
russian_text = '''
Довлатов прогуливал университетские занятия, иностранными языками не
интересовался, зато много читал: «Короче, я пропускал одну лекцию за другой.
Лучше всего, таким образом, мне запомнились университетские коридоры.
Я помню… отполированные до блеска скамьи возле фотолаборатории. Примерно к
двенадцати здесь собираются окрестные лентяи. Мы говорим о литературе и
разглядываем пробегающих мимо девиц». Во время учебы он подружился с Иосифом
Бродским, Анатолием Найманом и другими ленинградскими поэтами и прозаиками. А
еще — познакомился со своей первой женой Асей Пекуровской.
'''

In [54]:
from razdel import tokenize

print(list(tokenize(russian_text)))

[Substring(1, 9, 'Довлатов'), Substring(10, 20, 'прогуливал'), Substring(21, 36, 'университетские'), Substring(37, 44, 'занятия'), Substring(44, 45, ','), Substring(46, 58, 'иностранными'), Substring(59, 66, 'языками'), Substring(67, 69, 'не'), Substring(71, 84, 'интересовался'), Substring(84, 85, ','), Substring(86, 90, 'зато'), Substring(91, 96, 'много'), Substring(97, 102, 'читал'), Substring(102, 103, ':'), Substring(104, 105, '«'), Substring(105, 111, 'Короче'), Substring(111, 112, ','), Substring(113, 114, 'я'), Substring(115, 124, 'пропускал'), Substring(125, 129, 'одну'), Substring(130, 136, 'лекцию'), Substring(137, 139, 'за'), Substring(140, 146, 'другой'), Substring(146, 147, '.'), Substring(149, 154, 'Лучше'), Substring(155, 160, 'всего'), Substring(160, 161, ','), Substring(162, 167, 'таким'), Substring(168, 175, 'образом'), Substring(175, 176, ','), Substring(177, 180, 'мне'), Substring(181, 192, 'запомнились'), Substring(193, 208, 'университетские'), Substring(209, 217, 

In [64]:
from natasha import Doc
from natasha import Segmenter

doc = Doc(russian_text)
segmenter = Segmenter()
doc.segment(segmenter)

print(doc.sents)
print(doc.tokens)

[DocSent(start=1, stop=147, text='Довлатов прогуливал университетские занятия, инос..., tokens=[...]), DocSent(start=149, stop=218, text='Лучше всего, таким образом, мне запомнились униве..., tokens=[...]), DocSent(start=220, stop=283, text='Я помню… отполированные до блеска скамьи возле фо..., tokens=[...]), DocSent(start=284, stop=341, text='Примерно к \nдвенадцати здесь собираются окрестны..., tokens=[...]), DocSent(start=342, stop=406, text='Мы говорим о литературе и \nразглядываем пробегаю..., tokens=[...]), DocSent(start=407, stop=522, text='Во время учебы он подружился с Иосифом \nБродским..., tokens=[...]), DocSent(start=523, stop=584, text='А \nеще — познакомился со своей первой женой Асей..., tokens=[...])]
[DocToken(start=1, stop=9, text='Довлатов'), DocToken(start=10, stop=20, text='прогуливал'), DocToken(start=21, stop=36, text='университетские'), DocToken(start=37, stop=44, text='занятия'), DocToken(start=44, stop=45, text=','), DocToken(start=46, stop=58, text='иностранн

In [67]:
from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()

for word in doc.tokens:
  print(morph.parse(word.text))

[Parse(word='довлатов', tag=OpencorporaTag('NOUN,anim,masc,Sgtm,Surn sing,nomn'), normal_form='довлатов', score=0.6, methods_stack=((DictionaryAnalyzer(), 'довлатов', 37, 0),)), Parse(word='довлатов', tag=OpencorporaTag('NOUN,anim,masc,Name plur,gent'), normal_form='довлат', score=0.2, methods_stack=((DictionaryAnalyzer(), 'довлатов', 27, 7),)), Parse(word='довлатов', tag=OpencorporaTag('NOUN,anim,masc,Name plur,accs'), normal_form='довлат', score=0.2, methods_stack=((DictionaryAnalyzer(), 'довлатов', 27, 9),))]
[Parse(word='прогуливал', tag=OpencorporaTag('VERB,impf,tran masc,sing,past,indc'), normal_form='прогуливать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'прогуливал', 215, 7),))]
[Parse(word='университетские', tag=OpencorporaTag('ADJF plur,nomn'), normal_form='университетский', score=0.5, methods_stack=((DictionaryAnalyzer(), 'университетские', 16, 20),)), Parse(word='университетские', tag=OpencorporaTag('ADJF inan,plur,accs'), normal_form='университетский', score=0.5, m