# **Корпусы текстов, токены и типы**

In [None]:
import torch

In [None]:
import spacy

In [None]:
nlp = spacy.load('en_core_web_sm')

In [None]:
text = "Мы истину похожую на ложь ложка лгать должны хранить сомкнутыми устами, \
        иначе срам невинно наживешь."

In [None]:
tokens = [str(token) for token in nlp(text.lower())]
print(tokens)

['посол', 'израиля', 'на', 'украине', 'йоэль', 'лион', 'признался', ',', 'что', 'пришел', 'в', 'шок', ',', 'узнав', 'о', 'решении', 'властей', 'львовской', 'области', 'объявить', '2019', 'год', 'годом', 'лидера', 'запрещенной', 'в', 'россии', 'организации', 'украинских', 'националистов', '(', 'оун', ')', 'степана', 'бандеры', '...']


In [None]:
from nltk.tokenize import TweetTokenizer

In [None]:
tweet="Snow White and the Seven Degrees \
#MakeAMovieCold@midnight:-)"

In [None]:
tokenizer = TweetTokenizer()

In [None]:
print(tokenizer.tokenize(tweet.lower()))

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']


# **Униграммы, биграммы, триграммы... n-граммы**

In [None]:
def n_grams(text, n):
      '''
      Принимает на входе токены или текст, возвращает список n-грамм
      '''
      return [text[i:i+n] for i in range(len(text)-n+1)]
df = n_grams(tokens, 3)
df

[['мы', 'истину', 'похожую'],
 ['истину', 'похожую', 'на'],
 ['похожую', 'на', 'ложь'],
 ['на', 'ложь', 'должны'],
 ['ложь', 'должны', 'хранить'],
 ['должны', 'хранить', 'сомкнутыми'],
 ['хранить', 'сомкнутыми', 'устами'],
 ['сомкнутыми', 'устами', ','],
 ['устами', ',', '        '],
 [',', '        ', 'иначе'],
 ['        ', 'иначе', 'срам'],
 ['иначе', 'срам', 'невинно'],
 ['срам', 'невинно', 'наживешь'],
 ['невинно', 'наживешь', '.']]

# **Леммы и основы слов**

In [None]:
import spacy

In [None]:
nlp = spacy.load('en_core_web_sm')

In [None]:
doc = nlp('Dante would have thought that he beheld his seven circles of hell on the march.')
for token in doc:
  print(f'{token} --> {token.lemma_}')

Dante --> Dante
would --> would
have --> have
thought --> think
that --> that
he --> he
beheld --> behold
his --> his
seven --> seven
circles --> circle
of --> of
hell --> hell
on --> on
the --> the
march --> march
. --> .


# **Наташа (для русских лемм)**

In [None]:
!pip install natasha

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting natasha
  Downloading natasha-1.4.0-py3-none-any.whl (34.4 MB)
[K     |████████████████████████████████| 34.4 MB 1.2 MB/s 
[?25hCollecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 4.3 MB/s 
[?25hCollecting yargy>=0.14.0
  Downloading yargy-0.15.0-py3-none-any.whl (41 kB)
[K     |████████████████████████████████| 41 kB 127 kB/s 
[?25hCollecting slovnet>=0.3.0
  Downloading slovnet-0.5.0-py3-none-any.whl (49 kB)
[K     |████████████████████████████████| 49 kB 5.4 MB/s 
[?25hCollecting navec>=0.9.0
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting ipymarkup>=0.8.0
  Downloading ipymarkup-0.9.0-py3-none-any.whl (14 kB)
Collecting razdel>=0.5.0
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting intervaltree>=3
  Downloading intervaltree-3.1.0.tar.gz (32 kB)
Collecting pymorphy2-d

In [None]:
from natasha import Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger, NewsSyntaxParser, NewsNERTagger,NamesExtractor, Doc

In [None]:
text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры...'

In [None]:
doc = Doc(text)
doc

Doc(text='Посол Израиля на Украине Йоэль Лион признался, чт...)

In [None]:
segmenter = Segmenter()

In [None]:
doc.segment(segmenter)
print(doc.tokens[:5])

[DocToken(stop=5, text='Посол'), DocToken(start=6, stop=13, text='Израиля'), DocToken(start=14, stop=16, text='на'), DocToken(start=17, stop=24, text='Украине'), DocToken(start=25, stop=30, text='Йоэль')]


In [None]:
emb = NewsEmbedding()
morph_vocab = MorphVocab()
morph_tagger = NewsMorphTagger(emb)

In [None]:
doc.tag_morph(morph_tagger)
print(doc.tokens[:5])

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>), DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>), DocToken(start=14, stop=16, text='на', pos='ADP'), DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>), DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>)]


In [None]:
morph_vocab = MorphVocab()

In [None]:
for token in doc.tokens:
  token.lemmatize(morph_vocab)

In [None]:
{_.text: _.lemma for _ in doc.tokens}

{'Посол': 'посол',
 'Израиля': 'израиль',
 'на': 'на',
 'Украине': 'украина',
 'Йоэль': 'йоэль',
 'Лион': 'лион',
 'признался': 'признаться',
 ',': ',',
 'что': 'что',
 'пришел': 'прийти',
 'в': 'в',
 'шок': 'шок',
 'узнав': 'узнать',
 'о': 'о',
 'решении': 'решение',
 'властей': 'власть',
 'Львовской': 'львовский',
 'области': 'область',
 'объявить': 'объявить',
 '2019': '2019',
 'год': 'год',
 'годом': 'год',
 'лидера': 'лидер',
 'запрещенной': 'запретить',
 'России': 'россия',
 'Организации': 'организация',
 'украинских': 'украинский',
 'националистов': 'националист',
 '(': '(',
 'ОУН': 'оун',
 ')': ')',
 'Степана': 'степан',
 'Бандеры': 'бандера',
 '...': '...'}

# **Категоризация слов: маркирование частей речи**

In [None]:
import spacy

In [None]:
nlp = spacy.load('en_core_web_sm')

In [None]:
doc = nlp(u"Mary slapped the green witch.")

In [None]:
for token in doc:
  print('{} - {}'.format(token, token.pos_))

Mary - PROPN
slapped - VERB
the - DET
green - ADJ
witch - NOUN
. - PUNCT


**Тоже на Наташе**

In [None]:
!pip install natasha

In [None]:
from natasha import Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger, NewsSyntaxParser, NewsNERTagger,NamesExtractor, Doc

In [None]:
text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры...'

In [None]:
doc = Doc(text)
doc

Doc(text='Посол Израиля на Украине Йоэль Лион признался, чт...)

In [None]:
segmenter = Segmenter()

In [None]:
doc.segment(segmenter)
print(doc.tokens[:5])

[DocToken(stop=5, text='Посол'), DocToken(start=6, stop=13, text='Израиля'), DocToken(start=14, stop=16, text='на'), DocToken(start=17, stop=24, text='Украине'), DocToken(start=25, stop=30, text='Йоэль')]


In [None]:
emb = NewsEmbedding()
morph_vocab = MorphVocab()
morph_tagger = NewsMorphTagger(emb)

In [None]:
doc.tag_morph(morph_tagger)
doc.tokens[:5]

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>),
 DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>),
 DocToken(start=14, stop=16, text='на', pos='ADP'),
 DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>),
 DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>)]

# **Категоризация отрезков текста: разбивка на порции и распознавание поименованных сущностей**

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
doc = nlp(u"Mary slapped the green witch.")

In [None]:
for chunk in doc.noun_chunks:
  print ('{} - {}'.format(chunk, chunk.label_))

Mary - NP
the green witch - NP
