# 05. Natural Language Processing

Сегодня мы с вами все же добрались до самого интересного -- автоматической обработки естественного языка.

## 1. Токенизация

In [1]:
from nltk.tokenize import word_tokenize
import re

In [2]:
text = """Привет, друзья! Сегодня в галлерее 11.12 в USERTAG открывается выставка нашего друга художника USERTAG. 
Вокруг нашей песни “1999” Слава и режиссер Сергей Канчер создали большой проект, посвященный Первой и Второй Чеченским войнам. 
Это и тотальная инсталляция, и фотографии, и артефакты, и интервью с ветеранами обеих войн и, конечно, видео на песню “1999”, которое вы впервые сможете увидеть на выставке. 
Это попытка осмыслить жуткий опыт войны. 
Это попытка вглядеться в то, на что нельзя закрывать глаза. 
Потому что, даже если отвернуться, то, что произошло, никуда не денется."""

In [3]:
words_nltk = word_tokenize(text)
print(words_nltk)

['Привет', ',', 'друзья', '!', 'Сегодня', 'в', 'галлерее', '11.12', 'в', 'USERTAG', 'открывается', 'выставка', 'нашего', 'друга', 'художника', 'USERTAG', '.', 'Вокруг', 'нашей', 'песни', '“', '1999', '”', 'Слава', 'и', 'режиссер', 'Сергей', 'Канчер', 'создали', 'большой', 'проект', ',', 'посвященный', 'Первой', 'и', 'Второй', 'Чеченским', 'войнам', '.', 'Это', 'и', 'тотальная', 'инсталляция', ',', 'и', 'фотографии', ',', 'и', 'артефакты', ',', 'и', 'интервью', 'с', 'ветеранами', 'обеих', 'войн', 'и', ',', 'конечно', ',', 'видео', 'на', 'песню', '“', '1999', '”', ',', 'которое', 'вы', 'впервые', 'сможете', 'увидеть', 'на', 'выставке', '.', 'Это', 'попытка', 'осмыслить', 'жуткий', 'опыт', 'войны', '.', 'Это', 'попытка', 'вглядеться', 'в', 'то', ',', 'на', 'что', 'нельзя', 'закрывать', 'глаза', '.', 'Потому', 'что', ',', 'даже', 'если', 'отвернуться', ',', 'то', ',', 'что', 'произошло', ',', 'никуда', 'не', 'денется', '.']


Давайте сравним с токенизатором, написанным вручную (с помощью регулярок)

In [4]:
words_re = [i.strip() for i in re.split(r"([ \.\?!,]{1,})", text) if i.strip()]
print(words_re)

['Привет', ',', 'друзья', '!', 'Сегодня', 'в', 'галлерее', '11', '.', '12', 'в', 'USERTAG', 'открывается', 'выставка', 'нашего', 'друга', 'художника', 'USERTAG', '.', 'Вокруг', 'нашей', 'песни', '“1999”', 'Слава', 'и', 'режиссер', 'Сергей', 'Канчер', 'создали', 'большой', 'проект', ',', 'посвященный', 'Первой', 'и', 'Второй', 'Чеченским', 'войнам', '.', 'Это', 'и', 'тотальная', 'инсталляция', ',', 'и', 'фотографии', ',', 'и', 'артефакты', ',', 'и', 'интервью', 'с', 'ветеранами', 'обеих', 'войн', 'и', ',', 'конечно', ',', 'видео', 'на', 'песню', '“1999”', ',', 'которое', 'вы', 'впервые', 'сможете', 'увидеть', 'на', 'выставке', '.', 'Это', 'попытка', 'осмыслить', 'жуткий', 'опыт', 'войны', '.', 'Это', 'попытка', 'вглядеться', 'в', 'то', ',', 'на', 'что', 'нельзя', 'закрывать', 'глаза', '.', 'Потому', 'что', ',', 'даже', 'если', 'отвернуться', ',', 'то', ',', 'что', 'произошло', ',', 'никуда', 'не', 'денется', '.']


In [5]:
words_nltk == words_re

False

In [None]:
# Как проверить, в чем отличие?

## 2. Деление на предложения

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
sentences_nltk = sent_tokenize(text)
print(sentences_nltk)

In [None]:
sentences_re = [i.strip() for i in re.split(r"(.+?[\.!\?]{1,}\s)", text) if i.strip()]
print(sentences_re)

In [None]:
sentences_nltk == sentences_re

А если взять наш старый текст, посложнее?

In [None]:
text = """13 сентября будем ходить ходуном. Прямо во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
Такое надо в корне пресекать!
Билеты: https://sbp4band.ticketscloud.org

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет"""


In [None]:
sentences_nltk = sent_tokenize(text)
print(sentences_nltk)

In [None]:
sentences_re = [i.strip() for i in re.split(r"(.+?[\.!\?]{1,}\s)", text) if i.strip()]
print(sentences_re)

In [None]:
sentences_nltk == sentences_re

_NB! иногда ваш код может быть лучше чего-то готового_ 

## 3. Лемматизация

In [None]:
from pymystem3 import Mystem

In [None]:
def lemmatize_text(text):
    m = Mystem()
    lemmas = m.lemmatize(text)
    lemmatized_text = ''.join(lemmas)
    return lemmatized_text

In [None]:
lemmatize_text(text)

# НАТАААШАААА

https://github.com/natasha/natasha

![natasha](https://www.meme-arsenal.com/memes/f3c9f08ab239e223f48647b2826a1538.jpg)

In [None]:
!pip install natasha

In [None]:
from natasha import (Segmenter, MorphVocab, NewsEmbedding, 
NewsMorphTagger, NewsSyntaxParser, NewsNERTagger, PER, NamesExtractor, Doc)

In [None]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)
names_extractor = NamesExtractor(morph_vocab)

In [None]:
doc = Doc(text)
doc.segment(segmenter)

In [None]:
[i.text for i in doc.sents]

In [None]:
print([i.text for i in doc.tokens])

In [None]:
doc.tag_morph(morph_tagger)
for token in doc.tokens:
    token.lemmatize(morph_vocab)

In [None]:
print([i.lemma for i in doc.tokens])

## 4. Извлечение именованных сущностей

Нуууу.... может Наташа хотя бы имена выделять умеет? или города/места?

PER = person

LOC = location

ORG = organization

In [None]:
doc.tag_ner(ner_tagger)

In [None]:
for span in doc.spans:
    print(text[span.start:span.stop], span.type)

давайте не будем отчаиваться и попробуем найти все места / локации во всех текстах:

In [None]:
locations = set()
persons = set()
organizations = set()

with open("texts.txt", 'r', encoding="utf-8") as f:
    for line in f:
        text = line.strip()
        
        doc = Doc(text)
        doc.segment(segmenter)
        doc.tag_morph(morph_tagger)
        doc.tag_ner(ner_tagger)
        
        for span in doc.spans:
            span.normalize(morph_vocab)
        
            if span.type == 'LOC':
                locations.add(span.normal)
            
            elif span.type == 'PER':
                persons.add(span.normal)
            
            elif span.type == 'ORG':
                organizations.add(span.normal)

In [None]:
print(locations)

In [None]:
print(persons)

In [None]:
print(organizations)

Да, мы видим, что результаты можно и нужно подчистить: удалить кавычки, смайлики, лишние знаки...

## 5. Sentiment analysis

![](https://camo.githubusercontent.com/8aa4db250051d2819683668ad27cf90862c644e2/68747470733a2f2f692e696d6775722e636f6d2f754c4d5750754c2e706e67)

https://github.com/bureaucratic-labs/dostoevsky

Библиотека классифицирует текст на 5 категорий:

* Негативное настроение; 
* Позитивное настроение;
* Нейтральное поведение;
* Речевой акт (формальные поздравления, благодарственные и поздравительные посты);
* Класс «пропустить» для неясных случаев.

In [None]:
!pip install dostoevsky

In [None]:
!python -m dostoevsky download fasttext-social-network-model

In [None]:
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

In [None]:
model = FastTextSocialNetworkModel(tokenizer=RegexTokenizer())

In [None]:
messages = [
    'привет',
    'я люблю тебя!!',
    'малолетние дебилы'
]

results = model.predict(messages)

for message, sentiment in zip(messages, results):
    print(message, '->', sentiment)

оооокей, а давайте посмотрим на наши тексты:

In [None]:
text = """13 сентября будем ходить ходуном. Прямо во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
Такое надо в корне пресекать!
Билеты: https://sbp4band.ticketscloud.org

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет"""

In [None]:
results = model.predict([text])

In [None]:
results[0]

In [None]:
text2 = """Привет, друзья! Сегодня в галлерее 11.12 в USERTAG открывается выставка нашего друга художника USERTAG. 
Вокруг нашей песни “1999” Слава и режиссер Сергей Канчер создали большой проект, посвященный Первой и Второй Чеченским войнам. 
Это и тотальная инсталляция, и фотографии, и артефакты, и интервью с ветеранами обеих войн и, конечно, видео на песню “1999”, которое вы впервые сможете увидеть на выставке. 
Это попытка осмыслить жуткий опыт войны. 
Это попытка вглядеться в то, на что нельзя закрывать глаза. 
Потому что, даже если отвернуться, то, что произошло, никуда не денется."""

In [None]:
results = model.predict([text2])

In [None]:
results[0]