# Natural Language Processing | Задачи обработки естественного языка
    > токенизация
    > определение частей речи слов
    > извлечение специальных названий
    > синтаксический разбор предложений
    > анализ тональности текста
    > определение основных тем текста
    > векторизация слов и предложений

## Библиотека NLTK

In [None]:
import nltk

Возможности библиотеки:
+ разбиение текста на предложения
+ разбиение текста на слова
+ разбиение предложений на слова
+ определение частей речи предложения

 Разбиение текста на предложения:

In [None]:
text1 = "NLTK has been called a wonderful tool for teaching, working in computational linguistics using Python. NLTK is an amazing library to play with natural language. NLTK is a leading platform for building Python programs to work with human language data. NLTL is really useful."
nltk.sent_tokenize(text1)

Разбиение текста на слова:

In [None]:
nltk.word_tokenize(text1)

> Отчищаем данные от знаков препинания и стоп-слов

In [None]:
import string
from nltk.corpus import stopwords

In [None]:
word_list = [i for i in nltk.word_tokenize(text1) if i not in string.punctuation and i not in stopwords.words('english')]
word_list

Нахождение слов с наибольшими частотами:

In [None]:
freq_list = nltk.FreqDist(word_list)
freq_list.most_common(2)

Разбиение текста на предложения и слова:

In [None]:
text2 = "Natural Language Processing is manipulation or understanding text or speech by any software or machine. An analogy is that humans interact, understand each other views, and respond with the appropriate answer. In NLP, this interaction, understanding, the response is made by a computer instead of a human."
s = [nltk.word_tokenize(i) for i in nltk.sent_tokenize(text2)]
s

Определение частей речи слов предложения:

In [None]:
nltk.pos_tag_sents(s)

>Теги:
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Нахождение основы слова:

In [None]:
from nltk.stem.snowball import SnowballStemmer 

In [None]:
stemmer = SnowballStemmer("russian") 
stemmer.stem("Василий")

## Морфологический анализатор pymorphy2

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

 Возможности библиотеки:
 + морфологический разбор слов
 + нахождение инфинитивов слов
 + приведение слов к нужной форме
 + нахождение всех форм слова

Морфологический разбор слова:

In [None]:
def show(parse):
    print(parse.word, ' -> ', parse.normal_form, parse.tag.cyr_repr )

In [None]:
for i in morph.parse('стали'):
    show(i)

Нахождение начальной формы слова:

In [None]:
word = morph.parse('бегала')[0]
word.normal_form

Работа с тегами:

In [None]:
 word.tag.cyr_repr

Обращение к атрибутам тегов:

> атрибуты помогают получить информацию о части речи, числе и других характеристиках слова

In [None]:
word.tag.POS 

In [None]:
word.tag.gender 

In [None]:
word.tag.tense

In [None]:
'VERB' in word.tag.POS 

Нахождение всех форм слова:

In [None]:
def all_forms(parsers):
    lst=[]
    for p in parsers:
        lst.append(p.word)
    return lst

In [None]:
all_forms(morph.parse('спать')[0].lexeme)

Согласование слов с числительными:

In [None]:
w = morph.parse('апельсин')[0]
w.make_agree_with_number(5).word

### Задание 1

Дан текст отзыва покупателя, используя библиотеку nltk, проанализируйте характер отзыва

In [None]:
text = "In my head, a review about the M. Video store chain has long been ripening. Since the very time when I again faced with the problem of returning money for a certificate of the Additional Services Program. I already wrote a review about the work of Eldorado, in fact, faced with the same problem, but for the first time. True, in Eldorado this lure is called the Additional Service Program, but the difference is small. Actually, to this day I think that M-video is a bad store, but due to the small selection of those in the city, sometimes I still get something there. pah-pah, while it works. However, today I want to share my opinion about M. Video. I will tell you about all the problems of this place. This is the second largest electronics store that we have in the city. A wide range of products is presented here, although it is often impossible to find a specific model. The store has promotions, discounts, a system of accumulative bonuses, credit purchases and other rubbish, which is called a service. However, there are many problems with all promotions. Once again, we got into such a bad situation. Firstly, the service in the store was terrible. And the quality of the goods was bad. Two years ago, they threw themselves off, threw themselves in and presented mom with a new TV set that had broken. It was very disappointing that the TV broke down, since we paid a huge amount for it. Not a single visit ended without a problem. However, when they bought Dad, they again drew this one and imposed the acquisition of a certificate of the Additional Services Program. So roughly (this is a copy) this stucco looks and costs decent money. The attraction is that at the end of the certificate validity period, money for unused services will be returned. But all this lies, with a certificate you get even more problems! Do not believe in stocks and do not go to stores with a bad reputation, do not create problems for yourself!"

### Задание 2

Используя библиотеки nltk и pymorphy2, определите, какую части речи в стихах чаще всего употребляют 
в стихах следующие авторы

In [None]:
Pushkin = '''
Мороз и солнце; день чудесный!
Еще ты дремлешь, друг прелестный —
Пора, красавица, проснись:
Открой сомкнуты негой взоры
Навстречу северной Авроры,
Звездою севера явись!

Вечор, ты помнишь, вьюга злилась,
На мутном небе мгла носилась;
Луна, как бледное пятно,
Сквозь тучи мрачные желтела,
И ты печальная сидела —
А нынче погляди в окно:

Под голубыми небесами
Великолепными коврами,
Блестя на солнце, снег лежит;
Прозрачный лес один чернеет,
И ель сквозь иней зеленеет,
И речка подо льдом блестит.
'''

Mayakovsky = '''
Послушайте!
Ведь, если звезды зажигают —
значит — это кому-нибудь нужно?
Значит — кто-то хочет, чтобы они были?
Значит — кто-то называет эти плевочки

жемчужиной?
И, надрываясь
в метелях полуденной пыли,
врывается к богу,
боится, что опоздал,
плачет,
целует ему жилистую руку,
просит —
чтоб обязательно была звезда! —
клянется —
не перенесет эту беззвездную муку!
А после
ходит тревожный,
но спокойный наружно.
Говорит кому-то:
«Ведь теперь тебе ничего?
Не страшно?
Да?!»
Послушайте!
Ведь, если звезды
зажигают —
значит — это кому-нибудь нужно?
Значит — это необходимо,
чтобы каждый вечер
над крышами
загоралась хоть одна звезда?!
'''

Lermontov = '''
Сквозь волнистые туманы
Пробирается луна,
На печальные поляны
Льет печально свет одна.
По дороге зимней, скучной
Тройка борзая бежит,
Колокольчик однозвучный
Утомительно гремит.
Что-то слышится родное
В долгих песнях ямщика:
То разгулье удалое,
То сердечная тоска.
'''



## Библиотеки Gensim (dictionary, corpus, tf-idf, LDA, word2vec), spacy (лемматизация)

In [None]:
import gensim

Возможности библиотеки:
+ создание словаря и корпуса по заданному документу
+ создание биграмм и триграмм
+ создание матрицы TFIDF
+ создание тематических моделей/выделение ключевых слов
+ векторизация слов и предложений

### Создание словаря по заданному документу:

In [None]:
with open('sample_text.txt', 'r') as file:
    sample_text = file.read()
sample_text = nltk.sent_tokenize(sample_text)

In [None]:
from gensim.utils import simple_preprocess


def remove_stopwords(words):
    return [word for word in words if word not in stopwords.words('english')]

def prepare_text(text):
    return [remove_stopwords(gensim.utils.simple_preprocess(str(sentence), deacc=True)) \
               for sentence in text]

In [None]:
sample_text = prepare_text(sample_text)
sample_text

In [None]:
from gensim import corpora
sample_dictionary = corpora.Dictionary(sample_text)

In [None]:
print(sample_dictionary)
print(sample_dictionary.token2id)

### Создание корпуса по заданному документу:

In [None]:
sample_text_corpus = ["Help me get my feet back on the ground",
                      "Won't you please, please help me?",
                      "Help me? Help me?"]
sample_text_corpus = [simple_preprocess(sent) for sent in sample_text_corpus]

In [None]:
sample_dictionary_corpus = corpora.Dictionary(sample_text_corpus)
sample_corpus = [sample_dictionary_corpus.doc2bow(sent, allow_update=True) for sent in sample_text_corpus]
sample_corpus

In [None]:
def decipher(dictionary, corpus):
    return [[(dictionary[num], round(count, 2)) for num, count in line] for line in corpus]

decipher(sample_dictionary_corpus, sample_corpus)

### Сохранение и импорт словарей и корпусов:

In [None]:
sample_dictionary.save('sample_dictionary.dict')
loaded_sample_dictionary = corpora.Dictionary.load('sample_dictionary.dict')
print(loaded_sample_dictionary)

In [None]:
corpora.MmCorpus.serialize('sample_corpus.mm', sample_corpus)
loaded_sample_corpus = [[(num, int(count))for num, count in line] for line in corpora.MmCorpus('sample_corpus.mm')]
loaded_sample_corpus

### Создание биграмм и триграмм:

In [None]:
bigram = gensim.models.phrases.Phrases(sample_text, min_count=3, threshold=10)
sample_text_bigram = [bigram[sent] for sent in sample_text]
print(sample_text_bigram)

### Задание: добиться того, чтобы "how are you" выделилось как триграмма

+ понять как делаются триграммы
+ обработать текст (лучше только с использованием simple_preprocess, чтобы ничего не удалилось, если оно входит в stopwords)
+ создать модель триграммы
+ получить текст с выделенными триграммами (how are you -> how_are_you)

In [None]:
task_text = """
- Hi Jacob, how are you? 
- I'm fine, Nathan, how are you, Joseph? 
- I'm all good, Jacob, how are you, Natalie? 
- I'm okay, Joseph, how are you, Nikolas?
- Nothing is wrong, Natalie, how are you, Grian?
- Everything is pretty good, Nikolas,  how are you, Oliver?
- Fantastic, Grian! How are you, Mathew?
- It's never been better, Oliver, how are you, Minerva?
- Great as always, Mathew, how are you, Oleg?
"""

### TF-IDF (TF — term frequency, IDF — inverse document frequency): 

In [None]:
from gensim import models

In [None]:
print(decipher(sample_dictionary_corpus, sample_corpus))

In [None]:
sample_tfidf = models.TfidfModel(sample_corpus, smartirs='ntc')
print(decipher(sample_dictionary_corpus, sample_tfidf[sample_corpus]))

### Импорт наборов данных

In [None]:
import gensim.downloader as api

In [None]:
api.info("text8")

In [None]:
# не рекомендуется запускать просто так
dataset = api.load("text8")
data = [i for i in dataset]

### Лемматизация в spacy

In [None]:
print(sample_text_bigram)

In [None]:
import spacy

In [None]:
allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']
nlp = spacy.load('en', disable=['parser', 'ner'])
sample_lemmatized = [[token.lemma_ for token in nlp(" ".join(sentence)) \
                      if token.pos_ in allowed_postags] for sentence in sample_text_bigram]
print(sample_lemmatized)

### Создание тематических моделей

In [None]:
from gensim.models import LdaModel, LdaMulticore

In [None]:
LDA_dictionary = corpora.Dictionary(sample_lemmatized)
LDA_corpus = [LDA_dictionary.doc2bow(sent) for sent in sample_lemmatized]

In [None]:
LDA_model = LdaMulticore(corpus=LDA_corpus,
                         id2word=LDA_dictionary,
                         num_topics=1, #количество тем
                         passes=10,
                         chunksize=5, # количество подсписков используемых в каждом проходе
                         iterations=100, 
                         gamma_threshold=0.001,
                         per_word_topics=True)
LDA_model.save('LDA_model.model')

In [None]:
LDA_model.print_topics()

### Задание: используя файл politics.txt создать тематическую модель

        + подготовить файл к обработке
        + найти биграммы (если очень хочется, то и триграммы)
        + лемматизировать
        + создать словарь
        + создать корпус
        + создать тематическую модель

### Выделение ключевых слов:

In [None]:
from gensim.summarization import summarize, keywords

In [240]:
with open('sample_text.txt', 'r') as file:
    just_text = file.read()

In [242]:
summarize(just_text, word_count=20)

'Intel is developing ultra-wideband technology (UWB) which would allow fast data transfer but with low power needs.'

In [244]:
print(keywords(just_text))

technology
technologies
uwb
intel
data
ultra fast
usb
phone conference
groups
group
consumer electronics
samsung
use
firm
uses
huge
power
people beam
short
radio


### word2vec

In [251]:
with open('politics.txt', 'r') as file:
    politics_w2v = file.read()
politics_w2v = prepare_text(nltk.sent_tokenize(politics_w2v))

In [297]:
politics_w2v_model = gensim.models.Word2Vec(politics_w2v, size = 500, window = 5, min_count=2, workers = 4, hs = 1, negative = 0)
politics_w2v_model.save('politics_w2v_model')

In [298]:
print(politics_w2v_model.wv.similarity('britain','china'))
print(politics_w2v_model.wv.similarity('war','china'))

0.44228965
0.82698345


In [317]:
politics_w2v_model.score(["British government".split()])

array([-4.936535], dtype=float32)

In [314]:
politics_w2v_model.wv.doesnt_match("government king minister".split())

'minister'

In [316]:
politics_w2v_model.wv.most_similar('government', topn=5)

[('called', 0.9408179521560669),
 ('idea', 0.9012004137039185),
 ('current', 0.8952766060829163),
 ('added', 0.889606237411499),
 ('lists', 0.8774770498275757)]

In [311]:
politics_w2v_model.wv.most_similar(positive=['king'], negative=['government'])

[('threatened', 0.7175700664520264),
 ('least', 0.7130386829376221),
 ('july', 0.7118679285049438),
 ('suggests', 0.7083441615104675),
 ('allawi', 0.6986973285675049),
 ('policies', 0.698662281036377),
 ('bad', 0.6974447965621948),
 ('stevens', 0.6947340965270996),
 ('undergo', 0.6881623268127441),
 ('hague', 0.6794817447662354)]

In [None]:
word2vec_model300 = api.load('word2vec-google-news-300') # если хочется действительно что-то интересное посмотреть

### Задание на случай, если вы решитесь скачать модель

Написать предложение и заменить в нем все слова, кроме предлогов (использовать stopwords), на наиболее похожие согласно модели