# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.metrics.distance import edit_distance
import random
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial import distance
import warnings
warnings.filterwarnings('ignore')

In [8]:
import nltk

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [27]:
with open('litw-win.txt', encoding='cp1251') as file:
    words1 = [row.split()[-1] for row in file]
text_words = list(text.split())
for i in range(len(text_words)):
    if text_words[i] not in words1:
        distance = {j: edit_distance(text_words[i], j) for j in words1}
        sorted_distance = sorted(distance.items(), key=lambda x: x[1])
        text_words[i] = sorted_distance[0][0]
print(' '.join(text_words))

с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий


2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [31]:
stemmer = SnowballStemmer('russian')
morph = pymorphy2.MorphAnalyzer()
lemmatizer = WordNetLemmatizer()
text2_words = [word for word in word_tokenize(str(text)) if word.isalpha()]
for i in text2_words:
    print(stemmer.stem(i))

с
велечайш
усил
выбра
из
поток
убега
люд
кутуз
со
свит
уменьшевш
вдво
поеха
на
звук
выстрел
русск
оруд


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [25]:
text1 = "Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words."
vector = CountVectorizer()
vector.fit_transform(nltk.sent_tokenize(text1)).toarray()

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

## Лабораторная работа 9

In [19]:
import nltk
from nltk.tokenize import word_tokenize

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [20]:
import pandas as pd
descrip = pd.read_csv('preprocessed_descriptions.csv')
all_words = []
for i in descrip['preprocessed_descriptions']:
    all_words.extend([word for word in word_tokenize(str(i)) if word.isalpha()])
words = set(all_words)
print(words)



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [21]:
from nltk.metrics.distance import edit_distance
from random import sample
for i in range(5):
    #Выводим случайную выборку из 2 слов из списка words
    print(f'Слова: {sample(words, 2)}, расстояние: {edit_distance(sample(words, 2)[0], sample(words, 2)[1])}')

Слова: ['preheated', 'steep'], расстояние: 11
Слова: ['pickerel', 'mouthpuckeringly'], расстояние: 7
Слова: ['delicioussounding', 'thinned'], расстояние: 8
Слова: ['yeshe', 'includedthis'], расстояние: 9
Слова: ['flexibility', 'pharmacists'], расстояние: 5


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [36]:
def k_slov(word, k):
    dists = {i : edit_distance(word, i) for i in words}
    sorted_dists = sorted(dists.items(), key = lambda x: x[1])
    return sorted_dists[:k]

k_slov('stop', 4)

[('stop', 0), ('stoup', 1), ('shop', 1), ('step', 1)]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [22]:
from nltk.stem import SnowballStemmer
import nltk
from nltk.stem import WordNetLemmatizer


In [23]:
snb_stemmer_eng = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()
df_words = pd.DataFrame(words, columns = ['word'])
df_words['stemmed_word'] = df_words.apply(lambda x: stemmer.stem(x['word']), axis = 1)
df_words['normalized_word'] = df_words.apply(lambda x: lemmatizer.lemmatize(x['word']), axis = 1)
df_words = df_words.set_index('word')
df_words

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
julyaugust,julyaugust,julyaugust
contributor,contributor,contributor
mainly,main,mainly
deprived,depriv,deprived
khar,khar,khar
...,...,...
ratcliffe,ratcliff,ratcliffe
casings,case,casing
creole,creol,creole
voilasuper,voilasup,voilasuper


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [25]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/sophie/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [26]:
stop_words = stopwords.words('english')
words_no_stop = [word for word in all_words if word not in stop_words]
print(f'Доля стоп слов составляла: {(len(all_words) - len(words_no_stop)) / len(all_words) * 100}')

Доля стоп слов составляла: 46.10722870409009


In [27]:
for k, v in nltk.FreqDist(all_words).most_common(10):
    print(f'{k} - {v}')

the - 40072
a - 34951
and - 30245
this - 26859
i - 24836
to - 23471
is - 20285
it - 19756
of - 18364
for - 15939


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [28]:
data3 = descrip.sample(5)
tv = TfidfVectorizer()
for i in data3['preprocessed_descriptions']:
    print(tv.fit_transform(sent_tokenize(i)).toarray(), '\n')

[[0.33333333 0.33333333 0.33333333 0.33333333 0.33333333 0.33333333
  0.33333333 0.33333333 0.33333333]] 

[[0.09407209 0.09407209 0.09407209 0.09407209 0.09407209 0.18814417
  0.09407209 0.09407209 0.18814417 0.09407209 0.18814417 0.09407209
  0.09407209 0.09407209 0.18814417 0.09407209 0.09407209 0.09407209
  0.09407209 0.09407209 0.09407209 0.09407209 0.09407209 0.09407209
  0.28221626 0.09407209 0.09407209 0.09407209 0.09407209 0.09407209
  0.09407209 0.09407209 0.09407209 0.09407209 0.09407209 0.47036043
  0.47036043 0.09407209 0.09407209 0.09407209 0.18814417 0.09407209]] 

[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]] 

[[0.05773503 0.05773503 0.17320508 0.05773503 0.11547005 0.05773503
  0.05773503 0.05773503 0.05773503 0.17320508 0.05773503 0.11547005
  0.05773503 0.05773503 0.05773503 0.05773503 0.05773503 0.05773503
  0.05773503 0.05773503 0.05773503 0.05773503 0.05773503 0.05773503
  0.05773503 0.05773503 0.05773503 0.11547005