# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [2]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [3]:
with open('data/litw-win.txt', 'r') as file:
    words = [s.split()[1] for s in file.read().split('\n')]

In [4]:
from nltk.metrics.distance import edit_distance

for s in text.split(' '):
    if s not in words:
        good_wrd = words[0]
        min_sz = edit_distance(s, good_wrd)
        for word in words[1:]:
            sz = edit_distance(s, word)
            if sz < min_sz:
                good_wrd = word
                min_sz = sz
        text = text.replace(s, good_wrd)
text

'с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [5]:
import re
from nltk.stem import SnowballStemmer
from razdel import sentenize
from razdel import tokenize

snb_stemmer_ru = SnowballStemmer('russian')
text = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'''

tok = list(tokenize(text))
w = re.compile('^[а-яА-ЯёЁ]*')
' '.join([snb_stemmer_ru.stem(t.text) for t in tok if w.search(t.text)])

'счита слов из файл litw-win . txt и запиш их в список words . в зада предложен исправьт все опечатк , замен слов с опечатк на ближайш ( в смысл расстоян левенштейн ) к ним слов из списк words . счита , что в слов ест опечатк , есл дан слов не содерж в списк words .'

In [14]:
import pymorphy3

morph = pymorphy3.MorphAnalyzer()
pt = [morph.parse(t.text) for t in tok if w.search(t.text)] 
' '.join([w[0].normalized.word for w in pt])

'считать слово из файл litw-win . txt и записать они в список words . в задать предложение исправить всё опечатка , заменить слово с опечатка на близкий ( в смысл расстояние левенштейн ) к они слово из список words . считать , что в слово есть опечатка , если данный слово не содержаться в список words .'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

In [None]:
import pandas as pd

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [32]:
with open('data/unique_words.txt', 'r') as file:
    words = file.read().split(' ')

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [26]:
import random

for _ in range(5):
    pare = random.sample(words, 2)
    print(f'{pare[0]}, {pare[1]} = {edit_distance(*pare)}')

havarti, phrase = 6
caramilising, reheated = 11
syran, cracking = 6
carrotts, appearance = 9
heels, goldish = 6


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [34]:
words

['amoretti',
 'thickening',
 'rose',
 'kielbases',
 'finsh',
 'befroe',
 'seaoned',
 'tilt',
 'ninths',
 'tempered',
 'fastest',
 'ripeness',
 'destem',
 'saucepancook',
 'beverage',
 'suace',
 'traingles',
 'minuets',
 'marbleized',
 'uoy',
 'arrabge',
 'reusing',
 'leche',
 'softness',
 'ultimate',
 'coating',
 'bratwursts',
 'template',
 'haze',
 'proof',
 'defatted',
 'tomatillo',
 'naam',
 'exposing',
 'proper',
 'estimated',
 'crem',
 'enclose',
 'spiciness',
 'wiches',
 'huey',
 'ovent',
 'lamingon',
 'male',
 'compressed',
 'cruet',
 'smoldering',
 'applied',
 'plums',
 'cooling',
 'hands',
 'stiring',
 'selected',
 'wrinkly',
 'adhering',
 'elements',
 'tenderly',
 'angostura',
 'catsup',
 'carnitas',
 'filberts',
 'balloon',
 'counting',
 'mineral',
 'lettuces',
 'bunched',
 'bore',
 'snifter',
 'association',
 'lengths',
 'pared',
 'koechin',
 'loins',
 'sum',
 'wet',
 'rosemary',
 'protected',
 'whisky',
 'worcesteshire',
 'pinto',
 'porchetta',
 'pilaf',
 'deseeded',
 'len

In [41]:
def get_unique_words():
    with open('data/unique_words.txt', 'r') as file:
        return file.read().split(' ')

def back_wrds(main_word, k):
    closest = {}
    words = get_unique_words()
    for word in words:
        if word == '':
            continue
        distance = edit_distance(main_word, word)
        if len(closest) < k:
            closest[word] = distance
        elif max(closest.values()) > distance:
            for key, value in closest.items():
                if value == max(closest.values()):
                    del_key = key
                    continue
            del closest[key]
            closest[word] = distance
    return closest

            
            
back_wrds('amaretti', 4)

{'amoretti': 1, 'thickening': 9, 'rose': 7, 'shaking': 7}

### Стемминг, лемматизация

In [45]:
import pandas as pd

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [67]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

# Токенизация английского текста
text = ' '.join(words)
tok = word_tokenize(text)

# Создание стеммера для английского языка
snb_stemmer_en = SnowballStemmer('english')
stemmed = [snb_stemmer_en.stem(t) for t in tok]

# Пример нормализации слов с помощью библиотеки NLTK
normalized = [word.lower() for word in tok]


In [68]:
pd.DataFrame({'stemmed_word': stemmed, 'normalized_word': normalized}, index=words[:-1])

Unnamed: 0,stemmed_word,normalized_word
amoretti,amoretti,amoretti
thickening,thicken,thickening
rose,rose,rose
kielbases,kielbas,kielbases
finsh,finsh,finsh
...,...,...
done,done,done
feeds,feed,feeds
indgredients,indgredi,indgredients
hulls,hull,hulls


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).