# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [2]:
from nltk.metrics.distance import edit_distance
from nltk.tokenize import word_tokenize

edit_distance("pi19-2", "пи19-2")

2

In [3]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [4]:
with open("./09_string_2_data/litw-win_utf8.txt", "r", encoding='utf-8') as f:
    words = [line.split()[1] for line in f]
words[-10:]

['облагодетельствованным',
 'облагодетельствованных',
 'председательствовавший',
 'стадвадцатипятирублевой',
 'высокопревосходительство',
 'высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [5]:
min(words, key=lambda w: edit_distance(w, "велечайшим"))

'величайшим'

In [6]:
new_text = ""
for word in word_tokenize(text)[:5]:
    new_text += min(words, key=lambda w: edit_distance(w, word)) + " "
new_text

'с величайшим усилием выбравшись из '

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [7]:
from nltk.stem import SnowballStemmer

print(f"{'слово':^15}|{'стемминг':^15}|{'лемматизация':^15}")
stemmer_ru = SnowballStemmer('russian')
morph = pymorphy2.MorphAnalyzer()
for word in word_tokenize(text):
    print(f"{word:^15}|{stemmer_ru.stem(word):^15}|{morph.parse(word)[0].normalized.word:^15}")

     слово     |   стемминг    | лемматизация  
       с       |       с       |       с       
  велечайшим   |   велечайш    |  велечайший   
    усилием    |     усил      |    усилие     
  выбравшись   |     выбра     |   выбраться   
      из       |      из       |      из       
    потока     |     поток     |     поток     
   убегающих   |     убега     |    убегать    
     людей     |      люд      |    человек    
    Кутузов    |     кутуз     |    кутузов    
      со       |      со       |       с       
    свитой     |     свит      |     свита     
 уменьшевшейся |   уменьшевш   | уменьшевшийся 
     вдвое     |     вдво      |     вдвое     
    поехал     |     поеха     |    поехать    
      на       |      на       |      на       
     звуки     |     звук      |     звук      
   выстрелов   |    выстрел    |    выстрел    
    русских    |     русск     |    русский    
    орудий     |     оруд      |    орудие     


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [8]:
from nltk.tokenize import sent_tokenize

text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text)
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [9]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [10]:
import pandas as pd

preprocessed_descriptions = pd.read_csv("./09_string_2_data/preprocessed_descriptions.csv")
preprocessed_descriptions

Unnamed: 0.1,Unnamed: 0,name,description
0,0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,2,i can t believe it s spinach,these were so go it surprised even me
3,3,italian gut busters,my sisterinlaw made these for us at a family g...
4,4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...,...
29995,29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,29998,zydeco soup,this is a delicious soup that i originally fou...


In [21]:
words = []
for desc in preprocessed_descriptions["description"]:
    words.extend(word_tokenize(str(desc)))
words = list(set(words))
words

['nouba',
 'valentines',
 'corsican',
 'corneri',
 'omni',
 'biscotti',
 'wontons',
 'chexcom',
 '53333',
 'my',
 'micromanagement',
 'laines',
 'textureit',
 'febmarch',
 'nobrainer',
 'moisest',
 'nonmayo',
 'majorly',
 '457g',
 'devil',
 'heaps',
 'shakersteamer',
 'wwwdelmontecom',
 'raffia',
 'recipeadded',
 'nonvegetarian',
 'malnati',
 'foundation',
 'gingerteriyaki',
 'faulted',
 'hollywoods',
 'seattlepost',
 'simmerman',
 'daughter',
 'disguise',
 'partygathering',
 'dialysis',
 'bribe',
 'makeamix',
 'lands',
 'treacle',
 'unecessary',
 'screen',
 'raspberries',
 'scallop',
 'squared',
 'lambrusco',
 'potatopeanut',
 'beakfast',
 'originates',
 'onions',
 'costco',
 'viennayou',
 'colcannon',
 'fig',
 'soho',
 'hung',
 'aluminumfree',
 'thailand',
 'heston',
 'improves',
 'emerilgood',
 'appearance',
 'hanukkah',
 'cutter',
 'faucet',
 '4hmy',
 'cooker',
 'laa',
 'squashes',
 'holding',
 'chestnutpicking',
 'mustardglazed',
 'recepie',
 'evoking',
 'dente',
 'dgss',
 'spec',

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [12]:
from random import sample

pairs = [sample(words, 2) for _ in range(5)]
for pair in pairs:
    print(f"{pair[0]} - {pair[1]} - {edit_distance(pair[0], pair[1])} - {edit_distance(pair[0], pair[1], substitution_cost=2)} - {edit_distance(pair[0], pair[1], substitution_cost=2, transpositions=True)}")

95600 - subjective - 10 - 15 - 15
yearsnot - hannahs - 7 - 11 - 11
gazette - herebut - 6 - 10 - 10
tastesdiet - rousso - 9 - 12 - 12
basilspinach - drable - 11 - 14 - 13


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [13]:
import copy

copy_words = copy.copy(words)

def finder(word, k):
    similar_words = []
    for i in range(k):
        similar_words.append(min(copy_words, key=lambda w: edit_distance(w, word)))
        copy_words.remove(similar_words[i])
        
finder("tasted", 5)

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [14]:
from nltk.stem import WordNetLemmatizer 

stemmer = SnowballStemmer('english')
stemmed_words = [stemmer.stem(word) for word in words]

lemmatizer = WordNetLemmatizer()
normalized_words = [lemmatizer.lemmatize(word) for word in words]

morph = pymorphy2.MorphAnalyzer()
normalized_words2 = [morph.parse(word)[0].normalized.word for word in words]

stemmed_normalized_words = pd.DataFrame({
    'word': words, 
    'stemmed_word': stemmed_words, 
    'normalized_word': normalized_words,
    'normalized_word2': normalized_words2}).set_index('word')

In [15]:
stemmed_normalized_words.sample(10)

Unnamed: 0_level_0,stemmed_word,normalized_word,normalized_word2
word,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
shampoo,shampoo,shampoo,shampoo
samosa,samosa,samosa,samosa
creambut,creambut,creambut,creambut
reviewer,review,reviewer,reviewer
rolled,roll,rolled,rolled
ceps,cep,ceps,ceps
bitesized,bites,bitesized,bitesized
simpletakes,simpletak,simpletakes,simpletakes
presence,presenc,presence,presence
didi,didi,didi,didi


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [33]:
from nltk.corpus import stopwords

stopwords = stopwords.words('english')
description_without_stopwords = []
for desc in preprocessed_descriptions["description"]:
    notstopwords = []
    for word in word_tokenize(str(desc)):
        if word not in stopwords:
            notstopwords.append(word)
    description_without_stopwords.append(" ".join(notstopwords)) 
preprocessed_descriptions['description_without_stopwords'] = description_without_stopwords
preprocessed_descriptions

Unnamed: 0.1,Unnamed: 0,name,description,description_without_stopwords
0,0,george s at the cove black bean soup,an original recipe created by chef scott meska...,original recipe created chef scott meskan geor...
1,1,healthy for them yogurt popsicles,my children and their friends ask for my homem...,children friends ask homemade popsicles mornin...
2,2,i can t believe it s spinach,these were so go it surprised even me,go surprised even
3,3,italian gut busters,my sisterinlaw made these for us at a family g...,sisterinlaw made us family get together delici...
4,4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...,think fondue romantic casual dinner wonderful ...
...,...,...,...,...
29995,29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...,based french recipe changed substantially warn...
29996,29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...,traditional fresh plum cake thought originated...
29997,29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...,traditional late summer early fall snack usual...
29998,29998,zydeco soup,this is a delicious soup that i originally fou...,delicious soup originally found better homes g...


In [24]:
from nltk.probability import FreqDist

words = []
for desc in preprocessed_descriptions["description"]:
    words.extend(word_tokenize(str(desc)))
k_with = len(words)

fdist = FreqDist(words)
print(fdist.most_common(10))

[('the', 40210), ('a', 34994), ('and', 30279), ('this', 27048), ('i', 25111), ('to', 23499), ('is', 20290), ('it', 19863), ('of', 18372), ('for', 15988)]


In [18]:
words = []
for desc in description_without_stopwords:
        words.extend(word_tokenize(desc))
k_without = len(words)

fdist = FreqDist(words)
print(fdist.most_common(10))

[('recipe', 14957), ('make', 6353), ('time', 5180), ('use', 4635), ('great', 4453), ('like', 4175), ('easy', 4175), ('one', 3886), ('good', 3820), ('made', 3814)]


In [34]:
100-k_without/k_with*100

54.258384180453824

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer

tv = TfidfVectorizer()
for desc in preprocessed_descriptions["description"].sample(5):
    corpus_tv = tv.fit_transform(word_tokenize(desc))
    print(corpus_tv.shape)
    print(corpus_tv.toarray())
    print(tv.vocabulary_)

(10, 10)
[[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]]
{'it': 5, 'isnt': 4, 'hard': 3, 'to': 8, 'make': 6, 'your': 9, 'own': 7, 'cold': 2, 'breakfast': 0, 'cereal': 1}
(8, 7)
[[0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 1. 0. 0.]]
{'brownie': 1, 'crust': 3, 'and': 0, 'cheesecake': 2, 'need': 5, 'say': 6, 'more': 4}
(18, 16)
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0

In [28]:
tv = TfidfVectorizer()
tv.fit(preprocessed_descriptions["description"].sample(5))
result = tv.transform(preprocessed_descriptions["description"].sample(5))
print(result.shape)
print(result.toarray())
print(tv.vocabulary_)

(5, 149)
[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.47305674 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.35317941 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.28494293 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.28494293
  0.         0.         0.         0.         0.         0.
  0.         0.        

3.2 Вычислите близость между каждой парой рецептов, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат