# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [5]:
from sklearn.feature_extraction.text import CountVectorizer


1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [6]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

In [7]:
import nltk
nltk.download("punkt")
nltk.download('wordnet')
nltk.download ('omw-1.45')
nltk.download ("stopwords")
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize as w_tok
from nltk.metrics import*
from nltk.stem import SnowballStemmer
from nltk import FreqDist
from nltk.corpus import stopwords
               
import pandas as pd
import random

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/leramiroshnichenko/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/leramiroshnichenko/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Error loading omw-1.45: Package 'omw-1.45' not found in
[nltk_data]     index
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/leramiroshnichenko/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [None]:
import pandas as pd
from nltk.tokenize import word_tokenize
recipes_df=pd.read_csv('preprocessed_descriptions.csv')
words=[]
for description in recipes_df['description']:
    words+=word_tokenize(description)
words=set(words)
print(words)

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [10]:
import random
from nltk.metrics import *
lst=[0]*5
for i in range(5):
    lst[i]=random.sample(words, 2)
    print(f'Пара: {lst[i]}, расстояние редактирования: {edit_distance(lst[i][0], lst[i][1])}')

Пара: ['when', 'you'], расстояние редактирования: 4
Пара: ['gave', '28-oz'], расстояние редактирования: 5
Пара: ['even', ','], расстояние редактирования: 4
Пара: ['``', 'classic'], расстояние редактирования: 7
Пара: ['from', 'in'], расстояние редактирования: 4


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [11]:
def find_words(word,k):
    dct={w:edit_distance(w,word) for w in words}
    dct=sorted(dct,key=dct.get)[:k]
    return dct
print(find_words('divide',5))

['divide', 'decided', 'side', 'five', 'give']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [15]:
from nltk.corpus import stopwords
stop_words=set(stopwords.words('english'))
print(stop_words)
filtered_words=[w for w in words if w.lower() not in stop_words]

top10_before=pd.Series(words).value_counts().head(10)
top10_after=pd.Series(filtered_words).value_counts().head(10)

stop_words_count=len([w for w in words if w.lower() in stop_words])
total_words_count=len(words)
stop_words_ratio=stop_words_count / total_words_count

print(f"Доля стоп-слов в общем количесве слов:{stop_words_ratio}")
print(f"Топ-10 самых часто употребляемых слов до удаления стоп-слов:{top10_before}")
print(f"Топ-10 самых часто употркбляемых слов после удаления стоп-слов:{top10_after}")

{'not', 'further', "she's", 'again', 'for', 're', 'of', 'mustn', 'shan', 'our', 'while', 'no', 'having', 'only', 'ours', 'above', "shouldn't", 'what', 'does', 'weren', 'this', 'she', 'few', "wouldn't", 'yourselves', "should've", 'why', 'i', 'into', 'we', 'doing', 'couldn', 'he', 'd', 'shouldn', 'has', 'don', 'y', 'an', 'wouldn', 'during', 'hadn', "mustn't", 'been', 'in', "hadn't", 'have', 'down', 'your', 'some', 'as', 'itself', 'hasn', 'those', 'yourself', 'nor', 'themselves', 'is', 'how', 'did', 'were', 'mightn', 've', 'just', 'so', 'are', "won't", 'because', 'other', 'hers', 'than', 'on', 'its', 'be', 'when', 'if', 'wasn', 'with', 'under', 'against', "didn't", 'their', 'her', "hasn't", "it's", 'about', 'then', 'can', 'them', 'the', 'same', "aren't", 'yours', 'didn', 'there', "you're", 'won', 'isn', 'up', 'aren', 'herself', "haven't", 'doesn', 's', 'myself', "shan't", "you've", 'm', 'will', 'you', 'at', 'more', "doesn't", 'ma', 'and', 'all', 'theirs', 'after', 'my', 'do', 'whom', 'fro

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

df=pd.read_csv('preprocessed_descriptions.csv')
random_recipes=df.sample(n=5)

vectorizer= TfidfVectorizer(stop_words='english')
vectors=vectorizer.fit_transform(random_recipes['description'])
k=0
for i,recipe in random_recipes.iterrows():
    print(f"Рецепт{i+1}:{recipe['name']}")
    print(f"Векторное описание:{vectors[k].toarray()}")
    k+=1

Рецепт19303:orange chocolate chip pancakes
Векторное описание:[[0.5 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.5 0.  0.  0.5 0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.5 0.  0.  0.  0.  0.  0. ]]
Рецепт23590:savory mushroom spread
Векторное описание:[[0.         0.33333333 0.         0.         0.         0.
  0.         0.         0.33333333 0.         0.         0.
  0.         0.33333333 0.33333333 0.         0.         0.
  0.         0.         0.         0.         0.33333333 0.33333333
  0.         0.         0.33333333 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.33333333 0.         0.
  0.33333333 0.         0.         0.         0.         0.        ]]
Рецепт18102:morning orange drink
Векторное описание:[[0.         0.         0.         0.28867513 0.         0.
  0.         0.         0.         0.28867513 0.28867513 0.
  0.         0. 

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [22]:
from scipy.spatial.distance import cosine

si=[]
for i in range (vectors.shape[0]):
    row=[]
    for j in range (vectors.shape[0]):
        sim=1-cosine(vectors[i].toarray(),vectors[j].toarray())
        row.append(sim)
    si.append(row)
s_df=pd.DataFrame(si,columns=random_recipes['description'])
print(s_df)

description  source: gourmet february 2008  \
0                                      1.0   
1                                      0.0   
2                                      0.0   
3                                      0.0   
4                                      0.0   

description  i am a mushroom lover. garlic too lol. this is a good spread to serve on baguettes or crackers  \
0                                                          0.0                                                
1                                                          1.0                                                
2                                                          0.0                                                
3                                                          0.0                                                
4                                                          0.0                                                

description  although it requires only a few basic ingre

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).