# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [16]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
import pandas as pd
from nltk.tokenize import word_tokenize

recipes = pd.read_csv('recipes_sample.csv').dropna()
words=[]
for des in recipes['description']:
  words+=word_tokenize(des) 
words=list(set(words))

print(words) 



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [4]:
from nltk.metrics.distance import *
import random

In [5]:
words = ['показатель','дума','хлеб','радость','земля', 'вина', 'ошибка', 'вино']
for i in range(5):
  w1,w2 = random.sample(words,2)
  dist = edit_distance(w1,w2)
  print(f"Distance between '{w1}' and '{w2}' = '{dist}'")

Distance between 'хлеб' and 'показатель' = '9'
Distance between 'радость' and 'земля' = '7'
Distance between 'хлеб' and 'радость' = '7'
Distance between 'вина' and 'вино' = '1'
Distance between 'вина' and 'радость' = '7'


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [6]:
def search(word,k):
  words = ['показатель','дума','хлеб','радость','земля', 'вина', 'ошибка', 'вино']
  dist = {j:edit_distance(word,j) for j in words}
  res = sorted(dist,key = dist.get)[:k]
  return res

In [7]:
search('указатель', 2)

['показатель', 'радость']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [8]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from collections import Counter

nltk.download('stopwords')
nltk.download('wordnet')
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

# Очистка текста от стоп-слов и применение стемминга
def clean_text(text):
    stop_words = set(stopwords.words("english"))
    words = text.split()
    cleaned_words = []
    for word in words:
        if word.lower() not in stop_words:
            cleaned_words.append(stemmer.stem(word))
    return " ".join(cleaned_words)

# Очистка текста от стоп-слов и применение лемматизации
def lemmatize_text(text):
    stop_words = set(stopwords.words("english"))
    words = text.split()
    cleaned_words = []
    for word in words:
        if word.lower() not in stop_words:
            cleaned_words.append(lemmatizer.lemmatize(word))
    return " ".join(cleaned_words)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [9]:
# Применение очистки и стемминга
recipes['cleaned_description'] = list(map(lambda x: clean_text(x), recipes['description']))
recipes['cleaned_description']

6        versatil wide enjoy pasta dish chicken. asian ...
8        recip use school cafeteria chocol chip cookies...
15       is, again, vegweb.com. got absolut amaz review...
16       ok, differ version burek (some eastern europea...
21       i'm big fan peas, like things. salad one favor...
                               ...                        
29986    adapt recip the australian women week tapa ant...
29989                           long time famili favorite!
29994                       soup hearti meal! luisa musso.
29995    base french recip chang substantially. warn "b...
29999    i'v heard cooki design company, never tri cook...
Name: cleaned_description, Length: 12946, dtype: object

In [10]:
# Применение лемматизации
recipes['lemmatized_description'] = recipes['description'].apply(lambda x: lemmatize_text(x))
recipes['lemmatized_description']

6        versatile widely enjoyed pasta dish chicken. a...
8        recipe use school cafeteria chocolate chip coo...
15       is, again, vegweb.com. got absolutely amazing ...
16       ok, different version burek (some eastern euro...
21       i'm big fan peas, like things. salad one favor...
                               ...                        
29986    adapted recipe 'the australian women's weekly'...
29989                           long time family favorite!
29994                       soup hearty meal! luisa musso.
29995    based french recipe changed substantially. war...
29999    i've heard 'cookies design' company, never tri...
Name: lemmatized_description, Length: 12946, dtype: object

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [35]:
# После очистки и стемминга
# Доля стоп-слов
stop_words = set(stopwords.words("english"))
total_words = recipes['description'].apply(lambda x: len(str(x).split())).sum()
stop_words_count = recipes['description'].apply(lambda x: len([word for word in str(x).lower().split() if word in stop_words])).sum() 
stop_words_ratio = stop_words_count/total_words
print("Доля стоп-слов: ", round(stop_words_ratio*100, 2), "%")


# Топ-10 слов до удаления стоп-слов
top_words_before = Counter(" ".join(recipes['description']).lower().split()).most_common(10)
print("Топ-10 слов до удаления стоп-слов:")
for word, count in top_words_before:
    print(f"{word}: {count}")

# Топ-10 слов после удаления стоп-слов
top_words_after = Counter(" ".join(recipes['cleaned_description']).lower().split()).most_common(10)
print("Топ-10 слов после удаления стоп-слов:")
for word, count in top_words_after:
    print(f"{word}: {count}")

Доля стоп-слов:  44.55 %
Топ-10 слов до удаления стоп-слов:
the: 17648
a: 15433
and: 13303
this: 11551
i: 11012
to: 10335
is: 8918
of: 8033
it: 7544
for: 6899
Топ-10 слов после удаления стоп-слов:
recip: 5923
make: 3680
use: 3463
time: 1897
serv: 1879
great: 1855
like: 1798
cook: 1712
one: 1630
made: 1626


In [11]:
# После лемматизации
# Топ-10 слов после стемминга
top_words_stemmed = Counter(" ".join(recipes['cleaned_description']).lower().split()).most_common(10)
print("Топ-10 слов после применения стемминга:")
for word, count in top_words_stemmed:
    print(f"{word}: {count}")

# Топ-10 слов после лемматизации
top_words_after = Counter(" ".join(recipes['lemmatized_description']).lower().split()).most_common(10)
print("Топ-10 слов после удаления стоп-слов:")
for word, count in top_words_after:
    print(f"{word}: {count}")

Топ-10 слов после применения стемминга:
recip: 5923
make: 3680
use: 3463
time: 1897
serv: 1879
great: 1855
like: 1798
cook: 1712
one: 1630
made: 1626
Топ-10 слов после удаления стоп-слов:
recipe: 5915
make: 3236
use: 1972
time: 1887
great: 1850
like: 1696
made: 1625
one: 1621
easy: 1486
love: 1202


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer

recipes = pd.read_csv('recipes_sample.csv')
random_recs = recipes.sample(n=5)

vectorz = TfidfVectorizer(stop_words = 'english')
vectors = vectorz.fit_transform(random_recs['description'])

k = 0 
for i,rec in random_recs.iterrows():
  print(f"Recipe {i+1}:{rec['name']}")
  print(f"Vector description : {vectors[k].toarray()}")
  k+=1

Recipe 10778:fast   easy eggless meatloaf
Vector description : [[0.         0.         0.         0.         0.         0.
  0.12796812 0.         0.         0.12796812 0.         0.12796812
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.12796812
  0.12796812 0.         0.         0.12796812 0.12796812 0.12796812
  0.12796812 0.         0.12796812 0.         0.         0.
  0.         0.         0.         0.38390435 0.         0.
  0.         0.38390435 0.         0.         0.         0.
  0.         0.         0.12796812 0.         0.         0.12796812
  0.         0.12796812 0.         0.25593623 0.         0.
  0.12796812 0.         0.12796812 0.12796812 0.         0.
  0.         0.         0.         0.         0.         0.10324387
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.38390435 0.12796812 0.         0.41297549 

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [23]:
from scipy.spatial.distance import cosine 
si = [] 
for i in range(vectors.shape[0]): 
  row = []
  for j in range(vectors.shape[0]):
    sim = 1 - cosine(vectors[i].toarray().flatten(), vectors[j].toarray().flatten()) 
    row.append(sim) 
  si.append(row) 
s_df = pd.DataFrame(si, columns=random_recs['name']) 
print(s_df)


name  fast   easy eggless meatloaf  baked cod with mushrooms and scallions  \
0                         1.000000                                0.083420   
1                         0.083420                                1.000000   
2                         0.000000                                0.028261   
3                         0.000000                                0.000000   
4                         0.044306                                0.028895   

name  chocolate chip cookies  best evah  icelandic happy marriage cake  \
0                              0.000000                       0.000000   
1                              0.028261                       0.000000   
2                              1.000000                       0.053280   
3                              0.053280                       1.000000   
4                              0.000000                       0.054475   

name  bulls eye salad  
0            0.044306  
1            0.028895  
2            0