# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [5]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
import pandas as pd
from nltk.tokenize import word_tokenize

recipes = pd.read_csv('recipes_sample.csv').dropna()
words=[]
for des in recipes['description']:
  words+=word_tokenize(des) 
words=list(set(words))

print(words) 



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [4]:
from nltk.metrics.distance import *
import random

In [10]:
words = ['показатель','дума','хлеб','радость','земля', 'вина', 'ошибка', 'вино']
for i in range(5):
  w1,w2 = random.sample(words,2)
  dist = edit_distance(w1,w2)
  print(f"Distance between '{w1}' and '{w2}' = '{dist}'")

Distance between 'земля' and 'дума' = '4'
Distance between 'дума' and 'вина' = '3'
Distance between 'хлеб' and 'вино' = '4'
Distance between 'вина' and 'вино' = '1'
Distance between 'вино' and 'ошибка' = '5'


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [5]:
def search(word,k):
  words = ['показатель','дума','хлеб','радость','земля', 'вина', 'ошибка', 'вино']
  dist = {j:edit_distance(word,j) for j in words}
  res = sorted(dist,key = dist.get)[:k]
  return res

In [6]:
search('указатель', 2)

['показатель', 'радость']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [7]:
import nltk
from nltk.stem import *
import pandas as pd
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [8]:
import pandas as pd
from nltk.tokenize import word_tokenize

recipes = pd.read_csv('recipes_sample.csv').dropna()
words=[]
for des in recipes['description']:
  words+=word_tokenize(des) 
words=list(set(words))

print(words)

stemma = SnowballStemmer('english')
lemma = WordNetLemmatizer()
#words = ['inferno','magnesium','cats','darkness','moons','thelema']
df = pd.DataFrame(index = [word for word in words],columns=['word','stemmed_word','normalized_word'])
for word in words:
  df.at[word,'word'] = word
  df.at[word,'stemmed_word'] = stemma.stem(word)
  df.at[word,'normalized_word'] = lemma.lemmatize(word)

print(df)



            word stemmed_word normalized_word
devour    devour       devour          devour
marian    marian       marian          marian
ziplock  ziplock      ziplock         ziplock
....        ....         ....            ....
ulcers    ulcers        ulcer           ulcer
...          ...          ...             ...
ways        ways          way             way
1967.      1967.        1967.           1967.
getting  getting          get         getting
regrets  regrets       regret          regret
miller    miller       miller          miller

[18912 rows x 3 columns]


In [24]:
stemma = SnowballStemmer('english')
lemma = WordNetLemmatizer()
words = ['inferno','magnesium','cats','darkness','moons','thelema']
df = pd.DataFrame(index = [word for word in words],columns=['word','stemmed_word','normalized_word'])
for word in words:
  df.at[word,'word'] = word
  df.at[word,'stemmed_word'] = stemma.stem(word)
  df.at[word,'normalized_word'] = lemma.lemmatize(word)

print(df)



                word stemmed_word normalized_word
inferno      inferno      inferno         inferno
magnesium  magnesium    magnesium       magnesium
cats            cats          cat             cat
darkness    darkness         dark        darkness
moons          moons         moon            moon
thelema      thelema      thelema         thelema


In [9]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer, WordNetLemmatizer
nltk.download('stopwords')
nltk.download('wordnet')
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

# Очистка текста от стоп-слов и применение стемминга
def clean_text(text):
    stop_words = set(stopwords.words("english"))
    words = text.split()
    cleaned_words = []
    for word in words:
        if word.lower() not in stop_words:
            cleaned_words.append(stemmer.stem(word))
    return " ".join(cleaned_words)

# Очистка текста от стоп-слов и применение лемматизации
def lemmatize_text(text):
    stop_words = set(stopwords.words("english"))
    words = text.split()
    cleaned_words = []
    for word in words:
        if word.lower() not in stop_words:
            cleaned_words.append(lemmatizer.lemmatize(word))
    return " ".join(cleaned_words)

import pandas as pd

# Загрузка датасета
recipes = pd.read_csv('recipes_sample.csv')

# Применение очистки и стемминга
recipes['cleaned_description'] = recipes['description'].apply(lambda x: clean_text(x))

# Доля стоп-слов
stop_words = set(stopwords.words("english"))
total_words = recipes['description'].apply(lambda x: len(str(x).split())).sum()
stop_words_count = recipes['description'].apply(lambda x: len([word for word in str(x).lower.split() if word in stop_words]).sum())
stop_words_ratio = stop_words_count/total_words 
print("Доля стоп-слов: ", round(stop_words_ratio*100, 2), "%")


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\VareNiC\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


AttributeError: 'float' object has no attribute 'split'

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [25]:
import re

# Список слов для удаления
words_to_remove = stop_words

# Исходная строка
# Создаем регулярное выражение для удаления слов
pattern = '|'.join(words_to_remove)
regex = re.compile(r'\b(' + pattern + r')\b', flags=re.IGNORECASE)

# Удаляем слова из строки
new_text = regex.sub('', )

# Выводим результат
print(new_text) # quick brown fox jumps over lazy dog

NameError: name 'stop_words' is not defined

In [None]:
import re

In [None]:
recipes = pd.read_csv('recipes_sample.csv')
recipe_c = recipes.copy()
recipe_c = recipe_c.astype({'description':str})
new = recipe_c['description'].tolist()
for i in range(0,len(new)):
  re.sub('\d', ' ',new[i])

In [None]:
import nltk
nltk.download("stopwords")
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
stop_words = list(set(stopwords.words('english')))
tok = word_tokenize(new.lower())
tok_wto_stopw=[word for word in tok if word not in stop_words]
tok_wto_stopw

In [None]:
stop_words = list(set(stopwords.words('english')))

filtered_words = [new[i] for i in range(len(new)) if new[i].lower() not in stop_words]
top10_before = pd.Series(new).value_counts().head(10)
top10_after = pd.Series(filtered_words).value_counts().head(10)

stop_wr_count = len([i for i in new if i.lower() in stop_words])
total_wr_count = len(new)
stop_ratio = stop_wr_count / total_wr_count

print('Stop_words_count',stop_wr_count)
print('total_wr_count', total_wr_count)
print('stop_wr_count',stop_wr_count)

Stop_words_count 0
total_wr_count 30000
stop_wr_count 0


In [None]:
stop_words

['before',
 'any',
 'just',
 'under',
 'mustn',
 'that',
 'me',
 'how',
 'his',
 'you',
 'herself',
 'won',
 'mightn',
 "needn't",
 'and',
 'ma',
 'on',
 'hasn',
 'o',
 "haven't",
 'until',
 'her',
 'out',
 'they',
 "it's",
 'no',
 'very',
 'have',
 'wouldn',
 'why',
 'him',
 'shan',
 'it',
 "she's",
 'will',
 "weren't",
 'was',
 'into',
 'each',
 'hadn',
 "should've",
 'than',
 'themselves',
 'at',
 'through',
 'ain',
 'by',
 'here',
 'not',
 'itself',
 'were',
 'other',
 'in',
 'should',
 "aren't",
 'myself',
 'be',
 'there',
 've',
 'then',
 'its',
 'is',
 "don't",
 'isn',
 'being',
 'doing',
 'll',
 'between',
 'nor',
 'ourselves',
 'having',
 'both',
 'above',
 'am',
 "shouldn't",
 'during',
 'my',
 'your',
 'below',
 'yourself',
 "wasn't",
 'now',
 'doesn',
 "won't",
 'had',
 'where',
 'such',
 'a',
 'are',
 'too',
 "you'd",
 'but',
 's',
 'so',
 'can',
 'from',
 'which',
 'do',
 'further',
 'after',
 'more',
 'against',
 'our',
 "mightn't",
 "doesn't",
 'or',
 'm',
 'we',
 "must

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

recipes = pd.read_csv('recipes_sample.csv')
random_recs = recipes.sample(n=5)

vectorz = TfidfVectorizer(stop_words = 'english')
vectors = vectorz.fit_transform(random_recs['description'])

k = 0 
for i,rec in random_recs.iterrows():
  print(f"Recipe {i+1}:{rec['name']}")
  print(f"Vector description : {vectors[k].toarray()}")
  k+=1

Recipe 14847:jamaica shake
Vector description : [[0.   0.   0.   0.   0.25 0.25 0.   0.25 0.   0.   0.   0.   0.   0.
  0.   0.25 0.5  0.   0.25 0.   0.   0.   0.25 0.   0.   0.25 0.   0.
  0.5  0.   0.   0.   0.   0.   0.   0.   0.25 0.   0.  ]]
Recipe 26325:summer saute
Vector description : [[0.        0.        0.        0.        0.        0.        0.
  0.        0.        0.        0.4472136 0.        0.        0.4472136
  0.        0.        0.        0.        0.        0.        0.
  0.        0.        0.        0.        0.        0.        0.
  0.        0.        0.        0.        0.        0.        0.4472136
  0.4472136 0.        0.4472136 0.       ]]
Recipe 2252:banilla ice cream  raw food
Vector description : [[0.         0.25819889 0.         0.         0.         0.
  0.25819889 0.         0.25819889 0.25819889 0.         0.25819889
  0.         0.         0.         0.         0.         0.
  0.         0.25819889 0.25819889 0.         0.         0.51639778
  0.25

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [None]:
From scipy.spatial.distance import cosine 
si = [] 
for i in range(vectors.shape[0]): 
  row = []
  for j in range(vectors.shape[0]):
    sim= 1 - cosine(vectors[i].toarray(), vectors[j].toarray()) 
    row. append(sim) 
  si.append(row) 
s_df = pd.dataframe(si, columns=random_recipes['description']) 
print(s_df)

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).