# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [42]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

In [12]:
from nltk.metrics import edit_distance
from nltk.corpus import words

In [14]:
import nltk
nltk.download('words')

[nltk_data] Downloading package words to
[nltk_data]     C:\Users\Маша\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.


True

In [31]:
import nltk
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

In [35]:
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Маша\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Маша\AppData\Roaming\nltk_data...


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [16]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [None]:
txt='Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'

In [38]:
stemmer = SnowballStemmer("russian")
lemmatizer = WordNetLemmatizer()

# формулировка задания 1))))=
text = 'Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'


tokens = word_tokenize(text)
stemmed_words = [stemmer.stem(token) for token in tokens]
lemmatized_words = [lemmatizer.lemmatize(token) for token in tokens]

print("Исходный текст:", text)
print("Список слов:", tokens)
print("Стемминг слов:", stemmed_words)
print("Лемматизация слов:", lemmatized_words)

Исходный текст: Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.
Список слов: ['Считайте', 'слова', 'из', 'файла', 'litw-win.txt', 'и', 'запишите', 'их', 'в', 'список', 'words', '.', 'В', 'заданном', 'предложении', 'исправьте', 'все', 'опечатки', ',', 'заменив', 'слова', 'с', 'опечатками', 'на', 'ближайшие', '(', 'в', 'смысле', 'расстояния', 'Левенштейна', ')', 'к', 'ним', 'слова', 'из', 'списка', 'words', '.', 'Считайте', ',', 'что', 'в', 'слове', 'есть', 'опечатка', ',', 'если', 'данное', 'слово', 'не', 'содержится', 'в', 'списке', 'words', '.']
Стемминг слов: ['счита', 'слов', 'из', 'файл', 'litw-win.txt', 'и', 'запиш', 'их', 'в', 'список', 'words', '.', 'в', 'зада', 'предложен', 'исправьт', 'все', 'опечатк', ',', 'замен', 'слов', 'с'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

In [23]:
import csv
from nltk.tokenize import word_tokenize
import random

In [5]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Маша\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [18]:
with open('preprocessed_descriptions.csv', 'r') as file:
    reader = csv.reader(file)
    next(reader)
    wordsinprep = set()
    for row in reader:
        description = row[2]
        tokens = word_tokenize(description)
        wordsinprep.update(tokens)

print(wordsinprep)



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [24]:
word_pairs = random.sample(wordsinprep, k=10)
for i in range(0, len(word_pairs), 2):
    word1 = word_pairs[i]
    word2 = word_pairs[i+1]
    
    distance = edit_distance(word1, word2)
    print(f"Расстояние Левенштейна между '{word1}' и '{word2}': {distance}")

Расстояние Левенштейна между 'toowwwthesinglebitecom' и 'planned': 20
Расстояние Левенштейна между 'promotion' и 'regularyoung': 10
Расстояние Левенштейна между 'hemingway' и 'orangered': 8
Расстояние Левенштейна между 'houlihans' и 'feijoas': 7
Расстояние Левенштейна между 'peoplefor' и 'hamburg': 9


since Python 3.9 and will be removed in a subsequent version.
  word_pairs = random.sample(wordsinprep, k=10)


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [25]:
def find_closest_words(word, wordsinprep, k):
    distances = [(w, edit_distance(word, w)) for w in wordsinprep]
    sorted_distances = sorted(distances, key=lambda x: x[1])
    closest_words = [w[0] for w in sorted_distances[:k]]
    return closest_words

In [26]:
word = 'hello'
k = 3

In [28]:
closest_words = find_closest_words(word, wordsinprep, k)
print(f"Ближайшие {k} слов(а) к '{word}': {closest_words}")

Ближайшие 3 слов(а) к 'hello': ['hello', 'mello', 'jello']


### Стемминг, лемматизация

In [39]:
import pandas as pd

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [48]:
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()
stemmed_words = [stemmer.stem(word) for word in wordsinprep]
lemmatized_words = [lemmatizer.lemmatize(word) for word in wordsinprep]
wordsinprep=list(wordsinprep)
wrr = {'stemmed_word' : stemmed_words, 'normalized_word' : lemmatized_words}
df = pd.DataFrame(wrr, index=wordsinprep)
df

Unnamed: 0,stemmed_word,normalized_word
cames,came,cames
donkeys,donkey,donkey
happen,happen,happen
sameold,sameold,sameold
shelves,shelv,shelf
...,...,...
camping,camp,camping
detailed,detail,detailed
pitas,pita,pita
airy,airi,airy


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [49]:
from nltk.corpus import stopwords
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Маша\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [52]:
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in wordsinprep if word.lower() not in stop_words]
print(f'стоп-слов было {len(wordsinprep)-len(filtered_tokens)}. Они составляли {(len(wordsinprep)-len(filtered_tokens))/len(wordsinprep)} всех слов')

стоп-слов было 136. Они составляли 0.004137763173907752 всех слов


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).