# Введение в обработку текста на естественном языке

## Задачи для совместного разбора

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [None]:
import difflib
# читаем слова из файла в список words
with open('litw-win.txt', encoding='cp1251') as f:
    words = f.read().split()

# исправляем опечатки в предложении
sentence = 'с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'
corrected_sentence = []
for word in sentence.split():
    if word in words:
        corrected_sentence.append(word)
    else:
        closest_word = difflib.get_close_matches(word, words, n=1)
        corrected_sentence.append(closest_word[0])
        
print(*corrected_sentence)

с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий


2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [None]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer

# текст из прошлого задания
text = 'с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'

# разбиваем текст на слова
words = nltk.word_tokenize(text, language='russian')

# стемминг слов
stemmer = SnowballStemmer('russian')
stemmed_words = [stemmer.stem(word) for word in words]

# лемматизация слов
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

print('Слова: ', words)
print('Стемминг: ', stemmed_words)
print('Лемматизация: ', lemmatized_words)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


Слова:  ['с', 'велечайшим', 'усилием', 'выбравшись', 'из', 'потока', 'убегающих', 'людей', 'Кутузов', 'со', 'свитой', 'уменьшевшейся', 'вдвое', 'поехал', 'на', 'звуки', 'выстрелов', 'русских', 'орудий']
Стемминг:  ['с', 'велечайш', 'усил', 'выбра', 'из', 'поток', 'убега', 'люд', 'кутуз', 'со', 'свит', 'уменьшевш', 'вдво', 'поеха', 'на', 'звук', 'выстрел', 'русск', 'оруд']
Лемматизация:  ['с', 'велечайшим', 'усилием', 'выбравшись', 'из', 'потока', 'убегающих', 'людей', 'Кутузов', 'со', 'свитой', 'уменьшевшейся', 'вдвое', 'поехал', 'на', 'звуки', 'выстрелов', 'русских', 'орудий']


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

sentence = ['с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий']

# создаем объект CountVectorizer
vectorizer = CountVectorizer()

# преобразуем предложения в векторы
vectorized_sentence = vectorizer.fit_transform(sentence)

# выводим словарь (т.е. уникальные слова) и их индексы
print('Словарь: ')
vectorizer.vocabulary_

Словарь: 


{'велечайшим': 1,
 'усилием': 17,
 'выбравшись': 2,
 'из': 5,
 'потока': 11,
 'убегающих': 15,
 'людей': 7,
 'кутузов': 6,
 'со': 14,
 'свитой': 13,
 'уменьшевшейся': 16,
 'вдвое': 0,
 'поехал': 10,
 'на': 8,
 'звуки': 4,
 'выстрелов': 3,
 'русских': 12,
 'орудий': 9}

## Лабораторная работа 7

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [None]:
import csv
import nltk

# загружаем данные из файла preprocessed_descriptions.csv
with open('preprocessed_descriptions.csv', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=' ', quotechar='|', )
    # пропускаем заголовки
    
    # собираем все слова из всех описаний в один список
    words = []
    for row in reader:
        tokens = nltk.word_tokenize(row[0])
        words.extend(tokens)

# создаем множество уникальных слов
unique_words = set(words)

# выводим количество уникальных слов и несколько примеров
print('Количество уникальных слов:', len(unique_words))
print('Примеры уникальных слов:', list(unique_words)[:10])

Количество уникальных слов: 35011
Примеры уникальных слов: ['10827', 'ramen', '15579', '28021', '13968', 'brown', '29754', '11376', '15805', 'humble']


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [None]:
import random
from nltk.metrics import distance

# выбираем 5 пар случайных слов
pairs = random.sample(unique_words, k=10)

# выводим расстояние редактирования между каждой парой слов
for word1, word2 in zip(pairs[::2], pairs[1::2]):
    print(f"Расстояние редактирования между '{word1}' и '{word2}': {distance.edit_distance(word1, word2)}")

Расстояние редактирования между '9293' и 'ribs': 4
Расстояние редактирования между '13897' и '8226': 5
Расстояние редактирования между '27864' и '303': 5
Расстояние редактирования между '28504' и '18439': 4
Расстояние редактирования между '14736' и '6706': 3


since Python 3.9 and will be removed in a subsequent version.
  pairs = random.sample(unique_words, k=10)


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [None]:
from nltk.metrics.distance import edit_distance

def closest_words(word, words):
    return min(words, key=lambda x: edit_distance(x, word))

word = 'appel'
closest_word = closest_words(word, words)
print(f"Ближайшее слово к '{word}': {closest_word}")

Ближайшее слово к 'appel': angel


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [None]:
import pandas as pd
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

# Стемминг и лемматизация слов
stemmed_words = [stemmer.stem(word) for word in words]
normalized_words = [lemmatizer.lemmatize(word) for word in words]

# Создание DataFrame
df = pd.DataFrame({'word': words, 'stemmed_word': stemmed_words, 'normalized_word': normalized_words})
df = df.set_index('word')

print(df.head())

       stemmed_word normalized_word
word                               
0                 0               0
,                 ,               ,
george        georg          george
1                 1               1
,                 ,               ,


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [None]:
import pandas as pd
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [None]:
# Загрузка описаний рецептов
data = pd.read_csv('preprocessed_descriptions.csv', delimiter=' ',)

# Удаление стоп-слов из описаний
stop_words = set(stopwords.words('english'))
data['description'] = data['description'].apply(lambda x: [word for word in word_tokenize(x) if word.lower() not in stop_words])

# Определение доли стоп-слов
total_words = data['description'].apply(lambda x: len(x)).sum()
stop_words_count = sum(data['description'].apply(lambda x: x.count(w) for w in stop_words))
stop_words_fraction = stop_words_count / total_words
print(f"Доля стоп-слов: {stop_words_fraction:.3f}")

# Топ-10 слов до удаления стоп-слов
all_words = [word for desc in data['description'] for word in desc]
top_10_words_before = pd.Series(all_words).value_counts().head(10)
print("Топ-10 слов до удаления стоп-слов:\n", top_10_words_before)

# Топ-10 слов после удаления стоп-слов
all_words = [word for desc in data['description'] for word in desc]
top_10_words_after = pd.Series(all_words).value_counts().head(10)
print("Топ-10 слов после удаления стоп-слов:\n", top_10_words_after)