# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [None]:
import pandas as pd
from nltk.tokenize import  word_tokenize


In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
filee = pd.read_csv("litw-win.txt",  names = ["col1"], encoding='cp1251')
filee

Unnamed: 0,col1
0,101167 и
1,53913 в
2,35629 я
3,31815 с
4,21715 а
...,...
162161,1 высокопревосходительства
162162,1 попреблагорассмотрительст
162163,1 попреблагорассмотрительствующемуся
162164,1 убегающих


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
import Levenshtein

def fix_typos(data, words):
    for i in range(len(data)):
        for j in range(len(data[i])):
            closest_word = min(words, key=lambda x: Levenshtein.distance(x, data[i][j]))
            if closest_word != data[i][j]:
                data[i][j] = closest_word
    return data

In [None]:
words = [i.lstrip() for i in filee["col1"]]
# for i in filee["col1"]:
#   print(i)
words[0]

'101167 и'

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

In [None]:
filee = pd.read_csv("preprocessed_descriptions.csv", index_col = 0)
filee

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [None]:
filee["preprocessed_descriptions"].tolist()

['an original recipe created by chef scott meskan georges at the cove we enjoyed this when we visited this restaurant in la jolla california this recipe is requested so often they have it printed and ready at the hostess stand its unbeatable at the restaurant but i do a pretty good job at home too if i do say so myself',
 'my children and their friends ask for my homemade popsicles morning noon and night i never turn them down who am i to tell them that they are good for them for variety i substitute different flavours of frozen juice  grape fruit punch tropical etc',
 'these were so go it surprised even me',
 'my sisterinlaw made these for us at a family get together they are delicious a little messy to make but worth the effort have a helper and make an ',
 'i think a fondue is a very romantic casual dinner or wonderful for after the theatre snack served with a robust red wine for dinner serve with rice  a small salad almond rice pilaf is a great accompaniment recipe posted separatel

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [None]:
# words = " ".join(filee["preprocessed_descriptions"].tolist())
#main
words = map(str, filee["preprocessed_descriptions"].tolist())
words = " ".join(words)
words = word_tokenize(words)
print(len(words))
words = set(words)
words


In [229]:
"an" in words

True

In [None]:
filee["preprocessed_descriptions"].tolist()[1]

'my children and their friends ask for my homemade popsicles morning noon and night i never turn them down who am i to tell them that they are good for them for variety i substitute different flavours of frozen juice  grape fruit punch tropical etc'

<class 'list'>


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [233]:
#main
import random
def random_word_pairs(words):
    pairs = []
    for i in range(5):
        word1, word2 = random.sample(words, 2)
        pairs.append((word1, word2))
    return pairs

def edit_distance(word1, word2):
    m, n = len(word1), len(word2)
    dp = [[0] * (n+1) for _ in range(m+1)]
    for i in range(m+1):
        dp[i][0] = i
    for j in range(n+1):
        dp[0][j] = j
    for i in range(1, m+1):
        for j in range(1, n+1):
            if word1[i-1] == word2[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = 1 + min(dp[i][j-1], dp[i-1][j], dp[i-1][j-1])
    return dp[m][n]


wordss = words.copy()
pairs = random_word_pairs(wordss)

for pair in pairs:
    word1, word2 = pair
    distance = edit_distance(word1, word2)
    print(f"Дистанция редактирования между словом '{word1}' и словом  '{word2}' = {distance}")

Дистанция редактирования между словом 'pods' и словом  'ever' = 4
Дистанция редактирования между словом 'kikuchan' и словом  'sixty' = 7
Дистанция редактирования между словом 'ack' и словом  'instantly' = 8
Дистанция редактирования между словом 'belgioioso' и словом  'brazilian' = 7
Дистанция редактирования между словом 'veggis' и словом  'fuse' = 6


since Python 3.9 and will be removed in a subsequent version.
  word1, word2 = random.sample(words, 2)


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [93]:
#main
def find_closest_words(word, words, k):
    distances = {}
    for w in words:
        distance = edit_distance(word, w)
        distances[w] = distance
    sorted_words = sorted(distances.keys(), key=lambda x: distances[x])
    return sorted_words[:k]


word = 'cookies'
k = 3
closest_words = find_closest_words(word, words, k)
print(f"{k} слов(а) близких к слову '{word}' это:")
for w in closest_words:
    print(w)

3 слов(а) близких к слову 'cookies' это:
cookies
cookiesi
cookiei


### Стемминг, лемматизация

In [113]:
from nltk.stem import SnowballStemmer

In [136]:
pip install pymorphy2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 KB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m51.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13721 sha256=07fa57b14e6ddc4f90c6d0c535b3c0177e614f70d5783e4

In [142]:

import pymorphy2


2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [156]:
morph = pymorphy2.MorphAnalyzer()
a = ["стали","встали"]

In [135]:
stemmer = SnowballStemmer("english")
a = ["hi", "dogs"]
print([stemmer.stem(str(i)) for i in a])
a

['hi', 'dog']


['hi', 'dogs']

In [175]:
stemmer.stem("endlesshave")

'endlesshav'

In [174]:
morph.parse("endlesshave")[0].normalized.word

'endlesshave'

In [240]:
#main
data = pd.DataFrame({"stemmed_word" : [stemmer.stem(str(i)) for i in words],
                    "normalized_word" : [morph.parse(str(i))[0].normalized.word for i in words]}, index = words )
data

Unnamed: 0,stemmed_word,normalized_word
merchants,merchant,merchants
dalals,dalal,dalals
endlesshave,endlesshav,endlesshave
traveling,travel,traveling
touristy,touristi,touristy
...,...,...
familyowned,familyown,familyowned
drumstick,drumstick,drumstick
blackened,blacken,blackened
carblow,carblow,carblow


In [215]:
data.shape

(32868, 2)

In [176]:
# data = pd.DataFrame()
# data["stemmed_word"] = [stemmer.stem(str(i)) for i in words]
# data

In [None]:
[stemmer.stem(str(i)) for i in words]

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [178]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [228]:
stop_words = set(stopwords.words('english'))
"an" in stop_words

True

In [254]:
#main
count = 0
data2 = data.copy()
top_10 = data.stack().value_counts().head(10)
print(top_10)

print(data.shape[0])
for i in data2["normalized_word"]:
  if i in stop_words:
    
    data2 = data2.drop(labels=str(i))
    
    count+=1
    
top_10 = data2.stack().value_counts().head(10)
print(top_10)
data2.shape[0]
print(f' Количество стоп-слов {count}, доля об общего количества слов которые составляли стоп-слова {count/data2.shape[0]}')

origin    12
tender    11
prefer    11
altern    10
decor     10
travel    10
adapt     10
invent     9
tast       9
pure       9
dtype: int64
32868
origin    12
tender    11
prefer    11
decor     10
altern    10
travel    10
adapt     10
invent     9
tast       9
pure       9
dtype: int64
 Количество стоп-слов 136, доля об общего количества слов которые составляли стоп-слова 0.004154955395331786


In [187]:
"merchants" in data

False

In [216]:
data2.shape

(32732, 2)

In [255]:
count =0
for i in data["normalized_word"]:
  if i in stop_words:
    count+=1
count

136

### Векторное представление текста

In [None]:
#до конца еще не успел сделать

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).