# Введение в обработку текста на естественном языке

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Введение в обработку текста на естественном языке"
* https://www.nltk.org/api/nltk.metrics.distance.html
* https://pymorphy2.readthedocs.io/en/stable/user/guide.html
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py): started
  Building wheel for docopt (setup.py): finished with status 'done'
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13723 sha256=4beac3730c76c0336b3f288a287d0fc71db1957720270f13b877f19826c14d15
  Stored in directory: c:\users\nikita\appdata\local\pip\cache\wheels\70\4a\46\1309fc853b8d395e60bafaf1b6df7845bdd82c95fd59dd8d2b
Successfully built docopt
Installing collected packages: pymorphy2-dicts-ru, docopt, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 docopt-0.6.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Nikita\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. При помощи расстояния Левенштейна иправьте опечатку в слове "велечайшим".

In [4]:
from nltk import edit_distance

In [22]:
words = []
with open('litw-win.txt') as file:
    while True:
        line = file.readline()
        if not line:
            break
        words.append(line[8:].strip())

In [24]:
len(words)

162166

In [36]:
distance = [edit_distance('велечайшим', word, substitution_cost=2) for word in words]

In [38]:
words[distance.index(min(distance))]

'величайшим'

2. Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.

In [39]:
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
import pymorphy2

In [40]:
text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

In [41]:
snb_stemmer_ru = SnowballStemmer('russian')

In [43]:
import re
w = re.compile('^[а-яА-ЯёЁ]*$')

In [45]:
[snb_stemmer_ru.stem(word) for word in word_tokenize(text) if w.search(word)]

['разб',
 'текст',
 'из',
 'формулировк',
 'втор',
 'задан',
 'на',
 'слов',
 'провед',
 'стемминг',
 'и',
 'лемматизац',
 'слов']

In [46]:
morph = pymorphy2.MorphAnalyzer()

In [47]:
pt = [morph.parse(word) for word in word_tokenize(text) if w.search(word)] 
[word[0].normalized.word for word in pt]

['разбить',
 'текст',
 'из',
 'формулировка',
 'второй',
 'задание',
 'на',
 'слово',
 'провести',
 'стемминг',
 'и',
 'лемматизация',
 'слово']

3. Преобразуйте предложения из формулировки задания 2 в векторы при помощи `CountVectorizer`. Выведите на экран словарь обученного токенизатора.

In [48]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk import sent_tokenize

In [49]:
text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

In [50]:
sentences = sent_tokenize(text)

In [54]:
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(sentences)
vectorizer.get_feature_names_out()

array(['второго', 'задания', 'из', 'лемматизацию', 'на', 'проведите',
       'разбейте', 'слов', 'слова', 'стемминг', 'текст', 'формулировки'],
      dtype=object)

## Лабораторная работа 7

1\. Загрузите данные из файла `ru_recipes_sample.csv` в виде `pd.DataFrame` `recipes` Используя регулярные выражения, удалите из описаний (столбец `description`) все символы, кроме русских букв, цифр и пробелов. Приведите все слова в описании к нижнему регистру. Сохраните полученный результат в столбец `description`.

In [55]:
import pandas as pd
import numpy as np

In [60]:
recipes = pd.read_csv('ru_recipes_sample.csv')

In [84]:
w = re.compile('[а-яА-ЯёЁ0-9 ]+')

In [85]:
recipes.description[0].lower()

'этот коктейль готовлю из замороженной клубники. если клубника свежая, то добавляю перепелиное яйцо, благодаря этому коктейль получается устойчиво густым.'

In [92]:
new_descr = recipes.description.apply(lambda text: " ".join([part.strip() for part in w.findall(text.lower())]))

In [93]:
recipes.description = new_descr

In [94]:
recipes.head()

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",быстро и вкусно
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...",сытный овощной салатик пальчики оближете
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",картофельное пюре и куриные котлеты вкусная кл...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...",вишневая наливка имеет яркий вишневый вкус кот...


### Расстояние редактирования

2\. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна. Выведите на экран результат в следующем виде:

```
d(word1, word2) = x
```

In [109]:
words = list(set([word for desc in recipes.description.apply(lambda descr: word_tokenize(descr)) for word in desc]))

In [105]:
import random

In [111]:
for _ in range(5):
    word1 = random.choice(words)
    word2 = random.choice(words)
    d = edit_distance(word1, word2, substitution_cost=2)
    print(f"d({word1}, {word2}) = {d}")

d(припеками, общения) = 12
d(полдня, отдельными) = 10
d(туношна, тушку) = 6
d(цветочки, вдохновил) = 11
d(панируется, поделюсь) = 12


3\. Напишите функцию, которая принимает на вход 2 текстовые строки `s1` и `s2` и при помощи расстояния Левенштейна определяет, является ли строка `s2` плагиатом `s1`. Функция должна реализовывать следующую логику: для каждого слова `w1` из `s1` проверяет, есть в `s2` хотя бы одно слово `w2`, такое, что расстояние Левенштейна между `w1` и `w2` меньше 2, и считает количество таких слов в `s1` $P$. 

$$ P = \#\{w_1 \in s_1\ | \exists w_2 \in s_2 : d(w_1, w_2) < tol\}$$

$$ L = max(|s1|, |s2|) $$

Здесь $|\cdot|$ - количество слов в строке, $\#A$ - число элементов в множестве $A$, $w \in s$ означает, что слово $w$ содержится в тексте $s$.

Если отношение $P / L$ больше 0.8, то функция должна вернуть True; иначе False.

Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934 (ID рецепта - это число, стоящее в конце url рецепта). Выведите на экран описания этих рецептов и результат работы функции.

In [112]:
def is_plagiarism(s1: str, s2: str) -> bool:
    words1 = word_tokenize(s1)
    words2 = word_tokenize(s2)
    P = 0
    for w1 in words1:
        for w2 in words2:
            d = edit_distance(w1, w2, substitution_cost=2)
            if(d<2):
                P+=1
    L = max(len(words1), len(words2))
    return P/L>0.8

In [116]:
rec_id = recipes.url.apply(lambda url: int(url.split('/')[-2]))

In [123]:
descr_135488 = recipes[rec_id == 135488].description.iloc[0]
descr_851934 = recipes[rec_id == 851934].description.iloc[0]

In [125]:
descr_135488, descr_851934

('прекрасной закуской к крепким напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком который мы спрячем в орешках из бородинского хлеба положив в середину маслину закуска получается необычной оригинальной и ценится особенно мужчинами',
 'замечательной закуской к напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком куда мы добавим орешков из бородинского хлеба положив в середину маслины закуска получается крайне необычной оригинальной и ценится особенно мужчинами')

In [124]:
is_plagiarism(descr_135488, descr_851934)

True

### Стемминг, лемматизация

4\. На основе набора слов из задания 2 создайте `pd.DataFrame` со столбцами `word`, `stemmed_word` и `normalized_word`. В столбец `stemmed_word` поместите версию слова после проведения процедуры стемминга; в столбец `normalized_word` поместите версию слова после проведения процедуры лемматизации. Столбец `word` укажите в качестве индекса. 

Для стемминга можно воспользоваться `SnowballStemmer` из `nltk`, для лемматизации слов - пакетом `pymorphy2`. Сравните результаты стемминга и лемматизации. Поясните на примере одной из строк получившегося фрейма (в виде текстового комментария), в чем разница между двумя этими подходами. 

In [157]:
words = list(set([word for description in recipes.description.apply(lambda desc: word_tokenize(desc)) for word in description]))

In [158]:
df4 = pd.DataFrame(columns=['word', 'stemmed_word','normalized_word'])

In [159]:
df4.word = words

In [160]:
snb_stemmer_ru = SnowballStemmer('russian')
df4.stemmed_word = [snb_stemmer_ru.stem(word) for word in df4.word]

In [161]:
morph = pymorphy2.MorphAnalyzer()
df4.normalized_word = [morph.parse(word)[0].normalized.word for word in df4.word] 

In [162]:
df4 = df4.set_index('word')

In [163]:
df4.head()

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
праздников,праздник,праздник
гурман,гурма,гурман
еврейской,еврейск,еврейский
конфетенбург,конфетенбург,конфетенбург
чебуреках,чебурек,чебурек


5\. Добавьте в таблицу `recipes` столбец `description_no_stopwords`, в котором содержится текст описания рецепта после удаления из него стоп-слов. Посчитайте и выведите на экран долю стоп-слов среди общего количества слов. Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [138]:
from nltk.corpus import stopwords

In [140]:
ru_stopwords = stopwords.words('russian')

In [142]:
description_no_stopwords = recipes.description.apply(
    lambda desc: " ".join([
        word for word in word_tokenize(desc) if word not in ru_stopwords
    ])
)

In [143]:
recipes['description_no_stopwords'] = description_no_stopwords

In [144]:
recipes.head()

Unnamed: 0,url,name,ingredients,description,description_no_stopwords
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",этот коктейль готовлю из замороженной клубники...,коктейль готовлю замороженной клубники клубник...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",быстро и вкусно,быстро вкусно
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...",сытный овощной салатик пальчики оближете,сытный овощной салатик пальчики оближете
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",картофельное пюре и куриные котлеты вкусная кл...,картофельное пюре куриные котлеты вкусная клас...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...",вишневая наливка имеет яркий вишневый вкус кот...,вишневая наливка имеет яркий вишневый вкус кот...


In [146]:
len(words)

16165

In [166]:
no_stopwords = [word for word in words if word not in ru_stopwords]
len(no_stopwords)

16014

In [185]:
#доля стопслов в уникальном наборе слов 
frac = (1-len(no_stopwords)/len(words))*100
f"{frac:.2f}%"

'0.93%'

In [173]:
all_words = [word for desc in recipes.description.apply(lambda descr: word_tokenize(descr)) for word in desc]

In [174]:
all_no_stopwords = [
    word for desc in recipes.description_no_stopwords.apply(lambda descr: word_tokenize(descr)) for word in desc
]

In [184]:
#доля стопслов в полном наборе слов
frac = (1-len(all_no_stopwords)/len(all_words))*100
f"{frac:.2f}%"

'32.54%'

In [186]:
from nltk.probability import FreqDist
fdist_before = FreqDist(all_words)
fdist_after = FreqDist(all_no_stopwords)

In [201]:
sorted(fdist_before.items(), key= lambda items: items[1], reverse=True)[:10]

[('и', 5062),
 ('в', 2592),
 ('с', 1942),
 ('на', 1658),
 ('очень', 1626),
 ('не', 1518),
 ('из', 1023),
 ('я', 982),
 ('а', 876),
 ('рецепт', 874)]

In [202]:
sorted(fdist_after.items(), key= lambda items: items[1], reverse=True)[:10]

[('очень', 1626),
 ('рецепт', 874),
 ('это', 743),
 ('блюдо', 527),
 ('вкусный', 461),
 ('просто', 439),
 ('вкусно', 380),
 ('приготовить', 344),
 ('вкус', 325),
 ('салат', 318)]

### Векторное представление текста

6\. Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра). Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`. На основе полученных векторов создайте `pd.DataFrame`, в котором названия колонок соответствуют словам из словаря объекта-векторизатора. 

Примечание: обратите внимание на порядок слов при создании колонок.

In [210]:
from sklearn.feature_extraction.text import (CountVectorizer, TfidfVectorizer)

In [206]:
pancakes = recipes[recipes.name.apply(lambda name: "оладьи" in name.lower())]

In [207]:
pancakes5 = pancakes.sample(5)

In [211]:
vectorizer = TfidfVectorizer()

In [213]:
vc = vectorizer.fit_transform(pancakes5.description)

In [221]:
df6 = pd.DataFrame(vc.toarray(), columns=vectorizer.get_feature_names_out())
df6

Unnamed: 0,базилика,белки,блины,блюда,более,бы,был,быстро,вам,варенье,...,черешки,чечевица,что,чуть,шарообразной,шоколадный,щепотка,это,этом,этот
0,0.0,0.170495,0.0,0.170495,0.0,0.0,0.0,0.0,0.0,0.0,...,0.170495,0.170495,0.0,0.0,0.0,0.0,0.0,0.0,0.170495,0.0
1,0.0,0.0,0.197642,0.0,0.0,0.0,0.197642,0.0,0.0,0.0,...,0.0,0.0,0.159456,0.0,0.0,0.0,0.0,0.318912,0.0,0.197642
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.210069,0.0,0.0
3,0.146652,0.0,0.0,0.0,0.0,0.146652,0.0,0.0,0.146652,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.146652,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.119493,0.0,0.0,0.119493,0.0,0.119493,...,0.0,0.0,0.096407,0.119493,0.119493,0.119493,0.0,0.0,0.0,0.0


In [226]:
df6.iloc[:1]

Unnamed: 0,базилика,белки,блины,блюда,более,бы,был,быстро,вам,варенье,...,черешки,чечевица,что,чуть,шарообразной,шоколадный,щепотка,это,этом,этот
0,0.0,0.170495,0.0,0.170495,0.0,0.0,0.0,0.0,0.0,0.0,...,0.170495,0.170495,0.0,0.0,0.0,0.0,0.0,0.0,0.170495,0.0


In [236]:
pancakes5.description.iloc[1]

'гречка да с цитрусом что это это вкусно масленицу провожать надо а на блины уже глаза не смотрят вот и найден был этот рецепт в журналах да как удачно'

In [235]:
df6.iloc[1][[word for word in word_tokenize(pancakes5.description.iloc[1]) if word not in ru_stopwords]]

гречка       0.197642
цитрусом     0.197642
это          0.318912
это          0.318912
вкусно       0.197642
масленицу    0.197642
провожать    0.197642
блины        0.197642
глаза        0.197642
смотрят      0.197642
найден       0.197642
рецепт       0.132363
журналах     0.197642
удачно       0.197642
Name: 1, dtype: float64

7\. Вычислите близость между каждой парой рецептов, выбранных в задании 6, используя косинусное расстояние (можно воспользоваться функциями из любого пакета: `scipy`, `scikit-learn` или реализовать функцию самому). Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

Примечание: обратите внимание, что $d_{cosine}(x, x) = 0$

In [247]:
from numpy.linalg import norm

In [242]:
morph = pymorphy2.MorphAnalyzer()
w_regex = re.compile('^[а-яё]*$')

def vectorizer_n(string):
    return [
        morph.parse(word)[0].normalized.word
        for word in word_tokenize(string.lower())
        if w_regex.search(word)
    ]


In [243]:
cv = CountVectorizer(tokenizer=vectorizer_n, stop_words=ru_stopwords)

In [244]:
recipes_cv = cv.fit_transform(pancakes5.description)



In [245]:
recipes_arr = recipes_cv.toarray()

In [253]:
recipes_arrn = recipes_arr / norm(recipes_arr, axis=1)[:, np.newaxis]

In [268]:
temp = recipes_arrn @ recipes_arrn.T
temp

array([[1.        , 0.09128709, 0.05063697, 0.03042903, 0.08921995],
       [0.09128709, 1.        , 0.20801257, 0.08333333, 0.06108472],
       [0.05063697, 0.20801257, 1.        , 0.09245003, 0.13553483],
       [0.03042903, 0.08333333, 0.09245003, 1.        , 0.16289259],
       [0.08921995, 0.06108472, 0.13553483, 0.16289259, 1.        ]])

In [257]:
from sklearn.metrics.pairwise import cosine_distances as cos_d

In [259]:
1 - cos_d(recipes_arr)

array([[1.        , 0.09128709, 0.05063697, 0.03042903, 0.08921995],
       [0.09128709, 1.        , 0.20801257, 0.08333333, 0.06108472],
       [0.05063697, 0.20801257, 1.        , 0.09245003, 0.13553483],
       [0.03042903, 0.08333333, 0.09245003, 1.        , 0.16289259],
       [0.08921995, 0.06108472, 0.13553483, 0.16289259, 1.        ]])

Попробуем не через описание а через ингридиенты

In [260]:
cv = CountVectorizer(tokenizer=vectorizer_n, stop_words=ru_stopwords)

In [261]:
recipes_cv = cv.fit_transform(pancakes5.ingredients)



In [262]:
1 - cos_d(recipes_cv.toarray())

array([[1.        , 0.447039  , 0.05832118, 0.43643578, 0.19886685],
       [0.447039  , 1.        , 0.10265789, 0.81090024, 0.48340048],
       [0.05832118, 0.10265789, 1.        , 0.04454354, 0.2087667 ],
       [0.43643578, 0.81090024, 0.04454354, 1.        , 0.6292464 ],
       [0.19886685, 0.48340048, 0.2087667 , 0.6292464 , 1.        ]])

In [267]:
for ingr in pancakes5.ingredients:
    print('*'*20)
    print(ingr)

********************
{'Сельдерей черешковый': '1 пуч.', 'Кабачок': '2 шт', 'Фета': '200 г', 'Яйцо куриное': '1 шт', 'Чечевица': '300 г', 'Мука пшеничная': '120 г', 'Масло оливковое': None, 'Зелень': '1 пуч.'}
********************
{'Мука пшеничная': '70 г', 'Мука гречневая': '70 г', 'Яйцо куриное': '1 шт', 'Детское питание': '50 г', 'Напиток кисломолочный': '250 мл', 'Сахар': '50 г', 'Корица': '0,5 ч. л.', 'Дрожжи': '0,5 ч. л.', 'Сок апельсиновый': '200 мл', 'Крахмал кукурузный': '1 ч. л.', 'Молоко кокосовое': '1 ч. л.'}
********************
{'Хлопья овсяные': '1 стак.', 'Молоко': '800 мл', 'Дрожжи': '1 пакет.', 'Сахар': '0.5 стак.', 'Соль': '1 щепот.', 'Мука пшеничная': '3 стак.'}
********************
{'Помидор': '500 г', 'Мята': '1 пуч.', 'Мука пшеничная': '250 г', 'Лук репчатый': '1 шт', 'Сахар': '0,5 ч. л.', 'Перец душистый': '0,5 ч. л.', 'Соль': None, 'Масло оливковое': '3 ст. л.', 'Базилик': '0,5 ч. л.'}
********************
{'Молоко': '4 ст. л.', 'Дрожжи': '6 г', 'Вода': '3 ст. л

In [274]:
df7 = pd.DataFrame(temp, columns=list(pancakes5.name), index=list(pancakes5.name))
df7

Unnamed: 0,"Оладьи из сельдерея, кабачков, феты и чечевицы",Гречневые оладьи с апельсиновым киселем,Оладьи овсяные дрожжевые,Оладьи из помидоров с мятой,Голландские лимонные оладьи
"Оладьи из сельдерея, кабачков, феты и чечевицы",1.0,0.091287,0.050637,0.030429,0.08922
Гречневые оладьи с апельсиновым киселем,0.091287,1.0,0.208013,0.083333,0.061085
Оладьи овсяные дрожжевые,0.050637,0.208013,1.0,0.09245,0.135535
Оладьи из помидоров с мятой,0.030429,0.083333,0.09245,1.0,0.162893
Голландские лимонные оладьи,0.08922,0.061085,0.135535,0.162893,1.0


8\. Напишите функцию, которая принимает на вход `pd.DataFrame`, полученный в задании 7, и возвращает в виде кортежа названия двух различных рецептов, которые являются наиболее похожими. Прокомментируйте результат (в виде текстового комментария). Для объяснения результата сравните слова в описаниях двух этих отзывов.

In [314]:
def find_closest(sim_df: pd.DataFrame) -> tuple:
    sim_df = sim_df.replace(1,0)
    recipe1 = sim_df.max().idxmax()
    recipe2 = sim_df.idxmax()[recipe1]
    return recipe1, recipe2

In [318]:
res = find_closest(df7)

In [323]:
df7.loc[res[0], res[1]]

0.20801257358446093

In [327]:
pancakes5.loc[pancakes5.name==res[0], 'description'].iloc[0]

'гречка да с цитрусом что это это вкусно масленицу провожать надо а на блины уже глаза не смотрят вот и найден был этот рецепт в журналах да как удачно'

In [328]:
pancakes5.loc[pancakes5.name==res[1], 'description'].iloc[0]

'нежнейшие оладушки которые тают во рту пришлось немного повозиться и подождать но это того стоит с наступающей масленицей'