# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [1]:
import pandas as pd
import numpy as np
import nltk
import re

In [2]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [3]:
name = 'Ilya'
f"{name=}"

"name='Ilya'"

In [4]:
name = 'Ilya'
f"{name:^10}"

'   Ilya   '

In [5]:
for k,v in obj.items():
    print(f"{k:10} = '{v}'")

home_page  = 'https://github.com/pypa/sampleproject'
keywords   = 'sample setuptools development'
license    = 'MIT'


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [6]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [7]:
import re

patt = re.compile(r"(?:ПМ)?\s?\d+-\d", re.I)
for item in obj:
    print(f"{item:20}", patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            [' 20-3']


In [8]:
obj.str.findall(patt)

0     [ПМ19-1]
1    [пм 20-4]
2      [ 20-3]
dtype: object

3. Разбейте текст формулировки задачи 2 на слова.

In [9]:
import nltk

In [10]:
#!pip install nltk
#nltk.download('punkt')

In [11]:
text = "Написать регулярное выражение,которое позволит найти номера групп студентов."
text.split()

['Написать',
 'регулярное',
 'выражение,которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов.']

In [12]:
tokenize = nltk.tokenize.RegexpTokenizer(r"\w+")
tokenize.tokenize(text)

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [62]:
recipes = pd.read_csv('C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\02_pandas\\02_pandas_data\\recipes_sample.csv', sep=',',
                      parse_dates=['submitted'])

In [14]:
recipes.shape

(30000, 8)

In [15]:
indexes = np.random.choice(recipes.shape[0], 5, replace=False)
rec_5 = recipes.loc[indexes][['id','minutes']]
rec_5

Unnamed: 0,id,minutes
5012,33284,10
15736,244177,15
19851,267785,75
1542,43030,60
1641,169147,15


#### Итоговый результат

In [16]:
print(f"|{'id':^11}| {'minutes':^10}|\n|{'-'*23}|")
for index, row in rec_5.iterrows():
    print(f"|{row['id']:^11}| {row['minutes']:^10}|") 

|    id     |  minutes  |
|-----------------------|
|   33284   |     10    |
|  244177   |     15    |
|  267785   |     75    |
|   43030   |     60    |
|  169147   |     15    |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1.
2. Шаг 2.
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [17]:
from bs4 import BeautifulSoup


with open(
    'C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\03_data_files\\03_data_files_data\\steps_sample.xml', 
    'r', encoding='utf-8'
) as fp:
    xml = BeautifulSoup(fp)



In [18]:
df_steps = pd.DataFrame(columns=['id', 'steps'])
for i, recipe in enumerate(xml.findAll('recipe')):
    id_r = recipe.find('id').text
    rs = [step.next for step in recipe.steps.find_all("step")]
    df_steps.loc[i] = [int(id_r), rs]
     
df_steps.head(5)   

Unnamed: 0,id,steps
0,44123,"[in 1 / 4 cup butter , saute carrots , onion ,..."
1,67664,"[mix all the ingredients using a blender, pour..."
2,38798,[combine all ingredients in a large bowl and m...
3,35173,[lay out sandwich rolls on jelly roll pans / c...
4,84797,[honey mustard sauce: whisk all the ingredient...


In [19]:
recipes.head(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [20]:
df_merge = recipes[['id', 'name', 'contributor_id', 'minutes']].merge(df_steps)
df_merge.set_index('id', inplace=True)
df_merge.head(5)

Unnamed: 0_level_0,name,contributor_id,minutes,steps
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
44123,george s at the cove black bean soup,35193,90,"[in 1 / 4 cup butter , saute carrots , onion ,..."
67664,healthy for them yogurt popsicles,91970,10,"[mix all the ingredients using a blender, pour..."
38798,i can t believe it s spinach,1533,30,[combine all ingredients in a large bowl and m...
35173,italian gut busters,22724,45,[lay out sandwich rolls on jelly roll pans / c...
84797,love is in the air beef fondue sauces,4470,25,[honey mustard sauce: whisk all the ingredient...


In [22]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

In [23]:
def show_info(name, steps, minutes, author_id):
    steps_str = "\n".join(map(lambda x: f"{x[0]}. {x[1].capitalize()}",enumerate(steps, 1)))
    return f'"{name.capitalize()}"\n\n{steps_str}\n----------\nАвтор: {author_id}\nСреднее время приготовления: {minutes} минут\n'  

In [24]:
s_test = df_merge.loc[170895]
s_test

name                         leeks and parsnips  sauteed or creamed
contributor_id                                                 8377
minutes                                                          27
steps             [clean the leeks and discard the dark green po...
Name: 170895, dtype: object

#### Итоговый результат

In [25]:
print(show_info(name=s_test['name'], steps=s_test['steps'], minutes=s_test['minutes'], author_id=s_test['contributor_id']))

"Leeks and parsnips  sauteed or creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [26]:
obj = pd.Series(df_merge.loc[25082].steps)
obj

0     proof yeast in half a cup of the water , with ...
1     combine the rest of the water with the yeast /...
2     stir the mixture about 100 times in the same d...
3                              stir in the salt and oil
4     add the remaining flour half a cup at a time ,...
5     turn out onto a lightly floured board and knea...
6     the dough should be springy and nice to work with
7     when it has been sufficiently kneaded , cover ...
8     after it has rested , knead the dough a few mo...
9     let the dough rise until it springs back when ...
10    longer or shorter depending on the room temper...
11    but sometimes you just don't have time for tha...
12    deflate the dough by punching or kneading it a...
13    when the dough has risen twice , deflate it ag...
14    let the shaped dough rise on a baking sheet or...
15    slash the top of the bread if you want , so th...
16    bake at 400 for 20 minutes , and then turn the...
17     try to let the loaf cool before you tear 

In [27]:
patt = re.compile(r"(\d+\shours?|\d+\sminutes?)")
result = obj.str.findall(patt)
result = result[result.str.len() != 0]
result

5                 [20 minutes]
7                 [10 minutes]
9                    [2 hours]
13                [10 minutes]
16    [20 minutes, 30 minutes]
dtype: object

4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [28]:
np.where(recipes.description.str.extract(r"^this(\s|\w)*?,\s*?but").notnull())[0]

array([   76,   183,   337,   486,   678,   769,   800,  1490,  1570,
        1666,  2319,  2390,  2392,  2646,  2749,  2903,  3356,  3713,
        3965,  4151,  4249,  4650,  4755,  4883,  5186,  5260,  5325,
        5624,  5779,  5811,  5834,  6083,  6211,  6329,  6580,  6780,
        6968,  7188,  7606,  7852,  7853,  7872,  8272,  8281,  8456,
        8579,  8644,  9798,  9799, 10272, 10544, 10710, 11071, 11762,
       11995, 12287, 12399, 12487, 13505, 13524, 13726, 13792, 14148,
       14258, 14735, 14881, 14921, 15402, 15877, 15994, 15995, 16721,
       16869, 17167, 17270, 17916, 18183, 18278, 18713, 19431, 19476,
       19573, 19732, 19756, 20017, 20523, 20682, 20736, 20844, 21004,
       21418, 21471, 21510, 21528, 21731, 21954, 22336, 22399, 22422,
       22505, 22570, 22827, 23309, 23572, 23683, 23704, 24032, 24245,
       24345, 24773, 25121, 25400, 25538, 25540, 25597, 26220, 26417,
       26434, 26909, 27159, 27255, 27700, 27805, 28090, 28159, 28367,
       28658, 28730,

## Количество таких рецептов

In [29]:
df_extr = recipes.iloc[np.where(recipes.description.str.extract(r"^this(\s|\w)*?,\s*?but").notnull())[0]]
df_extr.shape[0]

134

## 3 примера подходящих описаний

In [30]:
for descr in df_extr.description.sample(n=3).tolist(): # Простите за цикл, использую для наглядности вывода (мог просто список вывести)
    print(f'{descr}\n')

this apple pie is loaded with apples, but they cook down during baking.  great served with a scoop of vanilla ice cream.

this is a great recipe, but it is for 500 i need to figure out how to break it down.

this pie crust retains the flavor of an all butter crust, but is flakier because of the shortening. the lemon juice isn't in the recipe for lemon flavour... trust me you won't taste it, but rather to work with the flour and prevent the pastry from being tough. i also find that the dough gives a bigger yield than the original 9 inch size stated, i roll mine relatively thin and can get a full top and bottom for a 26 cm (12 inch) shallow pie dish. i have included 20+ step by step photographs to help you see *exactly* how this is made so that you now have instructions for making an entire pie crust from ingredients to table. the new instructions may look long, but i have only tried to give practical details to that even if this is your first ever pie crust, you will have all the inform

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [31]:
obj2 = pd.Series(df_merge.loc[72367].steps)
obj2

0                          mix butter , flour , 1 / 3 c
1                                   sugar and 1-1 / 4 t
2                                               vanilla
3                  press into greased 9" springform pan
4                            mix cream cheese , 1 / 4 c
5                              sugar , eggs and 1 / 2 t
6                          vanilla beating until fluffy
7                                       pour over dough
8                              combine apples , 1 / 3 c
9                                    sugar and cinnamon
10    arrange on top of cream cheese mixture and spr...
11    bake at 350 for 45-55 minutes , or until teste...
dtype: object

## Выведите на экран шаги этого рецепта после их изменения

In [32]:
obj2 = obj2.apply(lambda x: re.sub(r'\s\/\s', '/', str(x)))
# Для наглядности выведу всё через цикл
for steps in obj2:
    print(f'{steps}')

mix butter , flour , 1/3 c
sugar and 1-1/4 t
vanilla
press into greased 9" springform pan
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
vanilla beating until fluffy
pour over dough
combine apples , 1/3 c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [50]:
tokenize = nltk.tokenize.RegexpTokenizer(r"[a-zA-Z]+")
words = []

merge_split = df_merge.steps.apply(lambda x: tokenize.tokenize(str(x)))
merge_split = merge_split.reset_index()
merge_split.steps.apply(lambda x: words.extend(x));

words = set(words)
print(f'Количество уникальных слов: {len(words)}')

Количество уникальных слов: 15139


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [63]:
recipes["description"] = recipes.description.apply(lambda x: nltk.sent_tokenize(str(x)))
recipes["len_description"] = recipes.description.str.len()
recipes.sort_values('len_description', ascending=False).head(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,len_description
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,[this wonderful icing is used for icing cakes ...,,76
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,[a translucent golden-brown crust allows the g...,9.0,27
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,[this is one of the best soups i've ever made ...,10.0,24
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,[the first time i made this cake i grated a mi...,,23
6779,chocolate tea,205348,6,428824,2007-01-14,,[i wrote this because there are an astounding ...,,23


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [70]:
#import nltk
#nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [68]:
df_241106 = recipes[recipes.id == 241106]
df_241106

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,len_description
10437,eggplant steaks with chickpeas feta cheese an...,241106,30,226788,2007-07-17,15.0,[these are a really good quick meal to make in...,,3


In [100]:
def pos_tag(s):
    tokenize = nltk.tokenize.RegexpTokenizer(r"[a-zA-Z]+")
    s = tokenize.tokenize(s)
    words = nltk.pos_tag(s)
    dict_words = dict(words)
    str_1 = ''
    str_2 = ''
    for word in dict_words:
        tag = dict_words[word]
        len_word = max(len(word),len(tag)) 
        str_1 += f"{tag:^{len_word}} "
        str_2 += f"{word:^{len_word}} "
        
    return print(f"{str_1}\n{str_2}")   

In [104]:
df_241106['name'].apply(pos_tag);

   JJ     NNS    IN     NNS    VBP    JJ   CC   JJ    NNS   
eggplant steaks with chickpeas feta cheese and black olives 


In [1]:
!pip install xxhash

Collecting xxhash
  Downloading xxhash-3.1.0-cp38-cp38-win_amd64.whl (30 kB)
Installing collected packages: xxhash
Successfully installed xxhash-3.1.0


In [8]:
# Что выведет на экран последняя строка ячейки с кодом:

import xxhash
import random
from itertools import permutations

random.seed(442)

eo_words_lst = 'мой дядя самых честных правил когда не в шутку занемог'.split()
eo_words_pеrms = [' '.join(p) for p in permutations(eo_words_lst)]

print(f'''Все перестановки слов входного текста.
Длина: {len(eo_words_pеrms)}.
Пример из начала:
{eo_words_pеrms[:5]}.
Пример внутри списка:
{eo_words_pеrms[50_000:50_005]} ''')

# Все перестановки слов входного текста.
# Длина: 3628800.
# Пример из начала:
# # ['мой дядя самых честных правил когда не в шутку занемог',
# 'мой дядя самых честных правил когда не в занемог шутку',
# 'мой дядя самых честных правил когда не шутку в занемог',
# 'мой дядя самых честных правил когда не шутку занемог в',
# 'мой дядя самых честных правил когда не занемог в шутку'].
# Пример внутри списка:
# ['мой самых честных занемог когда в правил не дядя шутку',
# 'мой самых честных занемог когда в правил не шутку дядя',
# 'мой самых честных занемог когда в правил шутку дядя не',
# 'мой самых честных занемог когда в правил шутку не дядя',
# 'мой самых честных занемог когда в не дядя правил шутку']

# длина списка строк:
eo_str_lst_qty = 500_000
# список строк:
eo_rnd_str_lst = [eo_words_pеrms[random.randint(0, 3628800)] for _ in range(eo_str_lst_qty)]
# список хешей строк:
eo_rnd_hash_lst = [xxhash.xxh32(wrd).intdigest() for wrd in eo_rnd_str_lst]

print(len(eo_words_pеrms),'\n',
      len(eo_rnd_str_lst),'\n',
      len(set(eo_rnd_str_lst)),'\n',
      len(eo_rnd_hash_lst),'\n',
      len(set(eo_rnd_hash_lst)))

Все перестановки слов входного текста.
Длина: 3628800.
Пример из начала:
['мой дядя самых честных правил когда не в шутку занемог', 'мой дядя самых честных правил когда не в занемог шутку', 'мой дядя самых честных правил когда не шутку в занемог', 'мой дядя самых честных правил когда не шутку занемог в', 'мой дядя самых честных правил когда не занемог в шутку'].
Пример внутри списка:
['мой самых честных занемог когда в правил не дядя шутку', 'мой самых честных занемог когда в правил не шутку дядя', 'мой самых честных занемог когда в правил шутку дядя не', 'мой самых честных занемог когда в правил шутку не дядя', 'мой самых честных занемог когда в не дядя правил шутку'] 
3628800 
 500000 
 467045 
 500000 
 467019
