# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [10]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
for key, value in obj.items():
    print(f'{key:<12}={value:>40}')

home_page   =   https://github.com/pypa/sampleproject
keywords    =           sample setuptools development
license     =                                     MIT


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [31]:
import re
import pandas as pd

obj = pd.Series(["Евгения гр. ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj.str.findall(r"(\d{2}-\d{1})")

0    [19-1]
1    [20-4]
2    [20-3]
dtype: object

3. Разбейте текст формулировки задачи 2 на слова.

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [287]:
recipes = pd.read_csv('data/recipes_sample.csv')
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


In [87]:
ids, minutes = list(recipes.id), list(recipes.submitted)
mx_sz_fc, mx_sz_sc = max([len(str(i)) for i in ids])+2, max([len(str(i)) for i in minutes])+2
print(f'| {"id":^{mx_sz_fc}} | {"minutes":^{mx_sz_sc}} |\n{"-"*(mx_sz_fc + mx_sz_sc + 7)}')
for num, ids in enumerate(ids):
    print(f"| {ids:^{mx_sz_fc}} | {minutes[num]:^{mx_sz_sc}} |")

|    id    |   minutes    |
---------------------------
|  44123   |  2002-10-25  |
|  67664   |  2003-07-26  |
|  38798   |  2002-08-29  |
|  35173   |  2002-07-27  |
|  84797   |  2004-02-23  |
|  44045   |  2002-10-25  |
|  107229  |  2004-12-30  |
|  95926   |  2004-07-20  |
|  453467  |  2011-04-11  |
|  306168  |  2008-05-30  |
|  50662   |  2003-01-10  |
|  118843  |  2005-04-24  |
|  69190   |  2003-08-20  |
|  503475  |  2013-07-08  |
|  149593  |  2005-12-28  |
|  200148  |  2006-12-11  |
|  310570  |  2008-06-24  |
|  95534   |  2004-07-13  |
|  109818  |  2005-01-28  |
|  66932   |  2003-07-16  |
|  226001  |  2007-05-02  |
|  125195  |  2005-06-09  |
|  141939  |  2005-10-19  |
|  250883  |  2007-09-04  |
|  120297  |  2005-05-02  |
|  147477  |  2005-12-05  |
|  223349  |  2007-04-18  |
|  60938   |  2003-04-24  |
|  302399  |  2008-05-06  |
|  342620  |  2008-12-09  |
|  296983  |  2008-04-08  |
|  166089  |  2006-04-27  |
|  129581  |  2005-07-12  |
|  116741  |  2005-0

2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [116]:
def show_info(name, steps, minutes, author_id):
    stepss = '\n'.join([f'{num+1}. {step[0].upper() + step[1:]}' for num, step in enumerate(steps)])
    return f'\"{name.title()}\"\n\n{stepss}\n{"-"*10}\nАвтор: {author_id}\nСреднее время приготовления: {minutes} минут'


assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут')

'"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут'

In [2]:
from bs4 import BeautifulSoup as bs

with open('data/steps_sample.xml') as f:
    ab = bs(f, 'xml')

In [140]:
recipe_info

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
15754,leeks and parsnips sauteed or creamed,170895,27,8377,2006-05-31,21.0,this is good sauteed only or creamed. very eas...,9.0


In [165]:
recipe_info = recipes.loc[recipes['id'] == 170895]
ids = ab.find_all('id')
delete_extra = lambda x: ' '.join(str(x).split(' ')[4:-3])[:-6]
for id in ids:
    if id.text == '170895':
        id_value = id.text
        steps_bs = id.next_sibling.next_sibling
        steps = [step.text for step in steps_bs.find_all('step')]
        author_id = delete_extra(recipe_info.contributor_id)
        name = delete_extra(recipe_info.name)
        minutes = delete_extra(recipe_info.minutes)
        print(show_info(name, steps, author_id, minutes))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [202]:
import re

def find_time(arr):
    pattern = r"\d+\s(?:hour|hours|minute|minutes)"
    result = []
    for text in arr:
        if re.findall(pattern, text.text) != []:
            result.append(text)
    return result


ids = ab.find_all('id')
for id in ids:
    if id.text == '25082':
        steps_bs = id.next_sibling.next_sibling
        print(find_time(steps_bs))

[<step has_minutes="1">turn out onto a lightly floured board and knead for about 20 minutes , adding flour as nescessary to keep the dough from sticking to the board</step>, <step has_minutes="1">when it has been sufficiently kneaded , cover it with a damp cloth for about 10 minutes and wash and grease the bowl lightly</step>, <step has_hours="1">let the dough rise until it springs back when you stick your finger in it , and it is about twice the size as it was before (this takes about 2 hours</step>, <step has_minutes="1">when the dough has risen twice , deflate it again and cover it with the damp cloth again for about 10 minutes , then divide it into and shape it into loaves , buns , etc</step>, <step has_minutes="1">bake at 400 for 20 minutes , and then turn the oven down to 350 and bake for 20-30 minutes longer , until the loaf is a lovely brown and sounds hollow when you thump it on the bottom</step>]


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [233]:
pattern = r"this[\w\s]*,\s{0,1}but"

recipe = []
for text in recipes.description:
    if re.search(pattern, str(text)):
        recipe.append(text)
len(recipe), recipe[:3]

(778,
 ["okay, i probably didn't make this up, but i felt like i did.  i was looking for something new to make that my kids would love.  it was colorful and my 3 year old called it rainbow chicken. so easy and i liked it too!\r\nthe amounts and times are not exact i didn't really measure as i was going along.",
  "this is a great meal eaten the same day ,but even better the next day , if you can wait! add your favourite spices, but try it first as it is and i think that you will enjoy the 'vegetable' taste. good for freezing.",
  'this is fantastic served with grilled seafood or chicken! plan ahead this needs to chill for 30 minutes before serving, this can be made up to 2 hours in advance, but does not keep well overnight.'])

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [269]:

def change_drob(text):
    pattern = r"\d+\s/\s\d+"
    sliced = re.findall(pattern, text)
    if sliced != []:
        sliced.append(sliced[0].replace(' ', ''))
        return text.replace(sliced[0], sliced[1])
    
    
ids = ab.find_all('id')
for id in ids:
    if id.text == '72367':
        steps_bs = id.next_sibling.next_sibling
        print('\n'.join([change_drob(text.text) if change_drob(text.text) is not None else text.text for text in steps_bs][1::2]))


mix butter , flour , 1/3 c
sugar and 1-1/4 t
vanilla
press into greased 9" springform pan
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
vanilla beating until fluffy
pour over dough
combine apples , 1/3 c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [3]:
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
import string

# Убедитесь, что пакет nltk скачал необходимые данные для токенизации
nltk.download('punkt')

recipes = []
ids = ab.find_all('id')
for id in ids:
    steps_bs = id.next_sibling.next_sibling
    for text in steps_bs.find_all('step'):
        recipes.append(text.text)


all_words = []
for recipe in recipes:
    words = word_tokenize(recipe)
    words = [word.lower() for word in words if word.isalpha()]
    all_words.extend(words)

unique_words = set(all_words)
print(f"Количество уникальных слов: {len(unique_words)}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Количество уникальных слов: 14926


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [305]:
import pandas as pd
import nltk
from nltk.tokenize import sent_tokenize

recipes = pd.read_csv('data/recipes_sample.csv')
recipes

# Разбиваем описания рецептов на предложения
recipes['sentences'] = recipes['description'].apply(lambda x: sent_tokenize(str(x)))

# Находим 5 самых длинных описаний (по количеству предложений)
recipes['num_sentences'] = recipes['sentences'].apply(len)
top_5_longest = recipes.nlargest(5, 'num_sentences')

# Выводим строки фрейма, соответствующие этим рецептам, в порядке убывания длины
for index, row in top_5_longest.iterrows():
    print(row['description'])
    print()


this wonderful icing is used for icing cakes and cookies as well as for borders and art work on cakes.  it makes a delicious filling also between the layers of cakes and under fondant icing.  you can make roses but it takes 3 or more days to dry them depending on the humidity. 

there are many versions of “buttercream” icing. some are made with eggs and all butter.  some varieties, you have to cook your sugar to a softball stage.  others are 100% shortening or a combination of shortening and butter.

each decorator has his or her favorite.  i personally think that the best taste and textured recipe is the one that has you cook your sugar, add to whipped eggs and use pounds of butter per batch. but…. i live in a state that can easily be a 100 degrees for days on end during the summer and you know what butter does on hot days.  it melts!  a greasy puddle of melted icing on a cake plate is not something i want to look at or eat.  

your top notch decorators have a few options we don

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [310]:
nltk.download('averaged_perceptron_tagger')

def foo(text):
    words = nltk.pos_tag(text.split())
    for word, part in words:
        print(f"{part:^{max(len(word), len(part))}}", end=' ')
    print(end='\n')
    for word, part in words:
        print(f"{word:^{max(len(word), len(part))}}", end=' ')
    
    
recipe_info = recipes.loc[recipes['id'] == 241106]
foo(delete_extra(recipe_info.name))
        

   JJ     NNS    IN     NNS    VBP    JJ    NN   
eggplant steaks with chickpeas feta cheese an... 

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
