# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

In [422]:
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup
import nltk
# import matplotlib.pyplot as plt
# import matplotlib.dates as mdates
# import seaborn as sns

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [393]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
for k,v in obj.items():
    print(f"'{k:10}' = '{v}'")

'home_page ' = 'https://github.com/pypa/sampleproject'
'keywords  ' = 'sample setuptools development'
'license   ' = 'MIT'


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [394]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [395]:
obj.apply(lambda x: re.search(r'\d{2}-\d', x).group())

0    19-1
1    20-4
2    20-3
dtype: object

3. Разбейте текст формулировки задачи 2 на слова.

In [396]:
string = 'Написать регулярное выражение,которое позволит найти номера групп студентов'
re.split(r'\W', string)

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [397]:
recipes = pd.read_csv('recipes_sample.csv')
random5 = recipes.sample(5)
max_id = recipes.id.astype(str).str.len().max() + 8
max_minutes = recipes.minutes.astype(str).str.len().max() + 8
def print_f(id_, minutes):
    print(
        f'|{id_:^{max_id}}|{minutes:^{max_minutes}}|'
    )

print_f('id', 'minutes')
print('|'+"-"*(max_id+max_minutes+1)+'|')
for id_, row in random5.iterrows():
    print_f(row.id, row.minutes)

|      id      |   minutes    |
|-----------------------------|
|    169400    |      50      |
|    128718    |      22      |
|    39076     |      10      |
|    68249     |      49      |
|    283420    |      5       |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [398]:
with open('steps_sample.xml') as f:
    steps = BeautifulSoup(f, 'xml')

In [399]:
temp = {
    int(recipe.find('id').next) : [step.next for step in recipe.find_all('step')]
    for recipe in steps.find_all('recipe')
}

In [400]:
steps = pd.DataFrame(temp.items(), columns=['id', 'steps'])

In [401]:
result = recipes.merge(steps, how='left', left_on='id', right_on='id')

In [402]:
result.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,steps
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,"[in 1 / 4 cup butter , saute carrots , onion ,..."
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,"[mix all the ingredients using a blender, pour..."
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,[combine all ingredients in a large bowl and m...
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,[lay out sandwich rolls on jelly roll pans / c...
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,[honey mustard sauce: whisk all the ingredient...


In [403]:
def show_info(name, steps, minutes, author_id):  
    steps = '\n'.join([f"{i+1}. {step.capitalize()}" for i,step in enumerate(steps)])
    template = f""""{name.title()}"

{steps}
----------
Автор: {author_id}
Среднее время приготовления: {minutes} минут
"""
    return template

In [404]:
target = result[result.id==170895].iloc[0]
print(show_info(target["name"], target.steps, target.minutes, target.contributor_id))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

In [405]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [406]:
def task3(string):
    pattern = r'\d+ (?:(?:hours?)|(?:minutes?))\b'
    return re.findall(pattern, string)

In [407]:
target = result[result.id==25082].iloc[0]
[substep for step in target.steps for substep in task3(step)]

['20 minutes',
 '10 minutes',
 '2 hours',
 '10 minutes',
 '20 minutes',
 '30 minutes']

4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [408]:
def task4(string):
    if type(string) == float:
        return
    return re.match(r'this(?:\w| )*, ?but', string)

In [409]:
result4 = result[result.description.apply(task4).astype(bool)]

In [410]:
result4.shape[0]

134

In [411]:
for desc in result4.sample(3).description:
    print("-"*20)
    print(desc)

--------------------
this is a traditional indonesian recipe for fried chicken, but i have made it a bit healthier - it still tastes good but i have substituted the frying for grilling and steaming the chicken first instead of simmering in coconut milk.
i use drumsticks but you could use chicken thighs (with bone) or traditionally a whole chicken disected into small pieces. you do need to leave the skin on the chicken or it won't crisp up when grilled.
if you can find fresh tumeric root use about 1 cm piece, it has a more intense flavour
--------------------
this is a copycat recipe, but it's delicious. i used a pinot grigio wine but you could substitute chicken broth if you didn't want to use alcohol.
--------------------
this is a different, but super combo, the taste is fantastic, i am quite sure that you will love this recipe. enjoy!


5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [412]:
def task5(steps):
    for i, step in enumerate(steps):
        steps[i] = re.sub(r'(\d+) / (\d+)', r'\1/\2',  step)

In [413]:
target = result[result.id==72367].iloc[0]

In [414]:
target.steps

['mix butter , flour , 1 / 3 c',
 'sugar and 1-1 / 4 t',
 'vanilla',
 'press into greased 9" springform pan',
 'mix cream cheese , 1 / 4 c',
 'sugar , eggs and 1 / 2 t',
 'vanilla beating until fluffy',
 'pour over dough',
 'combine apples , 1 / 3 c',
 'sugar and cinnamon',
 'arrange on top of cream cheese mixture and sprinkle with almonds',
 'bake at 350 for 45-55 minutes , or until tester comes out clean']

In [415]:
task5(target.steps)

In [416]:
target.steps

['mix butter , flour , 1/3 c',
 'sugar and 1-1/4 t',
 'vanilla',
 'press into greased 9" springform pan',
 'mix cream cheese , 1/4 c',
 'sugar , eggs and 1/2 t',
 'vanilla beating until fluffy',
 'pour over dough',
 'combine apples , 1/3 c',
 'sugar and cinnamon',
 'arrange on top of cream cheese mixture and sprinkle with almonds',
 'bake at 350 for 45-55 minutes , or until tester comes out clean']

### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [420]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [443]:
result6 = steps.steps.apply(lambda row: [nltk.word_tokenize(step.lower()) for step in row ])

In [444]:
result6 = {word for row in result6 for step in row for word in step}

In [447]:
len(result6)

19568

In [448]:
result6

{'kugel',
 'reitan',
 'burgandy',
 '14-cup',
 'rate',
 'snow-like',
 'separations',
 'horsradish',
 'kingsford',
 'hood',
 'coddled',
 'brought',
 'pimientos',
 'tostada',
 '2-3minutes',
 'when',
 '2x1-inch',
 'origanum',
 'whipped',
 'pete',
 'tempearture',
 'freestanding',
 'thinned',
 'secure',
 'watcher',
 'immersible',
 'elicits',
 'rightaway',
 'dissicated',
 '8-by-8-inch',
 'ziploc',
 'chipotle-powder',
 'choi',
 'cranberry',
 'spirinkle',
 '5-9',
 'get-togethers',
 'cans',
 'cylindrical',
 'vehetables',
 'cilantromix',
 'mashable',
 '15-25',
 'watermelon',
 'slowcooker',
 '-9',
 'annato',
 'saurerkraut',
 'purpose',
 'fiercely',
 'batter-filled',
 'daddy',
 'bugs',
 'firmly',
 'reserved',
 '24-inch',
 'burritos',
 'beards',
 'rinf',
 'stuffing',
 'doing',
 'aaprox',
 'suface',
 'browwnies',
 'hulls',
 'over-baked',
 '40-50',
 'fasten',
 'method',
 'template',
 'place1',
 'second',
 'yard',
 'customize',
 'delightfully',
 'fluff',
 'blame',
 'refrigerated',
 'carmilize',
 'gain'

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [452]:
recipes['sent_tokenize'] = recipes.description.fillna("").apply(nltk.sent_tokenize)

In [464]:
five = recipes.sort_values(by="sent_tokenize", key= lambda x: x.str.len(), ascending=False).iloc[:5]

In [465]:
five

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,sent_tokenize
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,this wonderful icing is used for icing cakes a...,,[this wonderful icing is used for icing cakes ...
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,a translucent golden-brown crust allows the gr...,9.0,[a translucent golden-brown crust allows the g...
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,this is one of the best soups i've ever made a...,10.0,[this is one of the best soups i've ever made ...
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,the first time i made this cake i grated a mil...,,[the first time i made this cake i grated a mi...
6779,chocolate tea,205348,6,428824,2007-01-14,,i wrote this because there are an astounding l...,,[i wrote this because there are an astounding ...


In [469]:
for id_,row in five.iterrows():
    print(row.description)
    print('*'*50)
    for i, sent in enumerate(row.sent_tokenize):
        print(f'{i})----- {sent}')
    print('*'*50)
    print(len(row.sent_tokenize))
    print('-'*50)
    print('\n\n\n\n')

this wonderful icing is used for icing cakes and cookies as well as for borders and art work on cakes.  it makes a delicious filling also between the layers of cakes and under fondant icing.  you can make roses but it takes 3 or more days to dry them depending on the humidity. 

there are many versions of “buttercream” icing. some are made with eggs and all butter.  some varieties, you have to cook your sugar to a softball stage.  others are 100% shortening or a combination of shortening and butter.

each decorator has his or her favorite.  i personally think that the best taste and textured recipe is the one that has you cook your sugar, add to whipped eggs and use pounds of butter per batch. but…. i live in a state that can easily be a 100 degrees for days on end during the summer and you know what butter does on hot days.  it melts!  a greasy puddle of melted icing on a cake plate is not something i want to look at or eat.  

your top notch decorators have a few options we don

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [470]:
target = result[result.id==241106].iloc[0]

In [499]:
target["name"]

'eggplant steaks with chickpeas  feta cheese and black olives'

In [501]:
def task8(sent):
    array = nltk.pos_tag(nltk.word_tokenize(sent))
    temp = [(max([len(i) for i in pair]),*pair) for pair in array]

    for i in range(2,0,-1):
        for item in temp:
            print(f"{item[i]:^{item[0]}}", end=" ")
        print()

In [502]:
task8(target["name"])

   JJ     NNS    IN     NNS    VBP    JJ   CC   JJ    NNS   
eggplant steaks with chickpeas feta cheese and black olives 
