# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [1]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [2]:
for k, v in obj.items():
    print(f'{k:10} = "{v}"')

home_page  = "https://github.com/pypa/sampleproject"
keywords   = "sample setuptools development"
license    = "MIT"


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [3]:
import pandas as pd
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [4]:
import re
patt = re.compile(r"(?:ПМ)?\s?\d+-\d",re.I)
for item in obj:
    print(f"{item=}", patt.findall(item))

item='Евгения гр.ПМ19-1' ['ПМ19-1']
item='Илья пм 20-4' ['пм 20-4']
item='Анна 20-3' [' 20-3']


In [5]:
obj.str.findall(patt).map(len)

0    1
1    1
2    1
dtype: int64

3. Разбейте текст формулировки задачи 2 на слова.

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [6]:
recipes = pd.read_csv('recipes_sample.csv')
rnd_5 = recipes[['id','minutes']].sample(5)
ln = len(str(rnd_5.id.max()))
l1 = len(rnd_5.columns[1])
if l1 > ln:
    ln = l1
#print(f"|{recipes.id.name:5}|{recipes.minutes.name}|")
#for id, min in range(5):

print(f'| {rnd_5.columns[0]: ^{ln}} | {rnd_5.columns[1]: ^{ln}} |')
print(f'|-{"-":-^{ln}}---{"-":-^{ln}}-|')

for i in range(5):
    print(f'| {rnd_5.id.iloc[i]: <{ln}} | {rnd_5.minutes.iloc[i]: <{ln}} |')

|   id    | minutes |
|-------------------|
| 24990   | 720     |
| 339984  | 310     |
| 490274  | 60      |
| 102226  | 255     |
| 86868   | 230     |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1.
2. Шаг 2.
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [7]:
from bs4 import BeautifulSoup

with open("steps_sample.xml", 
          "r", 
          encoding="utf-8") as fp:
    xml = BeautifulSoup(fp)
rcp = xml.find_all('recipe')
steps_sample = {recipe.id.text: [step.text for step in recipe.steps if step!='\n'] for recipe in rcp}




In [8]:
def show_info(name, steps, minutes, author_id):
    string = f'"{name.title()}"\n\n'
    for i in range(len(steps)):
        stp = f'{i+1}. {steps[i].capitalize()}\n'
        string += stp
    string += f'{"-":->10}\n'
    string += f'Автор: {author_id}\n'
    string += f'Среднее время приготовления: {minutes} минут\n'
    return string


In [9]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

In [10]:
def get_info(id):
    row = recipes.iloc[recipes[recipes.id == id].index[0]]

    name = row['name']
    steps = steps_sample[str(id)]
    minutes = row['minutes']
    author_id = row['contributor_id']
    return name, steps, minutes, author_id

info = get_info(170895)

print(show_info(info[0],info[1],info[2],info[3]))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [11]:
p = re.compile(r"[1-9][0-9]?\s(?:\bhours?\b|\bminutes?\b)")

for item in steps_sample['25082']:
    if p.findall(item) != []:
        print(f'{item}\n', p.findall(item))
#steps_sample['25082']


turn out onto a lightly floured board and knead for about 20 minutes , adding flour as nescessary to keep the dough from sticking to the board
 ['20 minutes']
when it has been sufficiently kneaded , cover it with a damp cloth for about 10 minutes and wash and grease the bowl lightly
 ['10 minutes']
let the dough rise until it springs back when you stick your finger in it , and it is about twice the size as it was before (this takes about 2 hours
 ['2 hours']
when the dough has risen twice , deflate it again and cover it with the damp cloth again for about 10 minutes , then divide it into and shape it into loaves , buns , etc
 ['10 minutes']
bake at 400 for 20 minutes , and then turn the oven down to 350 and bake for 20-30 minutes longer , until the loaf is a lovely brown and sounds hollow when you thump it on the bottom
 ['20 minutes', '30 minutes']


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [12]:
from random import sample
p1 = re.compile(r'^\bthis\b[\s\d\w]+,\s?\bbut\b', re.M)
rec = []
for item in recipes.description.dropna():
    if p1.findall(item) != []:
        rec.append(item)
print(f'Кол-во подходящих описаний - {len(rec)}')
sample(rec,3)

Кол-во подходящих описаний - 142


['this apple cake is super easy and quick to make, but will fool your guests into believing your worked really hard to serve them something extra special. \r\nthe dough is soft and fluffy at the same time and the taste perfect for autumn.',
 "recipe courtesy of tyler florence of foodtv.\r\nthis may look a little time consuming, but it really isn't. great side dish for any steak dinner.",
 'this is a concoction for salmon that i came up with when i wanted salmon, but something different.  the outcome turned out great, even a friend that hates salmon described it as "the bomb". . . he\'s such a dork. anyway, the combination of flavors is fresh and bright, delicious served with rice and steamed veggies.']

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [13]:
p3 = re.compile(r" / ")
for item in steps_sample['72367']:
    print(p3.sub('/', item))

mix butter , flour , 1/3 c
sugar and 1-1/4 t
vanilla
press into greased 9" springform pan
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
vanilla beating until fluffy
pour over dough
combine apples , 1/3 c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [14]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]+')
uniq = []
#steps_sample['44123']

for id in steps_sample:
    for step in steps_sample[id]:
        row = tokenizer.tokenize(step)
        for word in row:
            uniq.append(word)

print('Кол-во уникальных слов - ', len(set(uniq)))

Кол-во уникальных слов -  15139


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [15]:
#for sent in recipes.description:
from nltk.tokenize import sent_tokenize

desc = recipes.loc[recipes['description'].isna() == False]

lenn = []
for i in desc.description:
    lenn.append(len(sent_tokenize(i)))
 
desc.loc[:, "len"] = lenn
desc.sort_values(by = 'len', ascending=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  desc.loc[:, "len"] = lenn


Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,len
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,this wonderful icing is used for icing cakes a...,,76
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,a translucent golden-brown crust allows the gr...,9.0,27
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,this is one of the best soups i've ever made a...,10.0,24
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,the first time i made this cake i grated a mil...,,23
6779,chocolate tea,205348,6,428824,2007-01-14,,i wrote this because there are an astounding l...,,23
...,...,...,...,...,...,...,...,...,...
9049,cuscus bil khodar vegetable couscous,350641,65,610488,2009-01-20,18.0,another of the restaurant al-fassia of marrake...,,1
23615,savory vegetable mini quiches,334208,30,166642,2008-10-31,15.0,these bite-size tarts are from pampered chef.,,1
4367,cafe vienna coffee mix,13216,15,21641,2001-10-25,,"another copycat coffee mix, just as good as th...",5.0,1
12191,goat cheese green onion scones,32220,45,15718,2002-06-25,,onion and cheese flavored scones originally fr...,,1


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [115]:
from nltk import pos_tag, word_tokenize

w1 = 'I  omitted the raspberries and added strawberries instead'
w2 = recipes[recipes['id'] == 241106]['name'].values[0]

def pos_word(word):
    for i in pos_tag(word_tokenize(word)):
        print(f'{i[1]: ^{len(i[0])+len(i[1])}}', end = '')
    print('')
    for i in pos_tag(word_tokenize(word)):
        print(f'{i[0]: ^{len(i[0])+len(i[1])}}', end = '')
    print('\n')

pos_word(w1)
pos_word(w2)
    

PRP    VBD     DT       NNS       CC    VBD         NNS         RB    
 I   omitted   the  raspberries   and  added   strawberries   instead 

    JJ       NNS     IN      NNS       VBP     JJ    CC    JJ      NNS   
 eggplant  steaks   with  chickpeas   feta   cheese  and  black  olives  

