# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [None]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
s=[f'{k: >10} = {v}' for k,v in obj.items()]
for i in s:
  print(i)

 home_page = https://github.com/pypa/sampleproject
  keywords = sample setuptools development
   license = MIT


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [None]:
import pandas as pd
import re

In [None]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [None]:
p = re.compile(r'([\d]+-[\d]+)') # Выводятся только фрагменты, которые заключены в круглые скобки
for s in obj:
  print(p.findall(s))

['19-1']
['20-4']
['20-3']


3. Разбейте текст формулировки задачи 2 на слова.

---
## Лабораторная работа 6.1

### Форматирование строк

6\.1\.1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
path1 = "/content/drive/MyDrive/recipes_sample.csv"
rec_df = pd.read_csv(path1, delimiter=',')

Mounted at /content/drive


In [None]:
rec_df

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


In [None]:
wide1 = len(str(rec_df['id'].max()))
wide2 = len(str(rec_df['minutes'].max()))
for i in rec_df.sample(n= 5).iloc:
  print(f"| {i['id']: ^{wide1}} | {i['minutes']: ^{wide1}} |")

| 261747 |   60   |
| 456743 |   5    |
| 479249 |   15   |
| 122085 |   35   |
| 184004 |  490   |


6\.1\.2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__).
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [None]:
path2 = "/content/drive/MyDrive/steps_sample.xml"
import requests
from bs4 import BeautifulSoup
with open(path2) as f:
    s_s = BeautifulSoup(f, 'xml')
s_s1 = s_s.recipes.find_all('recipe')
d1 = {}
for i in s_s1:
    d1[i.id.text]=[j.next for j in i.steps.find_all("step")]

In [None]:
import numpy as np

In [None]:
def show_info(id):
  name = (rec_df['name'][rec_df['id']==(id)]).to_string(index = False)
  steps = np.array_split((d1[str(id)]),len(d1[str(id)]))
  aut_name = (rec_df['contributor_id'][rec_df['id']==(id)]).to_string(index = False)
  minutes = (rec_df['minutes'][rec_df['id']==(id)]).to_string(index = False)
  print(f'"{name}"')
  for i in range(len(steps)):
    print(f"{i}: {''.join(steps[i])}")
  print('--------------------------------------')
  print(f'Автор: {aut_name}')
  print(f'Среднее время приготовления: {minutes} минут')

show_info(44123)

"george s at the cove  black bean soup"
0: in 1 / 4 cup butter , saute carrots , onion , celery and broccoli stems for 5 minutes
1: add thyme , oregano and basil
2: saute 5 minutes more
3: add wine and deglaze pan
4: add hot chicken stock and reduce by one-third
5: add worcestershire sauce , tabasco , smoked chicken , beans and broccoli florets
6: simmer 5 minutes
7: add cream , simmer 5 minutes more and season to taste
8: drop in remaining butter , piece by piece , stirring until melted and serve immediately
9: smoked chicken: on a covered grill , slightly smoke boneless chicken , cooking to medium rare
10: chef meskan uses applewood chips and does not allow the grill to become too hot
--------------------------------------
Автор: 35193
Среднее время приготовления: 90 минут


In [None]:
# assert (
#     show_info(
#         name="george s at the cove black bean soup",
#         steps=[
#             "clean the leeks and discard the dark green portions",
#             "cut the leeks lengthwise then into one-inch pieces",
#             "melt the butter in a medium skillet , med",
#         ],
#         minutes=90,
#         author_id=35193,
#     )
#     == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
# )

TypeError: ignored

## Работа с регулярными выражениями

6\.1\.3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [None]:
p = re.compile(r'([\d]+[\s](hour|hours|minute|minutes))')
for i in d1['25082']:
  if p.search(i):
    print(i)

turn out onto a lightly floured board and knead for about 20 minutes , adding flour as nescessary to keep the dough from sticking to the board
when it has been sufficiently kneaded , cover it with a damp cloth for about 10 minutes and wash and grease the bowl lightly
let the dough rise until it springs back when you stick your finger in it , and it is about twice the size as it was before (this takes about 2 hours
when the dough has risen twice , deflate it again and cover it with the damp cloth again for about 10 minutes , then divide it into and shape it into loaves , buns , etc
bake at 400 for 20 minutes , and then turn the oven down to 350 and bake for 20-30 minutes longer , until the loaf is a lovely brown and sounds hollow when you thump it on the bottom


6\.1\.4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [None]:
p = re.compile(r'(this([\w]*[\s]*|[\s]*[\w]*),[\s]?but)')
k=rec_df['description'].dropna().str.contains(p)
# rec_df['description']
kk=rec_df['description'].dropna()[k]
print(len(kk))
kk.sample(n=3)

220


  k=rec_df['description'].dropna().str.contains(p)


20257    there are many versions of this recipe, but th...
18604    this is the easiest dinner!! one pot, one serv...
10735    i got this recipe from las casas restaurant in...
Name: description, dtype: object

## Лабораторная работа 6.2

6\.2\.1\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [None]:

for i in d1['72367']:
  for j in re.findall(r'([\d]+[\s]+/[\s]+[\d]+)',i):
    k = re.sub(r'([\d]+[\s]+[/][\s]+[\d]+)',j.replace(" ",''),i)
    print(k)


mix butter , flour , 1/3 c
sugar and 1-1/4 t
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
combine apples , 1/3 c


### Сегментация текста

6\.2\.2\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
a = []
for i in d1.keys():
  a.extend(word_tokenize(''.join(d1[i]).lower()))

In [None]:
len(set(a))


90676

6\.2\.3\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [None]:
from nltk.tokenize import sent_tokenize

rec = rec_df.apply(lambda row: nltk.sent_tokenize(str(row['description'])), axis=1).to_frame()
rec['l'] = (rec[0].str.len())

In [None]:
rec.sort_values(by=['l'], ascending=False)

Unnamed: 0,0,l
18408,[this wonderful icing is used for icing cakes ...,76
481,[a translucent golden-brown crust allows the g...,27
22566,[this is one of the best soups i've ever made ...,24
16296,[the first time i made this cake i grated a mi...,23
6779,[i wrote this because there are an astounding ...,23
...,...,...
10166,[good for making with children],1
10162,[i remember a version of this dessert from my ...,1
10160,[an easier version of pineapple upsidedown cake],1
15000,[this is a variation of a salad i found in the...,1


6\.2\.4\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
```
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [None]:
from nltk import pos_tag
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [None]:

def ch(s):
  a = pos_tag(word_tokenize(s))
  for i in a:
    print(f"{i[1]: ^{len(i[0])+3}}",end=' ')
  print()
  for i in a:
    print(f"{i[0]: ^{len(i[0])+3}}",end=' ')
ch(str(rec_df[rec_df['id']==241106]['description']))

   CD       DT     VBP    DT     RB       JJ       NN      NN     TO     VB     IN     :      NN     :         NN        ,      NN     :      NN     
 10437    these    are    a    really    good    quick    meal    to    make    in    ...    Name    :    description    ,    dtype    :    object   