# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [2]:
import pandas as pd

In [2]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [3]:
#f'beqbebCcewew{2**8}'
name = 'vasya'
#f'{name} has 20 points'
f'{name:>10}'
f'{name:^9}'

'  vasya  '

In [4]:
for k, v in obj.items():
    print(f"{k:10}='{v}'")

home_page ='https://github.com/pypa/sampleproject'
keywords  ='sample setuptools development'
license   ='MIT'


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [5]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [3]:
import re

In [7]:
patt = re.compile(r"(?:ПМ)?\s?\d+-\d", re.I)
for item in obj:
    print(f"{item:20}", patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            [' 20-3']


In [8]:
obj.str.findall(patt).map(len)

0    1
1    1
2    1
dtype: int64

3. Разбейте текст формулировки задачи 2 на слова.

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\-\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
text = 'Написать регулярное выражение,которое позволит найти номера групп студентов.'
#text.split()
nltk.word_tokenize(text)

tokenizer = nltk.tokenize.RegexpTokenizer(r"\w+")
tokenizer.tokenize(text)                                         

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

In [11]:
nltk.sent_tokenize("Мы сегодня устали, мы ")

['Мы сегодня устали, мы']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [5]:
recipes1 = pd.read_csv('recipes_sample.csv', sep = ',')
recipes1

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


In [6]:
df = recipes1.sample(n=5)

In [7]:
idd = df['id'].values
minutes = df['minutes'].values
names = ['id', 'minutes']
print(f'| {names[0]:^12} | {names[1]:^9} |')
print(f'|--------------------------|')
for i in range(5):
    print(f'| {idd[i]:^13}| {minutes[i]:^9} |')

|      id      |  minutes  |
|--------------------------|
|    437306    |    65     |
|    513419    |    60     |
|     17187    |    380    |
|    190863    |    30     |
|    305279    |    38     |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1.
2. Шаг 2.
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [8]:
from bs4 import BeautifulSoup

In [9]:
with open(
    'steps_sample.xml', 
    'r',
    encoding='utf-8'
) as fp:
    xml = BeautifulSoup(fp)

In [10]:
recipess = {}
recipes = xml.find_all('recipe')
for i in range(len(recipes)):
    ide = recipes[i].find_all('id')
    steps = recipes[i].find_all('step')
    steps = [steps[j].text for j in range(len(steps))]
    recipess[ide[0].text] = recipess.get(ide[0].text, steps)

In [18]:
recipess['170895']

['clean the leeks and discard the dark green portions',
 'cut the leeks lengthwise then into one-inch pieces',
 'melt the butter in a medium skillet , med',
 'heat',
 "add the garlic and fry 'til fragrant",
 'add leeks and fry until the leeks are tender , about 6-minutes',
 'meanwhile , peel and chunk the parsnips into one-inch pieces',
 "place in a steaming basket and steam 'til they are as tender as you prefer",
 'i like them fork-tender',
 'drain parsnips and add to the skillet with the leeks',
 'add salt and pepper',
 'gently sautee together for 5-minutes',
 'at this point you can serve it , or continue on and cream it:',
 'in a jar with a screw top , add the half-n-half and arrowroot',
 "shake 'til blended",
 'turn heat to low under the leeks and parsnips',
 'pour in the arrowroot mixture , stirring gently as you pour',
 'if too thick , gradually add the water',
 'let simmer for a couple of minutes',
 'taste to adjust seasoning , probably an additional 1 / 2 teaspoon salt',
 'serv

In [19]:
dd = recipes1[recipes1['id']==170895]
dd_minutes = dd['minutes'].values[0]
dd_name = dd['name'].values
dd_contr = dd['contributor_id'].values[0]

In [20]:
def show_info(name, steps, minutes, author_id):
    l = ''
    l += f'"{name.title()}"\n\n'
    for i in range(len(steps)):
        l += f'{i+1}. {steps[i].capitalize()}\n'
    l += f'----------\n'
    l += f'Автор: {author_id}\n'
    l += f'Среднее время приготовления: {minutes} минут\n'
    return l

In [21]:
print(show_info(name=dd_name[0], steps=recipess['170895'], minutes=dd_minutes, author_id=dd_contr))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

In [22]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [23]:
patt = re.compile(r"\d+ (?:hour|hours|minute|minutes)")
for item in recipess['25082']:
    if patt.findall(item) != []:
        print(patt.findall(item))

['20 minute']
['10 minute']
['2 hour']
['10 minute']
['20 minute', '30 minute']


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [24]:
import numpy as np
d = pd.Series(recipes1['description'])
patt = re.compile(r'^this[\da-zA-Z_\s]*,\s?but')
c = 0
a = []
for i in range(len(d)):
    d[i]=str(d[i])
    if patt.findall(d[i]) != []:
        c += 1
        a.append(d[i])
        
        
print(c)
print(np.random.choice(a,3))

133
["this is a very simple recipe, but it's made savory by using chicken broth and adding the cashews.  it doesn't take long to make, and i've found that fresh parsley really enhances the flavor of the dish rather than dried parsley."
 "this is a bit time consuming, but i thought it was worth it! there's not really any chopping so that saves time. it's not as hard as it looks to make. we all loved this, even the kids. i prepared this in my electric skillet. prep and cook times are approximate. note: to fricasse a broiler-fryer chicken, select 3-4 pound broiler-fryer chicken and cook slowly 45 minutes or until fork-tender."
 'this casserole may be made with regular white rice, but it is much better using converted rice, as regular rice tends to get too soft when baking, when boiling the rice try not to over cook it (see note on bottom of page). prep time includes boiling the rice and fying veggies. this is a very tasty rice dish!']


5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [25]:
for item in recipess['72367']:
    item = re.sub(r'\s?/\s?','/',item)
    print(item)

mix butter , flour , 1/3 c
sugar and 1-1/4 t
vanilla
press into greased 9" springform pan
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
vanilla beating until fluffy
pour over dough
combine apples , 1/3 c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

# Чтобы решить задания этого раздела:
1)Я создал файл '$ jupyter notebook --generate-config' в командной строке Anaconda

2)Открыл тот файл и заменил c.NotebookApp.iopub_data_rate_limit = 1000000 на c.NotebookApp.iopub_data_rate_limit = 10000000


In [11]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\-\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [21]:
a = []
b = []
ww = []
for step in recipess:
    a.append(recipess.get(step))

for idd in a:
    for j in idd:
        b.append(j)
for word in b:
    ww.append(nltk.word_tokenize(word))


In [22]:
ww

[['in',
  '1',
  '/',
  '4',
  'cup',
  'butter',
  ',',
  'saute',
  'carrots',
  ',',
  'onion',
  ',',
  'celery',
  'and',
  'broccoli',
  'stems',
  'for',
  '5',
  'minutes'],
 ['add', 'thyme', ',', 'oregano', 'and', 'basil'],
 ['saute', '5', 'minutes', 'more'],
 ['add', 'wine', 'and', 'deglaze', 'pan'],
 ['add', 'hot', 'chicken', 'stock', 'and', 'reduce', 'by', 'one-third'],
 ['add',
  'worcestershire',
  'sauce',
  ',',
  'tabasco',
  ',',
  'smoked',
  'chicken',
  ',',
  'beans',
  'and',
  'broccoli',
  'florets'],
 ['simmer', '5', 'minutes'],
 ['add',
  'cream',
  ',',
  'simmer',
  '5',
  'minutes',
  'more',
  'and',
  'season',
  'to',
  'taste'],
 ['drop',
  'in',
  'remaining',
  'butter',
  ',',
  'piece',
  'by',
  'piece',
  ',',
  'stirring',
  'until',
  'melted',
  'and',
  'serve',
  'immediately'],
 ['smoked',
  'chicken',
  ':',
  'on',
  'a',
  'covered',
  'grill',
  ',',
  'slightly',
  'smoke',
  'boneless',
  'chicken',
  ',',
  'cooking',
  'to',
  'medi

In [23]:
flatten_x = [item for sublist in ww for item in sublist]
flatten_x

['in',
 '1',
 '/',
 '4',
 'cup',
 'butter',
 ',',
 'saute',
 'carrots',
 ',',
 'onion',
 ',',
 'celery',
 'and',
 'broccoli',
 'stems',
 'for',
 '5',
 'minutes',
 'add',
 'thyme',
 ',',
 'oregano',
 'and',
 'basil',
 'saute',
 '5',
 'minutes',
 'more',
 'add',
 'wine',
 'and',
 'deglaze',
 'pan',
 'add',
 'hot',
 'chicken',
 'stock',
 'and',
 'reduce',
 'by',
 'one-third',
 'add',
 'worcestershire',
 'sauce',
 ',',
 'tabasco',
 ',',
 'smoked',
 'chicken',
 ',',
 'beans',
 'and',
 'broccoli',
 'florets',
 'simmer',
 '5',
 'minutes',
 'add',
 'cream',
 ',',
 'simmer',
 '5',
 'minutes',
 'more',
 'and',
 'season',
 'to',
 'taste',
 'drop',
 'in',
 'remaining',
 'butter',
 ',',
 'piece',
 'by',
 'piece',
 ',',
 'stirring',
 'until',
 'melted',
 'and',
 'serve',
 'immediately',
 'smoked',
 'chicken',
 ':',
 'on',
 'a',
 'covered',
 'grill',
 ',',
 'slightly',
 'smoke',
 'boneless',
 'chicken',
 ',',
 'cooking',
 'to',
 'medium',
 'rare',
 'chef',
 'meskan',
 'uses',
 'applewood',
 'chips',


In [30]:
print('Все уникальные элементы')
uniq = set(list(map(str.lower,flatten_x)))
uniq

Все уникальные элементы


{'20-second',
 'crisp-pat',
 'shrimp-bell',
 'srit',
 'hand-held',
 '2hr',
 'refore',
 'uterly',
 'kiss',
 'scrapper',
 'combne',
 'exceed',
 'approximatly',
 'coarse-ground',
 'family',
 'what',
 'personal',
 '178-180',
 'loudly',
 'finger-shaped',
 'half-fill',
 "'rough",
 'tendered',
 'burns',
 'stil',
 'fragmental',
 'crush',
 'latent',
 'skinny',
 'dose',
 'pancake-spice',
 'mash',
 'pin',
 '12x3',
 '4-foot-long',
 'fire-pit',
 '166790',
 'sift',
 'paste',
 'outdoor',
 'tad',
 '1-teaspoon',
 'loafpans',
 'chocloate',
 'distributing',
 'flexibility',
 '1-second',
 'clingwrap',
 'piece',
 'remains',
 '2530',
 'facedown',
 'cornflour-water',
 'antennae',
 'shimmer',
 '200deg',
 'nasi',
 '60-75',
 'cornflake',
 'bumpy',
 'safely',
 'minutes-which',
 'liverwurst',
 'rosemary',
 'poaching',
 'epazote',
 '-crumble',
 'expressed',
 'exhaust',
 'simmerfor',
 'soymilk',
 'pinto',
 'lingering',
 'sue',
 'bush',
 'unrolling',
 'whish',
 'returns',
 'threatens',
 'sillet',
 'cents',
 'soy-vine

In [32]:
print('Кол-во уникальных элементов:')
len(uniq)

Кол-во уникальных элементов:


19564

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [29]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [45]:
s = recipes1['description']
a = []
ss = []
mx = []
for i in s:
    a.append(i)
for sent in a:
    ss.append(len(sent_tokenize(sent)))
mx = np.argsort(ss)[-5:][::-1]
mx

array([18408,   481, 22566, 16296,  6779], dtype=int64)

In [46]:
recipes1.iloc[mx]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,this wonderful icing is used for icing cakes a...,
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,a translucent golden-brown crust allows the gr...,9.0
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,this is one of the best soups i've ever made a...,10.0
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,the first time i made this cake i grated a mil...,
6779,chocolate tea,205348,6,428824,2007-01-14,,i wrote this because there are an astounding l...,


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [57]:
from nltk import pos_tag

In [59]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\-\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [183]:
ch = recipes1[recipes1['id']==241106]
ch = ch['name'].values[0]
ch = str(ch)
text = word_tokenize(ch)
pos_tag = nltk.pos_tag(text)
ps = []
w = []
for i in range(len(pos_tag)):
    ps.append(pos_tag[i][1])
for i in range(len(pos_tag)):
    w.append(pos_tag[i][0])  

In [184]:
ps, w

(['JJ', 'NNS', 'IN', 'NNS', 'VBP', 'JJ', 'CC', 'JJ', 'NNS'],
 ['eggplant',
  'steaks',
  'with',
  'chickpeas',
  'feta',
  'cheese',
  'and',
  'black',
  'olives'])

In [185]:
print('%5s %8s %4s %7s %7s %4s %4s %4s %6s' % ('JJ', 'NNS', 'IN', 'NNS', 'VBP', 'JJ', 'CC', 'JJ', 'NNS'))
print('%-s %-s %-s %-s %-s %-s %-s %-s %-s' % ('eggplant','steaks','with','chickpeas','feta','cheese','and','black','olives'))

   JJ      NNS   IN     NNS     VBP   JJ   CC   JJ    NNS
eggplant steaks with chickpeas feta cheese and black olives
