# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

In [13]:
import pandas as pd

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [15]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [82]:
m = max(len(i) for i in obj)

for k, v in obj.items():
    print(f'"{k: >{m}}" = "{v}"')

"home_page" = "https://github.com/pypa/sampleproject"
" keywords" = "sample setuptools development"
"  license" = "MIT"


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [1]:
import re

In [17]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [18]:
for i in obj:
    print(*re.findall('\d{2}-\d', i))

19-1
20-4
20-3


3. Разбейте текст формулировки задачи 2 на слова.

In [4]:
text = 'Написать регулярное выражение,которое позволит найти номера групп студентов.'
re.findall('\w+', text)

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

4.

In [20]:
text = 'вол,воз,вон. вол воБ во8 воз вок вог во4 воХ во! воь вон'
re.findall('во[лзн]', text)

['вол', 'воз', 'вон', 'вол', 'воз', 'вон']

5.

In [90]:
text = '147 кабинет 843 кабинет 010 кабинет 514 кабинет 99 кабинет 246 кабинет 572 кабинет'
re.findall('[1-9]\d{2}|[1-9]\d', text)

['147', '843', '10', '514', '99', '246', '572']

In [96]:
text = '147 кабинет 843 кабинет 010 кабинет 514 кабинет 99 кабинет 246 кабинет 572 кабинет'
re.findall('([1-9]((?:\d{2})|(?:\d)))', text)

[('147', '47'),
 ('843', '43'),
 ('10', '0'),
 ('514', '14'),
 ('99', '9'),
 ('246', '46'),
 ('572', '72')]

In [89]:
text = '147 кабинет 843 кабинет 010 кабинет 514 кабинет 99 кабинет 246 кабинет 572 кабинет'
re.findall('[1-9]\d+', text)

['147', '843', '10', '514', '99', '246', '572']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [40]:
import pandas as pd

In [41]:
recipes = pd.read_csv('recipes_sample.csv')

In [23]:
s = recipes.sample(5)
s

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
9121,danish,28216,60,1891,2002-05-13,7.0,this is go good and easy to make . i top it wi...,5.0
26451,super fast chocolate oatmeal,240054,10,483668,2007-07-12,7.0,this is my tweeked version of a recipe on this...,5.0
8112,cream of roasted tomato soup,35864,45,22015,2002-08-02,,"not sure where it came from originally, but it...",13.0
7288,coconut custard squares,136862,50,130663,2005-09-11,8.0,haven't tried this recipe yet.,5.0
25838,steak in pizzaiola sauce,94655,20,115853,2004-06-29,9.0,my dh2b loved the chicken pizzaiola sub at sub...,8.0


In [24]:
w1 = len(str(s['id'].max())) + 2
w2 = len(max(str(s['minutes'].max()), 'minutes')) + 2
w1, w2

(8, 9)

In [25]:
def f(a,b):
    return f'|{a: ^{w1}}|{b: ^{w2}}|'

In [26]:
ids = s['id']
mins = s['minutes']

In [27]:
print(f('id', 'minutes'))
print(f'|{"-"*(w1+w2+1)}|')

for i in range(5):
    print(f(ids.iloc[i], mins.iloc[i]))

|   id   | minutes |
|------------------|
| 28216  |   60    |
| 240054 |   10    |
| 35864  |   45    |
| 136862 |   50    |
| 94655  |   20    |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [None]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

In [21]:
from bs4 import BeautifulSoup

In [22]:
with open('steps_sample.xml') as f:
    ss = BeautifulSoup(f, 'xml')

In [31]:
steps = {}

for i in ss.recipes.find_all('recipe'):
    if i('id')[0].text == '170895':
        step = i.find_all('step')
        for n, s in enumerate(step):
            steps[n+1] = s.text

In [32]:
needed = recipes[recipes['id'] == 170895]
needed

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
15754,leeks and parsnips sauteed or creamed,170895,27,8377,2006-05-31,21.0,this is good sauteed only or creamed. very eas...,9.0


In [249]:
def show_info(rec, st):
    line = f'"{rec["name"].iloc[0]}"\n\n'
    for k, v in st.items():
        l = f'{k}. {v}\n'
        line += l
    line += f'{"-"*15}\nАвтор: {rec["contributor_id"].iloc[0]}\nСреднее время приготовления: minutes минут: {rec["minutes"].iloc[0]}'
    return line

In [250]:
print(show_info(needed, steps))

"leeks and parsnips  sauteed or creamed"

1. clean the leeks and discard the dark green portions
2. cut the leeks lengthwise then into one-inch pieces
3. melt the butter in a medium skillet , med
4. heat
5. add the garlic and fry 'til fragrant
6. add leeks and fry until the leeks are tender , about 6-minutes
7. meanwhile , peel and chunk the parsnips into one-inch pieces
8. place in a steaming basket and steam 'til they are as tender as you prefer
9. i like them fork-tender
10. drain parsnips and add to the skillet with the leeks
11. add salt and pepper
12. gently sautee together for 5-minutes
13. at this point you can serve it , or continue on and cream it:
14. in a jar with a screw top , add the half-n-half and arrowroot
15. shake 'til blended
16. turn heat to low under the leeks and parsnips
17. pour in the arrowroot mixture , stirring gently as you pour
18. if too thick , gradually add the water
19. let simmer for a couple of minutes
20. taste to adjust seasoning , probably an addi

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [23]:
for i in ss.recipes.find_all('recipe'):
    if i('id')[0].text == '25082':
        step = i.find_all('step')
        for i in step:
            r = re.findall('\d{1,} [hoursminutes]{4,}', i.text)
            if r:
                print(*r)

100 times
20 minutes
10 minutes
2 hours
10 minutes
20 minutes 30 minutes


In [25]:
for i in ss.recipes.find_all('recipe'):
    if i('id')[0].text == '25082':
        step = i.find_all('step')
        for i in step:
            r = re.findall('\d{1,} hours?|\d{1,} minutes?', i.text)
            if r:
                print(*r)

20 minutes
10 minutes
2 hours
10 minutes
20 minutes 30 minutes


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [42]:
desc = recipes['description']
suitable = []

for i in desc:
    r = re.findall('this \w*\d*\s*, ?but', str(i))
    if r:
        suitable.append(i)
        
print(*suitable[:3], sep='\n\n')

okay, i probably didn't make this up, but i felt like i did.  i was looking for something new to make that my kids would love.  it was colorful and my 3 year old called it rainbow chicken. so easy and i liked it too!
the amounts and times are not exact i didn't really measure as i was going along.

haven't tried this yet, but it looked delicious.

this recipe is by don mauer, a syndicated food columnist. the technique used here makes for a fast yet tender pot roast. the 90 minutes refers to time in the oven, there is additional time needed for brining and cooking. do not cook vegetables with the pot roast - cook them separately or parboil and add to the gravy as it cooks. prep times are estimated, as i have not made this yet, but am looking forward to doing so. please note that the sodium count is off - the sodium is principally in the brine, which is discarded.


In [330]:
len(suitable)

168

In [319]:
'this is another neat recipe i found online.i really enjoy recipes like this. they are very warm,cozy but easy to make.have not made this yet,but i am sure i will soon!8)' in suitable

True

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [26]:
for i in ss.recipes.find_all('recipe'):
    if i('id')[0].text == '72367':
        step = i.find_all('step')
        for i in step:
            t = i.text
            if re.findall('/', t):
                r = re.sub('\d+ / \d+', t[t.index('/')-2]+t[t.index('/')]+t[t.index('/')+2], t)
                print(r)
        break

mix butter , flour , 1/3 c
sugar and 1-1/4 t
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
combine apples , 1/3 c


In [36]:
for i in ss.recipes.find_all('recipe'):
    if i('id')[0].text == '72367':
        step = i.find_all('step')
        for i in step:
            t = i.text
            for frac in re.findall('\d+ / \d+', t):
                r = re.sub(frac, ''.join(frac.split()), t)
                print(r)
        break

mix butter , flour , 1/3 c
sugar and 1-1/4 t
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
combine apples , 1/3 c


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [357]:
%pip install razdel

Collecting razdel
  Obtaining dependency information for razdel from https://files.pythonhosted.org/packages/15/2c/664223a3924aa6e70479f7d37220b3a658765b9cfe760b4af7ffdc50d38f/razdel-0.5.0-py3-none-any.whl.metadata
  Downloading razdel-0.5.0-py3-none-any.whl.metadata (10.0 kB)
Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Installing collected packages: razdel
Successfully installed razdel-0.5.0
Note: you may need to restart the kernel to use updated packages.


In [43]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

In [7]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Elizabeth\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [36]:
u = set()

for i in ss.recipes.find_all('recipe'):
    ww = word_tokenize(i.text)
    for w in ww:
        if w.isalpha():
            u.add(w)

In [41]:
len(u)

14922

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [44]:
sent = {}

for i in desc:
    if type(i) == str:
        ww = sent_tokenize(i)
        id_r = recipes[recipes['description'] == i]['id']
        sent[id_r.iloc[0]] = ww

In [45]:
s_r = list(sent.values())
s_r.sort(key=lambda x: len(x), reverse=True)

In [70]:
sent = {}

for i in desc:
    if type(i) == str:
        ww = sent_tokenize(i)
        id_r = recipes[recipes['description'] == i]['id']
#         print(id_r.index[0])
        sent[id_r.index[0]] = ww
#         break

In [71]:
a = [next(k for k, v in sent.items() if v == i) for i in s_r[:5]]

In [72]:
recipes.loc[a]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,this wonderful icing is used for icing cakes a...,
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,a translucent golden-brown crust allows the gr...,9.0
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,this is one of the best soups i've ever made a...,10.0
6779,chocolate tea,205348,6,428824,2007-01-14,,i wrote this because there are an astounding l...,
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,the first time i made this cake i grated a mil...,


In [46]:
for i in s_r[:5]:
    a = recipes[recipes['id'] == next(k for k, v in sent.items() if v == i)]
    print(a)

                                               name      id  minutes  \
18408  my favorite buttercream icing for decorating  334113       30   

       contributor_id   submitted  n_steps  \
18408          681465  2008-10-30     12.0   

                                             description  n_ingredients  
18408  this wonderful icing is used for icing cakes a...            NaN  
                                                  name      id  minutes  \
481  alligator claws  avocado fritters  with chipot...  287008       45   

     contributor_id   submitted  n_steps  \
481          765354  2008-02-19      NaN   

                                           description  n_ingredients  
481  a translucent golden-brown crust allows the gr...            9.0  
                            name      id  minutes  contributor_id   submitted  \
22566  rich barley mushroom soup  328708       60          221776  2008-10-03   

       n_steps                                        description  

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [73]:
from nltk.tag import pos_tag

In [126]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Elizabeth\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [74]:
name = recipes[recipes['id'] == 241106]['name'].iloc[0]
name

'eggplant steaks with chickpeas  feta cheese and black olives'

In [142]:
def wisdom(sentence):
    sentence = pos_tag(word_tokenize(sentence))
    first = ''
    second = ''
    for para in sentence:
        l = max(len(para[0]), len(para[1])) + 2
        first += f'{para[1]: ^{l}}'
        second += f'{para[0]: ^{l}}'
    print(f'{first}\n{second}')

In [143]:
wisdom(name)

    JJ      NNS     IN      NNS     VBP     JJ    CC    JJ     NNS   
 eggplant  steaks  with  chickpeas  feta  cheese  and  black  olives 


In [76]:
pos_tag(word_tokenize(name))

[('eggplant', 'JJ'),
 ('steaks', 'NNS'),
 ('with', 'IN'),
 ('chickpeas', 'NNS'),
 ('feta', 'VBP'),
 ('cheese', 'JJ'),
 ('and', 'CC'),
 ('black', 'JJ'),
 ('olives', 'NNS')]