# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [35]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [36]:
#Not for this task
for k, v in obj.items():
    print(f'{k =} = {v=}')

k ='home_page' = v='https://github.com/pypa/sampleproject'
k ='keywords' = v='sample setuptools development'
k ='license' = v='MIT'


In [37]:
for k, v in obj.items():
    print(f'{k:10} = "{v}"')

home_page  = "https://github.com/pypa/sampleproject"
keywords   = "sample setuptools development"
license    = "MIT"


In [38]:
obj = {
    "home_page11111111111111111": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
lst = [len(i) for i in obj.values()]
m = max([len(i) for i in obj.keys()])
for k, v in obj.items():
    print(f'{k:{m}} = "{v}"')

home_page11111111111111111 = "https://github.com/pypa/sampleproject"
keywords                   = "sample setuptools development"
license                    = "MIT"


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [39]:
import pandas as pd
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [40]:
#regular expressions
import re

#pattern = re.compile(r"ПМ\s?\d\d-\d", re.I)
# ? - 0 or 1 time
# + 1 or more
#?: uncapturing group
#pattern = re.compile(r"(ПМ)?\s?\d+-\d", re.I)
#pattern = re.compile(r"((ПМ)?\s?\d+-\d)", re.I)
pattern = re.compile(r"(?:ПМ)?\s?\d+-\d", re.I)
for item in obj:
    print(f'{item:<20}', pattern.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            [' 20-3']


3. Разбейте текст формулировки задачи 2 на слова.

In [41]:
import nltk

In [42]:
text = "Написать регулярное выражение,которое. позволит найти номера групп студентов."
# text.split(sep = ' ')
nltk.word_tokenize(text)


['Написать',
 'регулярное',
 'выражение',
 ',',
 'которое',
 '.',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов',
 '.']

In [43]:
tokenizer = nltk.tokenize.RegexpTokenizer(r"\w+")

In [44]:
type(tokenizer.tokenize(text))

list

In [45]:
nltk.sent_tokenize(text)

['Написать регулярное выражение,которое.',
 'позволит найти номера групп студентов.']

In [46]:
obj.str.findall(pattern).map(len)

0    1
1    1
2    1
dtype: int64

## Лабораторная работа 6

In [47]:
import re
import pandas as pd
import nltk

In [48]:
path = 'C://Users//icom1//OneDrive - icom//Рабочий стол//'

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [49]:
recipes = pd.read_csv(path+'recipes_sample.csv')

In [50]:
id_min = recipes[['id','minutes']].sample(5)
m0 = len(str(recipes.id.max())) + 2
m1 = len(str(recipes.minutes.max())) + 2
names = f'| {id_min.keys()[0]:^{m0}} | {id_min.keys()[1]:^{m1}} |'  
print(names)
print('|'+'-'*(len(names)-2)+'|')
print(*id_min.apply(lambda i: f"| {i.id:^{m0}} | {i.minutes:^{m1}} | ", axis = 1),sep = "\n")

|    id    | minutes  |
|---------------------|
|  201591  |    12    | 
|  264064  |   720    | 
|  63490   |    37    | 
|  174771  |    55    | 
|  377585  |    30    | 


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1.
2. Шаг 2.
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [51]:
def show_info(name, steps, minutes, author_id):
    n = ''
    lst = []
    nl = '\n'
    for i in name.split(' '):
        n += i.capitalize()+' '
    n = n[:-1]
    for i in range(len(steps)):
        lst.append(str(i+1)+'. '+steps[i].capitalize())
    st = f'"{n}"{nl}{nl}{nl.join(lst)}{nl}----------{nl}Автор: {author_id}{nl}Среднее время приготовления: {minutes} минут{nl}'
    return st

In [52]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

In [53]:
from bs4 import BeautifulSoup
recipes_df = pd.read_csv(path+'recipes_sample.csv')
with open(
    path+'steps_sample.xml', 
    'r',
     encoding = 'utf-8'
) as fp:
    recipes_xml = BeautifulSoup(fp)



In [54]:
id_steps = {}
for ids in recipes_xml.find_all('recipe'):
    id_steps[ids.find('id').text] = [step.text for step in ids.find_all('step')]

In [55]:
print(show_info(name = str(recipes[recipes.id == 170895]['name'].item()), 
                steps = id_steps['170895'], 
                minutes = recipes[recipes.id == 170895]['minutes'].item(),
                author_id = recipes[recipes.id == 170895]['contributor_id'].item()))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [56]:
pattern = re.compile(r"\d+ (?:hour|hours|minute|minutes)", re.I)
[pattern.findall(step) for step in id_steps['25082'] if pattern.findall(step) != []]

[['20 minute'],
 ['10 minute'],
 ['2 hour'],
 ['10 minute'],
 ['20 minute', '30 minute']]

4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [57]:
recipes_df.head(1)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0


In [70]:
pattern = re.compile(r"this(?:\w| )+, ?but")
recipes[recipes['description'].str.match(pattern) == True].count()[0]

134

In [73]:
pd.set_option('display.max_colwidth', None)
recipes[recipes['description'].str.match(pattern) == True]['description'].sample(3)

22336    this is a copycat recipe, but it's delicious. i used a pinot grigio wine but you could substitute chicken broth if you didn't want to use alcohol.
13505               this recipe is very similar to other feta chicken recipes on recipezaar, but i like these proportions.  spinach makes a nice side dish.
23683                                                                                                 this is also good made with jumbo lump crabmeat, but 
Name: description, dtype: object

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [11]:
def repl(m): 
    m = m.group(0)
    res = ''
    for gr in m.split(' '):
        res+=gr
    return f'{res}' 

In [12]:
pattern = re.compile(r"\d+ \/ \d+")
pat_to_change = r'(\\d+ \/ \\d+)'
for step in id_steps['72367']:
    print(re.sub(pattern, repl, step))

mix butter , flour , 1/3 c
sugar and 1-1/4 t
vanilla
press into greased 9" springform pan
mix cream cheese , 1/4 c
sugar , eggs and 1/2 t
vanilla beating until fluffy
pour over dough
combine apples , 1/3 c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [32]:
from nltk.tokenize import word_tokenize

unique_words = []

for steps in id_steps.values():
    for word in word_tokenize(''.join(steps)):
        if word not in unique_words and word.isalpha():
            unique_words.append(word)
unique_words[1]

'cup'

In [33]:
len(unique_words)

82369

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [55]:
from nltk import sent_tokenize
recipes['n_sent'] = recipes['description'].apply(lambda i: len(sent_tokenize(i)) if type(i)==str else 0)

In [65]:
recipes.loc[recipes.n_sent.nlargest(n=5).index]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,n_sent
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,this wonderful icing is used for icing cakes a...,,76
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,a translucent golden-brown crust allows the gr...,9.0,27
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,this is one of the best soups i've ever made a...,10.0,24
6779,chocolate tea,205348,6,428824,2007-01-14,,i wrote this because there are an astounding l...,,23
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,the first time i made this cake i grated a mil...,,23


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [3]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\icom1\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [85]:
def part_of_speech(sentence: str):
    tokenizer = nltk.tokenize.RegexpTokenizer(r"\w+")
    tagged = nltk.pos_tag(tokenizer.tokenize(sentence))
    nl = '\n'
    out1 = ''
    out2 = ''
    for i in range(len(tagged)): 
        ln = max(len(tagged[i][0]), len(tagged[i][1]))
        out1 += f'{tagged[i][1]:^{ln}} '
        out2 += f'{tagged[i][0]} '
    print(out1 + '\n' + out2)

In [86]:
recipes[recipes_df.id == 241106]['name'].apply(part_of_speech)

   JJ     NNS    IN     NNS    VBP    JJ   CC   JJ    NNS   
eggplant steaks with chickpeas feta cheese and black olives 


10437    None
Name: name, dtype: object