# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [8]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [9]:
max_len = max(map(len, obj.keys()))

for k, v in obj.items():
    print(f'{k:{max_len}} = {v}')

home_page = https://github.com/pypa/sampleproject
keywords  = sample setuptools development
license   = MIT


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [8]:
s = '"Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"'

In [9]:
import re

groups = re.findall('\d{2}-\d', s)
groups

['19-1', '20-4', '20-3']

3. Разбейте текст формулировки задачи 2 на слова.

In [10]:
s = 'Написать регулярное выражение,которое позволит найти номера групп студентов.'
text = re.findall('[a-zа-яё]+', s, flags=re.IGNORECASE)
text

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [12]:
import pandas as pd

In [13]:
df = pd.read_csv('recipes_sample.csv')
df_5 = df.sample(5)

In [14]:
max_len_id = max(df_5['id'].astype(str).apply(len))
max_len_minutes = max(df_5['minutes'].astype(str).apply(len))

id = 'id'
minutes = 'minutes'

print(f'|{id:^{max_len_id + 8}}|{minutes:^{max_len_minutes + 8}}|')
print('|' + '-'*(8 + 9 + len(id) + len(minutes))+ '|')

for index, row in df_5.iterrows():
    id = row['id']
    minutes = row['minutes']
    print(f'|{id:^{max_len_id + 8}}|{minutes:^{max_len_minutes + 8}}|')

|      id      | minutes  |
|--------------------------|
|    159829    |    10    |
|    333740    |    30    |
|    449877    |    15    |
|    193719    |    75    |
|    370775    |    23    |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [15]:
df_recipes = pd.read_csv('recipes_sample.csv')

In [16]:
from bs4 import BeautifulSoup

In [17]:
with open('steps_sample.xml') as f:
    ab = BeautifulSoup(f, 'xml')

steps_dict = {}

for recipe in ab.find_all('recipe'):
    recipe_id = int(recipe.id.text)
    steps = [step.text for step in recipe.find_all('step')]
    steps_dict[recipe_id] = steps

In [18]:
row = df_recipes[df_recipes['id'] == 170895]

name = row['name'].iloc[0]
minutes = row['minutes'].iloc[0]
author_id = row['contributor_id'].iloc[0]
steps = steps_dict[170895]

In [19]:
def show_info(name: str, steps: list, minutes: int, author_id: int) -> str:
    s = ''
    s += f'"{name.title()}"\n\n'

    for index, step in enumerate(steps):
        s += f'{index+1}. {step.capitalize()}\n'
    s += '-' * 10 + '\n'
    s += f'Автор: {author_id}\n'
    s += f'Среднее время приготовления: {minutes} минут\n'


    return s

In [20]:
print(show_info(name, steps, minutes, author_id))

"Leeks And Parsnips  Sauteed Or Creamed"

1. Clean the leeks and discard the dark green portions
2. Cut the leeks lengthwise then into one-inch pieces
3. Melt the butter in a medium skillet , med
4. Heat
5. Add the garlic and fry 'til fragrant
6. Add leeks and fry until the leeks are tender , about 6-minutes
7. Meanwhile , peel and chunk the parsnips into one-inch pieces
8. Place in a steaming basket and steam 'til they are as tender as you prefer
9. I like them fork-tender
10. Drain parsnips and add to the skillet with the leeks
11. Add salt and pepper
12. Gently sautee together for 5-minutes
13. At this point you can serve it , or continue on and cream it:
14. In a jar with a screw top , add the half-n-half and arrowroot
15. Shake 'til blended
16. Turn heat to low under the leeks and parsnips
17. Pour in the arrowroot mixture , stirring gently as you pour
18. If too thick , gradually add the water
19. Let simmer for a couple of minutes
20. Taste to adjust seasoning , probably an addi

In [21]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [22]:
import re

In [23]:
for index, step in enumerate(steps_dict[25082]):
    res = re.findall(r'[1-9]{1}[0-9]+ hour[s]?|[1-9]{1}[0-9]+ minute[s]?', step)
    if len(res) != 0 :
        print(f'Шаг {index+1}: {res}')
  

Шаг 6: ['20 minutes']
Шаг 8: ['10 minutes']
Шаг 14: ['10 minutes']
Шаг 17: ['20 minutes', '30 minutes']


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [31]:
df_recipes['description'].isna().sum()

623

In [33]:
df_recipes['description'].fillna(' ', inplace=True)

In [35]:
df_4 = df[df_recipes['description'].str.contains('^this[\w\d\s]+,[ ]?but', regex=True)]
print('Количество подходящих описаний:', df_4.shape[0])

Количество подходящих описаний: 134


In [36]:
pd.set_option('max_colwidth', int(df_4['description'].apply(len).max() + 10))
df_4['description'].sample(3)

22399                                                                                                                                                                                                                                                         this is a recipe that i clipped from a magazine years ago, but unfortunately can't remember which one.  it was a makeover version of a person's favorite high fat casserole into a reduced fat/calorie dish.  my husband and i really enjoy this.  i usually serve it with a salad or steamed vegetable for a complete dinner.  (note: cooking time does not include time to cook brown rice.)
337                                                                                                                                                                                                                                                                                                                                                                        

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [37]:
for step in steps_dict[72367]:
    print(re.sub(r'\d+ / \d+', '\1/\2', step, count=0))

mix butter , flour , / c
sugar and 1-/ t
vanilla
press into greased 9" springform pan
mix cream cheese , / c
sugar , eggs and / t
vanilla beating until fluffy
pour over dough
combine apples , / c
sugar and cinnamon
arrange on top of cream cheese mixture and sprinkle with almonds
bake at 350 for 45-55 minutes , or until tester comes out clean


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [24]:
import nltk

In [None]:
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_ru is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Pac

In [None]:
arr = steps_dict.values()
flat_arr = [item.lower() for sublist in arr for item in sublist]

In [None]:
flat_arr[:3]

In [None]:
from nltk.tokenize.toktok import ToktokTokenizer
toktok = ToktokTokenizer()
res = toktok.tokenize(flat_arr)

In [None]:
print('Количество уникальных слов:', len(set(filter(str.isalpha, res))))

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [None]:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
df_recipes['sentence_count'] = df_recipes['description'].apply(lambda x : len(tokenizer.tokenize(x))) 
df_recipes.sort_values('sentence_count', ascending=False).head(5)

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [None]:
from nltk import pos_tag
from nltk import word_tokenize

In [None]:
def tag(sentence: str) -> str:
    tokenizer = word_tokenize(sentence)
    tagged_list = pos_tag(tokenizer)

    res_word = ''
    res_tag = ''

    for elem in tagged_list:
        word, tag = elem[0], elem[1]
        n_spaces = abs(len(word) - len(tag))
          if len(word) >= len(tag):
            tag = ' ' * (n_spaces//2) + tag + ' ' * (n_spaces - n_spaces//2)
    else:
        word = ' ' * (n_spaces//2) + tag + ' ' * (n_spaces - n_spaces//2)
      
    res_tag += tag + ' '
    res_word += word + ' '

    return '\n'.join([res_tag, res_word])

In [None]:
sentence = df_recipes[df_recipes['id'] == 241106]['name'].tolist()[0]
print(tag(sentence))