# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [None]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [None]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])

3. Разбейте текст формулировки задачи 2 на слова.

4. Найдите в тексте все последовательности: "вол, воз, вон".
 
Текст: "вол воБ во8 воз вок вог во4 воХ во! воь вон" (От Калажоков З.Х.)

5. Напишите регулярное выражение, которое найдёт все кабинеты с трёхзначным номером: 100 - 999 в строке 

'147 кабинет 843 кабинет 010 кабинет 514 кабинет 99 кабинет 246 кабинет 572 кабинет'. 

Шаблон кабинета: ddd кабинет, где d - арабская цифра. (От Калажоков З.Х.)

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны.

In [2]:
import pandas as pd
from tabulate import tabulate

# Загрузка данных из CSV-файла
recipes = pd.read_csv('recipes_sample.csv')

# Выбор случайных рецептов
random_recipes = recipes.sample(n=5)

# Создание списка списков для вывода таблицы
table_data = []
for _, recipe in random_recipes.iterrows():
    table_data.append([recipe['id'], recipe['minutes']])

# Вывод таблицы с помощью модуля tabulate
table_headers = ['id', 'minutes']
print(tabulate(table_data, headers=table_headers, tablefmt="grid"))


+--------+-----------+
|     id |   minutes |
| 301469 |        35 |
+--------+-----------+
| 274810 |        30 |
+--------+-----------+
| 348024 |        60 |
+--------+-----------+
|  98566 |       150 |
+--------+-----------+
| 397334 |        90 |
+--------+-----------+


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [8]:
import pandas as pd
import xml.etree.ElementTree as ET

def show_info(name, steps, minutes, author_id):
    # Оформление названия рецепта
    title = name.title()

    # Оформление списка шагов приготовления
    step_list = ""
    for i, step in enumerate(steps, start=1):
        step_list += f"{i}. {step}\n"

    # Оформление строки с автором и временем приготовления
    author = f"Автор: {author_id}"
    time = f"Среднее время приготовления: {minutes} минут"

    # Сборка и вывод итоговой строки
    result = f'"{title}"\n\n{step_list}----------\n{author}\n{time}\n'
    return result

# Загрузка данных из файлов
recipes = pd.read_csv("recipes_sample.csv")
tree = ET.parse("steps_sample.xml")

# Извлечение данных о рецепте
recipe_id = 170895
recipe = recipes.loc[recipes["id"] == recipe_id].iloc[0]
name = recipe["name"]
minutes = recipe["minutes"]
author_id = recipe["contributor_id"]

# Извлечение данных о шагах приготовления
root = tree.getroot()
steps = []
for step in root.iter("step"):
    if int(step.attrib["recipe_id"]) == recipe_id:
        steps.append(step.text)

# Создание строки с описанием рецепта
recipe_info = show_info(name, steps, minutes, author_id)
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)
# Вывод строки на экран
print(recipe_info)


KeyError: 'recipe_id'

## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.
