# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [2]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
for key, value in obj.items():
    print(f"{key} = '{value}'")

home_page = 'https://github.com/pypa/sampleproject'
keywords = 'sample setuptools development'
license = 'MIT'


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [5]:
import pandas as pd
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
num = obj.str.extract(r'(\d{2}-\d)')

print(num)

      0
0  19-1
1  20-4
2  20-3


3. Разбейте текст формулировки задачи 2 на слова.

In [11]:
t= "Написать регулярное выражение,которое позволит найти номера групп студентов."
w = re.findall(r'\b\w+\b', t)
print(w)


['Написать', 'регулярное', 'выражение', 'которое', 'позволит', 'найти', 'номера', 'групп', 'студентов']


## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [18]:
recipes = pd.read_csv('recipes_sample.csv')
#случайные 5 рецептов
sel= recipes.sample(5)

print("| id           | minutes|")
print("|-----------------------|")
#вывод id и min рецептов с форматированием
for index, row in sel.iterrows():
    id_str = f"{row['id']:<12}"
    minutes_str = f"{row['minutes']:<6}"
    print(f"| {id_str} | {minutes_str} |")

| id           | minutes|
|-----------------------|
| 349186       | 10     |
| 73429        | 28     |
| 88402        | 65     |
| 40911        | 50     |
| 66782        | 15     |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [19]:
def show_info(name, steps, minutes, author_id):
    # создаем строку из шагов рецепта, каждый шаг на новой строке и с номером
    step_str = '\n'.join([f'{i}. {step}' for i, step in enumerate(steps, 1)])
    author_str = f'Автор: {author_id}'
    minutes_str = f'Среднее время приготовления: {minutes} минут'
    # создаем строку с описанием рецепта, соединяя все части
    recipe_str = '\n----------\n'.join([name, step_str, author_str, minutes_str])
    return recipe_str

print(show_info(
    name="george s at the cove black bean soup",
    steps=[
        "clean the leeks and discard the dark green portions",
        "cut the leeks lengthwise then into one-inch pieces",
        "melt the butter in a medium skillet , med",
    ],
    minutes=90,
    author_id=35193,
))


george s at the cove black bean soup
----------
1. clean the leeks and discard the dark green portions
2. cut the leeks lengthwise then into one-inch pieces
3. melt the butter in a medium skillet , med
----------
Автор: 35193
----------
Среднее время приготовления: 90 минут


## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [106]:
data = pd.read_csv('recipes_sample.csv')

pattern = r'\d+\s*(hour|hours|minute|minutes)'

count = 0
# по строкам ищем по pattern
for index, row in data.iterrows():
    found_match = False
    for col_name, col_value in row.items():
        match = re.search(pattern, str(col_value))
        if match:
            found_match = True
            break
    if found_match:
        count += 1

print(f"Число таких рецептов: {count}")

Число таких рецептов: 974


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [45]:
import pandas as pd

data = pd.read_csv('recipes_sample.csv')

pattern = r'^this[^\.,]*\.{3,},?\s?but'
# поиск совпадений по описанию рецепта
matches = data['description'].str.contains(pattern).fillna(False)

# выводим первые 3
examples = data[matches]['description'].head(3)
for example in examples:
    print(example)

this makes a lot...but..."one for the potluck and one for home" is what dh loves! he hates it when we take dishes to gatherings and there's none left!! so, you can put this all into one pot, or divide it into two.
this dessert dish sounds a little strange...but it is oh so good. you can make your own scratch pudding and/or frosting, but this is the short-cut version. cook time is actually chill time.


5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [116]:
data = pd.read_csv('recipes_sample.csv')
# получение названия рецепта с id=72367
recipe = data[data['id'] == 7369]['description'].iloc[0]
# замена пробелов вида " / " на "/"
updated_recipe = re.sub(r'\s/\s', '/', recipe)

print(updated_recipe)

from the gazette 01/06/1991  i adopted this recipe on 6/19/06.

poor misunderstood tofu.


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [65]:
import nltk
from nltk.tokenize import word_tokenize
import pandas as pd

data = pd.read_csv('recipes_sample.csv')

# объединение всех текстов рецептов в одну строку
all_text = ' '.join(data["name"])

tokens = word_tokenize(all_text)

# приведение всех слов к нижнему регистру 
words = [word.lower() for word in tokens if word.isalpha()]

# подсчет количества уникальных слов
unique_words = set(words)
print(len(unique_words))

9512


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [68]:
import pandas as pd
import nltk

# загрузка данных
data = pd.read_csv('recipes_sample.csv')

# разбиение рецептов на предложения
data['sent'] = data['description'].apply(lambda x: nltk.sent_tokenize(str(x)) if isinstance(x, str) else [])

# 5 самых длинных описаний 
data['num'] = data['sent'].apply(lambda x: len(x))
long = data.nlargest(5, 'num')

print(long[['name', 'description']])

                                                    name  \
18408       my favorite buttercream icing for decorating   
481    alligator claws  avocado fritters  with chipot...   
22566                          rich barley mushroom soup   
6779                                       chocolate tea   
16296  little bunny foo foo cake  carrot cake  with c...   

                                             description  
18408  this wonderful icing is used for icing cakes a...  
481    a translucent golden-brown crust allows the gr...  
22566  this is one of the best soups i've ever made a...  
6779   i wrote this because there are an astounding l...  
16296  the first time i made this cake i grated a mil...  


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [114]:

import nltk
import pandas as pd

def get_pos_tags(sentence):
    tokens = nltk.word_tokenize(sentence)
    pos_tags = nltk.pos_tag(tokens)
    output = ''
    for word, tag in pos_tags:
        output += f'{word} {tag} '
    return output.strip()

# Загрузка данных
data = pd.read_csv('recipes_sample.csv')

# Получение названия рецепта с id 241106
recipe_name = data[data['id'] == 241106]['name'].values[0]

# Вывод информации о частях речи
print(get_pos_tags(recipe_name))





eggplant JJ steaks NNS with IN chickpeas NNS feta VBP cheese JJ and CC black JJ olives NNS
