# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [15]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}
for k, v in obj.items():
    print(f'{k:10} = "{v}"')

home_page  = "https://github.com/pypa/sampleproject"
keywords   = "sample setuptools development"
license    = "MIT"


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [16]:
import re
import pandas as pd
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
for i in obj:
    p=re.compile(r"['1-9']{1}$")
    print(p.findall(i))

['1']
['4']
['3']


3. Разбейте текст формулировки задачи 2 на слова.

In [17]:
text = "Написать регулярное выражение,которое позволит найти номера групп студентов."
words = re.findall(r'\b\w+\b', text)
print(words)

['Написать', 'регулярное', 'выражение', 'которое', 'позволит', 'найти', 'номера', 'групп', 'студентов']


## Лабораторная работа 6

In [18]:
import nltk

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [19]:
recipes = pd.read_csv('recipes_sample.csv')

for _, row in recipes.sample(5).iterrows():
    print("id: {:<10} minutes: {:<10}".format(row['id'], row['minutes']))

id: 240874     minutes: 140       
id: 251827     minutes: 70        
id: 101962     minutes: 550       
id: 285922     minutes: 20        
id: 170678     minutes: 30        


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1
2. Шаг 2
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [20]:
import csv
import xml.etree.ElementTree as ET

def show_info(recipe_id):
    with open('recipes_sample.csv', newline='', encoding='utf-8') as csvfile:
        reader = csv.DictReader(csvfile)
        # Поиск рецепта по идентификатору
        for row in reader:
            if row['id'] == recipe_id:
                # Получение информации о рецепте
                recipe_name = row['name'].title()
                author_id = row['contributor_id']
                cook_time = int(row['minutes'])
                break

    with open('steps_sample.xml', encoding='utf-8') as xmlfile:
        root = ET.fromstring(xmlfile.read())
        steps = root.findall(".//recipe[@id='" + recipe_id + "']/recipetext")      # Поиск шагов рецепта по идентификатору

    # Формирование строки
    result = recipe_name + "\n\n"
    for i, step in enumerate(steps):
        result += f"{i+1}. {step.text}\n"
    result += "----------\n"
    result += f"Автор: {author_id}\n"
    result += f"Среднее время приготовления: {cook_time} минут\n"
    return result

print(show_info('170895'))

Leeks And Parsnips  Sauteed Or Creamed

----------
Автор: 8377
Среднее время приготовления: 27 минут



## Работа с регулярными выражениями

3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [21]:
import re
import xml.etree.ElementTree as ET

from bs4 import BeautifulSoup
with open('steps_sample.xml', mode = 'r') as file:
    step_xml = BeautifulSoup(file, 'xml')


pattern = re.compile(r'\d+\s(?:hour|hours|minute|minutes)')
for i in step_xml.find_all('recipe'):
    if int(i.find('id').get_text()) == 25082:
        for j in i.find_all('step'):
            res = pattern.findall(j.get_text())
            if res:
                print(res)

['20 minute']
['10 minute']
['2 hour']
['10 minute']
['20 minute', '30 minute']


4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [22]:
import pandas as pd
import re

recipes = pd.read_csv('recipes_sample.csv')

matching_recipes = recipes['description'].str.match('^this[\w\s]*\.{3}\s*,?\s*but')
num_matching_recipes = matching_recipes.sum()

print(f'Количество рецептов с подходящим описанием: {num_matching_recipes}\n')
print('Примеры описаний:')
recipes[matching_recipes == True]

Количество рецептов с подходящим описанием: 2

Примеры описаний:


Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
18466,my own best bbq ed baked beans,120245,80,113941,2005-05-01,,"this makes a lot...but...""one for the potluck ...",
21958,quick n easy eclair cake,43366,270,56447,2002-10-16,,this dessert dish sounds a little strange...bu...,5.0


5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [23]:
import pandas as pd

recipes = pd.read_csv('recipes_sample.csv')
recipes

steps = recipes[recipes['id'] == 72367]['description']
steps = steps.str.replace(r'\s*/\s*', '/')
print(steps)

2459    such a beautiful tart - just like from a europ...
Name: description, dtype: object


  steps = steps.str.replace(r'\s*/\s*', '/')


### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [30]:
import nltk

recipes = pd.read_csv('recipes_sample.csv')
# Объединение текстов шагов в одну строку
text = ' '.join(recipes[recipes['id'] == 72367]['description'].values)

tokens = nltk.word_tokenize(text)# Разбиение текста на слова
words = [word.lower() for word in tokens if word.isalpha()]# Отбор только слов (исключение знаков препинания и т.п.)

unique_words = set(words)# Подсчет количества уникальных слов
count = len(unique_words)
print(f'Количество уникальных слов: {count}')

LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt/english.pickle[0m

  Searched in:
    - 'C:\\Users\\Инал/nltk_data'
    - 'C:\\Anaconda3\\nltk_data'
    - 'C:\\Anaconda3\\share\\nltk_data'
    - 'C:\\Anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\Инал\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''
**********************************************************************


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.
