# Работа со строковыми значениями

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Работа со строковыми значениям"
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
    * https://docs.python.org/3/library/re.html#flags
    * https://docs.python.org/3/library/re.html#functions
* https://pythonru.com/primery/primery-primeneniya-regulyarnyh-vyrazheniy-v-python
* https://kanoki.org/2019/11/12/how-to-use-regex-in-pandas/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

In [1]:
import pandas as pd
import  re

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [2]:
obj = {
    "home_page": "https://github.com/pypa/sampleproject",
    "keywords": "sample setuptools development",
    "license": "MIT",
}

In [3]:
name = 'Ilya'
#f'{name} has 0 points'
f"{name=}'

SyntaxError: EOL while scanning string literal (<ipython-input-3-8e6e22d33133>, line 3)

In [4]:
for k, v in obj.items():
    print(f"{k:10} = '{v}'")

home_page  = 'https://github.com/pypa/sampleproject'
keywords   = 'sample setuptools development'
license    = 'MIT'


2. Написать регулярное выражение,которое позволит найти номера групп студентов.

In [5]:
obj = pd.Series(["Евгения гр.ПМ19-1", "Илья пм 20-4", "Анна 20-3"])
obj

0    Евгения гр.ПМ19-1
1         Илья пм 20-4
2            Анна 20-3
dtype: object

In [6]:
patt = re.compile(r"\d\d-\d")

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['19-1']
Илья пм 20-4         ['20-4']
Анна 20-3            ['20-3']


In [7]:
patt = re.compile(r"ПМ\d\d-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         []
Анна 20-3            []


In [8]:
patt = re.compile(r"ПМ\s\d\d-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    []
Илья пм 20-4         ['пм 20-4']
Анна 20-3            []


In [9]:
patt = re.compile(r"ПМ\s?\d\d-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            []


In [10]:
patt = re.compile(r"(ПМ)?\s?\d+-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ']
Илья пм 20-4         ['пм']
Анна 20-3            ['']


In [11]:
patt = re.compile(r"(?:ПМ)?\s?\d+-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            [' 20-3']


In [12]:
obj.str.findall(patt).map(len)

0    1
1    1
2    1
dtype: int64

3. Разбейте текст формулировки задачи 2 на слова.

In [13]:
text = 'Написать регулярное выражение,которое позволит найти номера групп студентов.'

text.split()

['Написать',
 'регулярное',
 'выражение,которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов.']

In [43]:
import nltk

In [17]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\297\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [18]:
nltk.word_tokenize(text)

['Написать',
 'регулярное',
 'выражение',
 ',',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов',
 '.']

In [19]:
tokenizer = nltk.tokenize.RegexpTokenizer(r"\w+")
tokenizer.tokenize(text)

['Написать',
 'регулярное',
 'выражение',
 'которое',
 'позволит',
 'найти',
 'номера',
 'групп',
 'студентов']

In [20]:
nltk.sent_tokenize("Мы сегодня. Устали, или нет! Однако ли ??")

['Мы сегодня.', 'Устали, или нет!', 'Однако ли ?', '?']

## Лабораторная работа 6

### Форматирование строк

1\. Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в виде `pd.DataFrame` `recipes` При помощи форматирования строк выведите информацию об id рецепта и времени выполнения 5 случайных рецептов в виде таблицы следующего вида:

    
    |      id      |  minutes  |
    |--------------------------|
    |    61178     |    65     |
    |    202352    |    80     |
    |    364322    |    150    |
    |    26177     |    20     |
    |    224785    |    35     |
    
Обратите внимание, что ширина столбцов заранее неизвестна и должна рассчитываться динамически, в зависимости от тех данных, которые были выбраны. 

In [21]:
recipes = pd.read_csv("recipes_sample.csv")
new_recipes = recipes.sample(n = 5)
new_recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
16029,lemony corn on the cob,125367,25,82616,2005-06-09,,this recipe was in a cookbook that my springti...,
21715,pumpkin muffins gluten free and vegan,396705,30,787060,2009-10-27,9.0,this is adapted from my banana muffin recipe. ...,
465,all purpose hawaiian marinade,186631,15,353800,2006-09-18,5.0,i originally concocted this recipe for a party...,14.0
4310,ca sizzles tijuana torte,459518,40,724631,2011-06-27,10.0,"entered for safe-keeping, this is a little spi...",9.0
15023,joe s general tso chicken,248344,60,144843,2007-08-23,17.0,my husband loves this recipe. i've taken seve...,14.0


In [22]:
print("|{0:^11}| {1:^6}|\n|{2}|".format("id", "n_in","-"*19))



for index, row in new_recipes.iterrows():
    print("|{0:^11}| {1:^6}|".format(row['id'], row['n_ingredients']))  

|    id     |  n_in |
|-------------------|
|  125367   |  nan  |
|  396705   |  nan  |
|  186631   |  14.0 |
|  459518   |  9.0  |
|  248344   |  14.0 |


In [20]:
print(f'|{"id":^11}| {"n_in":^6}|\n|{"-" * 19}|')

for index, row in new_recipes.iterrows():
    print(f"|{row['id']:^11}| {row['n_ingredients']:^6}|")

|    id     |  n_in |
|-------------------|
|  489028   |  8.0  |
|  473466   |  9.0  |
|  352312   |  nan  |
|  114076   |  8.0  |
|  203414   |  8.0  |


2\. Напишите функцию `show_info`, которая по данным о рецепте создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название Из Нескольких Слов"

1. Шаг 1.
2. Шаг 2.
----------
Автор: contributor_id
Среднее время приготовления: minutes минут
```

    
Данные для создания строки получите из файлов `recipes_sample.csv` (__ЛР2__) и `steps_sample.xml` (__ЛР3__). 
Вызовите данную функцию для рецепта с id `170895` и выведите (через `print`) полученную строку на экран.

In [23]:
from bs4 import BeautifulSoup


with open('steps_sample.xml', 'r', encoding = 'utf-8') as read_file:
    xml = BeautifulSoup(read_file)



In [24]:
samples = {}
for recipe in xml.findAll('recipe'):
    cur_id = recipe.find('id').text
    text = [step.next for step in recipe.steps.find_all("step")]
    samples[int(cur_id)] = text
     
samples[67664]

['mix all the ingredients using a blender',
 'pour into popsicle molds',
 'freeze and enjoy !']

In [27]:
assert (
    show_info(
        name="george s at the cove black bean soup",
        steps=[
            "clean the leeks and discard the dark green portions",
            "cut the leeks lengthwise then into one-inch pieces",
            "melt the butter in a medium skillet , med",
        ],
        minutes=90,
        author_id=35193,
    )
    == '"George S At The Cove Black Bean Soup"\n\n1. Clean the leeks and discard the dark green portions\n2. Cut the leeks lengthwise then into one-inch pieces\n3. Melt the butter in a medium skillet , med\n----------\nАвтор: 35193\nСреднее время приготовления: 90 минут\n'
)

In [26]:
def show_info(name, steps, minutes, author_id):
    ans = f'"{name.title()}"\n\n'
    
    for num, cur_step in enumerate(steps):
        ans += f'{num + 1}. {cur_step.capitalize()}\n'
    ans += f'{"-" * 10}\nАвтор: {author_id}\nСреднее время приготовления: {minutes} минут\n'
    return(ans)

In [29]:
example = show_info(recipes.iloc[1]['name'], 
                    samples[recipes.iloc[1]['id']], 
                    recipes.iloc[1]['minutes'], 
                    recipes.iloc[1]['contributor_id'])
print(example)

"Healthy For Them  Yogurt Popsicles"

1. Mix all the ingredients using a blender
2. Pour into popsicle molds
3. Freeze and enjoy !
----------
Автор: 91970
Среднее время приготовления: 10 минут



## Работа с регулярными выражениями

In [30]:
patt = re.compile(r"(?:ПМ)?\s?\d+-\d", re.I)

for item in obj:
    print(f'{item:20}', patt.findall(item))

Евгения гр.ПМ19-1    ['ПМ19-1']
Илья пм 20-4         ['пм 20-4']
Анна 20-3            [' 20-3']


3\. Напишите регулярное выражение, которое ищет следующий паттерн в строке: число (1 цифра или более), затем пробел, затем слова: hour или hours или minute или minutes. Произведите поиск по данному регулярному выражению в каждом шаге рецепта с id 25082. Выведите на экран все непустые результаты, найденные по данному шаблону.

In [31]:
patt = re.compile(r"\d+ (?:hour|minute)s?")

for num, item in enumerate(samples[25082]):
    cur_res = patt.findall(item)
    if cur_res != []:
        print(f'Step {num}: {cur_res}')

Step 5: ['20 minutes']
Step 7: ['10 minutes']
Step 9: ['2 hours']
Step 13: ['10 minutes']
Step 16: ['20 minutes', '30 minutes']


In [100]:
#samples[25082]

4\. Напишите регулярное выражение, которое ищет шаблон вида "this..., but" _в начале строки_ . Между словом "this" и частью ", but" может находиться произвольное число букв, цифр, знаков подчеркивания и пробелов. Никаких других символов вместо многоточия быть не может. Пробел между запятой и словом "but" может присутствовать или отсутствовать.

Используя строковые методы `pd.Series`, выясните, для каких рецептов данный шаблон содержится в тексте описания. Выведите на экран количество таких рецептов и 3 примера подходящих описаний (текст описания должен быть виден на экране полностью).

In [32]:
patt = re.compile(r"^this (?:\w|\s)*,\s?but")

print('Количество вхождений:', recipes['description'].str.count(patt).sum())
#print('Количество вхождений:', recipes['description'][recipes['description'].str.count(patt) == 1])


test = recipes['description'][recipes['description'].str.contains(patt) == True].sample(n = 3)
length = test.str.len().max()
print('Максимальный размер строки:', length) # используем для подходящего вывода


Количество вхождений: 134.0
Максимальный размер строки: 392


In [33]:
pd.options.display.max_colwidth = 515 #  к сожалению не работает автоматически, берём значение из предыдущей ячейки +1

print(test)

pd.options.display.max_colwidth = 50 # возвращаем к норме

22827                                                                                                                                                                                                                                                              this sauce is terrific with any seafood, but we especially love it with shrimp, and fried green tomatoes! from southern living magazine, 6/04.
1570                                                                                                                                                                                                                                                                                                                         this is a great recipe, but it is for 500 i need to figure out how to break it down.
5779     this is a bit time consuming, but i thought it was worth it! there's not really any chopping so that saves time. it's not as hard as it looks to make. we all loved this, even the kids. i 

5\. В текстах шагов рецептов обыкновенные дроби имеют вид "a / b". Используя регулярные выражения, уберите в тексте шагов рецепта с id 72367 пробелы до и после символа дроби. Выведите на экран шаги этого рецепта после их изменения.

In [34]:
print(samples[72367])

['mix butter , flour , 1 / 3 c', 'sugar and 1-1 / 4 t', 'vanilla', 'press into greased 9" springform pan', 'mix cream cheese , 1 / 4 c', 'sugar , eggs and 1 / 2 t', 'vanilla beating until fluffy', 'pour over dough', 'combine apples , 1 / 3 c', 'sugar and cinnamon', 'arrange on top of cream cheese mixture and sprinkle with almonds', 'bake at 350 for 45-55 minutes , or until tester comes out clean']


In [35]:
cur_data = samples[72367]
patt_before = re.compile(r'\s+/\s+')
#patt_after = re.compile(r'/')

for num, item in enumerate(cur_data):
    cur_data[num] = re.sub(patt_before, '/', item)
    
cur_data

['mix butter , flour , 1/3 c',
 'sugar and 1-1/4 t',
 'vanilla',
 'press into greased 9" springform pan',
 'mix cream cheese , 1/4 c',
 'sugar , eggs and 1/2 t',
 'vanilla beating until fluffy',
 'pour over dough',
 'combine apples , 1/3 c',
 'sugar and cinnamon',
 'arrange on top of cream cheese mixture and sprinkle with almonds',
 'bake at 350 for 45-55 minutes , or until tester comes out clean']

### Сегментация текста

6\. Разбейте тексты шагов рецептов на слова при помощи пакета `nltk`. Посчитайте и выведите на экран кол-во уникальных слов среди всех рецептов. Словом называется любая последовательность алфавитных символов (для проверки можно воспользоваться `str.isalpha`). При подсчете количества уникальных слов не учитывайте регистр.

In [36]:
tokenizer = nltk.tokenize.RegexpTokenizer(r"[a-z]+")
all_words = []
for id in samples.keys():
    for num, item in enumerate(samples[id]):
        all_words.extend(tokenizer.tokenize(item.lower()))
        
print('Количество уникальных слов:', len(set(all_words)))

Количество уникальных слов: 15139


7\. Разбейте описания рецептов из `recipes` на предложения при помощи пакета `nltk`. Найдите 5 самых длинных описаний (по количеству _предложений_) рецептов в датасете и выведите строки фрейма, соответствующие этим рецептами, в порядке убывания длины.

In [37]:
recipes['description'] = recipes['description'].apply(lambda x: nltk.sent_tokenize(str(x)))
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,[an original recipe created by chef scott mesk...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,[my children and their friends ask for my home...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"[these were so go, it surprised even me.]",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,[my sister-in-law made these for us at a famil...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,[i think a fondue is a very romantic casual di...,


In [193]:
recipes['sentence_col'] = recipes['description'].str.len()
recipes.sort_values('sentence_col', ascending = False).head(5)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,sentence_col
18408,my favorite buttercream icing for decorating,334113,30,681465,2008-10-30,12.0,[this wonderful icing is used for icing cakes ...,,76
481,alligator claws avocado fritters with chipot...,287008,45,765354,2008-02-19,,[a translucent golden-brown crust allows the g...,9.0,27
22566,rich barley mushroom soup,328708,60,221776,2008-10-03,,[this is one of the best soups i've ever made ...,10.0,24
16296,little bunny foo foo cake carrot cake with c...,316000,68,689540,2008-07-27,14.0,[the first time i made this cake i grated a mi...,,23
6779,chocolate tea,205348,6,428824,2007-01-14,,[i wrote this because there are an astounding ...,,23


8\. Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение, в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на названии рецепта с id 241106.

Обратите внимание, что часть речи должна находиться ровно посередине над соотвествующим словом, а между самими словами должен быть ровно один пробел.


In [38]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\297\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [39]:
copied_recipe = recipes[recipes['id'] == 241106]

copied_recipe

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
10437,eggplant steaks with chickpeas feta cheese an...,241106,30,226788,2007-07-17,15.0,[these are a really good quick meal to make in...,


In [40]:
def position_tag(s):
    tokenizer = nltk.tokenize.RegexpTokenizer(r"[a-zA-Z]+")
    
    s = tokenizer.tokenize(s)
    speech_part = nltk.pos_tag(s)
    
    dict_words = dict(speech_part)
    str_1 = ''
    str_2 = ''
    
    for word in dict_words.keys():
        tag = dict_words[word]
        max_len_word = max(len(word), len(tag)) 
        str_1 += f"{tag:^{max_len_word}} "
        str_2 += f"{word:^{max_len_word}} "
        
    return print(f"{str_1}\n{str_2}")  

In [41]:
copied_recipe['name'].apply(position_tag)

   JJ     NNS    IN     NNS    VBP    JJ   CC   JJ    NNS   
eggplant steaks with chickpeas feta cheese and black olives 


10437    None
Name: name, dtype: object