# Работа со строковыми значениями

Материалы:
* Макрушин С.В. Лекция 8: Работа со строковыми значениям
* https://pyformat.info/
* https://docs.python.org/3/library/re.html
* https://tproger.ru/translations/regular-expression-python/
* https://realpython.com/nltk-nlp-python/

## Задачи для совместного разбора

1. Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки.

In [1]:
obj = {  
         'home_page': 'https://github.com/pypa/sampleproject',
         'keywords': 'sample setuptools development',
         'license': 'MIT'
      }

In [2]:
for k, v in obj.items():
  print(f'{k:10} = "{v}"')

home_page  = "https://github.com/pypa/sampleproject"
keywords   = "sample setuptools development"
license    = "MIT"


2. Дана строка 'aaa--bbb==ccc__ddd'. Написать регулярное выражение для разбивки строки на список ['aaa','bbb','ccc','ddd'].

In [3]:
import re 

In [4]:
s = 'aaa--bbb==ccc__ddd'

In [5]:
#pattern = re.compile(r'[a-z]{1,}')
pattern = re.compile(r'[a-z]+')
pattern.findall(s)

['aaa', 'bbb', 'ccc', 'ddd']

3. Проверить корректность введенного E-mail

In [6]:
# \w буква, цифра или знак подчеркивания
email = 'osa@bukva.com'
pattern = re.compile(r'\w+@[a-z]+\.[a-z]{2,3}')
pattern.match(email)

<re.Match object; span=(0, 13), match='osa@bukva.com'>

In [7]:
# $  не будет удовлетворять нашему условию и ничего не выведет 
email = 'osa@bukva.com123'
pattern = re.compile(r'\w+@[a-z]+\.[a-z]{2,3}$')
pattern.match(email)

4. Разбейте текст формулировки задачи 1 на слова.

In [8]:
import nltk

In [9]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
text = "Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках. Строковые литералы обернуть в кавычки."

In [11]:
nltk.word_tokenize(text)

['Вывести',
 'на',
 'экран',
 'данные',
 'из',
 'словаря',
 '`',
 'obj',
 '`',
 'построчно',
 'в',
 'виде',
 '`',
 'k',
 '=',
 'v',
 '`',
 ',',
 'задав',
 'формат',
 'таким',
 'образом',
 ',',
 'чтобы',
 'знак',
 'равенства',
 'оказался',
 'на',
 'одной',
 'и',
 'той',
 'же',
 'позиции',
 'во',
 'всех',
 'строках',
 '.',
 'Строковые',
 'литералы',
 'обернуть',
 'в',
 'кавычки',
 '.']

In [12]:
nltk.sent_tokenize(text)

['Вывести на экран данные из словаря `obj` построчно в виде `k = v`, задав формат таким образом, чтобы знак равенства оказался на одной и той же позиции во всех строках.',
 'Строковые литералы обернуть в кавычки.']

## Лабораторная работа 8

### Форматирование строк

1.1 Загрузите данные из файла `recipes_sample_with_tags_ingredients.csv` (__ЛР5__) в таблицу `recipes` При помощи форматирования строк выведите информацию об id рецепта и кол-ве игредиентов 5 случайных рецептов в виде таблицы следующего вида:

    
    |    id     | n_in  |
    |-------------------|
    |  400894   |  13   |
    |   68588   |   8   |
    |  362081   |   6   |
    |   53408   |  12   |
    |  221203   |   4   |

In [13]:
import pandas as pd
recipes = pd.read_csv('data/recipes_sample_with_tags_ingredients.csv')
print('|    id     | n_in  |')
print('|-------------------|')
for row in recipes[['id','n_ingredients']].sample(n=5).values:
  print(f'| {row[0]:<9} | {row[1]:<5} |')

|    id     | n_in  |
|-------------------|
| 35864     | 13    |
| 415408    | 7     |
| 25756     | 8     |
| 52168     | 9     |
| 473879    | 9     |


1.2 Напишите функцию `show_info`, которая для рецепта по его `id` создает строку (в смысле объекта python) с описанием следующего вида:

```
"Название"

1. Шаг 1.
2. Шаг 2.
----------
#тэг1 #тэг2
```

    
Данные для создания строки получите из файлов `recipes_sample_with_tags_ingredients.csv`, `steps_sample.xml` (__ЛР4__) и `tags_sample.csv` (__ЛР5__). 
Выведите созданную строку на экран.

In [14]:
from bs4 import BeautifulSoup
import csv

In [15]:
steps_dict = {}
with open('data/steps_sample.xml', 'r', encoding = 'utf8') as fp:
        steps = BeautifulSoup(fp,'xml')
for recipe in steps.recipes.find_all("recipe"):
    step = [step.next for step in recipe.steps.find_all("step")]
    steps_dict[recipe.find("id").next] = step
tags_dict = {}
with open('data/tags_sample.csv') as fp:
        reader = csv.reader(fp)
        header = next(reader)
        for row in reader:
            tags_dict.setdefault(row[0],[]).append(row[1])    

In [16]:
def show_info(id = 1):
    name = recipes[recipes['id']==id]['name'][0]
    string = f'"{name}"\n\n'
    counter = 0
    for a in steps_dict[str(id)]:
        counter +=1
        string += f'{counter}. {a}.\n'
    string+= '--------\n'
    for a in tags_dict[str(id)]:
        string += f'#{a} '
    return(string)
print(show_info(44123))

"george s at the cove  black bean soup"

1. in 1 / 4 cup butter , saute carrots , onion , celery and broccoli stems for 5 minutes.
2. add thyme , oregano and basil.
3. saute 5 minutes more.
4. add wine and deglaze pan.
5. add hot chicken stock and reduce by one-third.
6. add worcestershire sauce , tabasco , smoked chicken , beans and broccoli florets.
7. simmer 5 minutes.
8. add cream , simmer 5 minutes more and season to taste.
9. drop in remaining butter , piece by piece , stirring until melted and serve immediately.
10. smoked chicken: on a covered grill , slightly smoke boneless chicken , cooking to medium rare.
11. chef meskan uses applewood chips and does not allow the grill to become too hot.
--------
#weeknight #time-to-make #course #main-ingredient #cuisine #preparation #occasion #north-american #soups-stews #beans #poultry #american #chicken #stove-top #dietary #gluten-free #comfort-food #californian #black-beans #free-of-something #meat #taste-mood #equipment #grilling #4-ho

## Работа с регулярными выражениями

В задачах данного блока подразумевается, что вы не будете использовать никаких строковые методы (`split`, `startswith` и т.д.). Все задачи необходимо решить при помощи регулярных выражений.

2.1 Посчитайте кол-во отзывов, в которых встречаются числа.

In [17]:
reviews = pd.read_csv('data/reviews_sample.csv')

In [18]:
import re
reviews_list = list(pd.read_csv('data/reviews_sample.csv').review)
counter = 0
for review in reviews_list:
    numbers = re.findall('[0-9]+', str(review))
    if len(numbers)!=0:
        counter +=1
        continue
counter

49246

2.2 Найдите все смайлики в отзывах. Смайлик состоит из трех частей: глаза (символ `=` или `:`), нос (символ `-`), губы (символ `)` или `(`). Смайлик может иметь вид "глаза-нос-губы" или "губы-нос-глаза". Нос может отсутствовать.

In [219]:
smiles = []
for i in range(len(reviews_list)):
    smile_list = re.findall(r'[:=][-]?[)(]|[()][-]?[:=]',str(reviews_list[i]))
    for j in smile_list:
        if j not in smiles:
            smiles.append(j)
smiles

[':)', ':-)', '=)', '):', ':(', ':-(', '(:', '(=', '(-:', '=-)', '=(']

2.3 Проверьте, что все даты в датасете имеют вид "YYYY-MM-DD". Продемонстрируйте работу вашего решения, приведя пример из датасета и контрпример не из датасета.

In [20]:
pattern = re.compile(r'\d{4}-\d{2}-\d{2}')
counter = 0
for i in reviews.date:
    if pattern.match(str(i)):
        counter+=1
counter==len(reviews.date)

True

In [21]:
if pattern.match('44-44-44'):
    print('OHHH hell yes')
else:
    print('ohhhh hell no')

ohhhh hell no


2.4 Используя строку-результат задачи 1.2, найдите первое слово каждого шага в рецепте

In [22]:
def first_word(id = 0):
    words = [re.sub(r"\b\d\S*", "", word)[1:] for word in re.findall('[0-9]\. [a-z]+',show_info(id))]
    return(words)
first_word(44123)

['in',
 'add',
 'saute',
 'add',
 'add',
 'add',
 'simmer',
 'add',
 'drop',
 'smoked',
 'chef']

2.5 Используя регулярные выражения, удалите из описаний все символы, кроме английских букв, цифр и пробелов. Сохраните предобработанные описания в файл `preprocessed_descriptions.csv`, содержащий 2 столбца: `name` и `preprocessed_descriptions`.

In [23]:
import csv
descriptions,names = recipes['description'].to_list(),recipes['name'].to_list()
descriptions_n_names_list = []
for i in range(len(descriptions)):
    descriptions_n_names_list.append([names[i],re.sub(r'[^\w]', ' ', str(descriptions[i]))])
with open('data/preprocessed_descriptions.csv', 'w',encoding="utf-8",newline='') as myfile:
    wr = csv.writer(myfile)
    wr.writerow(('name','preprocessed_descriptions'))
    wr.writerows(descriptions_n_names_list)

### Сегментация текста

3.1 Разбейте предобработанные отзывы из задания 2.5 на предложения, а предложения - на слова (используйте `sent_tokenize` и `word_tokenize` из `nltk`). Каждый отзыв представьте в виде списка списков: внешний список - предложения, вложенные списки - слова в предложении.

`'Предложение номер один. Предложение номер два.' => [['Предложение', 'номер', 'один', '.'], ['Предложение', 'номер', 'два', '.']]`

#### Для отзывов

In [100]:
review = reviews.review.to_list()

In [187]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('[a-zA-Z]\w+')
tokens_reviews = [[tokenizer.tokenize(sentence.lower()) for sentence in review] for review in[nltk.sent_tokenize(str(text)) for text in review]]

#### Для описаний 

In [191]:
tokens_descriptions = [[tokenizer.tokenize(sentence) for sentence in review] for review in[nltk.sent_tokenize(str(text)) for text in descriptions]]

3.2 Посчитайте кол-во уникальных слов в датасете (без учета регистра).

#### Для отзывов

In [189]:
tokens_flatten_reviews = []
for i in tokens_reviews:
    for j in i:
        for k in j:
            tokens_flatten_reviews.append(k)

In [190]:
len(list(set(tokens_flatten_reviews)))

41649

#### Для описаний 

In [192]:
tokens_flatten_descriptions = []
for i in tokens_descriptions:
    for j in i:
        for k in j:
            tokens_flatten_descriptions.append(k)

In [193]:
len(list(set(tokens_flatten_descriptions)))

23198

3.3 Найдите 5 самых длинных (по количеству слов) отзывов в датасете и выведите их в порядке убывания длины.

#### Для отзывов

In [197]:
import numpy as np
lenghtes_reviews = np.zeros(len(tokens_reviews),dtype = int)
for i in range(len(tokens_reviews)):
    for j in range(len(tokens_reviews[i])):
           lenghtes_reviews[i] += len(tokens_reviews[i][j])
for i in np.argsort(lenghtes_reviews)[::-1][:5]:
    print(reviews.review[i])
    print('--------\n')

One of my sisters was in need of some comfort food, and did a search for this to avoid having to dig through my Mother's heirloom stash of recipes in search of her original, grease stained label that she peeled off of the can of Crisco! lol! My only &quot;tweaks&quot; have been to add some dill, a tablespoon of lemon/lime juice, 1/2 t. of cayenne, and I often use dried onions, they will help the patty hold it's shape well and absorb any excess moistness, and I like to lightly press each patty into a dish of panko crumbs for extra crispness, especially if &quot;oven-frying&quot;. If I choose to pan fry, (which isn't often) I pass on using shortening (sorry, Crisco!) and use a healthier oil. My fav as of late is unrefined coconut oil! It gives a great crisp and delicious flavor to everything, and has a higher smoke point that olive oil. If you do fry, skip using canola. Although it is a &quot;healthier&quot; oil, it doesn't &quot;sear&quot; well when used to fry, pan fry, etc. and your f

#### Для описаний

In [195]:
import numpy as np
lenghtes_descriptions = np.zeros(len(tokens_descriptions),dtype = int)
for i in range(len(tokens_descriptions)):
    for j in range(len(tokens_descriptions[i])):
           lenghtes_descriptions[i] += len(tokens_descriptions[i][j])
for i in np.argsort(lenghtes_descriptions)[::-1][:5]:
    print(recipes.description[i])
    print('--------\n')

this wonderful icing is used for icing cakes and cookies as well as for borders and art work on cakes.  it makes a delicious filling also between the layers of cakes and under fondant icing.  you can make roses but it takes 3 or more days to dry them depending on the humidity. 

there are many versions of “buttercream” icing. some are made with eggs and all butter.  some varieties, you have to cook your sugar to a softball stage.  others are 100% shortening or a combination of shortening and butter.

each decorator has his or her favorite.  i personally think that the best taste and textured recipe is the one that has you cook your sugar, add to whipped eggs and use pounds of butter per batch. but…. i live in a state that can easily be a 100 degrees for days on end during the summer and you know what butter does on hot days.  it melts!  a greasy puddle of melted icing on a cake plate is not something i want to look at or eat.  

your top notch decorators have a few options we don

3.4 Напишите функцию, которая для заданного предложения выводит информацию о частях речи слов, входящих в предложение в следующем виде:
```
PRP   VBD   DT      NNS     CC   VBD      NNS        RB   
 I  omitted the raspberries and added strawberries instead
``` 
Для определения части речи слова можно воспользоваться `nltk.pos_tag`.

Проверьте работоспособность функции на любом предложении из отзывов.


In [155]:
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [223]:
def tags(sentence = 'Default sentence'):
    tokens = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokens)
    for i in tagged:
        print(f'{i[1]:<7}',end = ' ')
    print('\n')
    for i in tagged:
        print(f'{i[0]:<7}',end = ' ')
tags('This recipe is perfect for salmon fillet, even though it calls for salmon steaks.')

DT      NN      VBZ     JJ      IN      JJ      NN      ,       RB      IN      PRP     VBZ     IN      NN      NNS     .       

This    recipe  is      perfect for     salmon  fillet  ,       even    though  it      calls   for     salmon  steaks  .       