Muslimov Arthur, 04/16/2020

Стоит признать, что в Python довольно удобно работать со строками.       <br/>
Как и пологается, Pandas делает поправку на массовость, предоставляя     <br/>
набор ***векторизованных операций над строками***, ставших существенной  <br/>
частью очистки данных, так необходимой при реальных условиях. Здесь ты   <br/>
познакомишься с некоторыми строковыми операциями Pandas, после чего      <br/>
воспользуешься ими для частичной очистки очень зашумлённого набора       <br/>
рецептов, собранных в Интернете.

In [1]:
import numpy as np
import pandas as pd
%xmode Minimal
%autosave 0

Exception reporting mode: Minimal


Autosave disabled


# Знакомство со строковыми операциями библиотеки Pandas

Мы уже много раз видели, как легко NumPy и Pandas работают  <br/>
с арифметикой в условиях массовости.

In [2]:
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

***Векторизация*** упращает нам жизни. Нам не приходится беспокоиться  <br/>
о размерах и форме массива - только о нужной нам операции. Только вот  <br/>
NumPy не предоставляет нам такой набор для массивов строк, так что     <br/>
приходится мириться с более громоздкими циклами.

In [3]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]  # или генераторами

['Peter', 'Paul', 'Mary', 'Guido']

В принципе, с этим можно работать, ну, т.е. пока у тебя нет NA.

In [4]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
try:
    [s.capitalize() for s in data]
except AttributeError as e:
    print(e)

'NoneType' object has no attribute 'capitalize'


Библиотека Pandas же решает и проблему векторизации   <br/>
строк, и, как приятный бонус, проблему отсутсвующих   <br/>
значений просредством атрибута `str` объектов Series  <br/>
и содержащих строки объектов Index.

In [5]:
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

Теперь можно работать со всеми строками как с одной, вызвав метод  <br/>
`capitalize()` атрибута `str`. NA значения он игнорирует.

In [6]:
names.str.capitalize()  # самая настоящая векторизация, да ещё и для строк!

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

Помни, что нажатием клавиши Tab после атрибута `str`  <br/>
ты получишь весь список доступных тебе методов!

# Таблицы методов работы со строками библиотеки Pandas

Если ты уже сам хорошо разбираешься в инструментах Python для строк,  <br/>
то львиная доля синтаксиса работы со строками в Pandas для тебя       <br/>
будет интуитивна, и тебе, наверное, достаточно просто вывести список  <br/>
методов. С этого и начнём, прежде чем углубимся в нюансы. Дело мы     <br/>
будем иметь с вот таким набором имён известных британских актёров:

In [7]:
monte = pd.Series(['Graham Chapman', 'John Clees', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Методы, аналогичные строковым методам языка Python

Практически для всех строковых методов Python     <br/>
в Pandas есть свой векторизированный аналог. Вот  <br/>
список методов атрибута `str`, дублирующий их:

|           |                |                 |                 |
|-----------|----------------|-----------------|-----------------|
|`len()`    | `lower()`      | `translate()`   | `islower()`     |
|`ljust()`  | `upper()`      | `startswitch()` | `isupper()`     |
|`rjust()`  | `find()`       | `endswith()`    | `isnumeric()`   |
|`center()` | `rfind()`      | `isalnum()`     | `isdecimal()`   |
|`zfill()`  | `index()`      | `isalpha()`     | `split()`       |
|`strip()`  | `rindex()`     | `isdigit()`     | `rsplit()`      |
|`rstrip()` | `capitalize()` | `isspace()`     | `partition()`   |
|`lstrip()` | `swapcase()`   | `istitle()`     | `rpartiontion()`|

Как и "ванильные" методы, разные функции возвращают разные          <br/>
значения. Некоторые, такие как `lower()`, возвращают Series строк:

In [8]:
monte.str.lower()  # перевод букв в нжиний регистр

0    graham chapman
1        john clees
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

Часть других - числа:

In [9]:
monte.str.len()  # длина строк

0    14
1    10
2    13
3     9
4    11
5    13
dtype: int64

Или булевы значения:

In [10]:
monte.str.startswith('T')  # начинается ли строка с 'T'?

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

Или списки и другие составные значения для каждого элемента:

In [11]:
monte.str.split()  # разделяет строки по заданному сеператору. По умолчанию - пробелы, '\n' и т.п

0    [Graham, Chapman]
1        [John, Clees]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

Такие ряды списков на выходе здесь мы будем видеть часто.

### Методы, использующие рекулярные выражения

Как ещё один очень удобный бонус `str` имеет несколько         <br/>
методов, принимающих на вход регулярные выражения и следующих  <br/>
соглашениям по API встроенного модуля re языка Python.

**Метод**   | **Описание**
-----------:|:----------------------------------------------------------------------------------------------------
`match()`   | Как `re.match()`. Проверяет, начинается ли строка с паттерна? Возвращает массив булей
`extract()` | Как `re.match()`. Ищет строки, начинающиеся с групп паттернов. Возвращает подходящие группы
`findall()` | Как `re.findall()`. Ищет паттерн по всей строке каждого элемента. Возвращает список совпадений
`replace()` | Заменяет вхождение шаблона какой-либо другой строкой
`contains()`| Как `re.search()`. Ищет вхождения шаблона в строки. Возвращает массив булей
`count()`   | Подсчитывает вхождения шаблона
`split()` | Как `str.split()` обычных строк. Делит строки по шаблону. Возвращает массив списков разделённых частей
`rsplit()`  | Как `str.rsplit()` обычных строк. В отличии от обычного `str.split()` разделяет с конца к началу

С этими методами можно сделать массу интересных вещей. Например,  <br/>
можно извлечь имена из каждой строки. (библиотека re и синтаксис  <br/>
регулярных выражений там на пальцах объясняются [здесь](https://tproger.ru/translations/regular-expression-python/))

In [12]:
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


Или даже найти все имена, начинающиеся и заканчивающиеся согласным         <br/>
звуком. Тут нам помогут символы "начало строки" `^` и "конец строки" `$`.

In [13]:
monte.str.findall(r'^[^AEIOUY].*[^aeiouy]$')

0    [Graham Chapman]
1        [John Clees]
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

Сжатый синтаксис регулярных выражений открывает массу возможностей  <br/>
для анализа и очистки записей в объектах Series и DataFrame.

### Прочие методы

Наконец, существуют ещё и прочие полезные методы, которые  <br/>
однажды могут спасти тебя от громоздких циклов.

**Метод** | **Описание**
-:|:-
`get()` | Ты отправляешь ему индекс, а он вернёт тебе элемент по этому индексу из каждой строки или списка
`slice()` | Ты можешь задать ему start, stop и step, а он вернёт получившиеся срезы каждой строки или списка
`slice_replace()` | Ты можешь задать ему start, stop и repl, а он заменит этот срез в строке на repl
`cat()` | Соединяет строки заданным сепаратором. Если задан other, то приписывает к значениям строки из него
`repeat()` | Повторяет значения столько раз, сколько ты ему скажешь.
`normalize()` | Возвращает версию строки в кодировке Unicode
`pad()` | Добавляет заданные символы с обоих сторон, пока не наберётся нужная ширина
`wrap()` | Разбивает строку на абзацы, длины которых не превышают заданную
`join()` | Как join объекта str Python.
`get_dummie()` | Разделяет строки по разделителю и возвращает DataFrame со значениями-индикаторами

**Векторизованный доступ к элементам и вырезание подстрок.**  <br/>
Операции `get()` и `slice()`, в частности, дают возможность   <br/>
векторезированного доступа к элементам из каждого массива.

In [14]:
monte.str[0:3]  # выдаст то же, что и df.str.slice(0, 3)

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

Индексация `monte.str.get(i)` и `monte.str[i]` работают аналогично.        <br/>
Например, можно получить фамилии каждой записи, использую вывод `split()`

In [15]:
monte.str.split().str.get(-1)

0    Chapman
1      Clees
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

**Индикаторные переменные.** Есть ещё один метод, требующий некоторых  
дополнительных пояснений - `get_dummies()`. Удобно, когда в данных есть  
столбец, содержащий кодированных индикатор. Например, у нас есть такой  
столбец, содержащий информацию в виде кодов, такиех как A="родился в США",  
B="родился в Великобритании", C="любит сыр", D="любит мясные консервы".

In [16]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C', 'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Clees,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


Метод `get_dummies()` позволяет быстро разбить индикаторные  
переменные и распределить записи по ним.

In [17]:
full_monte['info'].str.get_dummies()  # помним, что атрибут str есть только у Series

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


> Используя эти операции как "строительные блоки", можно создать бесчисленное  
> множество обрабатывающих строки процедур для очистки данных.

Если хочешь углубиться в эти методы, то можешь почитать раздел  
Working with Text Data из онлайн-документации библиотеки Pandas.

# Пример: база данных рецептов

Разобранные методы прекрасно подходят для очистки сильно зашумлённых  
реальных данных. Здесь мы рассмотрим пример такой очистки полученной  
из множества интернет-источников базой данных рецептов. Наша цешль -  
разбор рецептов на списки ингредиентов, чтобы можно было быстро найти  
рецепт при имеющихся в распоряжении ингредиентах.

Скачать архив ты можешь прямо с гитхаба: https://github.com/sameergarg/scala-elasticsearch/blob/master/conf/recipeitems-latest.json.gz  
И распаковать магической командой `!gunzip`

In [18]:
!gunzip ./data/recipeitems-latest.json.gz

gzip: ./data/recipeitems-latest.json.gz: No such file or directory


База в формате json, значит нам следует использовать  
функцию `pd.read_json()` для её использования.

In [19]:
try:
    recipes = pd.read_json('./data/recipeitems-latest.json')
except ValueError as e:
    print('ValueError:', e)

ValueError: Trailing data


И так .. мы получили ошибку с упоминанием "хвостовых данных". Немного  
загуглив, можно узнать, что она появляется когда в файле каждая строка  
сама по себе JSON, а сам файл - нет. Но нам следует это проверить:

In [20]:
with open('./data/recipeitems-latest.json') as f:
    line = f.readline()
pd.read_json(line).shape

(2, 12)

Там действительно находятся JSON'ы, так что нам нужно соединить их.
Это можно сделать, просто записав

In [21]:
with open('./data/recipeitems-latest.json', 'r') as f:
    data = [line.strip() for line in f]         # получаем каждую строку
    data_json = '[{0}]'.format(','.join(data))  # приводим в правельный json-формат

recipes = pd.read_json(data_json)
recipes.shape

(173278, 17)

Мы имеем почти 200 тысяч записей. Давай посмотрим на одну из них:

In [35]:
recipes.iloc[0]

_id                                {'$oid': '5160756b96cc62079cc2db15'}
name                                    Drop Biscuits and Sausage Gravy
ingredients           Biscuits\n3 cups All-purpose Flour\n2 Tablespo...
url                   http://thepioneerwoman.com/cooking/2013/03/dro...
image                 http://static.thepioneerwoman.com/cooking/file...
ts                                             {'$date': 1365276011104}
cookTime                                                          PT30M
source                                                  thepioneerwoman
recipeYield                                                          12
datePublished                                                2013-03-11
prepTime                                                          PT10M
description           Late Saturday afternoon, after Marlboro Man ha...
totalTime                                                           NaN
creator                                                         

Информации много и порядка в ней нет - всё в лучших традициях данных,  
взятых из Интернета. Ингредиенты находятся в строковом формате, так что  
нам придётся аккуртано их извлечь оттуда. Сначала взглянем на них.

In [27]:
recipes.ingredients.str.len().describe()

count    173278.000000
mean        244.617926
std         146.705285
min           0.000000
25%         147.000000
50%         221.000000
75%         314.000000
max        9067.000000
Name: ingredients, dtype: float64

В среднем в строке списка ингредиентов 250 символов при минимальной  
длине 0 и масимальной - почти 10000 символов!

Ради интереса, посмотрим рецепт с длиннейшим списком ингредиентов:

In [34]:
recipes.name[np.argmax(recipes.ingredients.str.len())]

'Carrot Pineapple Spice &amp; Brownie Layer Cake with Whipped Cream &amp; Cream Cheese Frosting and Marzipan Carrots'

Блюдо выглядит явно не простым.

Можно сделать ещё много открытий на основе сводных показателей.  
Например, посмотрим сколько рецептов описывают завтрак:

In [36]:
recipes.description.str.contains('[Bb]reakfast').sum()

3524

Или сколько рецептов содержат корицу (cinnamon) в списке игредиентов:

In [37]:
recipes.ingredients.str.contains('[Cc]innamon').sum()

10526

А есть ли рецепты с орфографической ошибкой в этом слове, как cinamon?:

In [38]:
recipes.ingredients.str.contains('[Cc]inamon').sum()

11

> Такая разновидность обязательного предварительного изучения данных  
> возможна благодаря инструментам по работе со строками библиотеки Pandas.  
> Именно в сфере такой очистки данных Python действительно силён.

### Простая рекомендательная система для рецептов

Немного углубимся в этот пример и начнём работу над простой рекомендательной  
системой для рецептов: мы задаём имеющиеся ингредиенты и получаем рецепты,  
использующие их все. Концепция проста, но появляется сложность - нет удобной  
операции, которая бы легко выдавала список ингредиентов из строки. Поэтому мы  
упростим себе задачу и начнём со списка распространённых трав и специй.

In [39]:
spice_list = ['salt', 'pepper', 'oregano', 'sage', 'parsley',
              'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin']

Мы можем создать карту в виде булева объекта DataFrame, указывающую на то,  
содержит ли каждый рецепт данный ингредиент

In [53]:
spice_df = pd.DataFrame(dict([(spice, recipes.ingredients.str.contains(spice)) 
                              for spice in spice_list]))
spice_df.head()

Unnamed: 0,salt,pepper,oregano,sage,parsley,rosemary,tarragon,thyme,paprika,cumin
0,False,False,False,True,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,True,True,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False


Теперь, используя метод `query()`, о котором уже скоро, мы можем очень легко  
получать рецепты, использующие, например, петрушку (parsley), паприку (paprika)  
и эстрагон (tarragon).

In [55]:
selection = spice_df.query('parsley & paprika & tarragon')
len(selection)

10