## Векторизованные операции над строками
    например для очистки данных

### Знакомство со строковыми операциями библиотеки Pandas

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = ['peter', 'Paul', 'MARY', 'guidO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [3]:
data = ['peter', 'Paul', None,  'MARY', 'guidO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

In [4]:
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    guidO
dtype: object

In [5]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

### Таблицы методов работы со строками библиотеки Pandas

Methods similar to Python string methods
Nearly all Python's built-in string methods are mirrored by a Pandas vectorized string method. Here is a list of Pandas str methods that mirror Python string methods:

len()	lower()	translate()	islower()
ljust()	upper()	startswith()	isupper()
rjust()	find()	endswith()	isnumeric()
center()	rfind()	isalnum()	isdecimal()
zfill()	index()	isalpha()	split()
strip()	rindex()	isdigit()	rsplit()
rstrip()	capitalize()	isspace()	partition()
lstrip()	swapcase()	istitle()	rpartition()
Notice that these have various return values. Some, like lower(), return a series of strings: 

In [7]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam', 'Eric Idle', 'Terry Jones', 'Michael Palin'])

In [8]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [9]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [10]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [11]:
monte.str.split()
# список для каждого эл-та

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

#### Методы, использующие регулярные выражения

Method                   Description
match()	                 Call re.match() on each element, returning a boolean.
extract()                Call re.match() on each element, возвращаю подходящие группы в виде строк
findall()                Call re.findall() on each element
replace()	             Заменяет вхождение шаблона какой-либо другой строкой
contains()               Call re.search() on each element, returning a boolean
count()                  Подсчитывает вхождение шаблона
split()	                 Equivalent to str.split(), but accepts regexps (но принимает на входе регулярные вырожения)
rsplit()	             Equivalent to str.rsplit(), but accepts regexps (но принимает на входе регулярные вырожения)

In [12]:
# поиск непрерывной группы символов в начале каждого элемента, так мы получим имя.
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


( ^ )  - символ начала строки
( $ )  - символ конца строки

In [14]:
# найти все имена начинающиеся и заканчивающиеся согласной буквой
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

### Прочие методы

| Method | Description |
|--------|-------------|
| ``get()`` | Индексирует все элементы |
| ``slice()`` | Вырезает подстроку из каждого эл-та |
| ``slice_replace()`` | Заменяет подстроку в каждом элементе заданным значением |
| ``cat()``      | Concatenate strings |
| ``repeat()`` | Повторяет значение указанное число раз |
| ``normalize()`` | Возвращает значение в кодировке Unicode |
| ``pad()`` | Добовляет пробелы слева, справа, с обеих сторон |
| ``wrap()`` | Разбивает строковые значения на строки не больше заданной длинны |
| ``join()`` | Объединяет строки с использованием заданного разделителя |
| ``get_dummies()`` | Извлекает значения переменных-индикаторов в виде объекта DF |

###### Векторизованный доступ к эл-там и вырезание подстрок.
.get()  .slice() предоставляют возможность векторизованного доступа
эквивалент среза df.str[:3]

In [15]:
monte.str.slice(0,3)

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [16]:
monte.str[:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [25]:
monte.str.get(0)

0    G
1    J
2    T
3    E
4    T
5    M
dtype: object

In [26]:
monte.str.get(-1)

0    n
1    e
2    m
3    e
4    s
5    n
dtype: object

In [28]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

In [29]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

###### Индикаторные переменные
    .get_dummies()
dummies - манекены
Когда в данные содержится столбец содержащий кодированный индикатор. Такие как:
А - родился в США
B - родился в Китае
C - любит сыр
D - любит мясо

In [30]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


метод .get_dummies() позволяет быстро разбить все индикаторные переменные, преобразовав их в объект DF

In [31]:
full_monte['info'].str.get_dummies('|')
# Удобно

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


### Пример: база данных рецептов
    Применение векторизованных операций для очистки сильно зашумленных данных
    Есть разношерстная база рецептом - цель разбить рецепты на ингредиенты

In [43]:
try:
    recipes = pd.read_json('data/recipeitems-latest.json')
except ValueError as e:
    print(e)

Trailing data


In [44]:
with open('data/recipeitems-latest.json') as f:
    line = f.readline()
line

'{ "_id" : { "$oid" : "5160756b96cc62079cc2db15" }, "name" : "Drop Biscuits and Sausage Gravy", "ingredients" : "Biscuits\\n3 cups All-purpose Flour\\n2 Tablespoons Baking Powder\\n1/2 teaspoon Salt\\n1-1/2 stick (3/4 Cup) Cold Butter, Cut Into Pieces\\n1-1/4 cup Butermilk\\n SAUSAGE GRAVY\\n1 pound Breakfast Sausage, Hot Or Mild\\n1/3 cup All-purpose Flour\\n4 cups Whole Milk\\n1/2 teaspoon Seasoned Salt\\n2 teaspoons Black Pepper, More To Taste", "url" : "http://thepioneerwoman.com/cooking/2013/03/drop-biscuits-and-sausage-gravy/", "image" : "http://static.thepioneerwoman.com/cooking/files/2013/03/bisgrav.jpg", "ts" : { "$date" : 1365276011104 }, "cookTime" : "PT30M", "source" : "thepioneerwoman", "recipeYield" : "12", "datePublished" : "2013-03-11", "prepTime" : "PT10M", "description" : "Late Saturday afternoon, after Marlboro Man had returned home with the soccer-playing girls, and I had returned home with the..." }\n'

In [45]:
with open('data/recipeitems-latest.json') as f:
    line = f.readline()
pd.read_json(line)

ValueError: Protocol not known: { "_id" : { "$oid" : "5160756b96cc62079cc2db15" }, "name" : "Drop Biscuits and Sausage Gravy", "ingredients" : "Biscuits\n3 cups All-purpose Flour\n2 Tablespoons Baking Powder\n1/2 teaspoon Salt\n1-1/2 stick (3/4 Cup) Cold Butter, Cut Into Pieces\n1-1/4 cup Butermilk\n SAUSAGE GRAVY\n1 pound Breakfast Sausage, Hot Or Mild\n1/3 cup All-purpose Flour\n4 cups Whole Milk\n1/2 teaspoon Seasoned Salt\n2 teaspoons Black Pepper, More To Taste", "url" : "http

In [47]:
with open('data/recipeitems-latest.json', 'r') as f:
    data = (line.strip() for line in f)
    data_json = "[{0}]".format(','.join(data))
recipes = pd.read_json(data_json)

UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 5033: character maps to <undefined>