In [1]:
import numpy as np
import pandas as pd

In [2]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
# для работы с "массивами" строк numpy не оч подходит (список с верху
# он не может обрабатывать векторизацией из-за наличия None, и т.д.)
# а вот pandas предоставляет аттрибут .str который значительно все упрощает

names = pd.Series(data)
names.str.capitalize() # первая буква каждого слова заглавная, остальные малые

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

# полный список всех методов .str
len()	lower()	translate()	islower()
ljust()	upper()	startswith()	isupper()
rjust()	find()	endswith()	isnumeric()
center()	rfind()	isalnum()	isdecimal()
zfill()	index()	isalpha()	split()
strip()	rindex()	isdigit()	rsplit()
rstrip()	capitalize()	isspace()	partition()
lstrip()	swapcase()	istitle()	rpartition()

In [3]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])
monte.str.lower()
monte.str.len()
monte.str.startswith('T')
# они могут возвращать как список строк, так и числа, и булевы значения

a = monte.str.split()
a[0][1]

'Chapman'

# методы поддерживающие regular expression
Method	Description
match()	   Call re.match() on each element, returning a boolean.
extract()  Call re.match() on each element, returning matched groups as strings
findall()	Call re.findall() on each element
replace()	Replace occurrences of pattern with some other string
contains()	Call re.search() on each element, returning a boolean
count()	    Count occurrences of pattern
split()  	Equivalent to str.split(), but accepts regexps
rsplit()	Equivalent to str.rsplit(), but accepts regexps

In [4]:
monte.str.extract('([A-Za-z]+)', expand=False)
# извлекаем первое имя задавая извлечение по непрерывному (без пробелов и т.д.)
# набору символов (все буквы латиницы)

monte.str.findall(r'^[^AEIOU].*[^aeiou]$')
# поиск имен начинающихся и заканчивающихся на согласную
# ^ - символ начала стоки, & - символ окончания строки

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

# некотрые удобные методы
get()	        Index each element
slice()	        Slice each element
slice_replace()	Replace slice in each element with passed value
cat()	        Concatenate strings
repeat()	    Repeat values
normalize()	    Return Unicode form of string
pad()	        Add whitespace to left, right, or both sides of strings
wrap()	      Split long strings into lines with length less than a given width
join()	       Join strings in each element of the Series with passed separator
get_dummies()	extract dummy variables as a dataframe

In [5]:
# методы slice(x, y) и .get(x) можно использовать как .str[x:y] и .str[x] соотв.
# однако лучше так не делать, т.к. падает читаемость кода

monte.str.slice(0, 3)
monte.str[0:3]

monte.str.get(2)
monte.str[2]

monte.str.split().str.get(0)
#  извлекаем первое имя комбинируя эти методы


0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

In [6]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
# B|C|D', 'B|D', 'A|C' и т.д. - условные индикаторы которые могут быть в датасете
# например: В - любит лолей, С - любит жёпки и т.д.

full_monte
full_monte['info'].str.get_dummies("|") # '|' - задание разделителя индикаторов
# .get_dummies - позволяет выделить наличие эти индикаторы для 
# каждого элемента фрейма в новый, отдельный фрейм
# подробнее читай в документации pandas

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


In [47]:
# Пример по работе с векторными операциями и файлами JSON

# recipeitems-latest.json - сет кулинарных рецептов (около 200к рецептов)

recipes = pd.read_json('Data_folder/recipeitems-latest.json', lines=True)
# lines=True - если при попытки чтения json возникает ошибка Trailing data,
# котороя означает что файл состоит из СТРОК типа json, однако он сам НЕ json.
# Этот аргумент со значением True позволяет прочитать такие легко файлы
# без использования цикла для разбития файла на строки, используй этот аргумент!

# подстчет кол-ва символов в столбце ingredients
recipes.ingredients.str.len().describe()

# сколько рецептов для завтрака
recipes.description.str.contains('[Bb]reakfast').sum()
# [Bb]reakfast - и Breakfast и breakfast, т.к. во фрейме может быть и то и то

# сколько рецептов с корицей
recipes.ingredients.str.contains('[Cc]innamon').sum()

10526

In [50]:
# Задача - поиск рецепта со всеми указанными ингридиентами

spice_list = ['salt', 'pepper', 'oregano', 'sage', 'parsley',
              'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin']

import re # модуль для работы с регулярными выражениями

# булевый фрейм показывающий есть ли указанные в списке ингридиенты в рецептах
spice_df = pd.DataFrame(dict((spice, recipes.ingredients.str.contains(spice,
                        re.IGNORECASE)) for spice in spice_list))

spice_df.head()

Unnamed: 0,salt,pepper,oregano,sage,parsley,rosemary,tarragon,thyme,paprika,cumin
0,False,False,False,True,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,True,True,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False


In [64]:
# пусть мы хотим найти рецепт с parsley, paprika, and tarragon

# выбор тех строк, в которых есть то что мы вводим в .query()
selection = spice_df.query('parsley & paprika & tarragon')

# число отобранных рецептов
len(selection)

# вывод имен рецептов (name-название столбца, обращаемся к нему через точку)
# по индексам (selection.index - возращает список индексов) фрейма selection
recipes.name[selection.index]

2069      All cremat with a Little Gem, dandelion and wa...
74964                         Lobster with Thermidor butter
93768      Burton's Southern Fried Chicken with White Gravy
113926                     Mijo's Slow Cooker Shredded Beef
137686                     Asparagus Soup with Poached Eggs
140530                               Fried Oyster PoвЂ™boys
158475                Lamb shank tagine with herb tabbouleh
158486                 Southern fried chicken in buttermilk
163175            Fried Chicken Sliders with Pickles + Slaw
165243                        Bar Tartine Cauliflower Salad
Name: name, dtype: object