In [2]:
import pandas as pd
import numpy as np

# Преобразование данных

In [2]:
# До сих пор мы рассматривали реорганизацию данных. Фильтрация, очистка и прочее тоже очень важный класс операций.

# Устранение дубликатов

In [3]:
# Строки дубликаты могут появиться в Pandas по разным причинам:

In [4]:
data = pd.DataFrame({'k1' : ['one'] *3 + ['two']*4, 'k2' : [1, 1, 2, 3, 3, 4, 4]})

In [6]:
data # видим много дубликатов

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [7]:
# Метод duplicated() объекта DataFrame возвращает булев массив Series, который для каждой строки показывает
# есть ли в ней дубликаты

data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [10]:
# А метод drop_duplicates() возвращает DataFrame, для которого массив, возвращенный методом duplicated()
# будет содержать только значения False, то есть он выберет только уникальные строки и переиндексирует новый объект

data.drop_duplicates() # метод оставил только уникальные строки (убрал дубликаты)

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [11]:
# По умолчанию оба метода принимают во внимание все столбцы, но можно указать произвольное подмножество столбцов
# которые необъодимо исследовать на наличие дубликатов. Допустим, есть еще один столбец значений,
# и мы хотим отфильтровать строки, которые содержат повторяющиеся значения в столбце 'k1':

In [12]:
data

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [15]:
data['v1'] = range(7) # добавили новый столбец через присваивание

In [16]:
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [19]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
3,two,3,3


In [21]:
data.duplicated(['k1'])

0    False
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [24]:
# По умолчанию методы duplicated и drop_duplicates оставляют первую встретившуюся строку с данной комбинацией 
# значений. Но если задать параметр keep='last', то будет оставлена последняя строка:

data.drop_duplicates(['k1'], keep='last')

Unnamed: 0,k1,k2,v1
2,one,2,2
6,two,4,6


In [25]:
# Еще немного поиграю с фильтрацией

In [26]:
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [27]:
data.drop_duplicates(['k2']) # в общем, мы просто смотрим относительно указнного столбца уникальные значения в других

Unnamed: 0,k1,k2,v1
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


# Преобразование данных с помощью функций или отображения

In [1]:
# Часто бывает необходимо приозвести преобразование набора данных исходя из значений в некотором массиве, объектe
# Series или столбца объекта DataFrame.
# Рассмотрим пример о сортах мяса

In [2]:
import pandas as pd
import numpy as np

In [4]:
data = pd.DataFrame({'food' : ['bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 'Bacon', 'pastrami',
'honey ham', 'nova lox'], 'ounces' : [4,3,12,6,7.5,8,3,5,6]})

In [5]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [6]:
# Допустим, требуется добавиться столбец, в котором указывается соответствующие сорту мяса животное.
# Создадим отображение сортов мяса на виды животных:

In [22]:
meat_to_animal = {
    'bacon' : 'pig',
    'pulled pork' : 'pig',
    'pastrami' : 'cow',
    'corned beef' : 'cow',
    'honey ham' : 'pig',
    'nova lox' : 'salmon'    
}

In [8]:
# Метод map объекта Series принимает функцию или похожий на словарь объект, содержащий отображение, но в данном
# случае у нас возникает проблема - некоторые сорта мяса начинаются с заглавной буквы, а других со строчной. Поэтому
# сначала нужно привести все строки к нижнему регистру методом str.lower объекта Series:

In [9]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [13]:
lower = data['food'].str.lower()

In [14]:
lower

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [15]:
data['animal'] = lower

In [16]:
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,bacon
1,pulled pork,3.0,pulled pork
2,bacon,12.0,bacon
3,Pastrami,6.0,pastrami
4,corned beef,7.5,corned beef
5,Bacon,8.0,bacon
6,pastrami,3.0,pastrami
7,honey ham,5.0,honey ham
8,nova lox,6.0,nova lox


In [23]:
data['animal'] = lower.map(meat_to_animal)

In [24]:
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [25]:
# То есть через map() я передал словарь-отображение и там поставил в новый столбец в соответствие

In [26]:
# Можно было также передать функцию, выполняющу всю эту работу

In [32]:
data2 = data.copy()

In [33]:
data2

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [36]:
data2['animal2'] = data2['food'].map(lambda x : meat_to_animal[x.lower()]) # отображение через саму функцию

In [37]:
data2

Unnamed: 0,food,ounces,animal,animal2
0,bacon,4.0,pig,pig
1,pulled pork,3.0,pig,pig
2,bacon,12.0,pig,pig
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,pig,pig
6,pastrami,3.0,cow,cow
7,honey ham,5.0,pig,pig
8,nova lox,6.0,salmon,salmon


In [38]:
# Метод map - удобное средство выполненения поэлементных преобразований и других операций очистки

# Замена значений

In [40]:
# Восполнение отсутствующих данных методом fillna можно рассматривать как частный случай более общей замены значений
# Если метод map, как мы видели выше, позволяет модицифировать подмножество значений, хранящихся в объекте,
# то метод replace() предлагает для этого более простой и гибкий интерфейс.


data = pd.Series([1, -999, -999, 4, 6, 1000, 9, 1000, 1000])

In [41]:
data

0       1
1    -999
2    -999
3       4
4       6
5    1000
6       9
7    1000
8    1000
dtype: int64

In [43]:
data.replace(-999, np.nan) # порождается новый объект. Если надо поменять на месте, то используем inplace=True

0       1.0
1       NaN
2       NaN
3       4.0
4       6.0
5    1000.0
6       9.0
7    1000.0
8    1000.0
dtype: float64

In [46]:
# странная особенность, если просто поставить значения, которые хотим заменить в [], то оин заменятся на значения,
# которые стояли выше них

data.replace([-999, np.nan, 1000]) 


0    1
1    1
2    1
3    4
4    6
5    6
6    9
7    9
8    9
dtype: int64

In [48]:
data.replace([-999, 1000], np.nan) # а уже при таком способе заменится как хотим

0    1.0
1    NaN
2    NaN
3    4.0
4    6.0
5    NaN
6    9.0
7    NaN
8    NaN
dtype: float64

In [51]:
# Если для каждого заменяемого значения нужно свое заменяющее, передаем список замен:

data.replace([-999, 1000], [np.nan, 5]) # здесь происхоит взаимооднозначное соответствие

0    1.0
1    NaN
2    NaN
3    4.0
4    6.0
5    5.0
6    9.0
7    5.0
8    5.0
dtype: float64

In [52]:
# В аргументе можно передать словарь:

In [54]:
data.replace({-999 : np.nan}) # то есть словарь это и есть взаимооднозначное отображение, поэтому в map применяем его

0       1.0
1       NaN
2       NaN
3       4.0
4       6.0
5    1000.0
6       9.0
7    1000.0
8    1000.0
dtype: float64

In [55]:
# Метод data.replace не то же самое, что метод data.str.replace, который выполняет поэлементную замену строки

In [56]:
# А как метод replace() ведет себя с DataFrame?

In [57]:
data2

Unnamed: 0,food,ounces,animal,animal2
0,bacon,4.0,pig,pig
1,pulled pork,3.0,pig,pig
2,bacon,12.0,pig,pig
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,pig,pig
6,pastrami,3.0,cow,cow
7,honey ham,5.0,pig,pig
8,nova lox,6.0,salmon,salmon


In [58]:
data2.replace('pig', np.nan)

Unnamed: 0,food,ounces,animal,animal2
0,bacon,4.0,,
1,pulled pork,3.0,,
2,bacon,12.0,,
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,,
6,pastrami,3.0,cow,cow
7,honey ham,5.0,,
8,nova lox,6.0,salmon,salmon


In [68]:
data2.iloc[:].replace({'bacon' : np.nan})

Unnamed: 0,food,ounces,animal,animal2
0,,4.0,pig,pig
1,pulled pork,3.0,pig,pig
2,,12.0,pig,pig
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,pig,pig
6,pastrami,3.0,cow,cow
7,honey ham,5.0,pig,pig
8,nova lox,6.0,salmon,salmon


In [61]:
# Все тоже самое

In [67]:
data2.replace({'bacon' : np.nan})

Unnamed: 0,food,ounces,animal,animal2
0,,4.0,pig,pig
1,pulled pork,3.0,pig,pig
2,,12.0,pig,pig
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,pig,pig
6,pastrami,3.0,cow,cow
7,honey ham,5.0,pig,pig
8,nova lox,6.0,salmon,salmon


# Переименование индексов осей

In [69]:
# Как и значения в объекте Series, метки осей можно преобразовывать с помощью функции или отображения,
# порождающего новые объекты с другими метками. Оси можно также модифицировать на месте, не создавая новую
# структуру данных. 

In [74]:
data = pd.DataFrame(np.arange(12).reshape(3,4), index=['Ohio', 'Moscow', 'Ruza'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Moscow,4,5,6,7
Ruza,8,9,10,11


In [75]:
# Как и у объекта Series, у индексов есть метод map:

transform = lambda x: x[:4].upper()

In [76]:
data.index


Index(['Ohio', 'Moscow', 'Ruza'], dtype='object')

In [77]:
data.index.map(transform)

Index(['OHIO', 'MOSC', 'RUZA'], dtype='object')

In [78]:
data.index.name = 'h'

In [79]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ohio,0,1,2,3
Moscow,4,5,6,7
Ruza,8,9,10,11


In [80]:
data.index

Index(['Ohio', 'Moscow', 'Ruza'], dtype='object', name='h')

In [85]:
data.index = data.index.map(str.upper) #upper без скобок!!!!

In [86]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
OHIO,0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


In [87]:
# Если требуется создать преобразованный вариант набора данных, не меняя оригинал, то
#  будет полезен метод rename()

In [88]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
OHIO,0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


In [91]:
data.rename(index=str.title)

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ohio,0,1,2,3
Moscow,4,5,6,7
Ruza,8,9,10,11


In [93]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0_level_0,ONE,TWO,THREE,FOUR
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ohio,0,1,2,3
Moscow,4,5,6,7
Ruza,8,9,10,11


In [94]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
OHIO,0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


In [95]:
# Интересно!!! Что rename можно использовать с похожим на словарь объектом, который возвращает
# новые значения для подмножества меток оси:

In [96]:
data.rename(index={'OHIO' : 'Ruuuza'})

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ruuuza,0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


In [97]:
# Метод rename избавляет от необходимости копировать объект DataFrame вручную и присваивать значения его
# атрибутам index и columns. Чтобы модифицировать набор данных на месте, задайте параметр inplace=True

In [98]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
OHIO,0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


In [99]:
data.rename(index={'OHIO' : 'rUzA)))'}, inplace=True)

In [100]:
data

Unnamed: 0_level_0,one,two,three,four
h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
rUzA))),0,1,2,3
MOSCOW,4,5,6,7
RUZA,8,9,10,11


# Дискретизация и раскладывание

In [101]:
# Непрерывные данные часто дискретизируются или как-то иначе раскладываются по интервалам - ящикам для анализа.
# Предположим, что имеются данные о группе лиц в исследовании, и требуется их разложить по ящикам,
# соответствующим возрасту - дискретной величине:

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32, 34, 65, 77, 23, 19, 20]

In [102]:
# Разобьем эти ящики на группы : 18-25, 26-35, 36-60, 61+ лет. Для этого в Pandas есть функция cut:

In [109]:
# Пример

bins = [18, 25, 35, 60, 100] # bins переводится как ящики, ведра

cats = pd.cut(ages, bins)

In [104]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (60, 100], (60, 100], (18, 25], (18, 25], (18, 25]]
Length: 18
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [105]:
# Pandas возвращает специальный объект Categorial. Показанный выше результат - это ящики, вычисленный
# методом pandas.cut(). Его можно рассматривать как массив строк с именанми ящиков; на самом деле он 
# содержит массив categories, в котором хранятся неповторяющиеся имена категорий, а также метки данных
# ages в атрибуте codes

cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1, 1, 3, 3, 0, 0, 0], dtype=int8)

In [106]:
# 0 - к первой категории
# 1 - ко второй категрии
# и так далее, то есть атрибут codes показывает эти категрии
#

In [108]:
cats.categories # показывает наши разделяемые категории

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [110]:
# А давай попробуем посчитать сколько значений попало в каждую категорию!
# Функция value_counts() используется для получения Series, содержащего уникальные значения. 
# Она вернет результат, отсортированный в порядке убывания, так что первый элемент 
# в коллекции будет самым встречаемым. NA-значения не включены в результат.

In [115]:
data2

Unnamed: 0,food,ounces,animal,animal2
0,bacon,4.0,pig,pig
1,pulled pork,3.0,pig,pig
2,bacon,12.0,pig,pig
3,Pastrami,6.0,cow,cow
4,corned beef,7.5,cow,cow
5,Bacon,8.0,pig,pig
6,pastrami,3.0,cow,cow
7,honey ham,5.0,pig,pig
8,nova lox,6.0,salmon,salmon


In [121]:
data2.iloc[0].value_counts() # логично, в этой строке вывело повторяемост каждого элемента

pig      2
bacon    1
4.0      1
Name: 0, dtype: int64

In [119]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (60, 100], (60, 100], (18, 25], (18, 25], (18, 25]]
Length: 18
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [123]:
pd.value_counts(cats) # счетчик элементов, что попали в каждый ящик! Довольно полезно!

(18, 25]     8
(25, 35]     4
(35, 60]     3
(60, 100]    3
dtype: int64

In [127]:
# По умолчанию, правый конец включается. Чтобы сделать его открытым, то есть ')' нужно передать 
# параметр right=False

pd.cut(ages, [18, 26, 36, 61, 100], right=False) # правый вообще нигде не включается

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [61, 100), [61, 100), [18, 26), [18, 26), [18, 26)]
Length: 18
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [129]:
# Можно также самостояльно задать имена ящиков, передав список или массив в параметр labels. То есть, если 
# до этого были просто имена ящиков по типу (18, 25), то теперь я могу дать им имя с помощью этого параметра.

group_names = ['Молодые', 'Средние', 'Пожилые', 'Старые']

pd.cut(ages, bins, labels=group_names) 


['Молодые', 'Молодые', 'Молодые', 'Средние', 'Молодые', ..., 'Старые', 'Старые', 'Молодые', 'Молодые', 'Молодые']
Length: 18
Categories (4, object): ['Молодые' < 'Средние' < 'Пожилые' < 'Старые']

In [130]:
# Если передать методу cut целое число ящиков, а не явно заданные границы, то он разобьет данные на группы
# равной длины исходя из минимального и максимального значения. Рассмотрим, например, для разложения в 4 ящика

pd.cut(ages, 4)

[(18.942, 33.5], (18.942, 33.5], (18.942, 33.5], (18.942, 33.5], (18.942, 33.5], ..., (62.5, 77.0], (62.5, 77.0], (18.942, 33.5], (18.942, 33.5], (18.942, 33.5]]
Length: 18
Categories (4, interval[float64, right]): [(18.942, 33.5] < (33.5, 48.0] < (48.0, 62.5] < (62.5, 77.0]]

In [133]:
pd.cut(ages, 3)

[(18.942, 38.333], (18.942, 38.333], (18.942, 38.333], (18.942, 38.333], (18.942, 38.333], ..., (57.667, 77.0], (57.667, 77.0], (18.942, 38.333], (18.942, 38.333], (18.942, 38.333]]
Length: 18
Categories (3, interval[float64, right]): [(18.942, 38.333] < (38.333, 57.667] < (57.667, 77.0]]

In [135]:
# Рассмотрим другие данные и попытаемся разложить их на 4 ящика:

data = np.random.randn(20)
data

array([ 0.2723367 , -0.73165046,  0.53344986,  0.32616876,  2.39026893,
       -0.29788648,  2.39545036,  0.91981794,  0.75178279, -0.9236708 ,
       -0.46467506, -2.20990651, -0.96650666, -0.70343003, -0.53662439,
       -0.96871076,  0.78573235,  0.9418186 , -0.06517197,  0.43219231])

In [136]:
pd.cut(data, 4)

[(0.0928, 1.244], (-1.059, 0.0928], (0.0928, 1.244], (0.0928, 1.244], (1.244, 2.395], ..., (-1.059, 0.0928], (0.0928, 1.244], (0.0928, 1.244], (-1.059, 0.0928], (0.0928, 1.244]]
Length: 20
Categories (4, interval[float64, right]): [(-2.215, -1.059] < (-1.059, 0.0928] < (0.0928, 1.244] < (1.244, 2.395]]

In [137]:
pd.cut(data, 2)

[(0.0928, 2.395], (-2.215, 0.0928], (0.0928, 2.395], (0.0928, 2.395], (0.0928, 2.395], ..., (-2.215, 0.0928], (0.0928, 2.395], (0.0928, 2.395], (-2.215, 0.0928], (0.0928, 2.395]]
Length: 20
Categories (2, interval[float64, right]): [(-2.215, 0.0928] < (0.0928, 2.395]]

In [138]:
pd.cut(data, 4, precision=1) # presision переводится как точность, то есть здесь я поставил точность 1 знак после запятой

[(0.09, 1.2], (-1.1, 0.09], (0.09, 1.2], (0.09, 1.2], (1.2, 2.4], ..., (-1.1, 0.09], (0.09, 1.2], (0.09, 1.2], (-1.1, 0.09], (0.09, 1.2]]
Length: 20
Categories (4, interval[float64, right]): [(-2.2, -1.1] < (-1.1, 0.09] < (0.09, 1.2] < (1.2, 2.4]]

In [139]:
# Родственная функция qcut (разбиваем на квартили) раскладывает данные исходя из выборочных квантилей.
# Метод qut (переводится как бросить) обычно создает ящики, содержащие разное число точек, - это всецело
# устанавливается распределениями данных. Но поскольку qcut пользуется выборочными квантилями, то
# по определению получаются ящики равного размера:


# Напомню, что квантиль это значение, которое заданная величина НЕ ПРЕВЫШАЕТ с фиксированной вероятностью.
# Если вероятность задана в процентах, то квантиль называют перцентилем.
#
# Пример, фраза: "90-й процентиль массы тела новорожденных мальчиков составялет 4 кг." Это означает, что 90% мальчиков 
# рождаеются с меньшим или равным весом 4 кг. А остальные 10% больше 4 кг.

In [140]:
data = np.random.randn(1000) # нормальное распределение

In [143]:
data

array([-4.69599852e-01, -9.16713715e-03,  1.02056868e+00,  2.64072279e-01,
       -2.48364866e-01, -1.64867939e+00, -8.37420352e-01, -1.14876587e+00,
        1.33584231e+00, -1.29598019e+00, -3.24039314e+00,  4.07248559e-01,
       -2.06496773e-02,  5.17741427e-01, -9.80040945e-01,  5.03220353e-01,
        4.52848957e-01, -1.08060411e-01,  3.06105309e-02, -8.68886870e-02,
       -5.58015624e-01, -1.19915816e+00, -6.05099855e-01,  6.96675531e-03,
       -1.54350683e+00, -1.42798942e+00, -3.70341885e-01,  7.99331101e-01,
        7.46048683e-01, -1.81111540e-01,  1.06501674e+00, -1.06489109e+00,
        7.68864048e-01, -1.14562631e+00,  1.50970540e+00, -6.70960388e-01,
        9.22255964e-01,  5.95594606e-01, -1.38802138e+00,  6.32066302e-01,
       -5.44637685e-01, -2.05745959e+00,  1.90213371e-02, -7.79360200e-02,
        7.10299523e-01,  3.73936824e-01,  3.26345354e-01, -5.94051640e-01,
       -8.68552509e-01,  1.54635207e-01,  4.77756858e-02, -4.77415639e-02,
       -4.27115293e-01, -

In [141]:
cats = pd.qcut(data, 4) # разложить на 4 квартиля

In [142]:
cats

[(-0.686, 0.00928], (-0.686, 0.00928], (0.654, 3.131], (0.00928, 0.654], (-0.686, 0.00928], ..., (-3.295, -0.686], (-3.295, -0.686], (-0.686, 0.00928], (0.654, 3.131], (-0.686, 0.00928]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.295, -0.686] < (-0.686, 0.00928] < (0.00928, 0.654] < (0.654, 3.131]]

In [145]:
pd.value_counts(data)

-0.469600    1
 2.189036    1
 0.036252    1
 0.741632    1
-1.563321    1
            ..
 0.211475    1
 0.941275    1
-1.923112    1
-0.281976    1
 0.002473    1
Length: 1000, dtype: int64

In [147]:
pd.value_counts(cats) # получились ящики равного размера

(-3.295, -0.686]     250
(-0.686, 0.00928]    250
(0.00928, 0.654]     250
(0.654, 3.131]       250
dtype: int64

In [149]:
# Как и в случае с cut, можно задать величины квантилей (числа от 0 до 1 включительно) самостояльно.

pd.qcut(data, [0.1, 0.5, 1])

[(-1.301, 0.00928], (-1.301, 0.00928], (0.00928, 3.131], (0.00928, 3.131], (-1.301, 0.00928], ..., (-1.301, 0.00928], NaN, (-1.301, 0.00928], (0.00928, 3.131], (-1.301, 0.00928]]
Length: 1000
Categories (2, interval[float64, right]): [(-1.301, 0.00928] < (0.00928, 3.131]]

In [153]:
pd.qcut(data, [0.1, 0.5, 1], precision=2) # разделили на 2 квантиля, с точность 2 знака после запятой

[(-1.31, 0.0093], (-1.31, 0.0093], (0.0093, 3.13], (0.0093, 3.13], (-1.31, 0.0093], ..., (-1.31, 0.0093], NaN, (-1.31, 0.0093], (0.0093, 3.13], (-1.31, 0.0093]]
Length: 1000
Categories (2, interval[float64, right]): [(-1.31, 0.0093] < (0.0093, 3.13]]

#  Обнаружение и фильтрация выбросов

In [154]:
# Фильтрация или преобразование выбросов - это в основном вопрос применений операций с массивами.
# Рассмотрим объект DataFrame с нормально распредленными данными:

data = pd.DataFrame(np.random.randn(1000, 4))

In [157]:
data.describe() # выводим основные характеристики

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.030914,-0.017568,0.049768,-0.005089
std,0.980377,0.97589,1.009842,1.018369
min,-2.766906,-3.212827,-2.875385,-2.848427
25%,-0.610648,-0.68739,-0.642808,-0.721871
50%,0.032861,-0.008696,0.04539,-0.008081
75%,0.66142,0.627247,0.748726,0.694197
max,3.63745,3.522305,3.71256,3.813253


In [162]:
# К примеру, мы хотим найти в одном из столбцов значения, превышающие 3 по абсолютной величине:

data[np.abs(data[2])>3]

Unnamed: 0,0,1,2,3
92,-0.635327,0.822076,3.71256,2.753917
315,-0.80606,-0.982441,3.001587,0.540327


In [163]:
data[2]

0      1.766738
1      0.251987
2     -0.534323
3     -1.672575
4     -0.483766
         ...   
995    1.012507
996   -0.762735
997   -0.684927
998    0.774774
999    1.669527
Name: 2, Length: 1000, dtype: float64

In [172]:
# Чтобы выбрать все строки, в которых встречаются значения, по абсолютной величине превышающие 3,  мы можем
# воспользоваться методом any() для булева объекта DataFrame:

pd.value_counts((abs(data) > 3).any(1)) # к примеру, найдено всего 8 строк, где хотя бы 3 встречается один раз

False    992
True       8
dtype: int64

In [176]:
data[(abs(data) > 3).any(1)] # вот так получил все эти строки

Unnamed: 0,0,1,2,3
92,-0.635327,0.822076,3.71256,2.753917
291,3.63745,-0.182368,-0.094358,-0.91637
315,-0.80606,-0.982441,3.001587,0.540327
329,0.022582,3.036304,-0.179955,2.284693
465,3.046888,-0.204092,-1.381181,1.338257
735,0.009514,-2.272799,0.387282,3.813253
802,-2.063097,-3.212827,-0.343538,1.709346
928,-0.065738,3.522305,1.168084,-0.270248


In [177]:
# Говорят, есть такая функция np.sign() которая возвращает 1, если значений положительно, и -1 иначе

In [178]:
np.sign(1)

1

In [180]:
np.sign(0) # так, то есть он вернет 0, если число равно 0

0

In [181]:
np.sign(-14)

-1

In [182]:
np.sign(data)

Unnamed: 0,0,1,2,3
0,1.0,1.0,1.0,1.0
1,-1.0,-1.0,1.0,1.0
2,-1.0,1.0,-1.0,-1.0
3,1.0,-1.0,-1.0,-1.0
4,-1.0,1.0,-1.0,-1.0
...,...,...,...,...
995,1.0,1.0,1.0,-1.0
996,1.0,-1.0,-1.0,1.0
997,-1.0,1.0,-1.0,-1.0
998,-1.0,-1.0,1.0,-1.0


In [187]:
# Хорошо, допустим я хочу присвоить значения данным, удолетворяющим критерию с тройкой выше. 
# И хочу, чтобы мы срезали числа больше 3 или -3, то есть числа выходящие за -3 < x < 3

data[np.abs(data) > 3] = np.sign(data) *3

In [189]:
data # и тут те элементы, которые выходили за интервал изменились на 3 и -3!!!!!офигенно!!!

Unnamed: 0,0,1,2,3
0,1.258326,0.343776,1.766738,0.675802
1,-2.158695,-0.352173,0.251987,0.923038
2,-0.070352,0.060426,-0.534323,-0.429362
3,0.479370,-0.075717,-1.672575,-0.864015
4,-0.076146,1.056585,-0.483766,-0.059345
...,...,...,...,...
995,0.579311,2.179021,1.012507,-0.615755
996,0.567124,-0.259038,-0.762735,1.470420
997,-0.489562,0.068928,-0.684927,-1.554137
998,-0.001705,-0.687284,0.774774,-0.382204


# Перестановки и случайная выборка


In [2]:
# Переставить (случайным образом переупорядочить) объект Series или DataFrame легко с помощью функции
# np.random.permutation . Если передать функции permutation длину оси, для которой производится перестановка,
# то будет возвращен массив целых чисел, описывающий новый порядок

In [3]:
df = pd.DataFrame(np.arange(20).reshape(5, 4))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [5]:
np.random.permutation(df) # так он просто переставил строки в случайном порядке

array([[ 8,  9, 10, 11],
       [ 4,  5,  6,  7],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [ 0,  1,  2,  3]])

In [13]:
np.random.permutation(7) # берет 7 случайных чисел из матрицы

array([5, 1, 0, 4, 3, 6, 2])

In [14]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [17]:
df.sample(n=3) # выбор случайного подмножества без возвращения

Unnamed: 0,0,1,2,3
4,16,17,18,19
0,0,1,2,3
3,12,13,14,15


In [18]:
# Что бы сгенерировать выборку с возвращением (когда разрешается выбрать один и тот же объект несколько раз),
# нужно просто передать методу sample аргумент replace=True

In [19]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [24]:
df.sample(n=5, replace=True) # с возвращением (последняя строка 2 раза повторяется)

Unnamed: 0,0,1,2,3
2,8,9,10,11
2,8,9,10,11
0,0,1,2,3
3,12,13,14,15
0,0,1,2,3


# Вычисление индикаторных переменных

In [25]:
# Еще одно преобразование, встречающееся в статистическом моделировании и машинном обучении это преобразование
# категориальной переменной в фиктивную, или индикаторную, матрицу. Если в столбце DataFrame встречается
# k различных значений, то можно построить матрицу или объект DataFrame c  k столбцами, содержащие только
# нули и единицы. В бибилиотеке pandas для этого имеется функция get_dummies

In [2]:
df = pd.DataFrame({'key' : list('bbacab'), 'data1' : range(6)})

In [27]:
df

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [32]:
pd.get_dummies(df['key']) # то есть этот метод берет опеределенный столбец и строит матрицу смежности для
# элементов этого столбца

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [6]:
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [7]:
# Иногда желательно добавить префикс к столбцам индикаторного объекта DataFrame, который затем можно слить с
# другими данными. У функции get_dummies для этой цели предусмотрен аргумент prefix:

In [8]:
# dummies переводится как кукла!!!

In [9]:
dummies = pd.get_dummies(df['key'], prefix='key')

In [11]:
dummies # исползовали префикс для индикаторного столбца


Unnamed: 0,key_a,key_b,key_c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [19]:
# а давай объединим его с другим столбцом

df_with_dum = df[['data1']].join(dummies) # но только почему двойные скобки...хм

In [18]:
df_with_dum

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0,1,0
1,1,0,1,0
2,2,1,0,0
3,3,0,0,1
4,4,1,0,0
5,5,0,1,0


In [23]:
df[['data1']] # то есть так через двойные скобки мы получает нормальный объект DataFrame, а иначе Series

Unnamed: 0,data1
0,0
1,1
2,2
3,3
4,4
5,5


In [24]:
# Если некоторая строка DataFrame принадлежит нескольким категориям, то ситуация немного усложняется. Рассмотрим
# набор данных:

In [28]:
mnames = ['movie_id', 'title', 'genres']

movies = pd.read_table('/home/alex/Документы/pydata-book-2nd-edition/datasets/movielens/movies.dat', sep='::', header=None, names=mnames)

In [29]:
movies

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama


In [30]:
movies[:10]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children's
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


In [31]:
# Чтобы добавить индикаторные переменные для каждого жанра, данные придется немного переформатировать.
# Сначала построим список уникальных жанров, встречающихся в наборе данных.

In [32]:
# genres = жанры

In [33]:
all_genres = []

for x in movies['genres']:
    all_genres.extend(x.split('|'))

In [35]:
all_genres #  получили список, здесь много всего повторяется, превратим тогда в множество

['Animation',
 "Children's",
 'Comedy',
 'Adventure',
 "Children's",
 'Fantasy',
 'Comedy',
 'Romance',
 'Comedy',
 'Drama',
 'Comedy',
 'Action',
 'Crime',
 'Thriller',
 'Comedy',
 'Romance',
 'Adventure',
 "Children's",
 'Action',
 'Action',
 'Adventure',
 'Thriller',
 'Comedy',
 'Drama',
 'Romance',
 'Comedy',
 'Horror',
 'Animation',
 "Children's",
 'Drama',
 'Action',
 'Adventure',
 'Romance',
 'Drama',
 'Thriller',
 'Drama',
 'Romance',
 'Thriller',
 'Comedy',
 'Action',
 'Action',
 'Comedy',
 'Drama',
 'Crime',
 'Drama',
 'Thriller',
 'Thriller',
 'Drama',
 'Sci-Fi',
 'Drama',
 'Romance',
 'Drama',
 'Drama',
 'Romance',
 'Adventure',
 'Sci-Fi',
 'Drama',
 'Drama',
 'Drama',
 'Sci-Fi',
 'Adventure',
 'Romance',
 "Children's",
 'Comedy',
 'Drama',
 'Drama',
 'Romance',
 'Drama',
 'Documentary',
 'Comedy',
 'Comedy',
 'Romance',
 'Drama',
 'Drama',
 'War',
 'Action',
 'Crime',
 'Drama',
 'Drama',
 'Action',
 'Adventure',
 'Comedy',
 'Drama',
 'Drama',
 'Romance',
 'Crime',
 'Thrill

In [36]:
genres = pd.unique(all_genres)

In [37]:
genres

array(['Animation', "Children's", 'Comedy', 'Adventure', 'Fantasy',
       'Romance', 'Drama', 'Action', 'Crime', 'Thriller', 'Horror',
       'Sci-Fi', 'Documentary', 'War', 'Musical', 'Mystery', 'Film-Noir',
       'Western'], dtype=object)

In [38]:
# Для построения индикаторного DataFrame можно, например, начать с объекта DataFrame, содержащего только нули

In [39]:
zero_matrix = np.zeros((len(movies), len(genres)))

In [40]:
zero_matrix

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [41]:
dummies = pd.DataFrame(zero_matrix, columns=genres)

In [43]:
dummies # преобразовали и поставили в столбцы имена

Unnamed: 0,Animation,Children's,Comedy,Adventure,Fantasy,Romance,Drama,Action,Crime,Thriller,Horror,Sci-Fi,Documentary,War,Musical,Mystery,Film-Noir,Western
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3878,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3879,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3880,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3881,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [46]:
# Затем перебираем все фильмы и присваиваем элементам в каждой строке объекта dummies значение 1. Для этого
# воспользуемся атрибутом dummies.columns, чтобы вычислить индексы столбцов для кажого жанра:

gen = movies['genres'][0]
gen

"Animation|Children's|Comedy"

In [47]:
type(gen)

str

In [48]:
gen.split('|')

['Animation', "Children's", 'Comedy']

In [49]:
dummies

Unnamed: 0,Animation,Children's,Comedy,Adventure,Fantasy,Romance,Drama,Action,Crime,Thriller,Horror,Sci-Fi,Documentary,War,Musical,Mystery,Film-Noir,Western
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3878,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3879,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3880,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3881,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [53]:
dummies.columns.get_indexer(gen.split('|'))

array([0, 1, 2])

In [54]:
# далее можно использовать .iloc, чтобы установить значения для этих индексов

In [55]:
for i, gen in enumerate(movies.genres):
    indices = dummies.columns.get_indexer(gen.split('|'))
    dummies.iloc[i, indices] = 1

In [56]:
dummies

Unnamed: 0,Animation,Children's,Comedy,Adventure,Fantasy,Romance,Drama,Action,Crime,Thriller,Horror,Sci-Fi,Documentary,War,Musical,Mystery,Film-Noir,Western
0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3878,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3879,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3880,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3881,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [57]:
# теперь соединяем с movies

In [58]:
movies_windic = movies.join(dummies.add_prefix('Genre'))

In [59]:
movies_windic.iloc[0]

movie_id                                      1
title                          Toy Story (1995)
genres              Animation|Children's|Comedy
GenreAnimation                              1.0
GenreChildren's                             1.0
GenreComedy                                 1.0
GenreAdventure                              0.0
GenreFantasy                                0.0
GenreRomance                                0.0
GenreDrama                                  0.0
GenreAction                                 0.0
GenreCrime                                  0.0
GenreThriller                               0.0
GenreHorror                                 0.0
GenreSci-Fi                                 0.0
GenreDocumentary                            0.0
GenreWar                                    0.0
GenreMusical                                0.0
GenreMystery                                0.0
GenreFilm-Noir                              0.0
GenreWestern                            

In [60]:
# В статистических приложениях бывает полезно сочетать функцию get_dummies с той или иной функцией 
# дискретизации, например cut:

In [61]:
np.random.seed(12345)

In [64]:
values = np.random.rand(10)

In [66]:
values


array([0.74771481, 0.96130674, 0.0083883 , 0.10644438, 0.29870371,
       0.65641118, 0.80981255, 0.87217591, 0.9646476 , 0.72368535])

In [68]:
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]

pd.get_dummies(pd.cut(values, bins)) # очень удобно, на самом деле

Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,0,0,0,1,0
1,0,0,0,0,1
2,1,0,0,0,0
3,1,0,0,0,0
4,0,1,0,0,0
5,0,0,0,1,0
6,0,0,0,0,1
7,0,0,0,0,1
8,0,0,0,0,1
9,0,0,0,1,0


# Манипуляция со строками

In [69]:
# Python отлично подходит для анализа данных, потому что отлично подходит для манипуляции строк.
# Бибилиотека Pandas расширяет этот инструмент, позволяя применять методы строк и регулярных выражений к целым
# массивам и беря на себя возню с отсутствующими значениями.

# Методы строковых объектов

In [71]:
# разбиваю строку с помощью split()

val = 'a,b, guido'
val.split(',')

['a', 'b', ' guido']

In [72]:
# Метод split часто употреблятся с методом strip, чтобы убрать пробельные символы, в том числе и переход на 
# новую строку

In [73]:
pis = [x.strip() for x in val.split(',')]

In [74]:
pis

['a', 'b', 'guido']

In [75]:
# Объединяем список или кортеж строк через join:

'::'.join(pis)

'a::b::guido'

In [76]:
# Поиск подстроки с помощью in:

In [78]:
'a' in  'ale'

True

In [82]:
val.index(',   ') # если подстрока не найдена - индекс возбуждает исключения

ValueError: substring not found

In [83]:
val.find(':')

-1

In [84]:
# метод replace применяется для замены и удаления;

val.replace(',', ':::')

'a:::b::: guido'

In [85]:
val.replace(',', '')

'ab guido'

In [86]:
# Методы строковых объектов:

# count - возвращает количество неперекрывающихся вхождений подстроки в строку
#
# endswith, startswith - возвращает True, если строка оканивается указанной подстрокой
#
# join - объединяет
#
# index - возвращает первую позицию вхождения подстроки в строку, иначе исключение 
#
# find - возвращает первую позицию вхождения подстроки в строку, иначе -1
#
# rfind - возвращает позицию первого вхождения последнего вхождения подстроки, иначе -1
#
# replace - замена
# 
# strip, rstrip, lstrip - удаляет пробельные символы
#
# lower - преобразует буквы в нижний регистр
#
# upper - преобразует буквы в верхний регистр
#
# ljust, rjust - выравнивает строку по левой или правой границе соответственно

# Регулярные выражения

In [87]:
# Регулярные выражения предсавляют собой простое средство сопоставления строки с образцом.
# Функции из модуля re можно отнести к трем категориям : сопоставление с образцом, замена, разбиение.

In [88]:
# Сопоставление с одним или несколькими пробельными символами служит регулярка \s+

In [11]:
import re

text = 'foo  bar\t bax    geroq'

In [90]:
re.split('\s+', text)

['foo', 'bar', 'bax', 'geroq']

In [91]:
# Напомню, что сначала компилируется регулярка, а затем только передается методу. Можно ускорить все,
# если заранее компилировать выражение методом re.compile(), создав тем самым объект, допускающий
# повторное использование

In [92]:
regex = re.compile('\s+')

In [93]:
regex.split(text)

['foo', 'bar', 'bax', 'geroq']

In [94]:
# Чтобы получить список всех подстрок, отвечающих данному регуряному выражению, воспользуемся findall():

In [95]:
regex.findall(text)

['  ', '\t ', '    ']

In [96]:
# C findall тесно связаны методы match и search. Если findall возвращает все совпадения, то search только  первое.
# А метод match находит только соответствие, начинающееся только в наачле строки

In [112]:
text = """Dave dave@google.com Steve steve@gmail.com Rob rob@gmail.com Ryan ryan@yahoo.com"""

In [113]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9._]+\.[A-Z]{2,4}'

In [114]:
# Флаг re.IGNORCASE делает регулярное выражение нечувствительным к регистру

In [115]:
regex = re.compile(pattern, flags=re.IGNORECASE)

In [116]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [117]:
# Метод search возвращает специальный объект соответствия для первого встретившегося в тексте адресе. В нашем
# случае этот объект может сказать только о начальной и конечной позициях найденного в строке образца:

m = regex.search(text)

In [118]:
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [119]:
text[m.start():m.end()] # а что, хитро придумано

'dave@google.com'

In [120]:
# Метод regex.match возвращает None, потому что он находит соответствие образцу только в начале строки

In [121]:
print(regex.match(text))

None


In [122]:
# Метод sub возвращает новую строку, в которой вхождение образца заменено указнной строкой:

regex.sub('Redacted', text)

'Dave Redacted Steve Redacted Rob Redacted Ryan Redacted'

In [123]:
# Методы регулярных выражений
#
# findall - возвращает список всех непересекающихся образцов, наденных в строке
#
# finditer - аналогичен findall, но возвращает iterator
#
# match - ищет соответствие образцу в начале строки и факультативно выделяет в образце группы. Если образец найден
# возвращается объект соответствия, иначе None
#
# search - ищет в строке образец, если найден - возвращает объект соответствия. Образец может находиться в любом месте
#
# split - разбивает строку на части в емстах вхождения образцов
#
# sub, subn - возвращает все  sub или только первые n (subn) вхождений образца указанной строкой. Чтобы в данной
# конструкции сослаться на группы, выделенные в образце, используются \1, \2 и так далее

# Векторные строковые функции  в Pandas

In [3]:
# Очистка замусоренного набора данных для последующего анализа подразумевает значительный объем манипуляций
# со строками и спользование регулярных выражений. А чтобы жизнь медом не казалась, в столбцах, содержащих строки,
# иногда встречаются пропущенные значения:

data = {'Dave' :'dave@google.com', 'Steve': 'steve@gmail.com', 'Rob': 'rob@gmail.com', 'Ryan': 'ryan@yahoo.com', 'Wes' : np.nan}


In [4]:
data = pd.Series(data)

In [5]:
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Ryan      ryan@yahoo.com
Wes                  NaN
dtype: object

In [6]:
# Посмотрим-ка пропущенные значения, с помощью метода isnull()

data.isnull()

Dave     False
Steve    False
Rob      False
Ryan     False
Wes       True
dtype: bool

In [8]:
# Методы строк и регулярных выражений можно применить к каждому значению с помощью метода data.map, которому
# передается лямбда или другая функция, но для отсутствующих значений они все сломают. Чтобы справиться с 
# этой проблемой, в классе Series есть методы для операций со строками, которые пропускают отсутствующие значения.
# Доступ к ним производится через атрибут str. Например, вот как можно было проверить с помощью метода
# str.contains проверить, содержит ли каждый почтовый адрес подстроку 'gmail'

data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Ryan     False
Wes        NaN
dtype: object

In [10]:
# Существует два способа векторной выборки элементов: str.get или доступ к атрибуту str по индексу:

pattern = r'[A-Z0-9._%+-]+@[A-Z0-9._]+\.[A-Z]{2,4}'

In [13]:
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [dave@google.com]
Steve    [steve@gmail.com]
Rob        [rob@gmail.com]
Ryan      [ryan@yahoo.com]
Wes                    NaN
dtype: object

In [14]:
matches = data.str.match(pattern, flags=re.IGNORECASE)

In [15]:
matches

Dave     True
Steve    True
Rob      True
Ryan     True
Wes       NaN
dtype: object

In [19]:
# Существует два способа векторной выборки элементов: str.get или доступ к атрибуту str по индексу:

matches.str[0]

AttributeError: Can only use .str accessor with string values!