### Библиотеки / данные

импортируем библиотеки numpy и pandas

In [2]:
import numpy as np
import pandas as pd

задаем некоторые настройки pandas, регулирующие формат вывода

In [11]:
pd.options.display.max_rows = 10

загружаем данные

In [12]:
tips = pd.read_csv("../data/tips.csv")
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [13]:
tips['tip_pct'] = tips['tip'] / tips['total_bill']

In [14]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.059447
1,10.34,1.66,No,Sun,Dinner,3,0.160542
2,21.01,3.5,No,Sun,Dinner,3,0.166587
3,23.68,3.31,No,Sun,Dinner,2,0.13978
4,24.59,3.61,No,Sun,Dinner,4,0.146808


### Механизм GroupBy

<img src = '../images/split_apply_combine.png' style='width: 600px;'/>

In [15]:
df = pd.DataFrame({'x': ['a','a','b','b','c','c'],
                   'y': [2,4,0,5,5,10]})
df

Unnamed: 0,x,y
0,a,2
1,a,4
2,b,0
3,b,5
4,c,5
5,c,10


In [16]:
groups = df.groupby(['x'])
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002976EC42470>

получаем информацию о количестве групп, которые будут созданы

In [17]:
groups.ngroups

3

получаем информацию о количестве элементов в каждой группе

In [18]:
groups.size()

x
a    2
b    2
c    2
dtype: int64

что представляют из себя найденные группы?

In [19]:
groups.groups

{'a': Int64Index([0, 1], dtype='int64'),
 'b': Int64Index([2, 3], dtype='int64'),
 'c': Int64Index([4, 5], dtype='int64')}

получаем данные конкретной группы

In [20]:
groups.get_group('b')

Unnamed: 0,x,y
2,b,0
3,b,5


извлекаем первую строку каждой группы

In [21]:
groups.nth([1])

Unnamed: 0_level_0,y
x,Unnamed: 1_level_1
a,4
b,5
c,10


обход групп:

In [26]:
for key, group in groups:
    print(key)
    print(group) 

a
   x  y
0  a  2
1  a  4
b
   x  y
2  b  0
3  b  5
c
   x   y
4  c   5
5  c  10


вычисление среднего

In [27]:
groups.y.mean()

x
a    3.0
b    2.5
c    7.5
Name: y, dtype: float64

### Типы группировок

#### по столбцам: 

In [28]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.059447
1,10.34,1.66,No,Sun,Dinner,3,0.160542
2,21.01,3.5,No,Sun,Dinner,3,0.166587
3,23.68,3.31,No,Sun,Dinner,2,0.13978
4,24.59,3.61,No,Sun,Dinner,4,0.146808


In [29]:
tips.groupby(['day','time']).tip.mean().unstack()

time,Dinner,Lunch
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,2.94,2.382857
Sat,2.993103,
Sun,3.255132,
Thur,3.0,2.767705


#### по уровням индекса

создаем копию данных и заново индексируем ее

In [30]:
copy_tips = tips.copy()
copy_tips = copy_tips.set_index(['day', 'time'])
copy_tips

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,smoker,size,tip_pct
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sun,Dinner,16.99,1.01,No,2,0.059447
Sun,Dinner,10.34,1.66,No,3,0.160542
Sun,Dinner,21.01,3.50,No,3,0.166587
Sun,Dinner,23.68,3.31,No,2,0.139780
Sun,Dinner,24.59,3.61,No,4,0.146808
...,...,...,...,...,...,...
Sat,Dinner,29.03,5.92,No,3,0.203927
Sat,Dinner,27.18,2.00,Yes,2,0.073584
Sat,Dinner,22.67,2.00,Yes,2,0.088222
Sat,Dinner,17.82,1.75,No,2,0.098204


группировать можем по одному или нескольким уровням индекса, передавая соответствующие значения столбцов аргументу level

In [31]:
copy_tips.groupby(level=['time']).sum()

Unnamed: 0_level_0,total_bill,tip,size,tip_pct
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dinner,3660.3,546.07,463,28.075131
Lunch,1167.47,185.51,164,11.160699


In [32]:
copy_tips.groupby(level = ['day', 'time']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size,tip_pct
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Fri,Dinner,19.663333,2.94,2.166667,0.158916
Fri,Lunch,12.845714,2.382857,2.0,0.188765
Sat,Dinner,20.441379,2.993103,2.517241,0.153152
Sun,Dinner,21.41,3.255132,2.842105,0.166897
Thur,Dinner,18.78,3.0,2.0,0.159744
Thur,Lunch,17.664754,2.767705,2.459016,0.161301


#### с использованием функции 

In [33]:
copy_tips.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,smoker,size,tip_pct
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sun,Dinner,16.99,1.01,No,2,0.059447
Sun,Dinner,10.34,1.66,No,3,0.160542
Sun,Dinner,21.01,3.5,No,3,0.166587
Sun,Dinner,23.68,3.31,No,2,0.13978
Sun,Dinner,24.59,3.61,No,4,0.146808


In [34]:
copy_tips.groupby(len, level='day').count()

Unnamed: 0_level_0,total_bill,tip,smoker,size,tip_pct
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
3,182,182,182,182,182
4,62,62,62,62,62


In [35]:
tips.day.value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

#### с использованием массива 

массив случайных меток групп:

In [None]:
np.random.seed(123)
rnd_array = np.random.choice(['first_group', 'second_group'], 
                             size=tips.shape[0],
                             p = [0.4, 0.6])
rnd_array[0:5]

передаем массив меток групп в метод groupby

In [None]:
tips.groupby(rnd_array).count()

In [None]:
93/(93+151)

#### бонус

тип данных:

In [None]:
tips.dtypes

In [None]:
group_tips = tips.groupby(tips.dtypes, axis=1)

In [None]:
group_tips.size()

### Агрегирование групп

создаем объект groupby:

In [None]:
group_tips = tips.groupby(['day', 'smoker'])['tip_pct']

проверка эквивалентности методов:

In [None]:
group_tips.agg == group_tips.aggregate

собственная функция:

In [None]:
def peak_to_peak(arr):
    return arr.max() - arr.min()

group_tips.agg([peak_to_peak])

комбинирование:

In [None]:
group_tips.agg([peak_to_peak, 'mean'])

задаем имена столбцов:

In [None]:
group_tips.agg([('delta_max_min', peak_to_peak), ('mean_value','mean')])

отдельные наборы функций для каждого столбца:

In [None]:
group_tips = tips.groupby(['day', 'smoker'])['tip_pct', 'total_bill']

In [None]:
group_tips.agg({'tip_pct':[('max_value', np.max),
                           ('min_value','min')],
                'total_bill': 'sum'})

### Преобразование групп

#### метод transform

<img src = '../images/transform.png' style='width: 900px;'/>

In [None]:
df = pd.DataFrame({'Col1': ['A', 'B', 'C', 'C', 'B', 'B', 'A'],
                   'Col2': [1, 2, 3, 4, 2, 5, 3]})
df

In [None]:
df['Col3'] = df.groupby('Col1').transform(sum)
df.sort_values('Col1')

объект groupby:

In [None]:
group_tips = tips.groupby(['smoker'])['total_bill']

нормирование:

In [None]:
norm = lambda x: (x - x.mean())/x.std()
group_tips.transform(norm)

In [None]:
tips_copy = tips.copy()
tips_copy['total_bill_norm'] = group_tips.transform(norm)
tips_copy.head()

In [None]:
tips_copy.groupby('smoker').total_bill_norm.agg(['mean', 'std'])

#### метод apply

функция:

In [None]:
def top(df, n=5, column='tip_pct'):
    return df.sort_values(by=column)[-n:]
top(tips, n=6)

применяем метод apply

In [None]:
tips.groupby('smoker').apply(top)

### Исключение групп

создаем данные для наших примеров

In [9]:
df = pd.DataFrame({'Label': list('AABCCC'),
                   'Values': [1, 2, 3, 4, np.nan, 8]})
df

Unnamed: 0,Label,Values
0,A,1.0
1,A,2.0
2,B,3.0
3,C,4.0
4,C,
5,C,8.0


удаляем группы с менее чем двумя возможными значениеми

In [11]:
f = lambda x: x.Values.count() > 1
type (df.groupby('Label').filter(f))

pandas.core.frame.DataFrame

удаляем группы, в которых есть пропуски

In [5]:
f = lambda x: x.Values.isnull().sum() == 0
df.groupby('Label').filter(f)

Unnamed: 0,Label,Values
0,A,1.0
1,A,2.0
2,B,3.0


### Сводная таблица

средние

In [None]:
tips.pivot_table(index=['day', 'smoker'])

вывод по строкам и столбцам

In [None]:
tips.pivot_table(['tip_pct', 'size'], index=['time', 'day'],
                 columns='smoker')

включение частичных итогов:

In [None]:
tips.pivot_table(['tip_pct', 'size'], index=['time', 'day'],
                 columns='smoker', margins=True)

задаем функцию:

In [None]:
tips.pivot_table('tip_pct', index=['time', 'smoker'], columns='day',
                 aggfunc=max, margins=True)