In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [26]:
dframe = DataFrame({'k1': ['X', 'X', 'Y', 'Y', 'Z'],
                    'k2': ['alpha', 'beta', 'alpha', 'beta', 'alpha'],
                    'dataset1': np.random.randn(5),
                    'dataset2': np.random.randn(5)})
dframe

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,1.799166,-0.011525
1,X,beta,-1.461167,-0.175163
2,Y,alpha,-0.89313,-0.056905
3,Y,beta,-0.17917,1.14169
4,Z,alpha,0.131756,0.47371


In [27]:
# k1をキーとして、データをグループにまとめます。
# これはちょっと丁寧な書き方です。

group1 = dframe['dataset1'].groupby(dframe['k1'])
group1

<pandas.core.groupby.generic.SeriesGroupBy object at 0x11b48ed90>

In [28]:
#グループごとの平均値を計算

group1.mean()

k1
X    0.169000
Y   -0.536150
Z    0.131756
Name: dataset1, dtype: float64

In [29]:
# このように書くこともできます。

dframe.groupby('k1')['dataset1'].mean()

k1
X    0.169000
Y   -0.536150
Z    0.131756
Name: dataset1, dtype: float64

In [30]:
# キーは変えられます。
cities = np.array(['NY', 'LA', 'LA', 'NY', 'NY'])
month = np.array(['JAN', 'FEB', 'JAN', 'FEB', 'JAN'])

#  それぞれでグループ化します。
dframe['dataset1'].groupby([cities, month]).mean()

LA  FEB   -1.461167
    JAN   -0.893130
NY  FEB   -0.179170
    JAN    0.965461
Name: dataset1, dtype: float64

In [31]:
dframe

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,1.799166,-0.011525
1,X,beta,-1.461167,-0.175163
2,Y,alpha,-0.89313,-0.056905
3,Y,beta,-0.17917,1.14169
4,Z,alpha,0.131756,0.47371


In [32]:
# 複数の列名にも対応しています。

dframe.groupby(['k1','k2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dataset1,dataset2
k1,k2,Unnamed: 2_level_1,Unnamed: 3_level_1
X,alpha,1.799166,-0.011525
X,beta,-1.461167,-0.175163
Y,alpha,-0.89313,-0.056905
Y,beta,-0.17917,1.14169
Z,alpha,0.131756,0.47371


In [33]:
# 列を限定することもできます。
# こちらは、DataFrameになります。

dataset2_group = dframe.groupby(['k1','k2'])[['dataset2']]
dataset2_group.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dataset2
k1,k2,Unnamed: 2_level_1
X,alpha,-0.011525
X,beta,-0.175163
Y,alpha,-0.056905
Y,beta,1.14169
Z,alpha,0.47371


In [34]:
# size()と一緒に使うのも便利です。

dframe.groupby(['k1']).size()

k1
X    2
Y    2
Z    1
dtype: int64

In [35]:
# イテレート（繰り返し処理）ができます。

for name, group in dframe.groupby('k1'):
    print(f'Group: {name}')
    print(group)
    print('\n')

Group: X
  k1     k2  dataset1  dataset2
0  X  alpha  1.799166 -0.011525
1  X   beta -1.461167 -0.175163


Group: Y
  k1     k2  dataset1  dataset2
2  Y  alpha  -0.89313 -0.056905
3  Y   beta  -0.17917  1.141690


Group: Z
  k1     k2  dataset1  dataset2
4  Z  alpha  0.131756   0.47371




In [36]:
# 複数のキーでも同じ事ができます。

for (k1, k2), group in dframe.groupby(['k1','k2']):
    print(f'Key1 = {k1} Key2 = {k2}')
    print(group)
    print('\n')

Key1 = X Key2 = alpha
  k1     k2  dataset1  dataset2
0  X  alpha  1.799166 -0.011525


Key1 = X Key2 = beta
  k1    k2  dataset1  dataset2
1  X  beta -1.461167 -0.175163


Key1 = Y Key2 = alpha
  k1     k2  dataset1  dataset2
2  Y  alpha  -0.89313 -0.056905


Key1 = Y Key2 = beta
  k1    k2  dataset1  dataset2
3  Y  beta  -0.17917   1.14169


Key1 = Z Key2 = alpha
  k1     k2  dataset1  dataset2
4  Z  alpha  0.131756   0.47371




In [37]:
# 特定のグループを取得する

gr = dframe.groupby('k1')
gr.get_group('X')

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,1.799166,-0.011525
1,X,beta,-1.461167,-0.175163


In [38]:
list(dframe.groupby('k1'))

[('X',
    k1     k2  dataset1  dataset2
  0  X  alpha  1.799166 -0.011525
  1  X   beta -1.461167 -0.175163),
 ('Y',
    k1     k2  dataset1  dataset2
  2  Y  alpha  -0.89313 -0.056905
  3  Y   beta  -0.17917  1.141690),
 ('Z',
    k1     k2  dataset1  dataset2
  4  Z  alpha  0.131756   0.47371)]

In [39]:
# ちょっとだけ前提知識の紹介
# タプルのリストから辞書を作る

dict([('key1', 1), ('key2', 2), ('key3', 3)])

{'key1': 1, 'key2': 2, 'key3': 3}

In [40]:
# リストを作ってそれを辞書にするこもできます。

group_dict = dict(list(dframe.groupby('k1')))
group_dict['X']

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,1.799166,-0.011525
1,X,beta,-1.461167,-0.175163
