# データをまとめるGroupby

特定のキーを用いて、別データをとってくる方法を記述する

In [2]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

# キーがk1/k2あるようなデータを用意
dframe = DataFrame({'k1':['X','X','Y','Y','Z'],
                    'k2':['alpha','beta','alpha','beta','alpha'],
                    'dataset1':np.random.randn(5),
                    'dataset2':np.random.randn(5)})
dframe

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,-1.45088,0.228328
1,X,beta,-0.154236,-0.492349
2,Y,alpha,-0.005726,-0.607673
3,Y,beta,-0.374382,-0.930437
4,Z,alpha,0.982463,-0.617963


In [4]:
# k1をキーとして、データをグループにまとめる。groupByオブジェクトとなり、通常表示はできないので注意
group1 = dframe['dataset1'].groupby(dframe['k1'])
group1

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f7a403f57f0>

In [5]:
#グループごとの平均値を計算
group1.mean()

k1
X   -0.802558
Y   -0.190054
Z    0.982463
Name: dataset1, dtype: float64

In [7]:
# キーを変更して適用
cities = np.array(['NY','LA','LA','NY','NY'])
month = np.array(['JAN','FEB','JAN','FEB','JAN'])
#  それぞれグループ化してデータ取得
# この場合ではindex[0,3,4]がNY ,[1,2]が'LAとして、 index[0,2,4]がJAN index[1,3]がFEBとして扱われる。
#  index   cities  month    
#   0      NY      JAN   -----------------------┐   
#   1      LA      FEB   ---> LA_FEB(-0.15)     | 
#   2      LA      JAN   ---> LA_JAN(-0.05)     ├--> NY_JAN (-1.45 + 0.98) / 2 = 0.23
#   3      NY      FEB   ---> NY_FEB(-0.37)     |
#   4      NY      JAN   -----------------------┘
dframe['dataset1'].groupby([cities,month]).mean()

LA  FEB   -0.154236
    JAN   -0.005726
NY  FEB   -0.374382
    JAN   -0.234209
Name: dataset1, dtype: float64

In [9]:
# k1でまとめて平均取得
dframe.groupby('k1').mean()

Unnamed: 0_level_0,dataset1,dataset2
k1,Unnamed: 1_level_1,Unnamed: 2_level_1
X,-0.802558,-0.13201
Y,-0.190054,-0.769055
Z,0.982463,-0.617963


In [11]:
# k1,k2でまとめて平均取得
dframe.groupby(['k1','k2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dataset1,dataset2
k1,k2,Unnamed: 2_level_1,Unnamed: 3_level_1
X,alpha,-1.45088,0.228328
X,beta,-0.154236,-0.492349
Y,alpha,-0.005726,-0.607673
Y,beta,-0.374382,-0.930437
Z,alpha,0.982463,-0.617963


In [12]:
# イテレート（繰り返し処理） 特定のデータでまとめて処理や抜き出しを行う場合に使用
for name,group in dframe.groupby('k1'):
    print('This is the {} group'.format(name))
    print(group)
    print('\n')

This is the X group
  k1     k2  dataset1  dataset2
0  X  alpha -1.450880  0.228328
1  X   beta -0.154236 -0.492349


This is the Y group
  k1     k2  dataset1  dataset2
2  Y  alpha -0.005726 -0.607673
3  Y   beta -0.374382 -0.930437


This is the Z group
  k1     k2  dataset1  dataset2
4  Z  alpha  0.982463 -0.617963




In [13]:
# 複数のキーでも同じ
for (k1,k2) , group in dframe.groupby(['k1','k2']):
    print('Key1 = {} Key2 = {}'.format(k1,k2))
    print(group)
    print('\n')

Key1 = X Key2 = alpha
  k1     k2  dataset1  dataset2
0  X  alpha  -1.45088  0.228328


Key1 = X Key2 = beta
  k1    k2  dataset1  dataset2
1  X  beta -0.154236 -0.492349


Key1 = Y Key2 = alpha
  k1     k2  dataset1  dataset2
2  Y  alpha -0.005726 -0.607673


Key1 = Y Key2 = beta
  k1    k2  dataset1  dataset2
3  Y  beta -0.374382 -0.930437


Key1 = Z Key2 = alpha
  k1     k2  dataset1  dataset2
4  Z  alpha  0.982463 -0.617963




In [14]:
# 特定のグループの情報を抜き出し
gr = dframe.groupby('k1')
gr.get_group('X')

Unnamed: 0,k1,k2,dataset1,dataset2
0,X,alpha,-1.45088,0.228328
1,X,beta,-0.154236,-0.492349
