# a-4. グループ処理
グループ別に処理をおこなうメソッドgroupby()はデータの分割(split)、分割データの処理(apply)、そして結果の結合(combine)の３つのプロセスから構成される。
データの分割では指定した列の値によって行を複数のグループに分割する(列を分割することも可能)。
内部的には、グループとindexのラベルのマッピングを生成する。
分割されたそれぞれのグループに対して行う処理は、集約(aggregation)、変換(transformation)、選択(filtration)の３つに大別される。
<b>集約(aggregation)</b>はグループ毎に平均値や合計値など一つの値に集約し、<b>変換(transformation)</b>はZ-scoreや構成比の算出などグループ内で各行を別の値に変換し、<b>選択(filteration)</b>は条件にマッチするグループを選択する、といったようにそれぞれでグループ内での処理方法と結果の結合方法が異なる。詳細は、以下の処理別の項を参照されたい。

<img width="50%" src="./figures/groupby/group1.png">

---
## 1. 集約、変換、選択の代表例
## 2. 集約(aggregation)
## 3. 変換(transformation)
## 4. 選択(filteration)
## 5.その他
## 6.グループオブジェクトの動作

### APIリファレンス
- [Series.groupby](https://pandas.pydata.org/docs/reference/api/pandas.Series.groupby.html)
- [DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

### 関連ドキュメント
- [Groupby: split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)
- [GroupBy](https://pandas.pydata.org/docs/reference/groupby.html)

---

In [9]:
import numpy as np
import pandas as pd

---
# 1.集約、変換、選択の代表例
---

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>

<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>

<tr><td colspan=5 bgcolor="#8fbc8f"><b>集約(aggregatioon)</b></td></tr>
<tr style="background:#fff; border:1px solid #cc0000;">  
<td>1-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').sum())
</pre></td>
<td><img width="70%" src="./figures/groupby/group1-1data.png"></td>
<td><img width="60%" src="./figures/groupby/group1-1.png"></td>
<td>
key列をグループとして、v1,v2を合計する。
</td>
</tr>

<tr><td colspan=5 bgcolor="#8fbc8f"><b>変換(transformation)</b></td></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['trans'] = dd.groupby('key')['v1'].transform('cumsum')
print(dd)
</pre></td>
<td><img width="70%" src="./figures/groupby/group1-2data.png"></td>
<td><img width="90%" src="./figures/groupby/group1-2.png"></td>
<td>
key列をグループとして、v1の累計を計算し、trans列として追加する。集約と異なり、出力の行数は入力の行数に等しくなる。
</td>
</tr>

<tr><td colspan=5 bgcolor="#8fbc8f"><b>選択(filteration)</b></td></tr>
   
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').filter(lambda x:x['v1'].sum()>5))
</pre></td>
<td><img width="70%" src="./figures/groupby/group1-3data.png"></td>
<td><img width="70%" src="./figures/groupby/group1-3.png"></td>
<td>
key列をグループとして、v1の合計が5より大きいグループを選択する。
</td>
</tr>
     
</tbody>
</table>

In [10]:
# スクリプト
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
print(df)

print('''
## 集約(aggregatioon)
# no.1-1 
# key列をグループとして、v1,v2を合計する。
>>> print(df.groupby('key').sum())''')
print(df.groupby('key').sum())

print('''
## 変換(transformation)
# no.1-2 
# key列をグループとして、v1の累計を計算し、trans列として追加する。
# 集約と異なり、出力の行数は入力の行数に等しくなる。
>>> dd = df.copy()
>>> dd['trans'] = dd.groupby('key')['v1'].transform('cumsum')
>>> print(dd)''')
dd = df.copy()
dd['trans'] = dd.groupby('key')['v1'].transform('cumsum')
print(dd)

print('''
## 選択(filteration)
# no.1-3 
# key列をグループとして、v1の合計が5より大きいグループを選択する。
>>> print(df.groupby('key').filter(lambda x:x['v1'].sum()>5))''')
print(df.groupby('key').filter(lambda x:x['v1'].sum()>5))



# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0
3   b   2  NaN
4   b   1  6.0

## 集約(aggregatioon)
# no.1-1 
# key列をグループとして、v1,v2を合計する。
>>> print(df.groupby('key').sum())
     v1   v2
key         
a    10  3.0
b     3  6.0

## 変換(transformation)
# no.1-2 
# key列をグループとして、v1の累計を計算し、trans列として追加する。
# 集約と異なり、出力の行数は入力の行数に等しくなる。
>>> dd = df.copy()
>>> dd['trans'] = dd.groupby('key')['v1'].transform('cumsum')
>>> print(dd)
  key  v1   v2  trans
0   a   1  1.0      1
1   a   4  NaN      5
2   a   5  2.0     10
3   b   2  NaN      2
4   b   1  6.0      3

## 選択(filteration)
# no.1-3 
# key列をグループとして、v1の合計が5より大きいグループを選択する。
>>> print(df.groupby('key').filter(lambda x:x['v1'].sum()>5))
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0


----
# 2.集約(aggregation)
aggregationは、グループ毎に一つの値に集約する処理(平均や最大値などの計算)をおこなう。
出力はグループ数と同じ行数となる。
またグループの値は行ラベル(index)となる。
sum()やcount()などの既存の関数を指定することもできるし、
aggregate()もしくはagg()を使えば、処理したい内容のユーザ関数として定義実行することもできる。
aggregation処理として指定できる関数一覧は以下に示すとおりである。

### aggregation関数一覧
- aggregate()/agg() : 汎用的な集約関数で、処理する関数名を指定する(numpyの関数もしくはユーザ関数)
- count() : null以外の件数(集約する対象の列全てについて適用される)
- describe() : 各種統計量
- first() : 先頭行
- last() : 末尾行
- max() : 最大値
- median() : 中央値
- mean() : 平均
- min() : 最小値
- quantile() : 四分位数
- sem() : 標準誤差
- size() : 件数(グループキー別の行数としてSeriesが出力される)
- skew() : 歪度
- std() : 標準偏差
- sum() : 合計
- var() : 分散
---

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)

df2 = pd.DataFrame(
    {"k1":["a", "a", "a", "b", "b"],
     "k2":["x", "y", "x", "y", "y"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, None, 2, None, 6]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">    
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').agg(lambda x:x.max() - x.min()))
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-1data.png"></td>
<td><img width="60%" src="./figures/groupby/group2-1.png"></td>
<td>
グループごとに範囲(最大値-最小値)を求める。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').agg(v1_min=('v1', 'min'), v1_max=('v1', 'max'), size=('v1', 'size')))
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-2data.png"></td>
<td><img width="70%" src="./figures/groupby/group2-2.png"></td>
<td>
名前付きaggregationを使うと、対象列/計算方法/新しい列名を複数個一度に指定できる。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').mean())
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-3data.png"></td>
<td><img width="70%" src="./figures/groupby/group2-3.png"></td>
<td>
グループごとに平均を求める。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').size())
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-4data.png"></td>
<td><img width="60%" src="./figures/groupby/group2-4.png"></td>
<td>
各グループのサイズを求める(出力はSeries)。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df['key'].value_counts())
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-5data.png"></td>
<td><img width="60%" src="./figures/groupby/group2-5.png"></td>
<td>
同様のことは集計キーをSeriesとして切り出してvalue_counts()でも可能。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').count())
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-6data.png"></td>
<td><img width="60%" src="./figures/groupby/group2-6.png"></td>
<td>
グループごとに各列のnull以外の件数を求める。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').describe())
</pre></td>
<td><img width="70%" src="./figures/groupby/group2-7data.png"></td>
<td><img width="100%" src="./figures/groupby/group2-7.png"></td>
<td>
グループごとに各種統計量を求める。列がマルチインデックスになる。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df2.groupby(['k1','k2']).sum())
</pre></td>
<td><img width="80%" src="./figures/groupby/group2-8data.png"></td>
<td><img width="70%" src="./figures/groupby/group2-8.png"></td>
<td>
複数列をグループとして扱う。k1,k2列をグループとする。行がマルチインデックスになる。
</td>
</tr>
 
</tbody>
</table>

In [13]:
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
print(df)
print('''
>>> df2 = pd.DataFrame(
        {"k1":["a", "a", "a", "b", "b"],
         "k2":["x", "y", "x", "y", "y"],
         "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df2)''')
df2 = pd.DataFrame(
    {"k1":["a", "a", "a", "b", "b"],
     "k2":["x", "y", "x", "y", "y"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, None, 2, None, 6]}
)
print(df2)

print('''
# no.2-1 
# グループごとに範囲(最大値-最小値)を求める
>>> print(df.groupby('key').agg(lambda x:x.max() - x.min()))''')
print(df.groupby('key').agg(lambda x:x.max() - x.min()))

print('''
# no.2-2
# 名前付きaggregationを使うと、対象列/計算方法/新しい列名を複数個一度に指定できる
>>> print(df.groupby('key').agg(v1_min=('v1', 'min'), v1_max=('v1', 'max'), size=('v1', 'size')))''')
print(df.groupby('key').agg(v1_min=('v1', 'min'), v1_max=('v1', 'max'), size=('v1', 'size')))

print('''
# no.2-3 
# グループごとに平均を求める
>>> print(df.groupby('key').mean())''')
print(df.groupby('key').mean())

print('''
# no.2-4 
# 各グループのサイズを求める(出力はSeries)
>>> print(df.groupby('key').size())''')
print(df.groupby('key').size())

print('''
# no.2-5 
# 同様のことは集計キーをSeriesとして切り出してvalue_counts()でも可能
>>> print(df['key'].value_counts())''')
print(df['key'].value_counts())

print('''
# no.2-6 
# グループごとに各列のnull以外の件数を求める
>>> print(df.groupby('key').count())''')
print(df.groupby('key').count())

print('''
# no.2-7 
# グループごとに各種統計量を求める。列がマルチインデックスとなる。
>>> print(df.groupby('key').describe())''')
print(df.groupby('key').describe())

print('''
# no.2-8 
# 複数列をグループとして扱う。k1,k2列をグループとする。列がマルチインデックスとなる。
>>> print(df2.groupby(['k1','k2']).sum())''')
print(df2.groupby(['k1','k2']).sum())



# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0
3   b   2  NaN
4   b   1  6.0

>>> df2 = pd.DataFrame(
        {"k1":["a", "a", "a", "b", "b"],
         "k2":["x", "y", "x", "y", "y"],
         "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df2)
  k1 k2   v1   v2
0  a  x  0.1  1.0
1  a  y -0.2  NaN
2  a  x  0.3  2.0
3  b  y -0.5  NaN
4  b  y  0.3  6.0

# no.2-1 
# グループごとに範囲(最大値-最小値)を求める
>>> print(df.groupby('key').agg(lambda x:x.max() - x.min()))
     v1   v2
key         
a     4  1.0
b     1  0.0

# no.2-2
# 名前付きaggregationを使うと、対象列/計算方法/新しい列名を複数個一度に指定できる
>>> print(df.groupby('key').agg(v1_min=('v1', 'min'), v1_max=('v1', 'max'), size=('v1', 'size')))
     v1_min  v1_max  size
key                      
a         1       5     3
b         1       2     2

# no.2-3 
# グループごとに平均

---
# 3.変換(transformation)
transformationは、グループ内で各行を変換する処理を行う(z-scoreや構成比の算出など)。入力と出力は同じサイズとなる。
また、グループ内で集約(例えば平均)を計算した場合、その集約値をグループの各行にブロードキャストされる。
transform()メソッドに処理したい内容の関数を与えることで実行する。与える関数は、入力(グループに分割されたDataFrameもしくはSeries)と同じサイズをreturnするようにする。もしくは、一つの値を返せば、グループ内の各行にブロードキャストされる。
なお、transformationは、集約とは違い、入力と同じindexを持った同じ行数の出力を返すので、
結果を入力データに追加したい場合は、join()やSeriesの代入を用いる必要がある。

### transformation関数一覧
- cumcount() : グループ毎に0から始まる番号をその順番でSeriesとして出力する
- cummax()   : グループごとに、集計対象の数値列について出現順にそこまでの最大値を出力する(high water mark)
- cummin()   : グループごとに、集計対象の数値列について出現順にそこまでの最小値を出力する(low water mark)
- cumprod()  : 累積(出現順に数値列を出現順に掛けていく)
- cumsum()   : 累計(出現順に数値列を出現順に足していく)
- rank()     : 順位
- shift()    : 行をずらす
- transform(): 汎用的なtransformation関数で、処理する関数名を指定する(numpyの関数もしくはユーザ関数)
---
### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, 4, 5, 8, 2],
     "v3":[1, None, 2, None, 6]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>
 
<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['cumsum'] = dd.groupby('key')['v1'].transform(np.cumsum)
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-1data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-1.png"></td>
<td>
transform()メソッドは、関数を与えることで汎用的にtransformationを実現する
ここでは、グループ(key)ごとに、v1列にnp.cumsum()メソッド(累計)を適用している。
ただし、累計であれば、transoform()を使わなくても、専用のcumusum()メソッドが用意されている(後述)。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.groupby('key').transform(np.cumsum)
print(dd)
print(df.join(dd, rsuffix='_cumsum'))
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-2data.png"></td>
<td><img width="100%" src="./figures/groupby/group3-2.png"><br></td>
<td>
数値列(v1,v2,v3)に対してnp.cumsum()メソッドを適用する。
入力データdfとddをindexで結合する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['mean'] = dd.groupby('key')['v1'].transform('mean')
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-3data.png"></td>
<td><img width="100%" src="./figures/groupby/group3-3.png"></td>
<td>
グループ毎にv1列の平均を計算し、その値をグループ内の全行に展開(ブロードキャスト)する
'mean'はnp.meanのアリアス
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['zscore'] = dd.groupby('key')['v1'].transform(lambda x:(x - x.mean()) / x.std())
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-4data.png"></td>
<td><img width="100%" src="./figures/groupby/group3-4.png"></td>
<td>
グループ毎にv1列の各行のz-scoreを計算する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['surrogate'] = dd.groupby('key')['v3'].transform(lambda x:x.fillna(x.mean()))
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-5data.png"></td>
<td><img width="100%" src="./figures/groupby/group3-5.png"></td>
<td>
グループ毎にv3列のnull値をグループの平均値で置き換える
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['share'] = dd.groupby('key')['v1'].transform(lambda x:x / x.sum())
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-6data.png"></td>
<td><img width="100%" src="./figures/groupby/group3-6.png"></td>
<td>
グループ毎にv1列の構成比を計算する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['cumcount'] = dd.groupby('key').cumcount()
dd
</pre></td>
<td><img width="100%" src="./figures/groupby/group3-7data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-7.png"></td>
<td>
グループ内で行番号を振る
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['cumsum'] = dd.groupby('key')['v1'].cumsum()
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-8data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-8.png"></td>
<td>
グループごとにv1列を累計する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-9</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['cummax'] = dd.groupby('key')['v1'].cummax()
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-9data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-9.png"></td>
<td>
グループごとにv1列の累計最大値を計算する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-10</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['ffill'] = dd.groupby('key')['v3'].ffill()
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-10data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-10.png"></td>
<td>
グループごとにv3列のnullを前行の値で補完する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-11</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = df.copy()
dd['shift'] = dd.groupby('key')['v2'].shift()
dd
</pre></td>
<td><img width="90%" src="./figures/groupby/group3-11data.png"></td>
<td><img width="90%" src="./figures/groupby/group3-11.png"></td>
<td>
グループごとにv2列の値を一行ずらす
</td>
</tr>

</tbody>
</table>

In [14]:
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
         "v2":[1, 4, 5, 8, 2],
         "v3":[1, None, 2, None, 6]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, 4, 5, 8, 2],
     "v3":[1, None, 2, None, 6]}
)
print(df)

print('''
## no.3-1 
# transform()メソッドは、関数を与えることで汎用的にtransformationを実現する
# ここでは、グループ(key)ごとに、v1列にnp.cumsum()メソッド(累計)を適用している。
# ただし、累計であれば、transoform()を使わなくても、専用のcumusum()メソッドが用意されている(後述)。
>>> dd = df.copy()
>>> dd['cumsum'] = dd.groupby('key')['v1'].transform(np.cumsum)
>>> print(dd)''')
dd = df.copy()
dd['cumsum'] = dd.groupby('key')['v1'].transform(np.cumsum)
print(dd)

print('''
# DataFrameに適用した結果を入力データに反映させたければjoin()を使う。
## no.3-2
# 数値列(v1,v2,v3)に対してnp.cumsum()メソッドを適用する。
>>> dd = df.groupby('key').transform(np.cumsum)
>>> print(dd)
# 入力データdfとddをindexで結合する。
>>> print(df.join(dd, rsuffix='_cumsum'))''')
dd = df.groupby('key').transform(np.cumsum)
print(dd)
print(df.join(dd, rsuffix='_cumsum'))

print('''
## no.3-3
# グループ毎にv1列の平均を計算し、その値をグループ内の全行に展開(ブロードキャスト)する
# 'mean'はnp.meanのアリアス
>>> dd = df.copy()
>>> dd['mean'] = dd.groupby('key')['v1'].transform('mean')
>>> print(dd)''')
dd = df.copy()
dd['mean'] = dd.groupby('key')['v1'].transform('mean')
print(dd)

print('''
## no.3-4
# グループ毎にv1列の各行のz-scoreを計算する
>>> dd = df.copy()
>>> dd['zscore'] = dd.groupby('key')['v1'].transform(lambda x:(x - x.mean()) / x.std())
>>> print(dd)''')
dd = df.copy()
dd['zscore'] = dd.groupby('key')['v1'].transform(lambda x:(x - x.mean()) / x.std())
print(dd)

print('''
## no.3-5
# グループ毎にv3列のnull値をグループの平均値で置き換える
>>> dd = df.copy()
>>> dd['surrogate'] = dd.groupby('key')['v3'].transform(lambda x:x.fillna(x.mean()))
>>> print(dd)''')
dd = df.copy()
dd['surrogate'] = dd.groupby('key')['v3'].transform(lambda x:x.fillna(x.mean()))
print(dd)
 
print('''
## no.3-6
# グループ毎にv1列の構成比を計算する
>>> dd = df.copy()
>>> dd['share'] = dd.groupby('key')['v1'].transform(lambda x:x / x.sum())
>>> print(dd)''')
dd = df.copy()
dd['share'] = dd.groupby('key')['v1'].transform(lambda x:x / x.sum())
print(dd)

print('''
# no.3-7
# グループ内で行番号を振る
>>> dd = df.copy()
>>> dd['cumcount'] = dd.groupby('key').cumcount()
>>> print(dd)''')
dd = df.copy()
dd['cumcount'] = dd.groupby('key').cumcount()
print(dd)

print('''
\n# no.3-8 
# グループごとにv1列を累計する
>>> dd = df.copy()
>>> dd['cumsum'] = dd.groupby('key')['v1'].cumsum()
>>> print(dd)
>>> g.cumsum()''')
dd = df.copy()
dd['cumsum'] = dd.groupby('key')['v1'].cumsum()
print(dd)

print('''
# no.3-9
# グループごとにv1列の累計最大値を計算する
>>> dd = df.copy()
>>> dd['cummax'] = dd.groupby('key')['v1'].cummax()
>>> print(dd)''')
dd = df.copy()
dd['cummax'] = dd.groupby('key')['v1'].cummax()
print(dd)

print('''
# no.3-10 
# グループごとにv3列のnullを前行の値で補完する
>>> dd = df.copy()
>>> dd['ffill'] = dd.groupby('key')['v3'].ffill()
>>> print(dd)''')
dd = df.copy()
dd['ffill'] = dd.groupby('key')['v3'].ffill()
print(dd)

print('''
# no.3-11
# グループごとにv2列の値を一行ずらす
>>> dd = df.copy()
>>> dd['shift'] = dd.groupby('key')['v2'].shift()
>>> print(dd)''')
dd = df.copy()
dd['shift'] = dd.groupby('key')['v2'].shift()
print(dd)



# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
         "v2":[1, 4, 5, 8, 2],
         "v3":[1, None, 2, None, 6]}
    )
>>> print(df)
  key   v1  v2   v3
0   a  0.1   1  1.0
1   a -0.2   4  NaN
2   a  0.3   5  2.0
3   b -0.5   8  NaN
4   b  0.3   2  6.0

## no.3-1 
# transform()メソッドは、関数を与えることで汎用的にtransformationを実現する
# ここでは、グループ(key)ごとに、v1列にnp.cumsum()メソッド(累計)を適用している。
# ただし、累計であれば、transoform()を使わなくても、専用のcumusum()メソッドが用意されている(後述)。
>>> dd = df.copy()
>>> dd['cumsum'] = dd.groupby('key')['v1'].transform(np.cumsum)
>>> print(dd)
  key   v1  v2   v3  cumsum
0   a  0.1   1  1.0     0.1
1   a -0.2   4  NaN    -0.1
2   a  0.3   5  2.0     0.2
3   b -0.5   8  NaN    -0.5
4   b  0.3   2  6.0    -0.2

# DataFrameに適用した結果を入力データに反映させたければjoin()を使う。
## no.3-2
# 数値列(v1,v2,v3)に対してnp.cumsum()メソッドを適用する。
>>> dd = df.groupby('key').transform(np.cumsum)
>>> print(dd)
# 入力データdfとddをindexで結合する。
>>> print(df.join(dd, rsuffix='_cumsum'))
    v1

----
# 4.選択(filteration)
filter()メソッドにTrue/Falseを返す関数を指定し、その条件にマッチするグループのみを選択する。

### filteration関数一覧
- filter() : 汎用的なfilteration関数
- get_group() : 特定のグループの選択
----

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').filter(lambda x:len(x) >= 3))
</pre></td>
<td><img width="70%" src="./figures/groupby/group4-1data.png"></td>
<td><img width="70%" src="./figures/groupby/group4-1.png"></td>
<td>
行数が3以上のグループを選択する
</td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').filter(lambda x:x['v2'].max() > 5))
</pre></td>
<td><img width="70%" src="./figures/groupby/group4-2data.png"></td>
<td><img width="70%" src="./figures/groupby/group4-2.png"></td>
<td>
v2の最大値が5より大きいグループを選択する
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').get_group('a'))
</pre></td>
<td><img width="70%" src="./figures/groupby/group4-3data.png"></td>
<td><img width="70%" src="./figures/groupby/group4-3.png"></td>
<td>
一つの指定したグループを選択する(このメソッドで複数のグループは選択できない
</td>
</tr>
    
</tbody>
</table>

In [20]:
# スクリプト
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
print(df)

print('''
# no.4-1 
# 行数が3以上のグループを選択する
>>> print(df.groupby('key').filter(lambda x:len(x) >= 3))''')
print(df.groupby('key').filter(lambda x:len(x) >= 3))

print('''
# no.4-2 
# v2の最大値が5より大きいグループを選択する
>>> print(df.groupby('key').filter(lambda x:x['v2'].max() > 5))''')
print(df.groupby('key').filter(lambda x:x['v2'].max() > 5))

print('''
# no.4-3 
# 一つの指定したグループを選択する(このメソッドで複数のグループは選択できない)
>>> print(df.groupby('key').get_group('a'))''')
print(df.groupby('key').get_group('a'))



# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0
3   b   2  NaN
4   b   1  6.0

# no.4-1 
# 行数が3以上のグループを選択する
>>> print(df.groupby('key').filter(lambda x:len(x) >= 3))
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0

# no.4-2 
# v2の最大値が5より大きいグループを選択する
>>> print(df.groupby('key').filter(lambda x:x['v2'].max() > 5))
  key  v1   v2
3   b   2  NaN
4   b   1  6.0

# no.4-3 
# 一つの指定したグループを選択する(このメソッドで複数のグループは選択できない)
>>> print(df.groupby('key').get_group('a'))
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0


----
# 5.その他
上述の３つ(集計、変換、選択)以外の処理。

### 関数一覧
- head(k) : グループ毎に最初のk行を選択
- tail(k) : グループ毎に最後のk行を選択
- corr() : 相関行列
- corrwith(df) : dfとの相関係数
- cov() : 分散共分散行列
---

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, 4, 5, 8, 2]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>5-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').head(1))
</pre></td>
<td><img width="70%" src="./figures/groupby/group5-1data.png"></td>
<td><img width="60%" src="./figures/groupby/group5-1.png"></td>
<td>
head()はグループを選択するのではなく、グループ毎に先頭行を選択する
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>5-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.groupby('key').corr())
</pre></td>
<td><img width="70%" src="./figures/groupby/group5-2data.png"></td>
<td><img width="90%" src="./figures/groupby/group5-2.png"></td>
<td>
相関行列を計算する。グループごとに集計対象の数値列の全組み合わせについて相関係数を計算する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>5-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df2 = df[['v2', 'v1']].rename(columns={'v1':'v2', 'v2':'v1'})
print(df.groupby('key').corrwith(df2))
</pre></td>
<td><img width="90%" src="./figures/groupby/group5-3data.png"></td>
<td><img width="90%" src="./figures/groupby/group5-3.png"></td>
<td>
２つDataFrameについて、同一の列ラベル同士をペアの相関係数を求める。ここでは、dfとv1,v2を入れ替えたデータdf2との相関を求めている。
同じ列ラベルのない列についてはNAとして出力される。dfとdf2の行の対応関係は行ラベル(index)で行われる。
</td>
</tr>
 
</tbody>
</table>

In [7]:
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
         "v2":[1, 4, 5, 8, 2]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
     "v2":[1, 4, 5, 8, 2]}
)
print(df)

print('''
# no.5-1
# head()はグループを選択するのではなく、グループ毎に先頭行を選択する
>>> print(df.groupby('key').head(1))''')
print(df.groupby('key').head(1))

print('''
# no.5-2
# 相関行列を計算する。グループごとに集計対象の数値列の全組み合わせについて相関係数を計算する。
>>> print(df.groupby('key').corr())''')
print(df.groupby('key').corr())

print('''
\n# no.5-3
# ２つDataFrameについて、同一の列ラベル同士をペアの相関係数を求める。ここでは、dfとv1,v2を入れ替えたデータdf2との相関を求めている。
# 同じ列ラベルのない列についてはNAとして出力される。
# dfとdf2の行の対応関係は行ラベル(index)で行われる。
>>> df2 = df[['v2', 'v1']].rename(columns={'v1':'v2', 'v2':'v1'})
>>> print(df.groupby('key').corrwith(df2))''')
df2 = df[['v2', 'v1']].rename(columns={'v1':'v2', 'v2':'v1'})
print(df.groupby('key').corrwith(df2))


# 入力データ
>>> df = pd.DataFrame(
        {
            "key":["a", "a", "a", "b", "b"],
            "v1":[0.1, -0.2, 0.3, -0.5, 0.3],
            "v2":[1, 4, 5, 8, 2]
        }
    )
>>> print(df)
  key   v1  v2
0   a  0.1   1
1   a -0.2   4
2   a  0.3   5
3   b -0.5   8
4   b  0.3   2

# no.5-1
# head()はグループを選択するのではなく、グループ毎に先頭行を選択する
>>> print(df.groupby('key').head(1))
  key   v1  v2
0   a  0.1   1
3   b -0.5   8

# no.5-2
# 相関行列を計算する。グループごとに集計対象の数値列の全組み合わせについて相関係数を計算する。
>>> print(df.groupby('key').corr())
              v1        v2
key                       
a   v1  1.000000  0.127257
    v2  0.127257  1.000000
b   v1  1.000000 -1.000000
    v2 -1.000000  1.000000


# no.5-3
# ２つDataFrameについて、同一の列ラベル同士をペアの相関係数を求める。ここでは、dfとv1,v2を入れ替えたデータdf2との相関を求めている。
# 同じ列ラベルのない列についてはNAとして出力される。
# dfとdf2の行の対応関係は行ラベル(index)で行われる。
>>> df2 = df[['v2', 'v1']].rename(columns={'v1':'v2', 'v2':'v1'})
>>> print(df.groupby('key').corrwith(df2))
           v1        v2
key                    
a    0.127257  0.1

---
# 6.グループオブジェクトの動作

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力</th><th align="left">出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>6-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df.groupby('key').groups
</pre></td>
<td><img width="60%" src="./figures/groupby/group6-1data.png"></td>
<td><font size="3">{'a': [0, 1, 2], 'b': [3, 4]}</font></td>
<td>
グループ名をkeyとし、値をindexラベルとした辞書
</td>
</tr>

 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>6-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
len(df.groupby('key').groups)
</pre></td>
<td><img width="60%" src="./figures/groupby/group6-1data.png"></td>
    <td><font size="3">2</font></td>
<td>
その辞書の長さを計算することで、グループの数が得られる
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>6-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df['key'].nunique()
</pre></td>
<td><img width="60%" src="./figures/groupby/group6-1data.png"></td>
<td><font size="3">2</font></td>
<td>
同様のことは、集計キーをSeriesとして切り出してnunique()でも可能
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>6-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
for name, group in df.groupby('key'):  # nameにグループ名、groupにそのグループのみ選択されたDataFrameがセットされる
    print('name:', name)
    print('type(group):', type(group))
    print(group)
</pre></td>
<td><img width="60%" src="./figures/groupby/group6-1data.png"></td>
<td><img width="60%" src="./figures/groupby/group6-4.png"></td>
<td>
グループごとに繰り返し処理
nameにグループ名、groupに各グループのDataFrameがセットされる
</td>
</tr>
 
</tbody>
</table>

In [27]:
# スクリプト
print('''
# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)''')
df = pd.DataFrame(
    {"key":["a", "a", "a", "b", "b"],
     "v1":[1, 4, 5, 2, 1],
     "v2":[1, None, 2, None, 6]}
)
print(df)

print('''\n# no.6-1
# グループ名をkeyとし、値をindexラベルとした辞書
>>> print(df.groupby('key').groups)''')
print(df.groupby('key').groups)

print('''\n# no.6-2
# その辞書の長さを計算することで、グループの数が得られる
>>> print(len(df.groupby('key').groups))''')
print(len(df.groupby('key').groups))

print('''\n# no.6-3
# 同様のことは、集計キーをSeriesとして切り出してnunique()でも可能
>>> print(df['key'].nunique())''')
print(df['key'].nunique())

print('''\n# no.6-4
# グループごとに繰り返し処理
>>> for name, group in df.groupby('key'):  # nameにグループ名、groupに各グループのDataFrameがセットされる
>>>     print('name:', name)
>>>     print('type(group):', type(group))
>>>     print(group)''')
for name, group in df.groupby('key'):
    print('name:', name)
    print('type(group):', type(group))
    print(group)



# 入力データ
>>> df = pd.DataFrame(
        {"key":["a", "a", "a", "b", "b"],
         "v1":[1, 4, 5, 2, 1],
         "v2":[1, None, 2, None, 6]}
    )
>>> print(df)
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0
3   b   2  NaN
4   b   1  6.0

# no.6-1
# グループ名をkeyとし、値をindexラベルとした辞書
>>> print(df.groupby('key').groups)
{'a': [0, 1, 2], 'b': [3, 4]}

# no.6-2
# その辞書の長さを計算することで、グループの数が得られる
>>> print(len(df.groupby('key').groups))
2

# no.6-3
# 同様のことは、集計キーをSeriesとして切り出してnunique()でも可能
>>> print(df['key'].nunique())
2

# no.6-4
# グループごとに繰り返し処理
>>> for name, group in df.groupby('key'):  # nameにグループ名、groupに各グループのDataFrameがセットされる
>>>     print('name:', name)
>>>     print('type(group):', type(group))
>>>     print(group)
name: a
type(group): <class 'pandas.core.frame.DataFrame'>
  key  v1   v2
0   a   1  1.0
1   a   4  NaN
2   a   5  2.0
name: b
type(group): <class 'pandas.core.frame.DataFrame'>
  key  v1   v2
3   b   2  NaN
4   b   1  6.0
