## DataFrame groupbyの勉強

### ライブラリ読み込み

In [15]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

%matplotlib inline

### データの作成

In [8]:
df = pd.DataFrame({
    'city': ['osaka', 'osaka', 'osaka', 'osaka', 'tokyo', 'tokyo', 'tokyo'],
    'food': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

Unnamed: 0,city,food,price,quantity
0,osaka,apple,100,1
1,osaka,orange,200,2
2,osaka,banana,250,3
3,osaka,banana,300,4
4,tokyo,apple,150,5
5,tokyo,apple,200,6
6,tokyo,banana,400,7


### カラム、インデックス情報

In [11]:
df.columns

Index(['city', 'food', 'price', 'quantity'], dtype='object')

In [10]:
df.index

RangeIndex(start=0, stop=7, step=1)

### city情報ごとに分類して平均を求める
分類するので離散データでしか分類できない

In [12]:
df.groupby('city').mean()

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,212.5,2.5
tokyo,250.0,6.0


In [14]:
df.groupby(['city', 'food']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,food,Unnamed: 2_level_1,Unnamed: 3_level_1
osaka,apple,100.0,1.0
osaka,banana,275.0,3.5
osaka,orange,200.0,2.0
tokyo,apple,175.0,5.5
tokyo,banana,400.0,7.0


In [18]:
df.groupby(['city', 'food'], as_index=False).mean()

Unnamed: 0,city,food,price,quantity
0,osaka,apple,100.0,1.0
1,osaka,banana,275.0,3.5
2,osaka,orange,200.0,2.0
3,tokyo,apple,175.0,5.5
4,tokyo,banana,400.0,7.0


In [19]:
df.groupby('city').groups

{'osaka': [0, 1, 2, 3], 'tokyo': [4, 5, 6]}

### get_groupを使って指定のグループだけ取り出す事もできる

In [20]:
df.groupby('city').get_group('osaka')

Unnamed: 0,city,food,price,quantity
0,osaka,apple,100,1
1,osaka,orange,200,2
2,osaka,banana,250,3
3,osaka,banana,300,4


### さまざまなアグリゲーション
groupbyしたものに対してグループごとの値を求めることをアグリゲーションという  
基本的なものはメソッドでも実装されているが、agg()を使うとさまざまな処理を行うことができる

In [21]:
df.groupby('city').agg(np.mean)

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,212.5,2.5
tokyo,250.0,6.0


カラムごとに別々の処理を行うこともできる  
priceは平均、quantityは合計

In [22]:
df.groupby('city').agg({'price': np.mean, 'quantity': np.sum})

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,212.5,10
tokyo,250.0,18


In [41]:
df.groupby(['city', 'food'], as_index=False).apply(lambda d: (d.price * d.quantity).sum()) 

Unnamed: 0,city,food,NaN
0,osaka,apple,100
1,osaka,banana,1950
2,osaka,orange,400
3,tokyo,apple,1950
4,tokyo,banana,2800
