参照：http://sinhrks.hatenablog.com/entry/2014/10/13/005327

In [1]:
import pandas as pd
import numpy as np

In [3]:
# 表示する行数を設定
pd.options.display.max_rows=5

# file読み込み
file_url = 'http://aima.cs.berkeley.edu/data/iris.csv'
names = ['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species']
iris = pd.read_csv(file_url, header=None, names=names)

iris.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### グルーピング/集約

- グループ化したいとき：`grouped = DataFrame.groupby('Colum_name')`
- グループ化したDataFrameのうち1列を抽出したい場合：`grouped['Colum_name']`
- グループ化したDataFrameのうち複数列を抽出したい場合：`grouped[['Colum_name', 'Colum_name']]`  
- グループ化したDataFrameに集約関数を施したい場合：
    - メソッド呼び出しの場合：`grouped.func()`
    - 別に用意された集約関数を渡したい場合：`grouped.apply(func)`
    - 別に用意された集約関数を文字列で渡したい場合：`grouped.apply(eval('func'))`
    - 集約関数を複数渡したい場合：`grouped.agg([func1, func2])`
    - 集約関数を列ごとに複数渡したい場合：`grouped.agg({'colum_name' : [func1, func2]})`

※`agg`関数には関数名の文字列も渡せます。


#### サンプルコード

In [7]:
# Speciesでグループ化したDataFrameの各グループごとに合計を算出する場合
iris.groupby('Species').sum()

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
Species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,250.3,170.9,73.2,12.2
versicolor,296.8,138.5,213.0,66.3
virginica,329.4,148.7,277.6,101.3


In [4]:
# Species 列ごとに Sepal.Length 列の合計を算出する場合
iris.groupby('Species')['Sepal.Length'].sum()

Species
setosa        250.3
versicolor    296.8
virginica     329.4
Name: Sepal.Length, dtype: float64

In [6]:
# Species 列ごとに Petal.Width & Petal.Length 列の合計を算出する場合
iris.groupby('Species')[['Petal.Width', 'Petal.Length']].sum()

Unnamed: 0_level_0,Petal.Width,Petal.Length
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,12.2,73.2
versicolor,66.3,213.0
virginica,101.3,277.6


In [8]:
iris.groupby('Species')[['Petal.Width', 'Petal.Length']].apply(np.sum)

Unnamed: 0_level_0,Petal.Width,Petal.Length
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,12.2,73.2
versicolor,66.3,213.0
virginica,101.3,277.6


In [9]:
iris.groupby('Species')[['Petal.Width', 'Petal.Length']].apply(eval('np.sum'))

Unnamed: 0_level_0,Petal.Width,Petal.Length
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,12.2,73.2
versicolor,66.3,213.0
virginica,101.3,277.6


In [13]:
iris.groupby('Species')['Petal.Length'].agg([np.sum, np.mean])

Unnamed: 0_level_0,sum,mean
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,73.2,1.464
versicolor,213.0,4.26
virginica,277.6,5.552


In [12]:
iris.groupby('Species').agg({'Petal.Length': [np.sum, np.mean], 'Petal.Width': [np.sum, np.mean]})

Unnamed: 0_level_0,Petal.Length,Petal.Length,Petal.Width,Petal.Width
Unnamed: 0_level_1,sum,mean,sum,mean
Species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
setosa,73.2,1.464,12.2,0.244
versicolor,213.0,4.26,66.3,1.326
virginica,277.6,5.552,101.3,2.026


### 行持ち / 列持ち変換

- 複数列持ちの値を行持ちに展開：`pd.unpivot`, `pd.melt`
- 複数行持ちの値を列持ちに変換： `DataFrame.pivot`
    - 集約処理付きの別関数 `pd.pivot_table` もある。

#### サンプルコード

In [14]:
melted = pd.melt(iris, id_vars=['Species'], var_name='variable', value_name='value')
melted

Unnamed: 0,Species,variable,value
0,setosa,Sepal.Length,5.1
1,setosa,Sepal.Length,4.9
...,...,...,...
598,virginica,Petal.Width,2.3
599,virginica,Petal.Width,1.8


In [15]:
# pivotするデータの準備。Species (列にする値) と variable (行にする値) の組がユニークでないとダメ。
unpivot = melted.groupby(['Species', 'variable']).sum()
unpivot = unpivot.reset_index()
unpivot

Unnamed: 0,Species,variable,value
0,setosa,Petal.Length,73.2
1,setosa,Petal.Width,12.2
...,...,...,...
10,virginica,Sepal.Length,329.4
11,virginica,Sepal.Width,148.7


In [18]:
unpivot.pivot(index='variable', columns='Species', values='value')

Species,setosa,versicolor,virginica
variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Petal.Length,73.2,213.0,277.6
Petal.Width,12.2,66.3,101.3
Sepal.Length,250.3,296.8,329.4
Sepal.Width,170.9,138.5,148.7
