# pandas を使ったデータ処理チュートリアル

<br>

In [18]:
import pandas as pd
import numpy as np

s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3'])

df = pd.DataFrame({'C1': [11, 21, 31],
                   'C2': [12, 22, 32],
                   'C3': [13, 23, 33]},
                  index = ['I1', 'I2', 'I3'])
df

Unnamed: 0,C1,C2,C3
I1,11,12,13
I2,21,22,23
I3,31,32,33


---
## ix, iloc, locの使い分け

* iloc は行数列数でのみ指定可能
* loc はラベル名でのみ指定可能
* ix は両方いけて基本万能だが、ラベル名が数字だったりするとややこしいので、安全性を求めるなら非推奨

ix[]でのアクセスは基本的にラベルが優先されてしまうので、ロケーションで指定したいときは.iloc[]を使う(例は↓)

In [13]:
df2 = pd.DataFrame({1: [11, 21, 31],
                    2: [12, 22, 32],
                    3: [13, 23, 33]},
                   index = [2, 2, 2])
df2

Unnamed: 0,1,2,3
2,11,12,13
2,21,22,23
2,31,32,33


In [15]:
df2.ix[2, 1] #ラベル参照

2    11
2    21
2    31
Name: 1, dtype: int64

In [17]:
df2.iloc[2, 1] # 2行目、1列目のデータ

32

---
## 日付データフレームの扱い

In [20]:
df = pd.DataFrame({'N1': [1, 2, 3, 4, 5, 6],
                   'N2': [10, 20, 30, 40, 50, 60],
                   'N3': [6, 5, 4, 3, 2, 1],
                   'F1': [1.1, 2.2, 3.3, 4.4, 5.5, 6.6],
                   'F2': [1.1, 2.2, 3.3, 4.4, 5.5, 6.6],
                   'S1': ['A', 'b', 'C', 'D', 'E', 'F'],
                   'S2': ['A', 'X', 'X', 'X', 'E', 'F'],
                   'D1': pd.date_range('2014-11-01', freq='D', periods=6)},
                  index=pd.date_range('2014-11-01', freq='M', periods=6),
                  columns=['N1', 'N2', 'N3', 'F1', 'F2', 'S1', 'S2', 'D1'])

df

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2014-11-30,1,10,6,1.1,1.1,A,A,2014-11-01
2014-12-31,2,20,5,2.2,2.2,b,X,2014-11-02
2015-01-31,3,30,4,3.3,3.3,C,X,2014-11-03
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06


In [21]:
df.columns

Index(['N1', 'N2', 'N3', 'F1', 'F2', 'S1', 'S2', 'D1'], dtype='object')

In [25]:
df.loc[:, df.columns.str.startswith('N')]

Unnamed: 0,N1,N2,N3
2014-11-30,1,10,6
2014-12-31,2,20,5
2015-01-31,3,30,4
2015-02-28,4,40,3
2015-03-31,5,50,2
2015-04-30,6,60,1


In [27]:
df.columns.isin(['N1', 'N2', 'N4'])

array([ True,  True, False, False, False, False, False, False], dtype=bool)

---
## ソート

In [39]:
df.columns.sort_values() # sort

Index(['D1', 'F1', 'F2', 'N1', 'N2', 'N3', 'S1', 'S2'], dtype='object')

In [40]:
df[df.columns.sort_values()] # カラムの項目でソート

Unnamed: 0,D1,F1,F2,N1,N2,N3,S1,S2
2014-11-30,2014-11-01,1.1,1.1,1,10,6,A,A
2014-12-31,2014-11-02,2.2,2.2,2,20,5,b,X
2015-01-31,2014-11-03,3.3,3.3,3,30,4,C,X
2015-02-28,2014-11-04,4.4,4.4,4,40,3,D,X
2015-03-31,2014-11-05,5.5,5.5,5,50,2,E,E
2015-04-30,2014-11-06,6.6,6.6,6,60,1,F,F


In [88]:
df.sort_values(by='N2', ascending=False) # 指定されたカラムの値でソート

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-01-31,3,30,4,3.3,3.3,C,X,2014-11-03
2014-12-31,2,20,5,2.2,2.2,b,X,2014-11-02
2014-11-30,1,10,6,1.1,1.1,A,A,2014-11-01


In [33]:
df.index.year

array([2014, 2014, 2015, 2015, 2015, 2015], dtype=int32)

In [47]:
df[df.index.year == 2015]

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2015-01-31,3,30,4,3.3,3.3,C,X,2014-11-03
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06


---
* columnsでアクセスするときはdf.loc[:, df.columns]のようにする
* indexでアクセスするときは上の2015年のデータを抜き出している例のようにdf[]に直接アクセス出来る

In [48]:
df['2015']

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2015-01-31,3,30,4,3.3,3.3,C,X,2014-11-03
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06


## ラベルの重複データを削除

In [49]:
df_dup = pd.DataFrame({'N1': [1, 2, 3, 4],
                       'N2': [6, 5, 4, 3],
                       'S1': ['A', 'B', 'C', 'D']},
                      index=['A', 'A', 'A', 'B'])
df_dup

Unnamed: 0,N1,N2,S1
A,1,6,A
A,2,5,B
A,3,4,C
B,4,3,D


In [50]:
df_dup.index.duplicated()

array([False,  True,  True, False], dtype=bool)

In [51]:
df_dup[~df_dup.index.duplicated()] # 論理否定は「~hoge」

Unnamed: 0,N1,N2,S1
A,1,6,A
B,4,3,D


In [53]:
df_dup[~df_dup.index.duplicated(keep='last')]

Unnamed: 0,N1,N2,S1
A,3,4,C
B,4,3,D


In [64]:
df.dtypes

N1             int64
N2             int64
N3             int64
F1           float64
F2           float64
S1            object
S2            object
D1    datetime64[ns]
dtype: object

In [66]:
df.dtypes == np.int64

N1     True
N2     True
N3     True
F1    False
F2    False
S1    False
S2    False
D1    False
dtype: bool

In [74]:
indexer = df.sum() > 50
indexer.index[indexer]

Index(['N2'], dtype='object')

In [154]:
df.loc[:, (df.sum() > 50).values]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
...,...,...,...,...
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


# axisの方向
関数（sum()など）の適用の際に、列方向に適用するのか、行方向に適用するのかを決める必要がある。
方向の指定はaxisで指定することが出来て、axis=0で列方向、axis=1で行方向に適用する。もしデータフレームがテンソルであればaxis=2以上の数字も指定できる。

---
N1カラムとN2カラムの積が100を超える行をフィルタする

In [79]:
df.apply(lambda x: x['N1'] * x['N2'], axis=1)

2014-11-30     10
2014-12-31     40
2015-01-31     90
2015-02-28    160
2015-03-31    250
2015-04-30    360
Freq: M, dtype: int64

In [80]:
df[df.apply(lambda x: x['N1'] * x['N2'], axis=1) > 100]

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06


In [81]:
df[df['N1'] * df['N2'] > 100] # 積ぐらいの簡単な処理ならこれでも出来る

Unnamed: 0,N1,N2,N3,F1,F2,S1,S2,D1
2015-02-28,4,40,3,4.4,4.4,D,X,2014-11-04
2015-03-31,5,50,2,5.5,5.5,E,E,2014-11-05
2015-04-30,6,60,1,6.6,6.6,F,F,2014-11-06


In [82]:
df['S1'].isin(['A', 'D']) # Seriesにもisinが適用できる。isin: リストの中身が含まれているか

2014-11-30     True
2014-12-31    False
2015-01-31    False
2015-02-28     True
2015-03-31    False
2015-04-30    False
Freq: M, Name: S1, dtype: bool

In [91]:
df_dup2 = pd.DataFrame({'N1': [1, 1, 3, 1],
                        'N2': [1, 1, 4, 4],
                        'S1': ['A', 'A', 'B', 'C']})

df_dup2

Unnamed: 0,N1,N2,S1
0,1,1,A
1,1,1,A
2,3,4,B
3,1,4,C


In [92]:
df_dup2.drop_duplicates() # 完全に重複している行を、最初の一つを残して削除

Unnamed: 0,N1,N2,S1
0,1,1,A
2,3,4,B
3,1,4,C


In [93]:
# N1 カラムの値が重複している行を、最初の一つを残して削除
df_dup2.drop_duplicates(subset=['N1'])

Unnamed: 0,N1,N2,S1
0,1,1,A
2,3,4,B


---
## グルーピング、集約、変換

irisデータセットを扱う。sklearnのデフォルトだと'Species'が[0, 1, 2]とラベリングされてるので、種名に変更する。
apply(関数)を用いるとデータの行だったり列だったりの全体に関数を適用できる。

In [113]:
# 表示する行数を設定
pd.options.display.max_rows=5

from sklearn.datasets import load_iris
iris = load_iris()
names = ['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species']

iris = pd.DataFrame(np.concatenate((iris.data, iris.target.reshape(-1, 1)), axis=1), columns=names)

In [125]:
def change_label_name(x):
    if x == 0.0:
        return('setosa')
    elif x == 1.0:
        return('versicolor')
    elif x == 2.0:
        return('virginica')
        
iris['Species'] = iris['Species'].apply(change_label_name)

In [126]:
iris

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
...,...,...,...,...,...
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [127]:
iris.groupby('Species')['Sepal.Length'].sum()

Species
setosa        250.3
versicolor    296.8
virginica     329.4
Name: Sepal.Length, dtype: float64

---
groupby()はラベルや値が同一のものでグループを作る。

In [132]:
iris.groupby('Species').sum()

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
Species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,250.3,170.9,73.2,12.2
versicolor,296.8,138.5,213.0,66.3
virginica,329.4,148.7,277.6,101.3


In [133]:
iris.groupby('Species').agg({'Petal.Length': [np.sum, np.mean], 'Petal.Width': [np.sum, np.mean]})

Unnamed: 0_level_0,Petal.Length,Petal.Length,Petal.Width,Petal.Width
Unnamed: 0_level_1,sum,mean,sum,mean
Species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
setosa,73.2,1.464,12.2,0.244
versicolor,213.0,4.26,66.3,1.326
virginica,277.6,5.552,101.3,2.026


In [134]:
iris.groupby('Species').describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Petal.Length,Petal.Width,Sepal.Length,Sepal.Width
Species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,count,50.000,50.000,50.000,50.000
setosa,mean,1.464,0.244,5.006,3.418
...,...,...,...,...,...
virginica,75%,5.875,2.300,6.900,3.175
virginica,max,6.900,2.500,7.900,3.800


---
## whereでデータ選択

In [135]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
...,...,...,...,...
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In [139]:
s1 = pd.Series([1, 2, 3], index=['I1', 'I2', 'I3'])
s1

I1    1
I2    2
I3    3
dtype: int64

In [137]:
df1 = pd.DataFrame({'C1': [11, 21, 31],
                    'C2': [12, 22, 32],
                    'C3': [13, 23, 33]},
                   index = ['I1', 'I2', 'I3'])
df1

Unnamed: 0,C1,C2,C3
I1,11,12,13
I2,21,22,23
I3,31,32,33


In [140]:
s1.where(s1 > 2) # 条件を満たさない部分はNaNが埋められる

I1    NaN
I2    NaN
I3    3.0
dtype: float64

In [141]:
s1.where(s1 > 2, 0) # NaN埋めの代わりに引数で指定したもので埋めることが出来る

I1    0
I2    0
I3    3
dtype: int64

"第二引数にはデータと同じ長さの numpy.array や Series も渡せる。このとき、パディングはそれぞれ対応する位置にある値で行われ、第一引数の条件に該当しないデータを 第二引数で置換するような動きになる。つまり if - else のような表現だと考えていい。" http://sinhrks.hatenablog.com/entry/2014/11/18/003204

In [142]:
s1.where(s1 > 2, np.array([4, 5, 6]))

I1    4
I2    5
I3    3
dtype: int64

In [143]:
# 置換用の Series を作る
s2 = pd.Series([4, 5, 6], index = ['I1', 'I2', 'I3'])
s2

I1    4
I2    5
I3    6
dtype: int64

In [144]:
s1.where(s1 > 2, s2)

I1    4
I2    5
I3    3
dtype: int64

In [145]:
df1.where(df1 > 22)

Unnamed: 0,C1,C2,C3
I1,,,
I2,,,23.0
I3,31.0,32.0,33.0


In [148]:
# where がことさら便利なのは以下のようなケース。
# DataFrame に新しいカラムを作りたい。 (あるいは既存の列の値を置き換えたい)
# 新しいカラムは、"C2" 列の値が 30を超える場合は "C1" 列の値を使う。
# それ以外は "C3" 列の値を使う。
# これが↓のコードだけで出来る。
df1['C4'] = df1['C1'].where(df1['C2'] > 30, df1['C3'])
df1

Unnamed: 0,C1,C2,C3,C4
I1,11,12,13,13
I2,21,22,23,23
I3,31,32,33,31


In [150]:
df1.mask(df1 > 22) # whereの逆

Unnamed: 0,C1,C2,C3,C4
I1,11.0,12.0,13.0,13.0
I2,21.0,22.0,,
I3,,,,


In [151]:
df1.mask(df1 > 22, 0)

Unnamed: 0,C1,C2,C3,C4
I1,11,12,13,13
I2,21,22,0,0
I3,0,0,0,0


## queryでデータ選択
queryは条件式を文字列で渡す。そのためスッキリ書けることが特徴

In [152]:
df1.query('C1 > 20 & C2 < 30')

Unnamed: 0,C1,C2,C3,C4
I2,21,22,23,23


In [153]:
df1.query('C1 in [11, 21]')

Unnamed: 0,C1,C2,C3,C4
I1,11,12,13,13
I2,21,22,23,23


In [160]:
x = np.sqrt(400) # 数式など、queryに含めることが出来ない式もあるので、その場合は変数に一回渡す
df1.query('C1 > @x & C2 < 30')

Unnamed: 0,C1,C2,C3,C4
I2,21,22,23,23
