# Numpy と Pandas を用いた演算

In [1]:
# 数値計算やデータフレーム操作に関するライブラリをインポートする
import numpy as np
import pandas as pd

## まずは Pandas の基本操作から

In [2]:
df = pd.DataFrame([[1,4,7,10,13,16],[2,5,8,11,14,17],[3,6,9,12,15,18],[21,24,27,20,23,26]],
                   index = ['i1','i2','i3', 'i4'],
                   columns = list("abcdef"))

In [3]:
df

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


In [4]:
# インデックス名を指定した行の取り出し。
df.ix['i1']

a     1
b     4
c     7
d    10
e    13
f    16
Name: i1, dtype: int64

In [5]:
# インデックス番号を指定した行の取り出し
df.ix[1]

a     2
b     5
c     8
d    11
e    14
f    17
Name: i2, dtype: int64

In [6]:
# インデックス番号を指定した行の取り出し
df.ix[1:] # （ゼロスタートで）１行目以降を取り出す

Unnamed: 0,a,b,c,d,e,f
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


<font color="#ff0000">日常的な感覚では「一番最初」を示すのに「１」を使いますが、Pythonを含む多くのプログラミング言語では「一番最初」を示すのに「０」（ゼロ）を使います。<b>[1:]</b>で、「（ゼロスタートで）１行目以降全て」＝「（日常的な感覚で）２行目以降全て」を指していることに注意してください。</font>

In [7]:
# インデックス番号を指定した行の取り出し
df.ix[:1] # （ゼロスタートで）１行目より手前を取り出す

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16


<font color="#ff0000"><b>[:1]</b>で、「（ゼロスタートで）１行目より手前全て」を示します。「（ゼロスタートで）１行目」は含まれないことに注意してください。</font>

In [8]:
# インデックス番号を指定した行の取り出し
df.ix[1:3] # （ゼロスタートで）１行目から、３行目の手前までを取り出す

Unnamed: 0,a,b,c,d,e,f
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18


<font color="#ff0000"><b>[1:3]</b>で、「（ゼロスタートで）１行目以降〜３行目手前まで」を示します。「（ゼロスタートで）３行目」は含まれないことに注意してください。</font>

In [9]:
# 一つ目のパラメータで行を、二つ目のパラメータで列を指定して取り出す
df.ix['i3','b']

6

In [10]:
# : は全指定の意味
df.ix[:, 'a']

i1     1
i2     2
i3     3
i4    21
Name: a, dtype: int64

In [11]:
# 複数の指定も可能。飛び飛びの指定も可能。
# 番号での指定も名前での指定も可能。
df.ix[[1,3], ['b','d']]

Unnamed: 0,b,d
i2,5,11
i4,24,20


In [12]:
# 列に関する操作は[カラム名]で渡す。
df['a']

i1     1
i2     2
i3     3
i4    21
Name: a, dtype: int64

In [13]:
# arrayとして取得する。
df['a'].values

array([ 1,  2,  3, 21])

In [14]:
# さらにindex名を指定することで値として取得できる。
df['a']['i3']

3

In [15]:
# DataFrameをtableとみなして、位置指定から値を明示的に取る方法。
df.iloc[2,3]

12

In [16]:
# これも同じ
df.ix[2,3]

12

In [17]:
# 特定の列だけ取り出す
df.iloc[2]

a     3
b     6
c     9
d    12
e    15
f    18
Name: i3, dtype: int64

In [18]:
# 複数の列を取り出す
df.iloc[:, 2:4]

Unnamed: 0,c,d
i1,7,10
i2,8,11
i3,9,12
i4,27,20


In [19]:
# 改めて、データの中身を確認
df

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


In [20]:
# 最後の列だけ除外する（「最後の」は「-1」で指定できます）。
df.iloc[:, :-1]

Unnamed: 0,a,b,c,d,e
i1,1,4,7,10,13
i2,2,5,8,11,14
i3,3,6,9,12,15
i4,21,24,27,20,23


In [21]:
# 指定した列だけ除外する（この例では、２列目だけ除外しています）。
# すぐ下の方法と結果は同じです。残す列を選ぶ方法。
df.iloc[:, [0,1,3,4,5]]

Unnamed: 0,a,b,d,e,f
i1,1,4,10,13,16
i2,2,5,11,14,17
i3,3,6,12,15,18
i4,21,24,20,23,26


In [22]:
# 指定した列だけ除外する（この例では、２列目だけ除外しています）。
# すぐ上の方法と結果は同じです。捨てる列を選ぶ方法。
df.drop('c', axis=1)

Unnamed: 0,a,b,d,e,f
i1,1,4,10,13,16
i2,2,5,11,14,17
i3,3,6,12,15,18
i4,21,24,20,23,26


In [23]:
# 指定した行だけ除外する（この例では、２行目だけ除外しています）。
df.drop('i2')

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


## Numpy で生成した乱数を Pandas で使う

In [24]:
df1 = pd.DataFrame(np.random.randint(10, size=(4,5)))

In [25]:
df1

Unnamed: 0,0,1,2,3,4
0,5,3,3,3,4
1,2,8,5,2,4
2,4,5,7,8,3
3,0,3,4,0,3


In [26]:
# 条件を満たすものだけを抽出
df1[df1>1]

Unnamed: 0,0,1,2,3,4
0,5.0,3,3,3.0,4
1,2.0,8,5,2.0,4
2,4.0,5,7,8.0,3
3,,3,4,,3


In [27]:
# # 条件をみたすものに-1を代入
df1[df1>5] = -1

In [28]:
df1

Unnamed: 0,0,1,2,3,4
0,5,3,3,3,4
1,2,-1,5,2,4
2,4,5,-1,-1,3
3,0,3,4,0,3


## 欠損値を含むデータを取り扱う

In [29]:
# 欠損値 (NaN) を含むランダムデータを作成する
df2 = pd.DataFrame(np.random.randint(10, size=(8,7)))
df2 = df2[df2>0]

In [30]:
df2

Unnamed: 0,0,1,2,3,4,5,6
0,6,9.0,6,1.0,2,6.0,8
1,4,3.0,9,3.0,2,4.0,1
2,4,9.0,2,5.0,4,4.0,6
3,7,,8,1.0,9,1.0,3
4,5,,5,6.0,1,9.0,8
5,3,3.0,4,2.0,7,,7
6,1,4.0,6,,1,2.0,2
7,6,9.0,4,7.0,6,1.0,4


In [31]:
# NaNを含む行を削除
df2.dropna()

Unnamed: 0,0,1,2,3,4,5,6
0,6,9,6,1,2,6,8
1,4,3,9,3,2,4,1
2,4,9,2,5,4,4,6
7,6,9,4,7,6,1,4


In [32]:
# NaNを含む列を削除
df2.dropna(axis=1)

Unnamed: 0,0,2,4,6
0,6,6,2,8
1,4,9,2,1
2,4,2,4,6
3,7,8,9,3
4,5,5,1,8
5,3,4,7,7
6,1,6,1,2
7,6,4,6,4


In [33]:
# NaNを埋める
df2.fillna(-1)

Unnamed: 0,0,1,2,3,4,5,6
0,6,9,6,1,2,6,8
1,4,3,9,3,2,4,1
2,4,9,2,5,4,4,6
3,7,-1,8,1,9,1,3
4,5,-1,5,6,1,9,8
5,3,3,4,2,7,-1,7
6,1,4,6,-1,1,2,2
7,6,9,4,7,6,1,4


In [34]:
#直前の値で埋める
df2.fillna(method='pad')

Unnamed: 0,0,1,2,3,4,5,6
0,6,9,6,1,2,6,8
1,4,3,9,3,2,4,1
2,4,9,2,5,4,4,6
3,7,9,8,1,9,1,3
4,5,9,5,6,1,9,8
5,3,3,4,2,7,9,7
6,1,4,6,2,1,2,2
7,6,9,4,7,6,1,4


In [35]:
#直後の値で埋める
df2.fillna(method='bfill')

Unnamed: 0,0,1,2,3,4,5,6
0,6,9,6,1,2,6,8
1,4,3,9,3,2,4,1
2,4,9,2,5,4,4,6
3,7,3,8,1,9,1,3
4,5,3,5,6,1,9,8
5,3,3,4,2,7,2,7
6,1,4,6,7,1,2,2
7,6,9,4,7,6,1,4


In [36]:
# misssing valueの前後の線形の値で埋める
df2.apply(pd.Series.interpolate)

Unnamed: 0,0,1,2,3,4,5,6
0,6,9,6,1.0,2,6.0,8
1,4,3,9,3.0,2,4.0,1
2,4,9,2,5.0,4,4.0,6
3,7,7,8,1.0,9,1.0,3
4,5,5,5,6.0,1,9.0,8
5,3,3,4,2.0,7,5.5,7
6,1,4,6,4.5,1,2.0,2
7,6,9,4,7.0,6,1.0,4


## 重複のあるデータを取り扱う

In [37]:
df3 = pd.DataFrame(np.random.randint(2, size=(10,4)))

In [38]:
df3

Unnamed: 0,0,1,2,3
0,0,1,1,1
1,1,0,0,0
2,0,1,0,1
3,1,0,0,0
4,1,0,1,0
5,0,0,0,0
6,0,1,0,1
7,0,1,1,1
8,0,1,0,0
9,1,0,0,0


In [39]:
# 重複を調べる
df3.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
8    False
9     True
dtype: bool

In [40]:
# 重複を調査するcolumnを指定することも可能
df3.duplicated(0)

0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [41]:
# 重複を除去する
df3.drop_duplicates()

Unnamed: 0,0,1,2,3
0,0,1,1,1
1,1,0,0,0
2,0,1,0,1
4,1,0,1,0
5,0,0,0,0
8,0,1,0,0


In [42]:
# 指定した列の重複を除去する
df3.drop_duplicates(0)

Unnamed: 0,0,1,2,3
0,0,1,1,1
1,1,0,0,0


In [43]:
# 指定した列の重複を除去し最後のを残す
df3.drop_duplicates(0, take_last=True)

Unnamed: 0,0,1,2,3
8,0,1,0,0
9,1,0,0,0


## 行列演算を行う

In [44]:
A = pd.DataFrame(np.random.randint(10, size=(2,2)))
B = pd.DataFrame(np.random.randint(10, size=(2,2)))

In [45]:
A

Unnamed: 0,0,1
0,8,7
1,9,3


In [46]:
B

Unnamed: 0,0,1
0,4,3
1,8,7


In [47]:
# 行列の転置
A.T

Unnamed: 0,0,1
0,8,9
1,7,3


In [48]:
# 行列の転置
B.T

Unnamed: 0,0,1
0,4,8
1,3,7


In [49]:
# 行列の要素ごとの和
A + B

Unnamed: 0,0,1
0,12,10
1,17,10


In [50]:
# 行列の要素ごとの積（「行列の積」ではない）
A * B

Unnamed: 0,0,1
0,32,21
1,72,21


In [51]:
# 行列の積をとりたい場合は DataFrame.dot。ただし、行列の積をとるためには元データの columns と 引数の index のラベルが一致している必要がある
A.dot(B)

Unnamed: 0,0,1
0,88,73
1,60,48


In [52]:
B.dot(A)

Unnamed: 0,0,1
0,59,37
1,127,77


## 簡単な統計量

In [53]:
df4 = pd.DataFrame(np.random.randint(10, size=(5,10)))

In [54]:
df4

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,2,5,7,1,9,9,9,3,1,0
1,4,5,0,1,8,2,4,4,1,9
2,1,5,5,2,9,4,7,9,6,1
3,5,9,2,6,5,0,7,4,2,7
4,2,7,4,0,5,6,5,7,9,7


In [55]:
# 基本統計量の表示
df4.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
count,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
mean,2.8,6.2,3.6,2.0,7.2,4.2,6.4,5.4,3.8,4.8
std,1.643168,1.788854,2.701851,2.345208,2.04939,3.49285,1.949359,2.50998,3.563706,4.024922
min,1.0,5.0,0.0,0.0,5.0,0.0,4.0,3.0,1.0,0.0
25%,2.0,5.0,2.0,1.0,5.0,2.0,5.0,4.0,1.0,1.0
50%,2.0,5.0,4.0,1.0,8.0,4.0,7.0,4.0,2.0,7.0
75%,4.0,7.0,5.0,2.0,9.0,6.0,7.0,7.0,6.0,7.0
max,5.0,9.0,7.0,6.0,9.0,9.0,9.0,9.0,9.0,9.0


In [56]:
# 列の合計値
df4.sum()

0    14
1    31
2    18
3    10
4    36
5    21
6    32
7    27
8    19
9    24
dtype: int64

In [57]:
# 列の平均値
df4.mean()

0    2.8
1    6.2
2    3.6
3    2.0
4    7.2
5    4.2
6    6.4
7    5.4
8    3.8
9    4.8
dtype: float64

In [58]:
# 列の不偏分散
df4.var()

0     2.7
1     3.2
2     7.3
3     5.5
4     4.2
5    12.2
6     3.8
7     6.3
8    12.7
9    16.2
dtype: float64

In [59]:
# 列の標本分散
df4.var(ddof=False)

0     2.16
1     2.56
2     5.84
3     4.40
4     3.36
5     9.76
6     3.04
7     5.04
8    10.16
9    12.96
dtype: float64

In [60]:
# 列の不偏標準偏差
df4.std()

0    1.643168
1    1.788854
2    2.701851
3    2.345208
4    2.049390
5    3.492850
6    1.949359
7    2.509980
8    3.563706
9    4.024922
dtype: float64

In [61]:
# 列の標本標準偏差
df4.std(ddof=False)

0    1.469694
1    1.600000
2    2.416609
3    2.097618
4    1.833030
5    3.124100
6    1.743560
7    2.244994
8    3.187475
9    3.600000
dtype: float64

In [62]:
# 行の合計値
df4.sum(axis = 1)

0    46
1    38
2    49
3    47
4    52
dtype: int64

In [63]:
# 行の平均値
df4.mean(axis = 1)

0    4.6
1    3.8
2    4.9
3    4.7
4    5.2
dtype: float64

## 行列の正規化（標準化）

正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。

In [64]:
df4

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,2,5,7,1,9,9,9,3,1,0
1,4,5,0,1,8,2,4,4,1,9
2,1,5,5,2,9,4,7,9,6,1
3,5,9,2,6,5,0,7,4,2,7
4,2,7,4,0,5,6,5,7,9,7


In [65]:
# 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。
df4.apply(lambda x: (x-x.mean())/x.std(), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,-0.486864,-0.67082,1.258396,-0.426401,0.87831,1.374236,1.333772,-0.956183,-0.785699,-1.19257
1,0.730297,-0.67082,-1.33242,-0.426401,0.39036,-0.629858,-1.231174,-0.557773,-0.785699,1.043498
2,-1.095445,-0.67082,0.518163,0.0,0.87831,-0.05726,0.307794,1.434274,0.617335,-0.944118
3,1.338877,1.565248,-0.592187,1.705606,-1.07349,-1.202457,0.307794,-0.557773,-0.505092,0.546594
4,-0.486864,0.447214,0.148047,-0.852803,-1.07349,0.515339,-0.718185,0.637455,1.459155,0.546594


In [66]:
# 最大値を1、最小値を0にするような正規化もできます。
df4.apply(lambda x: (x-x.min())/(x.max() - x.min()), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.25,0.0,1.0,0.166667,1.0,1.0,1.0,0.0,0.0,0.0
1,0.75,0.0,0.0,0.166667,0.75,0.222222,0.0,0.166667,0.0,1.0
2,0.0,0.0,0.714286,0.333333,1.0,0.444444,0.6,1.0,0.625,0.111111
3,1.0,1.0,0.285714,1.0,0.0,0.0,0.6,0.166667,0.125,0.777778
4,0.25,0.5,0.571429,0.0,0.0,0.666667,0.2,0.666667,1.0,0.777778


In [67]:
# 合計値が１になるような正規化もできます。
df4.apply(lambda x: x/x.sum(), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.142857,0.16129,0.388889,0.1,0.25,0.428571,0.28125,0.111111,0.052632,0.0
1,0.285714,0.16129,0.0,0.1,0.222222,0.095238,0.125,0.148148,0.052632,0.375
2,0.071429,0.16129,0.277778,0.2,0.25,0.190476,0.21875,0.333333,0.315789,0.041667
3,0.357143,0.290323,0.111111,0.6,0.138889,0.0,0.21875,0.148148,0.105263,0.291667
4,0.142857,0.225806,0.222222,0.0,0.138889,0.285714,0.15625,0.259259,0.473684,0.291667


## 相関行列

相関行列とは、各要素間の相関係数を並べたものであり、その性質から必ず対称行列である。

In [68]:
# まずランダムな行列を作ってみる
df5 = pd.DataFrame(np.random.rand(5, 10))

In [69]:
df5

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.149979,0.357123,0.502519,0.137962,0.476472,0.502804,0.083193,0.645026,0.21551,0.719802
1,0.949683,0.770061,0.599593,0.440759,0.335826,0.792833,0.585388,0.092773,0.944758,0.542352
2,0.558805,0.49477,0.66799,0.165096,0.462989,0.351962,0.999878,0.479767,0.644196,0.126589
3,0.066733,0.346524,0.251804,0.500158,0.502779,0.383295,0.98106,0.079775,0.564824,0.86701
4,0.820961,0.543741,0.580239,0.139154,0.66016,0.779923,0.890196,0.821882,0.378565,0.948808


In [70]:
# 行間の相関行列
pd.DataFrame(np.corrcoef(df5.dropna().as_matrix().tolist()))

Unnamed: 0,0,1,2,3,4
0,1.0,-0.46384,-0.465521,-0.135069,0.423565
1,-0.46384,1.0,0.207891,0.012271,-0.091477
2,-0.465521,0.207891,1.0,0.101954,0.202584
3,-0.135069,0.012271,0.101954,1.0,0.121075
4,0.423565,-0.091477,0.202584,0.121075,1.0


In [71]:
# 列間の相関行列
pd.DataFrame(np.corrcoef(df5.dropna().T.as_matrix().tolist()))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,0.92801,0.733533,-0.089703,-0.093196,0.777128,0.198726,0.103352,0.548521,-0.197293
1,0.92801,1.0,0.602538,0.19828,-0.426022,0.743657,0.077609,-0.223824,0.755696,-0.250721
2,0.733533,0.602538,1.0,-0.601153,-0.123018,0.360401,-0.071721,0.441452,0.206711,-0.604848
3,-0.089703,0.19828,-0.601153,1.0,-0.494646,-0.002528,0.253284,-0.942726,0.645614,0.164966
4,-0.093196,-0.426022,-0.123018,-0.494646,1.0,0.057738,0.300839,0.715551,-0.684777,0.550137
5,0.777128,0.743657,0.360401,-0.002528,0.057738,1.0,-0.187877,0.167027,0.217593,0.386956
6,0.198726,0.077609,-0.071721,0.253284,0.300839,-0.187877,1.0,-0.200521,0.375889,-0.137575
7,0.103352,-0.223824,0.441452,-0.942726,0.715551,0.167027,-0.200521,1.0,-0.744363,0.15282
8,0.548521,0.755696,0.206711,0.645614,-0.684777,0.217593,0.375889,-0.744363,1.0,-0.451596
9,-0.197293,-0.250721,-0.604848,0.164966,0.550137,0.386956,-0.137575,0.15282,-0.451596,1.0
