<h3 STYLE="background: #c2edff;padding: 0.5em;">Step 3. Numpy と Pandas を用いた演算</h3>

<ol>
<li><a href="#0">リストからデータフレームへ、データフレームからリストへ</a>
<li><a href="#1">Pandas の基本操作</a>
<li><a href="#2">Numpy で生成した乱数を Pandas で使う</a>
<li><a href="#3">欠損値を含むデータを取り扱う</a>
<li><a href="#4">重複のあるデータを取り扱う</a>
<li><a href="#5">行列演算を行う</a>
<li><a href="#6">簡単な統計量</a>
<li><a href="#7">行列の正規化（標準化）</a>
<li><a href="#8">相関行列</a>
</ol>

In [1]:
# 数値計算やデータフレーム操作に関するライブラリをインポートする
import numpy as np
import pandas as pd

<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="0">1. リストからデータフレームへ、データフレームからリストへ</a></h3>

In [19]:
list1 = [1, 2, 3, 4]
df = pd.DataFrame(list1)

In [20]:
df

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [24]:
df.values.tolist()

[[1], [2], [3], [4]]

In [25]:
matrix1 = [[1, 2, 3, 4], [5, 6, 7, 8]]
df = pd.DataFrame(matrix1)

In [26]:
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


In [27]:
df.values.tolist()

[[1, 2, 3, 4], [5, 6, 7, 8]]

<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="1">2. Pandas の基本操作</a></h3>

In [28]:
df = pd.DataFrame([[1,4,7,10,13,16],[2,5,8,11,14,17],[3,6,9,12,15,18],[21,24,27,20,23,26]],
                   index = ['i1','i2','i3', 'i4'],
                   columns = list("abcdef"))

In [29]:
df

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


In [30]:
df.index

Index(['i1', 'i2', 'i3', 'i4'], dtype='object')

In [31]:
df.columns

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [4]:
# インデックス名を指定した行の取り出し。
df.ix['i1']

a     1
b     4
c     7
d    10
e    13
f    16
Name: i1, dtype: int64

In [5]:
# インデックス番号を指定した行の取り出し
df.ix[1]

a     2
b     5
c     8
d    11
e    14
f    17
Name: i2, dtype: int64

In [6]:
# インデックス番号を指定した行の取り出し
df.ix[1:] # （ゼロスタートで）１行目以降を取り出す

Unnamed: 0,a,b,c,d,e,f
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


<font color="#ff0000">日常的な感覚では「一番最初」を示すのに「１」を使いますが、Pythonを含む多くのプログラミング言語では「一番最初」を示すのに「０」（ゼロ）を使います。<b>[1:]</b>で、「（ゼロスタートで）１行目以降全て」＝「（日常的な感覚で）２行目以降全て」を指していることに注意してください。</font>

In [7]:
# インデックス番号を指定した行の取り出し
df.ix[:1] # （ゼロスタートで）１行目より手前を取り出す

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16


<font color="#ff0000"><b>[:1]</b>で、「（ゼロスタートで）１行目より手前全て」を示します。「（ゼロスタートで）１行目」は含まれないことに注意してください。</font>

In [8]:
# インデックス番号を指定した行の取り出し
df.ix[1:3] # （ゼロスタートで）１行目から、３行目の手前までを取り出す

Unnamed: 0,a,b,c,d,e,f
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18


<font color="#ff0000"><b>[1:3]</b>で、「（ゼロスタートで）１行目以降〜３行目手前まで」を示します。「（ゼロスタートで）３行目」は含まれないことに注意してください。</font>

In [9]:
# 一つ目のパラメータで行を、二つ目のパラメータで列を指定して取り出す
df.ix['i3','b']

6

In [10]:
# : は全指定の意味
df.ix[:, 'a']

i1     1
i2     2
i3     3
i4    21
Name: a, dtype: int64

In [11]:
# 複数の指定も可能。飛び飛びの指定も可能。
# 番号での指定も名前での指定も可能。
df.ix[[1,3], ['b','d']]

Unnamed: 0,b,d
i2,5,11
i4,24,20


In [12]:
# 列に関する操作は[カラム名]で渡す。
df['a']

i1     1
i2     2
i3     3
i4    21
Name: a, dtype: int64

In [13]:
# arrayとして取得する。
df['a'].values

array([ 1,  2,  3, 21])

In [14]:
# さらにindex名を指定することで値として取得できる。
df['a']['i3']

3

In [15]:
# DataFrameをtableとみなして、位置指定から値を明示的に取る方法。
df.iloc[2,3]

12

In [16]:
# これも同じ
df.ix[2,3]

12

In [17]:
# 特定の列だけ取り出す
df.iloc[2]

a     3
b     6
c     9
d    12
e    15
f    18
Name: i3, dtype: int64

In [18]:
# 複数の列を取り出す
df.iloc[:, 2:4]

Unnamed: 0,c,d
i1,7,10
i2,8,11
i3,9,12
i4,27,20


In [19]:
# 改めて、データの中身を確認
df

Unnamed: 0,a,b,c,d,e,f
i1,1,4,7,10,13,16
i2,2,5,8,11,14,17
i3,3,6,9,12,15,18
i4,21,24,27,20,23,26


In [20]:
# 最後の列だけ除外する（「最後の」は「-1」で指定できます）。
df.iloc[:, :-1]

Unnamed: 0,a,b,c,d,e
i1,1,4,7,10,13
i2,2,5,8,11,14
i3,3,6,9,12,15
i4,21,24,27,20,23


In [21]:
# 指定した列だけ除外する（この例では、２列目だけ除外しています）。
df.iloc[:, [0,1,3,4,5]]

Unnamed: 0,a,b,d,e,f
i1,1,4,10,13,16
i2,2,5,11,14,17
i3,3,6,12,15,18
i4,21,24,20,23,26


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="2">3. Numpy で生成した乱数を Pandas で使う</a></h3>

In [22]:
df1 = pd.DataFrame(np.random.randint(10, size=(4,5)))

In [23]:
df1

Unnamed: 0,0,1,2,3,4
0,5,3,3,2,2
1,7,1,1,2,0
2,1,5,9,3,0
3,1,1,2,0,7


In [24]:
# 条件を満たすものだけを抽出
df1[df1>1]

Unnamed: 0,0,1,2,3,4
0,5.0,3.0,3.0,2.0,2.0
1,7.0,,,2.0,
2,,5.0,9.0,3.0,
3,,,2.0,,7.0


In [25]:
# # 条件をみたすものに-1を代入
df1[df1>5] = -1

In [26]:
df1

Unnamed: 0,0,1,2,3,4
0,5,3,3,2,2
1,-1,1,1,2,0
2,1,5,-1,3,0
3,1,1,2,0,-1


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="3">4. 欠損値を含むデータを取り扱う</a></h3>

In [38]:
# 欠損値 (NaN) を含むランダムデータを作成する
df2 = pd.DataFrame(np.random.randint(10, size=(8,7)))
df2 = df2[df2>0]

In [39]:
df2

Unnamed: 0,0,1,2,3,4,5,6
0,6,7,,4,5.0,1,
1,3,5,2.0,8,,2,8.0
2,5,4,3.0,9,,2,4.0
3,9,5,,6,5.0,6,4.0
4,4,6,9.0,6,1.0,3,9.0
5,8,6,2.0,7,,2,6.0
6,3,8,7.0,7,9.0,4,8.0
7,2,4,5.0,9,3.0,8,5.0


In [40]:
# NaNを含む行を削除
df2.dropna()

Unnamed: 0,0,1,2,3,4,5,6
4,4,6,9,6,1,3,9
6,3,8,7,7,9,4,8
7,2,4,5,9,3,8,5


In [41]:
# NaNを含む列を削除
df2.dropna(axis=1)

Unnamed: 0,0,1,3,5
0,6,7,4,1
1,3,5,8,2
2,5,4,9,2
3,9,5,6,6
4,4,6,6,3
5,8,6,7,2
6,3,8,7,4
7,2,4,9,8


In [42]:
#直前の値で埋める
df2.fillna(method='pad')

Unnamed: 0,0,1,2,3,4,5,6
0,6,7,,4,5,1,
1,3,5,2.0,8,5,2,8.0
2,5,4,3.0,9,5,2,4.0
3,9,5,3.0,6,5,6,4.0
4,4,6,9.0,6,1,3,9.0
5,8,6,2.0,7,1,2,6.0
6,3,8,7.0,7,9,4,8.0
7,2,4,5.0,9,3,8,5.0


In [43]:
#直後の値で埋める
df2.fillna(method='bfill')

Unnamed: 0,0,1,2,3,4,5,6
0,6,7,2,4,5,1,8
1,3,5,2,8,5,2,8
2,5,4,3,9,5,2,4
3,9,5,9,6,5,6,4
4,4,6,9,6,1,3,9
5,8,6,2,7,9,2,6
6,3,8,7,7,9,4,8
7,2,4,5,9,3,8,5


In [44]:
# misssing valueの前後の線形の値で埋める
df2.apply(pd.Series.interpolate)

Unnamed: 0,0,1,2,3,4,5,6
0,6,7,,4,5,1,
1,3,5,2.0,8,5,2,8.0
2,5,4,3.0,9,5,2,4.0
3,9,5,6.0,6,5,6,4.0
4,4,6,9.0,6,1,3,9.0
5,8,6,2.0,7,5,2,6.0
6,3,8,7.0,7,9,4,8.0
7,2,4,5.0,9,3,8,5.0


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="4">5. 重複のあるデータを取り扱う</a></h3>

In [35]:
df3 = pd.DataFrame(np.random.randint(2, size=(10,4)))

In [36]:
df3

Unnamed: 0,0,1,2,3
0,0,0,1,0
1,1,0,0,1
2,0,1,0,0
3,1,1,1,1
4,1,0,1,0
5,0,1,1,1
6,0,1,0,0
7,0,0,0,1
8,1,1,0,1
9,0,0,1,0


In [37]:
# 重複を調べる
df3.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
8    False
9     True
dtype: bool

In [38]:
# 重複を調査するcolumnを指定することも可能
df3.duplicated(0)

0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [39]:
# 重複を除去する
df3.drop_duplicates()

Unnamed: 0,0,1,2,3
0,0,0,1,0
1,1,0,0,1
2,0,1,0,0
3,1,1,1,1
4,1,0,1,0
5,0,1,1,1
7,0,0,0,1
8,1,1,0,1


In [40]:
# 指定した列の重複を除去する
df3.drop_duplicates(0)

Unnamed: 0,0,1,2,3
0,0,0,1,0
1,1,0,0,1


In [41]:
# 指定した列の重複を除去し最後のを残す
df3.drop_duplicates(0, take_last=True)

Unnamed: 0,0,1,2,3
8,1,1,0,1
9,0,0,1,0


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="5">6. 行列演算を行う</a></h3>

In [42]:
A = pd.DataFrame(np.random.randint(10, size=(2,2)))
B = pd.DataFrame(np.random.randint(10, size=(2,2)))

In [43]:
A

Unnamed: 0,0,1
0,6,5
1,1,0


In [44]:
B

Unnamed: 0,0,1
0,1,7
1,4,4


In [45]:
# 行列の転置
A.T

Unnamed: 0,0,1
0,6,1
1,5,0


In [46]:
# 行列の転置
B.T

Unnamed: 0,0,1
0,1,4
1,7,4


In [47]:
# 行列の要素ごとの和
A + B

Unnamed: 0,0,1
0,7,12
1,5,4


In [48]:
# 行列の要素ごとの積（「行列の積」ではない）
A * B

Unnamed: 0,0,1
0,6,35
1,4,0


In [49]:
# 行列の積をとりたい場合は DataFrame.dot。ただし、行列の積をとるためには元データの columns と 引数の index のラベルが一致している必要がある
A.dot(B)

Unnamed: 0,0,1
0,26,62
1,1,7


In [50]:
B.dot(A)

Unnamed: 0,0,1
0,13,5
1,28,20


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="6">7. 簡単な統計量</a></h3>

In [51]:
df4 = pd.DataFrame(np.random.randint(10, size=(5,10)))

In [52]:
df4

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,9,8,4,2,4,5,0,0,5,0
1,4,8,8,8,5,1,1,0,9,2
2,1,9,7,8,1,3,0,1,6,4
3,4,7,1,8,5,6,2,4,2,7
4,8,8,1,4,5,5,1,8,1,8


In [53]:
# 基本統計量の表示
df4.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
count,5.0,5.0,5.0,5.0,5.0,5,5.0,5.0,5.0,5.0
mean,5.2,8.0,4.2,6.0,4.0,4,0.8,2.6,4.6,4.2
std,3.271085,0.707107,3.271085,2.828427,1.732051,2,0.83666,3.435113,3.209361,3.34664
min,1.0,7.0,1.0,2.0,1.0,1,0.0,0.0,1.0,0.0
25%,4.0,8.0,1.0,4.0,4.0,3,0.0,0.0,2.0,2.0
50%,4.0,8.0,4.0,8.0,5.0,5,1.0,1.0,5.0,4.0
75%,8.0,8.0,7.0,8.0,5.0,5,1.0,4.0,6.0,7.0
max,9.0,9.0,8.0,8.0,5.0,6,2.0,8.0,9.0,8.0


In [54]:
# 列の合計値
df4.sum()

0    26
1    40
2    21
3    30
4    20
5    20
6     4
7    13
8    23
9    21
dtype: int64

In [55]:
# 列の平均値
df4.mean()

0    5.2
1    8.0
2    4.2
3    6.0
4    4.0
5    4.0
6    0.8
7    2.6
8    4.6
9    4.2
dtype: float64

In [56]:
# 列の不偏分散
df4.var()

0    10.7
1     0.5
2    10.7
3     8.0
4     3.0
5     4.0
6     0.7
7    11.8
8    10.3
9    11.2
dtype: float64

In [57]:
# 列の標本分散
df4.var(ddof=False)

0    8.56
1    0.40
2    8.56
3    6.40
4    2.40
5    3.20
6    0.56
7    9.44
8    8.24
9    8.96
dtype: float64

In [58]:
# 列の不偏標準偏差
df4.std()

0    3.271085
1    0.707107
2    3.271085
3    2.828427
4    1.732051
5    2.000000
6    0.836660
7    3.435113
8    3.209361
9    3.346640
dtype: float64

In [59]:
# 列の標本標準偏差
df4.std(ddof=False)

0    2.925748
1    0.632456
2    2.925748
3    2.529822
4    1.549193
5    1.788854
6    0.748331
7    3.072458
8    2.870540
9    2.993326
dtype: float64

In [60]:
# 行の合計値
df4.sum(axis = 1)

0    37
1    46
2    40
3    46
4    49
dtype: int64

In [61]:
# 行の平均値
df4.mean(axis = 1)

0    3.7
1    4.6
2    4.0
3    4.6
4    4.9
dtype: float64

<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="7">8. 行列の正規化（標準化）</a></h3>

正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。

In [62]:
df4

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,9,8,4,2,4,5,0,0,5,0
1,4,8,8,8,5,1,1,0,9,2
2,1,9,7,8,1,3,0,1,6,4
3,4,7,1,8,5,6,2,4,2,7
4,8,8,1,4,5,5,1,8,1,8


In [63]:
# 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。
df4.apply(lambda x: (x-x.mean())/x.std(), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.161694,0.0,-0.061142,-1.414214,0.0,0.5,-0.956183,-0.756889,0.124635,-1.25499
1,-0.366851,0.0,1.161694,0.707107,0.57735,-1.5,0.239046,-0.756889,1.370989,-0.657376
2,-1.283977,1.414214,0.855985,0.707107,-1.732051,-0.5,-0.956183,-0.465778,0.436224,-0.059761
3,-0.366851,-1.414214,-0.978269,0.707107,0.57735,1.0,1.434274,0.407556,-0.81013,0.83666
4,0.855985,0.0,-0.978269,-0.707107,0.57735,0.5,0.239046,1.572001,-1.121719,1.135467


In [64]:
# 最大値を1、最小値を0にするような正規化もできます。
df4.apply(lambda x: (x-x.min())/(x.max() - x.min()), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,0.5,0.428571,0.0,0.75,0.8,0.0,0.0,0.5,0.0
1,0.375,0.5,1.0,1.0,1.0,0.0,0.5,0.0,1.0,0.25
2,0.0,1.0,0.857143,1.0,0.0,0.4,0.0,0.125,0.625,0.5
3,0.375,0.0,0.0,1.0,1.0,1.0,1.0,0.5,0.125,0.875
4,0.875,0.5,0.0,0.333333,1.0,0.8,0.5,1.0,0.0,1.0


In [65]:
# 合計値が１になるような正規化もできます。
df4.apply(lambda x: x/x.sum(), axis=0).fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.346154,0.2,0.190476,0.066667,0.2,0.25,0.0,0.0,0.217391,0.0
1,0.153846,0.2,0.380952,0.266667,0.25,0.05,0.25,0.0,0.391304,0.095238
2,0.038462,0.225,0.333333,0.266667,0.05,0.15,0.0,0.076923,0.26087,0.190476
3,0.153846,0.175,0.047619,0.266667,0.25,0.3,0.5,0.307692,0.086957,0.333333
4,0.307692,0.2,0.047619,0.133333,0.25,0.25,0.25,0.615385,0.043478,0.380952


<h3 STYLE="background: #c2edff;padding: 0.5em;"><a name="8">9. 相関行列</a></h3>

相関行列とは、各要素間の相関係数を並べたものであり、その性質から必ず対称行列である。

In [66]:
# まずランダムな行列を作ってみる
df5 = pd.DataFrame(np.random.rand(5, 10))

In [67]:
df5

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.515559,0.648985,0.437198,0.82142,0.706809,0.558204,0.777209,0.1552,0.218422,0.488138
1,0.328792,0.580697,0.649904,0.437293,0.242128,0.97512,0.923106,0.604861,0.751302,0.904179
2,0.857955,0.627348,0.052137,0.510823,0.815151,0.631325,0.798582,0.378554,0.463934,0.303959
3,0.530944,0.556249,0.766143,0.484997,0.050764,0.701121,0.9047,0.72002,0.869376,0.913736
4,0.939391,0.635688,0.031651,0.50493,0.427268,0.662152,0.707589,0.878284,0.251493,0.321613


In [68]:
# 行間の相関行列
pd.DataFrame(np.corrcoef(df5.dropna().as_matrix().tolist()))

Unnamed: 0,0,1,2,3,4
0,1.0,-0.170858,0.495565,-0.414809,0.070362
1,-0.170858,1.0,-0.299334,0.835867,-0.148718
2,0.495565,-0.299334,1.0,-0.471411,0.653072
3,-0.414809,0.835867,-0.471411,1.0,-0.135378
4,0.070362,-0.148718,0.653072,-0.135378,1.0


In [69]:
# 列間の相関行列
pd.DataFrame(np.corrcoef(df5.dropna().T.as_matrix().tolist()))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,0.535411,-0.896831,-0.086674,0.459612,-0.577954,-0.803428,0.255244,-0.553955,-0.84929
1,0.535411,1.0,-0.772395,0.641854,0.865152,-0.627817,-0.875753,-0.459742,-0.980167,-0.886848
2,-0.896831,-0.772395,1.0,-0.055738,-0.719183,0.474923,0.855191,-0.000449,0.742794,0.958189
3,-0.086674,0.641854,-0.055738,1.0,0.543666,-0.66627,-0.411905,-0.757278,-0.648485,-0.326599
4,0.459612,0.865152,-0.719183,0.543666,1.0,-0.584155,-0.623129,-0.693499,-0.754035,-0.829584
5,-0.577954,-0.627817,0.474923,-0.66627,-0.584155,1.0,0.696581,0.388688,0.649444,0.677916
6,-0.803428,-0.875753,0.855191,-0.411905,-0.623129,0.696581,1.0,0.036374,0.925915,0.91657
7,0.255244,-0.459742,-0.000449,-0.757278,-0.693499,0.388688,0.036374,1.0,0.337813,0.212301
8,-0.553955,-0.980167,0.742794,-0.648485,-0.754035,0.649444,0.925915,0.337813,1.0,0.859333
9,-0.84929,-0.886848,0.958189,-0.326599,-0.829584,0.677916,0.91657,0.212301,0.859333,1.0
