# Python を使ったデータの整理、分析 

Python の基礎を学んだので、Python でデータ整理、分析をする際に役立つモジュールを紹介します。

## Numpy

`numpy` は行列計算用のモジュールです。
内部は C で実装されており、高速に計算をすることができます。
また、anaconda を使って python をインストールした場合には、 計算に Intel の　Math Kernel Library が使われており、さらに高速に計算をすることができます。

### ndarray

numpy では `ndarray` オブジェクトが行列です。
array を作るには、次のように、リストを渡します。

In [1]:
import numpy as np
np.array([1,2,3])

array([1, 2, 3])

`numpy` は　`np` として 略して import するのが慣習です。

リストを 1 つ渡すとベクトル、行列にするにはリストの中にリストを渡します。
リスト毎に行が形成されます。

In [2]:
np.array([[1,2,3],[4,5,6]])

array([[1, 2, 3],
       [4, 5, 6]])

各要素を参照するのは、リストと同様の方法ですが、参照できるのは行と列です。

`[1]` とすると、1 行目が参照されます。`[:,1]` とすると、1 列目が参照されます。
`[1,1]` とすれば、1 行目の 1 列目の要素が参照されます。

In [3]:
A = np.array([[1,2,3],[4,5,6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [4]:
A[1]

array([4, 5, 6])

In [5]:
A[:,1]

array([2, 5])

In [6]:
A[1,1]

5

各要素が条件式を満たすかどうかを確認することが可能です。
この結果を用いて、条件を満たす要素のみを参照することも可能です。

In [7]:
A > 4

array([[False, False, False],
       [False,  True,  True]], dtype=bool)

In [8]:
A[A>4]

array([5, 6])

複数の条件も設定できます。各条件は `()` で囲み、`&` ならば積集合、`|` ならば和集合になります。

In [9]:
(A > 4) & (A < 8)

array([[False, False, False],
       [False,  True,  True]], dtype=bool)

In [10]:
(A < 3) | (A > 8)

array([[ True,  True, False],
       [False, False, False]], dtype=bool)

`array` 以外にも `ndarray` を生成する方法があります。

例えば、`arange` は `range` 関数と同じような挙動で ndarray を生成します。

In [11]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

`ones` は 1 のみの ndarray、`zeros` は 0 のみの ndarray を生成します。

In [12]:
np.ones((3,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [13]:
np.zeros((3,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

`reshape` を使えば、配列数を変更できます。

In [14]:
C = np.arange(1,10)
C

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
np.reshape(C,(3,3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### メソッド

`ndarray` のメソッドには、例えば、配列数を返す `shape` や 要素の型を返す `dtype` などがあります。

In [16]:
A = np.array([[1,2,3],[4,5,6]])
A.shape

(2, 3)

In [17]:
A.dtype

dtype('int32')

`T` で転置行列を返します。

In [18]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 行列計算

先述したように、numpy では様々な行列計算をすることができます。

In [19]:
A = np.array([[1,2,3],[4,5,6],[7,8,9]])
B = np.array([[9,8,7],[6,5,4],[3,2,1]])

次は行列の加算です。

In [20]:
A + B

array([[10, 10, 10],
       [10, 10, 10],
       [10, 10, 10]])

次は行列の積を計算します。

In [21]:
np.dot(A,B)

array([[ 30,  24,  18],
       [ 84,  69,  54],
       [138, 114,  90]])

`*` を使うと、各要素をかけ合わせます。

In [22]:
A * B

array([[ 9, 16, 21],
       [24, 25, 24],
       [21, 16,  9]])

`linalg` は様々な線形代数の計算をする関数が含まれています。
例えば、`inv` は逆行列を計算します。

In [23]:
np.linalg.inv(A)

array([[ -4.50359963e+15,   9.00719925e+15,  -4.50359963e+15],
       [  9.00719925e+15,  -1.80143985e+16,   9.00719925e+15],
       [ -4.50359963e+15,   9.00719925e+15,  -4.50359963e+15]])

ここで実際に、`numpy` の計算が高速だという例をお見せしましょう。

10000個の要素を足し合わせていく作業をループ文と numpy の `sum` を使って試してみます。

In [24]:
Z = np.ones(10000)
Z.shape

(10000,)

セルの最初に `%%timeit` を使うことによって、計算速度を測定できます。 

In [25]:
%%timeit
sum_Z = 0
for i in range(10000):
    sum_Z += Z[i]

1000 loops, best of 3: 1.86 ms per loop


In [26]:
%%timeit
np.sum(Z)

The slowest run took 11.02 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 9.44 µs per loop


桁が違うほどの差でした。大規模な計算をするときは、できるだけ `numpy` を使って計算してください。

### ブロードキャスト

ndarray には、ブロードキャストという機能がついています。
これによって、配列の行列数が違う場合にも計算を可能にします。

実際に見てみましょう。行列の加算は配列の数が同じもの同士に定義されますが、X と Y は配列数が違います。
この 2 つを足してみます。

In [27]:
X = np.array([[1,2,3],[4,5,6],[7,8,9]])
Y = np.array([[1,2,3]])
X + Y

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

この結果は次の計算によるものであることは明らかですね。

In [28]:
Y_wide = np.array([[1,2,3],[1,2,3],[1,2,3]])
X + Y

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

ブロードキャストというのは、つまり、行列同士を計算できるように、配列数が足りない行列を引き伸ばしてくれるということです。

### 乱数生成

Python にも `random` という疑似乱数を生成するモジュールがありますが、numpy の `random` はより高機能です。

計量経済学なら気になるところですね。さっそく見ていきましょう。
`rand` は一様分布から疑似乱数を生成します。引数に配列数を渡します。

In [29]:
from numpy import random
random.rand(3,3)

array([[ 0.72386652,  0.81266585,  0.45202891],
       [ 0.58492823,  0.19438702,  0.8124475 ],
       [ 0.10704112,  0.17670611,  0.9647788 ]])

`randn` は標準正規分布からの疑似乱数を発生させます。

In [30]:
random.randn(3,3)

array([[ 0.07101521, -1.18063031, -0.87087955],
       [-2.33721784,  0.21806439,  1.6034574 ],
       [-0.61245457,  2.13448042,  0.1971166 ]])

`choice` は引数に渡した 1 次元の ndarray もしくはリストからランダムに要素を抽出します。

In [31]:
countries = ['Japan','China','Korea']
random.choice(countries)

'Japan'

引数には要素を抽出する回数、復元抽出か非復元抽出か、各要素を抽出する確率を渡せます。

In [32]:
random.choice(countries,size=2)

array(['Japan', 'Korea'], 
      dtype='<U5')

In [33]:
random.choice(countries,size=2,replace=False)

array(['Korea', 'China'], 
      dtype='<U5')

In [34]:
random.choice(countries,size=2,p=[0.9,0.05,0.05])

array(['Japan', 'Japan'], 
      dtype='<U5')

一様分布や標準正規分布といったおなじみのもの以外にも、ベータ関数やラプラス分布、ロジスティック分布などから疑似乱数を生成することもできます。

次の例は、自由度 5 の$\chi^2$分布から疑似乱数を生成しています。 

In [35]:
random.chisquare(5,3)

array([ 1.27708859,  4.58306962,  8.71658478])

## Scipy

scipy を語るにはスペースが足りないほど、scipy は統計、機械学習、画像処理など様々な科学計算用の関数を備えています。
ネーミングセンスからお分かりのように、scipy は numpy と併用して用います。

せっかくなので、いくつか見ていきましょう。

### optimize

scipy はそのモジュールの大きさのため、各機能毎に import することが勧められています。

`optimize` は最適化に関する関数を備えています。
`brentq` は方程式の解を見つけ出します。

In [36]:
from scipy import optimize as opt
def func1(x):
    fx = 3*x -5
    return fx

opt.brentq(func1,-10,10)

1.666666666666666

`minimize` は関数の最小値を探す関数です。オプションによって、様々な探索アルゴリズムを選択できます。

In [37]:
def func2(x):
    fx = x**2 + 3*x - 5
    return fx

opt.minimize(func2,0)

      fun: -7.25
 hess_inv: array([[ 0.5]])
      jac: array([ 0.])
  message: 'Optimization terminated successfully.'
     nfev: 9
      nit: 2
     njev: 3
   status: 0
  success: True
        x: array([-1.50000001])

### stats

`stats` は統計分析に関する関数を備えています。

例えば、`numpy` のように疑似乱数を生成することも可能です。
`norms.rvs` とすると、正規分布の疑似乱数を生成します。

In [38]:
from scipy import stats
stats.norm.rvs(loc=0,scale=1,size=10)

array([-0.13166539,  0.53941627, -0.08224453, -0.21500389, -0.74749976,
        0.17340244,  0.66414228,  0.15874581,  0.63709455,  0.29358207])

`rvs` は疑似乱数の生成ですが、他にも豊富なメソッドがあります。

例えば、

1. `pdf` : 確率密度関数の値を返す 
2. `cdf` : 累積密度関数の値を返す
3. `ppf` : パーセント点の値を返す

In [39]:
stats.norm.pdf(x=0.0,loc=0, scale=1)

0.3989422804014327

In [40]:
stats.norm.cdf(x=0.0,loc=0, scale=1)

0.5

In [41]:
stats.norm.ppf(q=0.05,loc=0, scale=1)

-1.6448536269514729

検定もすることも可能です。
例えば、`ttest_ind` は 2 つのデータ (ndarray) の差を t 検定します。

In [42]:
N_A = stats.norm.rvs(loc=-5,scale=1,size=10)
N_B = stats.norm.rvs(loc=3,scale=1,size=10)
stats.ttest_ind(N_A,N_B)

Ttest_indResult(statistic=-16.111149583904051, pvalue=3.8766059231225012e-12)

## Pandas

`pandas` は 様々な I/O (入出力) 処理、高機能なデータ処理をすることができるモジュールです。
pandas のデータ型は、`Series` と `DataFrame` です。
`Series` はラベル付きのベクトル、`DataFrame` はラベル付きの行列です。

R を使ったことがある人はピンとくるかもしれませんが、`DataFrame` は R の data.frame 型と同じようなものです。 
実際、pandas は R のデータ整理用のパッケージ、`dplyr` でできることの多くを実装しています。

`pandas` は `pd` と略して import するのが慣習です。

それでは、`Series` から見ていきましょう。

In [43]:
import pandas as pd

### Series

Series の作り方は、numpy の１次元の `ndarray` と同じようなものです。

In [44]:
pd.Series([1,2,3])

0    1
1    2
2    3
dtype: int64

`ndarray` とは似ていますが、異なるところもあります。

まず、左側に index が表示されていますね。
この index は好きなようにラベルを付けることも可能です。

In [45]:
pd.Series([1,2,3],index=['one','two','three'])

one      1
two      2
three    3
dtype: int64

Series に名前を付けることも可能です。

In [46]:
pd.Series([1,2,3],index=['one','two','three'],name='numbers')

one      1
two      2
three    3
Name: numbers, dtype: int64

メソッドで、index、要素、名前を別々に参照することができます。

In [47]:
A_s = pd.Series([1,2,3],index=['one','two','three'],name='numbers')

In [48]:
A_s.index

Index(['one', 'two', 'three'], dtype='object')

In [49]:
A_s.values

array([1, 2, 3], dtype=int64)

In [50]:
A_s.name

'numbers'

要素を参照すると、`ndarray` が返ってきました。pandas と numpy との間は簡単に行き来することができます。

今度は `ndarray` を `Series` にしてみます。

In [51]:
A_np = np.array([1,2,3])
A_index = np.array(['one','two','three'])
pd.Series(A_np,index=A_index)

one      1
two      2
three    3
dtype: int32

後で見ますが、`DataFrame` でも同じことができます。

実際にデータ分析をする際には、まず pandas を使ってデータを整理し、numpy や scipy を使って分析を行うという流れになると思います。

#### 要素の参照

Series は様々な方法で参照することができます。

まず、要素の番号を入れて参照してみましょう。

In [52]:
A_s

one      1
two      2
three    3
Name: numbers, dtype: int64

In [53]:
A_s[1]

2

index 名で要素を参照することも可能です。

In [54]:
A_s['three']

3

参照した要素に違う値を代入してみます。

In [55]:
A_s['three'] = 5
A_s

one      1
two      2
three    5
Name: numbers, dtype: int64

numpy のところで説明したように、各要素が条件式を満たしているかを判別できます。
また、この結果を用いて条件式を満たす要素を参照できます。

In [56]:
A_s > 2

one      False
two      False
three     True
Name: numbers, dtype: bool

In [57]:
A_s[A_s > 2]

three    5
Name: numbers, dtype: int64

#### 計算
Series の計算は numpy の時と違います。Series では四則演算は index が同じもの同士で行います。

In [58]:
A_s = pd.Series([1,2,3],index=['one','two','three'])
B_s = pd.Series([4,5,6],index=['one','two','three'])
B_s

one      4
two      5
three    6
dtype: int64

In [59]:
A_s + B_s 

one      5
two      7
three    9
dtype: int64

In [60]:
A_s - B_s

one     -3
two     -3
three   -3
dtype: int64

In [61]:
A_s * B_s

one       4
two      10
three    18
dtype: int64

In [62]:
A_s / B_s

one      0.25
two      0.40
three    0.50
dtype: float64

index が同じもの同士で計算するので、商も定義されます。

index が合致しないものは NaN (Not a number) が返ってきます。

In [63]:
C_s = pd.Series([1,2,3],index=['one','two','four'])
C_s

one     1
two     2
four    3
dtype: int64

In [64]:
A_s + C_s

four     NaN
one      2.0
three    NaN
two      4.0
dtype: float64

#### 文字列操作

Series には `str` という強力な文字列操作のメソッドが備わっています。
これを用いることによって、データのクリーニングが非常に楽になります。

まずは、基本的な操作からしていきましょう。

`lower` は文字列を小文字に、`upper` は文字列を大文字に、`len` は文字列の文字数をカウントします。

In [65]:
small_text = pd.Series(['A','B','C'])
small_text.str.lower()

0    a
1    b
2    c
dtype: object

In [66]:
large_text = pd.Series(['a','b','c'])
large_text.str.upper()

0    A
1    B
2    C
dtype: object

In [67]:
number_text = pd.Series(['one','two','three'])
number_text.str.len()

0    3
1    3
2    5
dtype: int64

`extract` は指定した文字を抜き出します。

In [68]:
number_with_text = pd.Series(['one1','two2','three3'])
number_with_text.str.extract(r'(\d)',expand=False)

0    1
1    2
2    3
dtype: object

`\d` は **正規表現** というもので、パターンマッチングをする際に強力な助けとなります。
正規表現はマッチングしたい文字列の条件式を非常に簡単に書くことができます。
いくつかの文字はメタキャラクタというもので、例えば `\d` は任意の数とマッチングするという意味です。

さきほどの文は、文頭から文字を参照していき、任意の数が当たったらその文字を抜き出す ということをしています。
マッチングの文に正規表現を使う場合は最初に `r` を付けておきましょう。

先程とは逆に、任意の数字以外の文字列を抜き出す場合次のようにします。

`\D` は数以外の任意の文字とマッチングします。

`+` は直前のマッチング式が一致していたら、それを繰り返します。
例えば、`two+` は `two` も `twoooooooo` とも一致しますが、`tw` とは一致しません。

In [69]:
number_with_text.str.extract(r'(\D+)',expand=False)

0      one
1      two
2    three
dtype: object

`replace` はマッチした文字列を指定した文字列に置き換えます。

In [70]:
number_with_text.str.replace(r'(\d)','')

0      one
1      two
2    three
dtype: object

`match` はマッチング文と正確にマッチしているか、`contains` はマッチング文を含んでいるかを返します。

In [71]:
match_text = pd.Series(['1','one2','one'])
match_text

0       1
1    one2
2     one
dtype: object

In [72]:
match_text.str.match(r'\d')

0     True
1    False
2    False
dtype: bool

In [73]:
match_text.str.contains(r'\d')

0     True
1     True
2    False
dtype: bool

`get_dummies` はダミー変数を作成できます。`DataFrame` を返します。

In [74]:
dummies_text = pd.Series(['one','one','two'])
dummies_text.str.get_dummies()

Unnamed: 0,one,two
0,1,0
1,1,0
2,0,1


`sep` で文字列を分けられます。

In [75]:
dummies_text = pd.Series(['one|two','one','two'])
dummies_text.str.get_dummies(sep='|')

Unnamed: 0,one,two
0,1,1
1,1,0
2,0,1


### DataFrame

`DataFrame` は 多次元の `ndarray` を作るときと似ています。

In [76]:
pd.DataFrame([[1,2,3],[4,5,6]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Series と同じように左に index がありますが、さらに上に columns があります。
これらはどちらもラベル付けすることができます。

In [77]:
index_list = ['one','two']
columns_list = ['a','b','c']
pd.DataFrame([[1,2,3],[4,5,6]],index=index_list,columns=columns_list)

Unnamed: 0,a,b,c
one,1,2,3
two,4,5,6


Series のように index、columns、要素別に参照するメソッドが用意されています。

In [78]:
A_dt = pd.DataFrame([[1,2,3],[4,5,6]],index=index_list,columns=columns_list)

In [79]:
A_dt.index

Index(['one', 'two'], dtype='object')

In [80]:
A_dt.columns

Index(['a', 'b', 'c'], dtype='object')

In [81]:
A_dt.values

array([[1, 2, 3],
       [4, 5, 6]], dtype=int64)

Series と同じように、要素を参照すると `ndarray` が返ってきます。
また、Series と同じように `ndarray` を `DataFrame` にすることもできます。

#### 要素の参照

DataFrame にも様々な要素の参照の方法があります。

In [82]:
A_dt

Unnamed: 0,a,b,c
one,1,2,3
two,4,5,6


columns の参照は `[]` か、`.columns名` で行います。

In [83]:
A_dt['a']

one    1
two    4
Name: a, dtype: int64

In [84]:
A_dt.b

one    2
two    5
Name: b, dtype: int64

複数の columns の参照はリストを使います。

In [85]:
A_dt[['a','c']]

Unnamed: 0,a,c
one,1,3
two,4,6


index の参照は `loc` を使います。
`loc[index名,columns名]` とします。

In [86]:
A_dt.loc['one']

a    1
b    2
c    3
Name: one, dtype: int64

In [87]:
A_dt.loc[:,'c']

one    3
two    6
Name: c, dtype: int64

In [88]:
A_dt.loc['one','b']

2

`iloc` はラベル名ではなく要素の番号によって参照します。

In [89]:
A_dt.iloc[1]

a    4
b    5
c    6
Name: two, dtype: int64

In [90]:
A_dt.iloc[:,2]

one    3
two    6
Name: c, dtype: int64

In [91]:
A_dt.iloc[1,1]

5

要素を参照して値を再代入することもできます。

In [92]:
A_dt.loc['one','b'] = 5
A_dt

Unnamed: 0,a,b,c
one,1,5,3
two,4,5,6


条件式を満たしているかを判別することもでき、条件式を満足する要素を参照することもできます。

In [93]:
A_dt > 2

Unnamed: 0,a,b,c
one,False,True,True
two,True,True,True


In [94]:
A_dt[A_dt > 2]

Unnamed: 0,a,b,c
one,,5,3
two,4.0,5,6


ある columns が条件式を満たしている index を参照することもできます。

In [95]:
A_dt.a > 2

one    False
two     True
Name: a, dtype: bool

In [96]:
A_dt[A_dt.a > 2]

Unnamed: 0,a,b,c
two,4,5,6


反対に、ある index が条件式を満たしている columns を参照することもできます。

In [97]:
A_dt.loc['one'] > 2

a    False
b     True
c     True
Name: one, dtype: bool

In [98]:
A_dt.loc[:,A_dt.loc['one'] > 2]

Unnamed: 0,b,c
one,5,3
two,5,6


#### I/O 処理

pandas は多様な I/O 処理をすることができ、
csv ファイル、エクセルファイル、Stata ファイル、R ファイルなどの様々なファイルを入出力することが可能です。

例えば、次の例はエクセルのファイルを読み込んでいます。

In [99]:
pd.read_excel('data/excel_example.xlsx')

Unnamed: 0,one,two,three
0,1,4,7
1,2,5,8
2,3,6,9


次の例は DataFrame を Stata ファイルに出力しています。

In [100]:
A_dt.to_stata('data/stata_output.dta')

#### グループ化

pandas の DataFrame には様々なデータ集計の関数が用意されています。

例えば、`groupby` は指定した columns の値でグループを作ります。

In [101]:
B_dt = pd.DataFrame([['one',1],['one',2],['two',3],['two',4]],columns=['num','val'])
B_dt

Unnamed: 0,num,val
0,one,1
1,one,2
2,two,3
3,two,4


In [102]:
group_dt = B_dt.groupby('num')
group_dt

<pandas.core.groupby.DataFrameGroupBy object at 0x000001B1CF128198>

グループ化した DataFrame に集計関数を与えることで集計値を獲得できます。
例えば、`mean` とすると平均値、 `std` とすると標準偏差が返されます。

In [103]:
group_dt.mean()

Unnamed: 0_level_0,val
num,Unnamed: 1_level_1
one,1.5
two,3.5


In [104]:
group_dt.std()

Unnamed: 0_level_0,val
num,Unnamed: 1_level_1
one,0.707107
two,0.707107


#### データの結合
`pandas` には便利なデータの結合の関数が用意されています。

`concat` は単純に `DataFrame` 同士を結合します。

In [105]:
A_dt

Unnamed: 0,a,b,c
one,1,5,3
two,4,5,6


In [106]:
index_list = ['one','two']
columns_list = ['a','b','c']
C_dt = pd.DataFrame([[4,5,6],[7,8,9]],index=index_list,columns=columns_list)
C_dt

Unnamed: 0,a,b,c
one,4,5,6
two,7,8,9


In [107]:
pd.concat([A_dt,C_dt])

Unnamed: 0,a,b,c
one,1,5,3
two,4,5,6
one,4,5,6
two,7,8,9


`axis=1` にすることで、横方向の結合をすることができます。

In [108]:
pd.concat([A_dt,C_dt],axis=1)

Unnamed: 0,a,b,c,a.1,b.1,c.1
one,1,5,3,4,5,6
two,4,5,6,7,8,9


`append` も同様です。

In [109]:
A_dt.append(C_dt)

Unnamed: 0,a,b,c
one,1,5,3
two,4,5,6
one,4,5,6
two,7,8,9


`merge` はキーを指定して、キーが同じもの同士で index を結合します。

In [110]:
B_dt

Unnamed: 0,num,val
0,one,1
1,one,2
2,two,3
3,two,4


In [111]:
D_dt = pd.DataFrame([['one',1],['two',2],['three',3],['four',4]],columns=['num','val'])
D_dt

Unnamed: 0,num,val
0,one,1
1,two,2
2,three,3
3,four,4


In [112]:
pd.merge(B_dt,D_dt,on=['num'])

Unnamed: 0,num,val_x,val_y
0,one,1,1
1,one,2,1
2,two,3,2
3,two,4,2
