## 3. 高機能ライブラリー
機械学習の先端プログラマーによってPythonが活用されるとともに，重要な高機能ライブラリーも数多く開発されました．今では，それらのライブラリーを使って高度な処理を行うことがデータサイエンティストにとってはデファクトスタンダードとなっています．
しかも，それらのライブラリーはオープンソフトなので誰でも自由に使うことができます．
このことが原動力となって，プログラム言語の生存競争においてPythonが完全に成功スパイラルに入ってます．

私たちの目的は，それらの高機能ライブラリーを使いこなすここではなく，その便利な機能を私たちの日常の業務に転用します．
ここまでのPython学習で使った幾つかの機能は，これから学習する高機能ライブラリーで肩代わりします．
その代表的な高機能ライブラリーとして次の3つを使用します.

1. NumPy ：高速の配列演算
- pandas ：データフレーム
- matplotlib ：高性能のグラフ描画機能

これらのライブラリーもAnacondaに同梱されていますので，追加のインストール無しで使うことができます．
例によって，これらのモジュールを使用するためにimport文を実行します．
matplotlibに関しては，その中のpyplotモジュールに限定してインポートします．

```Python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
```

ここで，最後に変わった文が記載されています．

> <font color=blue>%matplotlib inline</font>

この文は，画像表示をJupyter notebookの中に行うことを宣言する文です．この文が無いとグラフが表示されませんので，matplotlibのimport文とはセットで記載しましょう．
ちなみに%から始まる特殊な命令文はマジックコマンドと呼ばれるもので，Pythonの環境を制御するなどの開発支援的な役割を果たします．

さて，これらの高機能ライブラリーの詳細を説明することはこの講座の範囲を超えていますので，最小限の必要な事項のみを説明します．
私たちが必要とする機能の中心は<font color=blue>**データフレーム**</font>と言われるオブジェクトです．データフレームを使って簡単に初歩のデータ分析を熟せるようにします．

*****
### NumPy（高速配列計算）
NumPyは高度科学技術計算用ライブラリーです．本格的な科学技術計算や機械学習にNumPyあるいはNumPyを利用したライブラリーが活用されています．
ただし，私たちは高度な科学技術計算を目指すのではないので，NumPyの使い方には深入りはしません．<br>
NumPyを使うには例によってimport文で宣言します．

> <font color=green>import</font> numpy <font color=green>as</font> np

NumPyの別名に「np」を使うのはPythonユーザーにとって慣例となっています．暗黙の裡に多くに人が同じ別名を使うことによって他人の書いたプログラムが読みやすくなります．

In [1]:
import numpy as np

#### NumPyの多次元配列（ndarray）
NumPyには独自に多次元配列のオブジェクトがあります．numpy.ndarrayオブジェクトはリスト配列に似ていますが，リストには無い機能と高速計算を行えるようにしたオブジェクトです．<br>
numpy.ndarryオブジェクトを生成するには幾つかの方法がありますが、一つの方法としてリスト配列からnumpy.array()関数を用いて作成する方法があります．
まず，元になるリスト配列aListを作ります．これをnumpy.array()関数に引数として渡します．生成されるオブジェクトはよく似ていますが，異なるものです．
```Python
myList = [[1,2],[3,4]]
myList
```

In [2]:
myList = [[1,2],[3,4]]
myList

[[1, 2], [3, 4]]

この2重リスト配列をnumpy.ndarrayオブジェクトに変換します．
```Python
myArray = np.array(myList)
myArray
```

In [3]:
myArray = np.array(myList)
myArray

array([[1, 2],
       [3, 4]])

ここで生成した変数myArrayのオブジェクト型を確認します．
```Python
type(myArray)
```

In [4]:
type(myArray)

numpy.ndarray

#### 配列の演算
配列の演算についてリスト配列と比較しながら，numpy.ndarrayの特徴を見ていきましょう．
先ずは配列の足し算を実施してみます．
```Python
myList + myList
```

In [5]:
myList + myList

[[1, 2], [3, 4], [1, 2], [3, 4]]

このように，リスト配列を加算記号「+」で繋げるとリストの結合になります．

これと同様の操作をnumpy.ndarrayオブジェクトに対して行ってみましょう．
```Python
myArray + myArray
```

In [6]:
myArray + myArray

array([[2, 4],
       [6, 8]])

このようにnumpy.ndarrayオブジェクトの場合は，行列の各要素ごとの足し算になっています．
ここに両者の使い方の違いが明確に表れています．

次に数値と配列の掛け算について確認します．
まず，リスト配列のスカラー倍を実行します．
```Python
2 * myList
```

In [7]:
2 * myList

[[1, 2], [3, 4], [1, 2], [3, 4]]

このように配列に数値を掛けると，リストをその数値の分だけ繰返します．これは，リスト配列に掛ける数値は整数でなければならないことを示唆しています．試しに小数点付き数を掛けるとエラーとなります．また負の整数やゼロを掛けると空リストが返ります．

それでは同様に，numpy.ndarrayオブジェクトに対して数値を掛けてみます．
```Python
2 * myArray
```

In [8]:
2 * myArray

array([[2, 4],
       [6, 8]])

numpy.ndarray配列の場合は，行列の各要素に数値が掛けられます．

次に配列と配列の掛け算についてですが，リスト配列の場合は2項演算の「\*」が定義されていません．
numpy.ndarray配列の場合は，行列の同じ配置の要素ごとの掛け算となります．
```Python
myArray * myArray
```

In [9]:
myArray * myArray

array([[ 1,  4],
       [ 9, 16]])

##### 行列の積
上記の配列の要素ごと積になる演算は，行列の積としては適切ではありません．
行列の積とは，ベクトルの一次変換を2つ続けることを意味します．したがって，一つ目の行列の行数と二つ目の行列の列数は等しいことを前提とします．
その意味において，2行2列の行列すなわち2次正方行列の積は次式で定義されなければなりません．

$\left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \\ \end{array} \right)
 \left(\begin{array}{cc} b_{11} & b_{12} \\ b_{21} & b_{22} \\ \end{array} \right) =
 \left(\begin{array}{cc} a_{11}b_{11}+a_{12}b_{21} & a_{11}b_{12}+a_{12}b_{22} \\ a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12}+a_{22}b_{22} \\ \end{array} \right) $

この演算はnumpy.ndarray配列においてドット積と呼ばれていてdot()メソッドによって実現します．
AおよびBを行列とし，Aの列数とBの行数が等しい場合，ドット積は次のようになります．

> A.<font color=green>dot</font>(B)

それでは，先ほど定義したnumpy.ndarray配列myArrayのドット積を行ってみましょう．
```Python
myArray.dot(myArray)
```

In [10]:
myArray.dot(myArray)

array([[ 7, 10],
       [15, 22]])

##### 逆行列
連立一次方程式を行列の形で解く場合，逆行列を求めます．
$A$を正方行列として$I$を単位行列としたとき，逆行列$A^{-1}$の定義は，$AA^{-1}=A^{-1}A=I$となることです．
2次正方行列
$A=\left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \\ \end{array} \right)$
の逆行列$A^{-1}$は次のようになります．

$A^{-1}=\left(\begin{array}{cc} \frac{a_{22}}{a_{11}a_{22}-a_{12}a_{21}} & \frac{-a_{12}}{a_{11}a_{22}-a_{12}a_{21}} \\ \frac{-a_{21}}{a_{11}a_{22}-a_{12}a_{21}} & \frac{a_{11}}{a_{11}a_{22}-a_{12}a_{21}} \\ \end{array} \right)$

ただし，逆行列の式を見て分かるように，行列式$det(A)=a_{11}a_{22}-a_{12}a_{21}=0$の場合は逆行列は求まりません．
したがって，逆行列を求める前に行列式を確認します．

行列式および逆行列はnumpy.linalgモジュールで提供されています。
<font color=blue>Aを正方行列としたとき，行列式を求めるにはdet()関数に引数として行列を渡します．</font>

> <font color=green>numpy.linalg.det</font>(A)

ここではnumpyの別名npを使っています．
```Python
np.linalg.det(myArray)
```

In [11]:
np.linalg.det(myArray)

-2.0000000000000004

この値は論理的には-2になりますが，僅かに計算誤差が生じています．このように，コンピューターによる計算は常に計算誤差が生じる可能性があることを理解しておきましょう．
行列式がゼロでないので逆行列を求めることができます．
<font color=blue>正方行列Aの逆行列はinv()関数を使用します．</font>

> numpy.<font color=green>linalg</font>.<font color=green>inv</font>(A)

myArrayの行列式はゼロでないので，逆行列を計算してみましょう．
```Python
np.linalg.inv(myArray)
```

In [12]:
np.linalg.inv(myArray)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

求まったAの逆行列が正しい事の確認をドット積によって確認しましょう．
```Python
myArray.dot(np.linalg.inv(myArray))
```

In [13]:
myArray.dot(np.linalg.inv(myArray))

array([[  1.00000000e+00,   1.11022302e-16],
       [  0.00000000e+00,   1.00000000e+00]])

このように僅かな計算誤差がありますが，正しく計算されていることが確認できました．

さてNumPyの例を見てきましたが，普段のオフィス業務においてこのような計算が必要となることは殆どないでしょう．
従いまして，この部分についてはデータサイエンスの入口というような位置付けとお考え下さい．
*****