# numpy・padnas・matplotlib

本日学ぶプログラミングの項目は、データサイエンスでよく使われる

- numpy
- pandas
- matplotlib

の３つのライブラリについて、基本部分のみ学びます。

さらなる勉強をしたい方は、[Chainer Tutorial](https://tutorials.chainer.org/ja/tutorial.html)のそれぞれのチュートリアルをやるとより理解が深まるでしょう。

## numpy

numpyは数値計算を行うライブラリで、科学技術計算を行うために必須である行列計算が高速に行えます。

使うためには、numpyをインポートする必要があります。

In [None]:
import numpy as np # numpyって毎回書くのが大変なので、npという別名をつけてあげてます。

numpyで配列を作ってみます。

numpyの配列は、`ndarray`と一般的に呼ばれているため、ここでもそのように呼びます。

配列の作り方は多数あるため、代表的な作り方を以下に挙げます。

In [None]:
# 1次元配列
np.array([1,2,3])
# 2次元配列
np.array([[1,2], [3, 4]])
# 配列の中身の値を設定
np.array([1,2,3], dtype=float)
# 1からはじめて、2ずつ、指定した20という数までの配列
np.arange(1, 20, 2)
# 要素が1の配列 - タプル形式で配列の形状を与える
np.ones((2, 2))
# 要素が0の配列 - タプル形式で配列の形状を与える
np.zeros((2, 2))
# 単位行列の生成
np.eye(3)
# ランダムな要素が入った配列
np.random.rand(3, 3)

1次元配列の演算を以下に挙げます。

In [None]:
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])

print("要素同士の足し算:", v1 + v2)
print("要素同士の引き算:", v1 - v2)
print("要素同士の掛け算:" ,v1 * v2)
print("要素同士の割り算:", v1 / v2)

print("数値との足し算:", v1 + 2)
print("数値との引き算:", v1 - 2)
print("数値との掛け算:", v1 * 2)
print("数値との割り算:", v1 / 2)

print("ベクトルの内積:", np.dot(v1, v2))


多次元でも同様の演算があるので、試してみましょう。


In [None]:
v1 = np.array([[1,2], [3, 4]])
v2 = np.array([[5,6], [7, 8]])

print("要素同士の足し算:", v1 + v2)
print("要素同士の引き算:", v1 - v2)
print("要素同士の掛け算:" ,v1 * v2)
print("要素同士の割り算:", v1 / v2)

print("数値との足し算:", v1 + 2)
print("数値との引き算:", v1 - 2)
print("数値との掛け算:", v1 * 2)
print("数値との割り算:", v1 / 2)

print("ベクトルの内積:", np.dot(v1, v2))

配列から要素を抽出する方法を試してみましょう。

In [None]:
v1 = np.array([1, 2, 3])
v2 = np.array([[1, 2], [3, 4]])
# 1番目の要素を取り出す
print(v1[0])
# 多次元の場合に注意
print(v2[0])



範囲を指定して要素を抽出する方法をスライシングといい、`:`を使います。

In [None]:
# 1次元配列のインデキシング
v1 = np.arange(5)

# インデックスが1以上3未満の要素
print(v1[1:3])
# インデックスが3未満の要素
print(v1[:3])
# インデックスが1以上の要素
print(v1[1:])

In [None]:
# 二次元配列のインデキシング

# 一度0-9の１次元の配列を作っておいて、3x3の配列に形を変える
v1 = np.arange(9).reshape(3, 3)
print(v1)

# 1行目, 2行目を取り出す
print(v1[:2])
# 1列目を取り出す
print(v1[:, 0])
# 1行目と2行目の2列目を取り出す
print(v1[:2, 1])

numpyでよく使うメソッドを試してみましょう。

In [None]:
v1 = np.arange(9).reshape(3, 3)

# 配列の形状を確認
v1.shape

# 配列の形状を変更
# -1を入れると自動的に決定してくれる。ただし、エラーになるときもある
v2 = v1.reshape(1, -1)
v2.shape

# 要素のデータ型を確認

v2.dtype

# 条件(5未満)にあった要素のみ抽出
v1[v1 < 5]

# 要素がある条件を満たす（偶数のみ）要素を残す場合
np.where(v1 % 2 == 0, v1, 0)

# すべての要素に関数を適応
np.vectorize(lambda x: x + 1)(v1)

### 連立1次方程式を解く

ここでは、numpyを使って連立方程式を解く方法について説明します。

$\begin{pmatrix}
  a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\
  a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
  \vdots  & \vdots  & \ddots & \vdots  \\
  a_{n,1} & a_{n,2} & \cdots & a_{n,n}
\end{pmatrix}\begin{pmatrix}
  x_{1}\\
  x_{2}\\
  \vdots\\
  x_{n}
 \end{pmatrix}=\begin{pmatrix}
  b_{1}\\
  b_{2}\\
  \vdots\\
  b_{n}
 \end{pmatrix}
 $

を解くとき、行列

$A=\begin{pmatrix}
  a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\
  a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
  \vdots  & \vdots  & \ddots & \vdots  \\
  a_{n,1} & a_{n,2} & \cdots & a_{n,n}
\end{pmatrix} $

の逆行列$A^{-1}$を使って、

$\begin{pmatrix}
  x_{1}\\
  x_{2}\\
  \vdots\\
  x_{n}
 \end{pmatrix}=A^{-1}\begin{pmatrix}
  b_{1}\\
  b_{2}\\
  \vdots\\
  b_{n}
 \end{pmatrix}$

 とやれば求まります。

例えば、以下の連立方程式、

$
\begin{align}
x+y+z=9\\
2x+3y-2z=5 \\
3x-y+z = 7
\end{align}
$

をnumpyで解いてみましょう。

 numpyで逆行列を求めるには、`np.linalg.inv`を使います。


In [None]:
import numpy as np

# 値の準備
A = np.array([
  [1, 1, 1],
  [2, 3, -2],
  [3, -1, 1]              
])

b = np.array([9, 5, 7])

# Aの逆行列とbの内積
np.dot(np.linalg.inv(A), b) 

In [None]:
# 別の求め方もある
np.linalg.solve(A, b)

ここでは紹介しきれなかったメソッドが多数あります。

自分でプログラムを書いていて必要になったときに調べると良いでしょう。

## pandas

pandasは表形式のデータを処理するライブラリで、CSVで保存されたデータを処理できます。

使うためには、pandasをインポートします。

In [None]:
import pandas as pd # pdと略されます

In [None]:
# ナイル川の流量データを保存
!wget https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/datasets/Nile.csv

In [None]:
# csvファイルを読み込む
# dfはdata frameという意味
df =  pd.read_csv('Nile.csv')

# 最初の10個を表示
df.head(10)

pandasでよく使うメソッドを確認してみます。

In [None]:
# データフレームの形状を確認
df.shape

# ある列だけ抽出

df['time']

# 列の平均値

df['value'].mean()

# 最初の列は不要なので、必要なtimeとvalueだけ抜き出す

df[['time', 'value']]

# 簡単に値をプロットする

df['value'].plot()

pandasも機能が多数あるため、必要になったときにメソッドを検索して使うと良いでしょう。

## matplotlib

基本的な使い方は、[Chainerのチュートリアル](https://tutorials.chainer.org/ja/12_Introduction_to_Matplotlib.html)が良いので、こちらで。