# NumPy Tutorial

## 目次

- [NumPyとは？](#what)
- [参考資料](#reference)
- [基本的な使い方](#use)
  - [import](#import)
  - [テストデータを生成](#data)
  - [行列の操作](#arange)
  - [抽出](#extraction)
  - [欠損値](#nan)
  - [配列の連結](#conjunction)
  - [集計する](#culc)
  - [ソート](#sort)
  - [関数の適用](#function)

 <a name = "what"></a>
## NumPyとは？

Pythonの数値計算ライブラリ。<br>

C実装なので、高速に動作。

科学計算ライブラリの[scipy](https://www.scipy.org/)や描画ライブラリの[matplotlib](http://matplotlib.org/)、データ構造を提供する[pandas](http://pandas.pydata.org/)などの補助ライブラリを使うことで、高度な計算、描画、データ処理が可能。

---
### ndarrayについて

numpyは、ndarrayというデータ構造を持つ。<br>
pythonの配列と似ているが、計算用途に特化。

pythonの配列とnumpyのndarrayの違い
- ndarrayはC実装なので早い
- 配列中の全要素をまとめて演算する（ブロードキャスト）ができるので高速
- ndarrayは同じ型の要素しか入れられない（基本int, floatを入れて使うもの）
- ndarrayは各次元ごとの要素数が等しい必要がある。
- ndarrayは多くのライブラリの関数の引数や戻り値で利用される。

-----

 <a name = "reference"></a>

## 参考資料
- [HP](http://www.numpy.org/)
- [reference](https://docs.scipy.org/doc/numpy/reference/)
- [100 numpy exercises](https://github.com/rougier/numpy-100)
  - numpyの機能を紹介するトレーニングノート
- [Scipy Lecture Notes](http://www.turbare.net/transl/scipy-lecture-notes/index.html)
  - Pythonでの科学技術計算のレクチャー。日本語版
- [Numpy_Example_List](http://scipy.github.io/old-wiki/pages/Numpy_Example_List)
  - numpyのメソッドの実例集。

 <a name = "use"></a>
 ## 基本的な使い方

 <a name = "import"></a>

### import

In [None]:
import numpy as np         # npとするのが通例

-----

 <a name = "data"></a>

### テストデータを生成

In [None]:
# 0が引数個ある配列
np.zeros(10)

In [None]:
# 1が引数個ある配列
np.ones(10)      

In [None]:
# n間隔で増える配列
np.arange(10, step=2) # 10まで、stepずつ増える

#### 乱数生成

In [None]:
# 正規分布に従う乱数を引数個生成
np.random.randn(10)

正規分布[とは](http://atarimae.biz/archives/9850)

---

In [None]:
# 二項分布に従う乱数を引数個生成
np.random.binomial(n=100, p=0.5, size=(10))      #n回コインを投げたときの確率をsize個生成（p: 起こる確率）

二項分布[とは](http://atarimae.biz/archives/7922)

---

In [None]:
# ある範囲の整数をランダムで生成（一様分布）
np.random.randint(low=0, high=25, size=10)

他にも、色々な乱数生成がある。詳細は[np.randomのドキュメント](https://docs.scipy.org/doc/numpy/reference/routines.random.html)

-----

乱数を固定する場合は、np.random.seed()を使う<br>
デバグする際などに


In [None]:
# 何度か実行して値を確認する

np.random.seed(seed=None)
dynamic_random = np.random.randn(10)

np.random.seed(100)    # 引数はなんでもいい
static_random = np.random.randn(10)

print("dynamic : " + str(dynamic_random))  #毎回変化する
print("======================================================================")
print("static: " + str(static_random))  # 毎回同じ配列

---
 <a name = "arange"></a>

### 行列の操作



In [None]:
# 2*3の行列を生成
np.arange(6).reshape((2,3)) 

In [None]:
# 2*3*4*5の４次元行列を生成
np.arange(2*3*4*5).reshape((2,3,4,5))


In [None]:
# 配列の形を取得
np.arange(2*3*4*5).reshape((2,3,4,5)).shape

---

 <a name = "extraction"></a>

### 抽出

#### 行、列の抽出

In [None]:
x = np.arange(9).reshape((3,3))
print(str(x))

In [None]:
# 列の抽出
x[:,1]

In [None]:
# 行の抽出
x[1,:]

In [None]:
# 2行目以降を抽出
x[1:]

In [None]:
# 2列目以降を抽出
x[:,1:]

---

#### 条件から抽出

In [None]:
# 条件を入れるとBooleanで返ってくる
x==5

In [None]:
# 同じ形のboolean配列を条件検索に使う
x[x>5]

In [None]:
x[x%2==0]

---
 <a name = "nan"></a>

### 欠損値

#### 他の値で置き換える

In [None]:
x = np.array([[1,2,3],[4,np.nan,5],[6,7,8]])
print(str(x))

In [None]:
# np.isnan()でnanかどうかを判定する
np.isnan(x)

In [None]:
# nanを0で置き換える
x[np.isnan(x)] =  0

print(str(x))

In [None]:
# nanを欠損値以外の平均で置き換え（np.nanmean(x）で欠損値以外の平均を取る)

x = np.array([[1,2,3],[4,np.nan,5],[6,7,8]])

x[np.isnan(x)] = np.nanmean(x)
print(str(x))

---
#### 欠損値を含む行、列を除外する

In [None]:
x = np.array([[1,2,3],[4,np.nan,5],[6,7,8]])
print(str(x))

In [None]:
# 欠損値を含む行を除外
x[~np.isnan(x).any(axis=1)]

In [None]:
np.ma.masked_invalid(x)

In [None]:
# 欠損値を含む列を除外
np.ma.compress_cols(np.ma.masked_invalid(x))

np.maはマスク配列を生成。詳細は[こちら](https://docs.scipy.org/doc/numpy/reference/maskedarray.generic.html)

---
 <a name = "conjunction"></a>

### 配列の連結

In [None]:
x1 = np.arange(start= 0, stop= 3)
print(x1)

x2 = np.arange(start = 4, stop= 7)
print(x2)

In [None]:
# 行を追加
np.vstack([x1,x2])

In [None]:
# 列を追加
np.hstack([x1,x2])

---
 <a name = "culc"></a>

### 集計する

In [None]:
x = np.arange(10)
print(x)

In [None]:
# 合計
x.sum()
# or
np.sum(x)

In [None]:
#平均
x.mean()
# or 
np.mean(x)

In [None]:
#分散
x.var()
# or
np.var(x)

In [None]:
#標準偏差
x.std()
# or
np.std(x)


---

#### 行・列方向の計算

In [None]:
x = x.reshape((2,5))
print(x)

In [None]:
#行ごとの平均
np.mean(x, axis=1)   #axis（軸） = 1:行、axis=0: 列

In [None]:
# 列ごとの平均
np.mean(x,axis=0)

---
 <a name = "sort"></a>

### ソート

In [None]:
x = np.arange(5)*2
np.random.shuffle(x)
print(x)

In [None]:
# 昇順ソート
np.sort(x)

In [None]:
# 降順ソート
np.sort(x)[::-1]

In [None]:
# 大きい順にTOP３
np.sort(x)[::-1][:3]

---
 <a name = "function"></a>


### 配列に任意の関数を適用する

In [None]:
x = np.arange(5)
print(x)

In [None]:
# 各値を二乗する関数
function = np.vectorize(lambda x:x*x)

In [None]:
function(x)

np.vectorize()はリストを引数に関数を取り、関数に配列で値を渡せるようにする。<br>
詳細は[こちら](http://qiita.com/3x8tacorice/items/3cc5399e18a7e3f9db86)

## おまけ

[***Numpy Cheat Sheet***](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf)