[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/twMr7/Python-Tutorial/blob/master/11-Numpy_Vectorized_Data_Operations.ipynb)

# 11. 使用 Numpy 操作向量資料

機器學習的資料處理經常使用大量數據作運算，使用 Python 內建的資料類型，沒有辦法利用硬體在向量運算優化的好處。 [Numpy](http://www.numpy.org/) 是 Python 社群中公認的針對科學運算的標準套件，包含了強大的 **`ndarray`** 多維陣列類型，支援硬體優化的向量運算、簡單直覺的向量式操作、線性代數及傅立葉轉換等工具函式。([官方文件](https://docs.scipy.org/doc/numpy/index.html))
+ [**11.1 ndarray 的基本認識**](#basic-ndarray)

<a id="basic-ndarray"></a>

## 11.1 `ndarray` 的基本認識

Numpy 的 `ndarray` 是可以存放**同類型**資料的多維度陣列，在大多數的應用中，陣列元素的資料類型通常是數值。

In [None]:
# 載入 numpy 的慣例方式
import numpy as np

### § 建立向量、矩陣、與陣列

`ndarray` 類型的物件可以透過 [`array()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html)、[`zeros()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html)、[`ones()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html)、或 [`identity()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.identity.html) 函式建立。 描述 `ndarray` 的基本的屬性有：
+ `ndarray.ndim` - 維度
+ `ndarray.shape` - 每個維度大小
+ `ndarray.size` - 元素總數量
+ `ndarray.dtype` - 元素資料形態，數值通常使用 numpy 提供的 `np.float64`、`np.int32`、`np.int16`、 ...等。


In [None]:
# a one-dimension vector
v = np.array([0, 1, 2, 3])

print('v: ndim={}, shape={}, size={}, dtype={}'.format(v.ndim, v.shape, v.size, v.dtype))

# a 1 x 4 row vector/matrix
rowv = np.array([[0, 1, 2, 3]])

print('rowv: ndim={}, shape={}, size={}, dtype={}'.format(rowv.ndim, rowv.shape, rowv.size, rowv.dtype))

# a 4 x 1 column vector/matrix
colv = np.array([[0],
                 [1],
                 [2],
                 [3]])

print('colv: ndim={}, shape={}, size={}, dtype={}'.format(colv.ndim, colv.shape, colv.size, colv.dtype))

# a 3 x 4 matrix
Amat = np.array([[0, 1,  2,  3],
                 [4, 5,  6,  7],
                 [8, 9, 10, 11]], dtype=np.float64)

print('Amat: ndim={}, shape={}, size={}, dtype={}'.format(Amat.ndim, Amat.shape, Amat.size, Amat.dtype))

# a 2 x 3 x 4 array
A3d = np.array([[[ 0,  1,  2,  3],
                 [ 4,  5,  6,  7],
                 [ 8,  9, 10, 11]],

                [[12, 13, 14, 15],
                 [16, 17, 18, 19],
                 [20, 21, 22, 23]]])

print('A3d: ndim={}, shape={}, size={}, dtype={}'.format(A3d.ndim, A3d.shape, A3d.size, A3d.dtype))

In [None]:
# 元素都為 0 的 3 x 3 matrix
print(np.zeros((3, 3)), '\n')

# 元素都為 1 的 4 x 4 matrix
print(np.ones((4, 4)), '\n')

# 5 x 5 identity matrix
print(np.identity(5), '\n')

其他常用函式，可用來建立具備某種規律排列數列的 ndarray：
+ [`np.arange`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html) - 產生一維的固定間距的整數數列陣列。 類似 Python 內建函式 `range()` 的 numpy 陣列版。
+ [`np.linspace`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html) - 在指定區間內產生線性（固定）間隔的指定數量的數列。
+ [`np.logspace`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.logspace.html) - 在指定區間內產生對數間隔的指定數量的數列。
+ [`np.random.rand`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.rand.html) - 產生指定大小的均勻分佈隨機亂數。
+ [`np.random.randn`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randn.html) - 產生指定大小的高斯分佈隨機亂數。


In [None]:
# [0, 10) 整數數列
print(np.arange(10), '\n')

# 指定範圍及間距，arange([start, ]stop, [step, ])，注意參數 [start, stop) 為半開放區間
print(np.arange(1, 10, 2), '\n')

# 時常用來產生數列後就轉成需要的維度形狀
np.arange(1, 25).reshape((2, 3, 4))

In [None]:
# 指定範圍及間距，linspace(start, stop, num=50)，注意參數 [start, stop] 為封閉區間 
print(np.linspace(0, 2, 9))

# 適合用來代入函數求得一系列的函數值
from numpy import pi
x = np.linspace(0, 2*pi, 100)
np.sin(x)

### § 有無向量運算優化的差異


In [21]:
# 使用迴圈
%timeit [i**2 for i in range(1000)]

224 µs ± 1.58 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [22]:
# 
%timeit np.arange(1000)**2

2.1 µs ± 21.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
