<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=1">

*This notebook contains an excerpt from the [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) by Jake VanderPlas; the content is available [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*

*The text is released under the [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is released under the [MIT license](https://opensource.org/licenses/MIT). If you find this content useful, please consider supporting the work by [buying the book](http://shop.oreilly.com/product/0636920034919.do)!*

<!--NAVIGATION-->
< [Understanding Data Types in Python](02.01-Understanding-Data-Types.ipynb) | [Contents](Index.ipynb) | [Computation on NumPy Arrays: Universal Functions](02.03-Computation-on-arrays-ufuncs.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.02-The-Basics-Of-NumPy-Arrays.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


# Numpy陣列(Array)基礎

## Numpy陣列屬性

In [3]:
import numpy as np
np.random.seed(0)  # 指定一個種子值確保每次執行時均產生同樣的亂數(希望有再現性)
           # seed裡面的數字代表哪一組

x1 = np.random.randint(10, size=6)  # 一維陣列
x2 = np.random.randint(10, size=(3, 4))  # 二維陣列
x3 = np.random.randint(10, size=(3, 4, 5))  # 三維陣列

x3

array([[[8, 1, 5, 9, 8],
        [9, 4, 3, 0, 3],
        [5, 0, 2, 3, 8],
        [1, 3, 3, 3, 7]],

       [[0, 1, 9, 9, 0],
        [4, 7, 3, 2, 7],
        [2, 0, 0, 4, 5],
        [5, 6, 8, 4, 1]],

       [[4, 9, 8, 1, 1],
        [7, 9, 9, 3, 6],
        [7, 2, 0, 3, 5],
        [9, 4, 4, 6, 4]]])

In [25]:
np.random.seed(1)
y1 = np.random.normal(0, 2, (4,4))
y1

array([[ 3.24869073, -1.22351283, -1.0563435 , -2.14593724],
       [ 1.73081526, -4.60307739,  3.48962353, -1.5224138 ],
       [ 0.63807819, -0.49874075,  2.92421587, -4.12028142],
       [-0.64483441, -0.76810871,  2.26753888, -2.19978253]])

In [26]:
np.random.seed(2)
y1 = np.random.normal(0, 2, (4,4))
y1

array([[-0.83351569, -0.11253365, -4.27239219,  3.28054162],
       [-3.58687117, -1.68349473,  1.00576283, -2.49057617],
       [-2.11590444, -1.81801523,  1.10290809,  4.58441603],
       [ 0.08307879, -2.23585089,  1.07811664, -1.1923194 ]])

In [27]:
np.random.seed(1)
y1 = np.random.normal(0, 2, (4,4))
y1

array([[ 3.24869073, -1.22351283, -1.0563435 , -2.14593724],
       [ 1.73081526, -4.60307739,  3.48962353, -1.5224138 ],
       [ 0.63807819, -0.49874075,  2.92421587, -4.12028142],
       [-0.64483441, -0.76810871,  2.26753888, -2.19978253]])

每一個陣列分別有 ``ndim`` (維度數量), ``shape`` (每一個維度的大小), and ``size`` (整個陣列的總大小):

In [28]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


In [31]:
print(y1.ndim) #維度為2是因為y1為常態分佈，只有x和y
print(y1.shape)
print(y1.size)

2
(4, 4)
16


另一個有用的屬性是 ``dtype``, 也就是陣列的資料型態

In [32]:
print("dtype:", x3.dtype)

dtype: int64


In [33]:
print(y1.dtype)

float64


## 陣列索引(Index):存取單一個陣列元素

在單一陣列中，可以在中括號中指定想要的索引，以存取到第i個值(從0開始算)

看到索引值，就要想到位置

In [35]:
x1

array([5, 0, 3, 3, 7, 9])

In [36]:
x1[0]

5

In [37]:
x1[4]

7

也可以使用負數，從陣列末尾推算回來:

In [38]:
x1[-1]

9

In [39]:
x1[-2]

7

在多維陣列中，可以使用以半形逗號分隔的數字做為其索引值:

In [40]:
x2 # 3列row, 4欄column

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [41]:
x2[0, 0]

3

In [42]:
x2[2, 0]

1

In [43]:
x2[2, -1]

7

In [44]:
x2[0, -2]

2

也可以使用之前的索引方式修改其中的資料值

In [45]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [47]:
x2[1,3] = 33
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8, 33],
       [ 1,  6,  7,  7]])

提醒:Numpy的陣列元素都必須是固定且單一的型態。

In [None]:
x1[0] = 3.14159  # 此數字的小數點會被裁掉
x1

array([3, 0, 3, 3, 7, 9])

## 陣列切片(Slicing): 存取子陣列

可以再加上切片的符號(``:``)改為存取子陣列。
Numpy slicing語法和在標準的Python list使用的語法一樣，存取陣列
``x``的一個切片，可以使用如下的方式:
``` python
x[start:stop:step]
```
如果有任一個值沒有指定的話，則它們的預設值分別為 ``start=0``, ``stop=``*``陣列的大小``*, ``step=1``。


### 一維子陣列

In [48]:
x = np.arange(10) # 從0開始取10個數字
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
x[:5]  # 前面5個元素，非取到位置為索引5的元素

array([0, 1, 2, 3, 4])

In [50]:
x[5:]  # 所有在索引值5之後的元素

array([5, 6, 7, 8, 9])

In [51]:
x[4:7]  # 中間的子陣列

array([4, 5, 6])

In [53]:
x[1:6]

array([1, 2, 3, 4, 5])

In [54]:
x[::2]  # 間隔2的所有元素

array([0, 2, 4, 6, 8])

In [55]:
x[::6]

array([0, 6])

In [56]:
x[1::2]  # 從索引值1開始間隔2的所有元素

array([1, 3, 5, 7, 9])

當`step`為負值，`start`` and ``stop`的預設值彼此互換，下面也提供了一個反轉取得陣列的簡便方式:

In [57]:
x[::-1]  # 反轉所有的元素

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [59]:
x[5::-2]  # 從索引值5開始反轉往前取得間隔2的所有元素

array([5, 3, 1])

### 多維子陣列

只要使用逗號來區隔多個切片值的指定內容即可。

In [60]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8, 33],
       [ 1,  6,  7,  7]])

In [64]:
x2[1:3,2:4]

array([[ 8, 33],
       [ 7,  7]])

In [65]:
x2[:2, :3]  # 從[0, 0]取2個列(row)和3個欄(column)

array([[12,  5,  2],
       [ 7,  6,  8]])

In [66]:
x2[:3, ::2]  # 所有列的偶數欄

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [67]:
x2[:3, ::-2]

array([[ 4,  5],
       [33,  6],
       [ 7,  6]])

子陣列的維度內容也可以一起反轉

In [68]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [33,  8,  6,  7],
       [ 4,  2,  5, 12]])

#### 存取陣列的列和欄

可以結合index和slicing的方式，使用一個單獨的冒號(``:``)標記為空切片:

In [69]:
print(x2[:, 0])  # x2的第0欄

[12  7  1]


In [71]:
print(x2[:,3])

[ 4 33  7]


In [70]:
print(x2[0, :])  # x2的第0列

[12  5  2  4]


In [75]:
print(x2[0,1:4])

[5 2 4]


在列存取的例子中，代表空切片的冒號可以忽略，以讓語法更為精簡:

In [76]:
print(x2[0])  # 相當於x2[0, :]

[12  5  2  4]


### 子陣列是未複製的視圖

在做陣列切片時所傳回的子陣列是*views(視圖)*，而非*copies(複製)*自該陣列的資料。

這是Numpy在做陣列時不同於Python對於list slicing時的地方:
在list中，slicing是以複製資料的方式完成。

以下為之前的二維陣列:

In [77]:
print(x2)

[[12  5  2  4]
 [ 7  6  8 33]
 [ 1  6  7  7]]


從中取出2x2的子陣列:

In [78]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]


如果要修改這個子陣列，可以看到原來的陣列會被改變:

In [79]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [80]:
print(x2) #意思是改子陣列會把原本陣列的數字一起改掉，因為子陣列是原本陣列的一個view

[[99  5  2  4]
 [ 7  6  8 33]
 [ 1  6  7  7]]


這個特性非常好用。
在操作一個大的資料集時，可以存取這些資料集的部分內容而不需要去複製底下的資料緩衝。

### 建立陣列的複本

只用`copy()`就能簡單做到從陣列或子陣列中複製出資料。

In [81]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


如果現在修改子陣列的內容，原來的陣列就不會被動到了

In [82]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [83]:
print(x2)

[[99  5  2  4]
 [ 7  6  8 33]
 [ 1  6  7  7]]


## 陣列重塑(Reshape)



In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


另一個常見的重塑方法，是把一維陣列放進去一個二維陣列中當作是它的其中一列或一欄，此用法也可以透過reshpae方法做到

In [None]:
x = np.array([1, 2, 3]) # 陣列

# 透過reshape建立列向量(row vector)
x.reshape((1, 3))

array([[1, 2, 3]])

In [None]:
# 透過reshape建立欄向項(column vector)
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

## 陣列的串接(Concatenation)和分割(Splitting)

把多個陣列合併成一個，也可以將一個陣列分裂成多個陣列

### 串接分割

在Numpy中串接兩個陣列，主要是以`np.concatenate`, `np.vstack`, `np.hstack`這幾個程序完成。


In [None]:
x = np.array([1, 2, 3]) 
y = np.array([3, 2, 1])
np.concatenate([x, y]) # 以前面的tuple或list當作是第一個參數

array([1, 2, 3, 3, 2, 1])

也可以一次串接2個以上的陣列

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


也可以串接二維陣列的串接上

In [None]:
grid = np.array([[1, 2, 3],
          [4, 5, 6]])

In [None]:
# 沿著第一軸串接
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [None]:
# 沿著第二軸串接(zero-indexed)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

若要在不同維度陣列間進行串接操作，使用`np.vstack` (垂直堆疊) and `np.hstack`(水平堆疊) v:vectical, h:horizontal

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
          [6, 5, 4]])

# 垂直堆疊在陣列上
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [None]:
# 水平堆疊在陣列上
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

### 分割陣列

分割常用`np.split`, `np.hsplit`, and `np.vsplit`。  
這幾個函示可以透過一組陣列索引值的list來指定要分割的位置

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


N個分割的點會產生N+1個子陣列。
`np.hsplit` and `np.vsplit`也是類似的原理

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


<!--NAVIGATION-->
< [Understanding Data Types in Python](02.01-Understanding-Data-Types.ipynb) | [Contents](Index.ipynb) | [Computation on NumPy Arrays: Universal Functions](02.03-Computation-on-arrays-ufuncs.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.02-The-Basics-Of-NumPy-Arrays.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>
