# Chapter 4 Numpy基礎:陣列和向量化計算

## NumPy: Numerical Python，是計算最重要的基礎。

### NumPy的數學運算非常有效率，不需要透過for迴圈也可以將資料計算出來，速度比一般python語法快上10-100倍，記憶體的容量也很少。

In [1]:
import numpy as np

### 使用np.arrange的元素去乘以２倍，計算運算時間。

In [2]:
my_arr=np.arange(1000000) 

In [3]:
%time for _ in range(10):my_arr2=my_arr*2

CPU times: user 19 ms, sys: 12.4 ms, total: 31.4 ms
Wall time: 39.5 ms


### 使用python內建的list，計算運算時間。

In [4]:
my_list=list(range(1000000))

In [5]:
%time for _ in range(10): my_list2=[x*2 for x in my_list]

CPU times: user 747 ms, sys: 190 ms, total: 938 ms
Wall time: 942 ms


### NumPy ndarray: 多維陣列物件

In [6]:
import numpy as np

In [7]:
data=np.random.randn(2,3)

In [8]:
data

array([[-0.99666659,  0.1748735 , -1.90861688],
       [-0.28775397, -1.03863131,  0.34861808]])

In [9]:
data*10

array([[ -9.96666585,   1.74873501, -19.08616879],
       [ -2.87753966, -10.38631313,   3.48618076]])

In [10]:
data+data

array([[-1.99333317,  0.349747  , -3.81723376],
       [-0.57550793, -2.07726263,  0.69723615]])

### ndarray是同質資料的多為容器，每一個元素型態要一致，每一個陣列都有shape與dtype。

### shape: 標明維度的tuple。dtype: 資料型態。

In [11]:
data.shape

(2, 3)

In [12]:
data.dtype

dtype('float64')

### 建立ndarray: 使用array()，list很適合傳入物件。

In [13]:
data1=[6,7.5,9,0,2]

In [14]:
arr1=np.array(data1)

In [15]:
arr1

array([6. , 7.5, 9. , 0. , 2. ])

### 使用巢式list，等長的list會形成多維陣列。

In [16]:
data2=[[1,2,3,4],[5,6,7,8]]

In [17]:
arr2=np.array(data2)

In [18]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

### ndim: 確認陣列的行數，shape: 確認陣列的型態，包含欄與列。

In [19]:
arr2.ndim

2

In [20]:
arr2.shape

(2, 4)

### dtype: 確認陣列的資料型態。

In [21]:
arr1.dtype

dtype('float64')

In [22]:
arr2.dtype

dtype('int64')

### zeros(): 可以建立全部為0的陣列。

In [23]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

### ones(): 可以建立全部為1的陣列。

In [24]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 如果希望建立多維度的陣列，可以將tuple放入zeros()/ones()

In [25]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [26]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

### empty(): 可以產生亂數，（a,b,c)=(陣列數量,列數,欄數)

In [27]:
np.empty((2,3,1))

array([[[1.99333317],
        [0.349747  ],
        [3.81723376]],

       [[0.57550793],
        [2.07726263],
        [0.69723615]]])

### arrange() 類似於range(): 可以產生連續的陣列。

In [28]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### identity(), eye() 可以做出正方形的陣列，且對角線為0,1。

In [29]:
np.identity(2)

array([[1., 0.],
       [0., 1.]])

In [30]:
np.eye(2)

array([[1., 0.],
       [0., 1.]])

### ndarray的資料型態

In [31]:
arr1 = np.array([1,2,3], dtype=np.float64)

In [32]:
arr2 = np.array([2,2,3], dtype=np.int32)

In [33]:
arr1.dtype

dtype('float64')

In [34]:
arr2.dtype

dtype('int32')

### astype(): 可以轉換dtype。

In [35]:
arr=np.array([1,2,3,4,5,6])

In [36]:
arr.dtype

dtype('int64')

In [37]:
float_arr=arr.astype(np.float64)

In [38]:
float_arr.dtype

dtype('float64')

### 將文字轉為數字，不過由於字串長度固定，可能會切掉部分的值，要小心。

In [39]:
numeric_strings=np.array(['1.5','1.25','2.75','3.5','50'],dtype=np.string_)

In [40]:
numeric_strings.astype(float)

array([ 1.5 ,  1.25,  2.75,  3.5 , 50.  ])

### 可以使用另外一個陣列的屬性來轉換資料型態喔！

In [41]:
int_array=np.arange(10)

In [42]:
calibers=np.array([.22,.279,.45,.80,.50],dtype=np.float64)

In [43]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

### 也可以使用代碼來轉換文字格式。例如：u4=unit32 ; f4=float32

In [44]:
empty_unit32=np.empty(8,dtype='u4')

In [45]:
empty_unit32

array([         0, 1072693248,          0,          0,          0,
                0,          0, 1072693248], dtype=uint32)

### 陣列的算數運算：好處是不用寫任何的迴圈，就會進行整批運算。-> 向量化（vectorization)

In [46]:
arr=np.array([[1,2,3],[4,5,6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [48]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [49]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [50]:
arr **0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [51]:
arr2 = np.array([[0,4,1],[7,2,12]])

In [52]:
arr2

array([[ 0,  4,  1],
       [ 7,  2, 12]])

In [53]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 基本的索引和切片

In [54]:
arr = np.arange(10)

In [55]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
arr[5]

5

In [57]:
arr[5:8]

array([5, 6, 7])

### arr 透過索引進行修改後，會在原本的陣列上進行修改，並不會產生新的陣列。

In [58]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

### 修改由原先陣列延伸出來的切片，若修改切片的值，原本的陣列數值也會更改。

In [59]:
arr_slice=arr[5:8]
arr_slice

array([12, 12, 12])

In [60]:
arr_slice[1]=12345

In [61]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

### [:] 表示要使用陣列所有值。

In [62]:
arr_slice[:]=64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

### numpy之所以直接修改原陣列的原因是為了效率，如果每做一個動作都要複製，會很消耗效能跟容量，所以原本設定是直接原地修改。

### copy(): 想把資料複製出來，可以使用copy()

In [63]:
a = arr[5:8].copy()

In [64]:
a[:]=5 #複製出來的a，即便修改數值，也不會影響原本的arr。

In [65]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

### 高維度陣列

In [66]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [67]:
arr2d[2]

array([7, 8, 9])

### 二維陣列，如果要抓取特定的值，除了[a][b]外，也可以[a,b]

In [68]:
arr2d[0][2]

3

In [69]:
arr2d[0,2]

3

In [70]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [71]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [72]:
old_values=arr3d[0].copy

In [73]:
arr3d[0]=42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

### ???? arr3d[0]=old_values

In [74]:
arr3d[1,0]

array([7, 8, 9])

In [75]:
x = arr3d[1]

In [76]:
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [77]:
x[0]

array([7, 8, 9])

### 用切片做索引

In [78]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [79]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [80]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [81]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [82]:
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

In [83]:
arr2d[1,:2]

array([4, 5])

In [84]:
arr2d[2,:2]

array([7, 8])

In [85]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

In [86]:
arr2d[:2,1:]=0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 布林索引

In [87]:
interests = np.array(['Books','Movie','Swimming','Books','Bikes','Movie','Dance'])

In [88]:
data = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16],[17,18,19,20],[21,22,23,24],[25,26,27,28]])

In [89]:
interests

array(['Books', 'Movie', 'Swimming', 'Books', 'Bikes', 'Movie', 'Dance'],
      dtype='<U8')

In [90]:
data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24],
       [25, 26, 27, 28]])

### 運用 == 可以進行布林值比較，可以透過比較運算子，產生布林索引。

In [91]:
interests == 'Bikes'

array([False, False, False, False,  True, False, False])

### 特別注意到使用布林陣列，兩個互相參照的行列數要一致。 

### 由interests='Bike' 我們可以知道正確的值在index=4，放入到data，系統會找到index=4的那一列。(row)

In [92]:
data[interests == 'Bikes']

array([[17, 18, 19, 20]])

### 接下來再從[17,18,19,20]找到index=0,1的值，就是[17,18]囉！

In [93]:
data[interests == 'Bikes',:2]

array([[17, 18]])

In [94]:
data[interests == 'Bikes', 3]

array([20])

### 如果要排除Bike以外的資料，可以使用 '!=' 或是反向 '~'

In [95]:
interests != 'Bikes'

array([ True,  True,  True,  True, False,  True,  True])

In [96]:
data[~(interests == 'Bikes')]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [21, 22, 23, 24],
       [25, 26, 27, 28]])

### 在使用~時，可以先將資料存到另外一個陣列b_array，再套到data[]內，呈現會比較精美。

In [97]:
b_array=interests=='Bikes'

In [98]:
data[~b_array]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [21, 22, 23, 24],
       [25, 26, 27, 28]])

### 如果想使用2個以上的條件，可以使用& , |(或)

In [99]:
interests2=( (interests =='Bikes') | (interests =='Movie') )

In [100]:
interests2

array([False,  True, False, False,  True,  True, False])

In [101]:
data[interests2]

array([[ 5,  6,  7,  8],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

### 注意在使用布林值陣列時，不能使用文字的and, or，必須使用符號 &, |。

In [102]:
interests2=( (interests =='Bikes') & (interests =='Movie') )

### 利用布林值陣列來調整原陣列的值。

In [103]:
data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24],
       [25, 26, 27, 28]])

In [104]:
data[data<20]=0
data

array([[ 0,  0,  0,  0],
       [ 0,  0,  0,  0],
       [ 0,  0,  0,  0],
       [ 0,  0,  0,  0],
       [ 0,  0,  0, 20],
       [21, 22, 23, 24],
       [25, 26, 27, 28]])

In [105]:
data[interests=='Dance']=150

In [106]:
data

array([[  0,   0,   0,   0],
       [  0,   0,   0,   0],
       [  0,   0,   0,   0],
       [  0,   0,   0,   0],
       [  0,   0,   0,  20],
       [ 21,  22,  23,  24],
       [150, 150, 150, 150]])