# Array Basics

### Numpy ndarray 和 list的差異:
1. 記憶體位置連續，運算速度較CPython的list大幅提升
2. np array以相對位置做元素運算，而list多為inplace運算
3. list可包含不同資料型別的元素，但np array元素型別必須一致(類似R的向量c(...) )
4. np array可直接指定維度，list則無法

In [3]:
import numpy as np
# 建立陣列
np.array([1,4,2,3,5])

array([1, 4, 2, 3, 5])

In [20]:
# 原生list和ndarray運算速度比較
my_arr = np.arange(1000000)
my_list = list(range(1000000))

#使用 %magic符號計算運行時間
%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 0 ns
Wall time: 12 ms
CPU times: total: 469 ms
Wall time: 465 ms


In [21]:
# 元素一致性
np.array([1,4.558,2,3,5])

array([1.   , 4.558, 2.   , 3.   , 5.   ])

In [22]:
# 指定元素資料型態，內建default為int32/float64
np.array([1,4.558,2,3,5] , dtype = 'int32')

array([1, 4, 2, 3, 5])

In [23]:
# 多維陣列，此處即為5x3陣列
a = np.array([range(i,i+3) for i in [2,4,6,8,10]]) 
a , a.shape

(array([[ 2,  3,  4],
        [ 4,  5,  6],
        [ 6,  7,  8],
        [ 8,  9, 10],
        [10, 11, 12]]),
 (5, 3))

### Numpy 標準資料型態(僅列出常用，像complex就不列了)
> `bool_` : True or False  
> `int_` : 內建整數型態(int64 or int32)  
> `int8` : -128~127  
> `int16` : -32768 to 32767  
> `int32` : -2147483648 to 2147483647  
> `int64` : -9223372036854775808 to 9223372036854775807  
> `uint8/uint16/uint32/uint64` : unsigned，值域x2  
> `float_` : float64簡寫  
> `float16` : 半精度浮點數，2byte，exp位5個bit，fraction位10個bit  
> `float32` : 半精度浮點數，4byte，exp位8個bit，fraction位23個bit  
> `float64` : 半精度浮點數，8byte，exp位11個bit，fraction位52個bit   


### Python結構化陣列
當物件內存在不同資料型態時，Python會使用結構化陣列來表示物件內各元素的資料型別。  

In [6]:
name = ['Alice' , 'Bob' , 'Cathy' , 'Doug']
age = [25,45,37,19]
weight = [55.0,85.5,68.1,61.7]
data = np.zeros(4 , dtype={'names':('name','age','weight') , 'formats':('U10','i4','f8') })
data

array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [8]:
# U10 代表長度10的Unicode ; i4代表 4-byte INT ; F8代表 8-byte FLOAT
data.dtype

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

### 基礎內建方法(basic methods)
> `.zeros ( length|dimension [,dtype])` : 建立指定長度(1維)或者自訂維度(dim)的0陣列，arg不給會報錯  
> `.ones ( length|dimension [,dtype])` : 建立內容全為1的陣列，指定長度(1維)或者自訂維度(dim)，arg不給會報錯  
> `.full ( (length|dimension) , targetValue [,dtype])` : 建立指定內容(targetValue)的陣列，指定長度(1維)或者自訂維度(dim)，arg不給會報錯  
> `.arange(start [, end , step] [,dtype])` : 建立1維陣列，指定起始與間隔寬，元素內容不包含end，給單一值預設 [0,value) with step=1 and int32  
> `.linspace (start, stop, num, endpoint)` : 建立等差陣列，endpoint可設定是否要包含end，預設false，資料型態float64  
> `.random.funcs (length|dimension [,dtype])` : .random方法內包含多種function，可創造多種dist.的亂數，給維度+分布參數即可獲取亂數陣列!  
> `.eye([,dtype])` : 建立單位矩陣  
> `.empty((length|dimension))` : 建立隨機數值的指定維度陣列  
> `.diag(list)` : 建立對角方陣，input list即為對角線上的值  


In [14]:
np.zeros([3,5])

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [18]:
# np.ones() #不給會報錯
np.ones([8]) , np.ones([2,2])

(array([1., 1., 1., 1., 1., 1., 1., 1.]),
 array([[1., 1.],
        [1., 1.]]))

In [26]:
# 陣列可以給文字元素
np.full([2,2] , "BNT")

array([['BNT', 'BNT'],
       ['BNT', 'BNT']], dtype='<U3')

In [28]:
# 2開始到20，間隔3，數值型態維float16
np.arange(2,20,3 , dtype = 'float16')

array([ 2.,  5.,  8., 11., 14., 17.], dtype=float16)

In [35]:
# 只給單一引數則顯示0~19，間隔1，deafult資料型態為int32
np.arange(20) , np.arange(20).dtype

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19]),
 dtype('int32'))

In [38]:
np.linspace(0,10,10) , np.linspace(0,10,10).dtype

(array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
         5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ]),
 dtype('float64'))

In [46]:
# 建立3x3亂數陣列，預取U(0,1)
np.random.random((3,3))

array([[0.57838288, 0.35785682, 0.23328031],
       [0.86100145, 0.3170668 , 0.6625142 ],
       [0.2875257 , 0.84683622, 0.36640016]])

In [45]:
# 建立3x3 N(0,1)亂數陣列，這裡的0,1即為dist.的參數(mean,var)
np.random.normal(0,1,[3,3])

array([[ 0.37817475, -0.31499101,  0.08427138],
       [-0.51082298,  0.33406742, -0.36796643],
       [-0.02884873,  1.52417626,  0.8986553 ]])

In [51]:
# 建立4x4 Chi-Square亂數陣列，這裡的5即為dist.的參數(自由度)
np.random.chisquare(5,[4,4])

array([[ 4.44953998,  7.70124366,  4.82330909,  4.37963238],
       [ 4.99099138,  1.61624834,  2.34935716,  0.80974235],
       [ 3.51689684,  3.15427159,  9.52738147,  5.77825676],
       [ 5.1217369 , 12.17953785,  3.40664214,  2.66178088]])

In [52]:
# 建立3x3 亂數整數陣列，範圍0~10
np.random.randint(0,10,[3,3])

array([[5, 9, 6],
       [7, 2, 8],
       [2, 5, 9]])

In [58]:
# 建立指定數值的隨機數值陣列
np.empty((2,3,4) , dtype='int32')

array([[[1400317192,        475,         64,          0],
        [         0,          0,          0,          0],
        [         0,         57,  812016692,  808989239]],

       [[ 892953145,  929116774,  909717859,  859202609],
        [1714435889, 1664444001,  942814051, 1630943077],
        [1664497969, 1647784755,  808662072, 1700868709]]])

In [60]:
# 建立對角矩陣(diag-only)，必為方陣
np.diag([1,2,3,7,8])

array([[1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 7, 0],
       [0, 0, 0, 0, 8]])

### .random相關的方法
> `.seed(value)` : 指定亂數定序，value要給值才會記憶住  
> `.shuffle()` : 打亂陣列內元素的排序  

In [62]:
# 指定亂數定序，確保每次執行都是同一組亂數
np.random.seed(0)
np.random.random((2,2))

array([[0.5488135 , 0.71518937],
       [0.60276338, 0.54488318]])

In [65]:
list('abcde')

['a', 'b', 'c', 'd', 'e']

In [66]:
# 讀出 abcdefg 其中的一個字元
print(np.random.choice(list('abcdefg'))) 

b


In [67]:
# 讀出 range 產生數字中的一個數字
print(np.random.choice(range(1, 11)))    

4


In [71]:
# 從指定array內挑選隨機元素，可賦予個別元素權重、抽出元素數，但注意這個方法不是Numpy內的random!
import random
random.choices([3, 5, 7, 9], weights = (10, 1, 1, 4), k=6) 

[3, 3, 3, 3, 9, 9]

In [72]:
# 打亂排序
arr = np.arange(10) ;  print(arr)
np.random.shuffle(arr)
arr

[0 1 2 3 4 5 6 7 8 9]


array([3, 1, 8, 7, 9, 0, 6, 4, 2, 5])