<img width=150 src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/200px-NumPy_logo.svg.png"></img>

# Day-03 NumPy 陣列的初始化

* 除了數值資料之外，NumPy陣列也可以儲存複合式資料，也就是包含不同資料型別的元素。這就是結構化陣列 (Structured Arrays) 的功能，可以在陣列資料中指定名稱、型別，以進行後續的資料存取及處理。

## 匯入套件

In [None]:
import numpy as np
print(np.__version__) # 1.16.5

1.22.4


## 建立/初始化陣列有四種方法

### 從內建型態作轉換

* Python 中有列表、元祖、字典和集合，可直接利用 `np.array()` 方法做型態轉換

```
numpy.array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0, like=None)
```

* 其中：
  * object：必填，任何 array_like 物件
  * dtype：指定轉成陣列後的元素型態
  * copy：預設為 True，是否產生一個新的物件
  * order：指定元素在記憶體中的儲存方式
* 補充：更多細節用法，請參考[官方文件](https://numpy.org/doc/stable/reference/generated/numpy.array.html)

In [None]:
print(np.array([1, 2, 3]))

# 會自動轉換成範圍比較大的型態：
print(np.array([1, 2, 3.0]), np.array([1, 2, 3.0]).dtype)

# 也可以指定成想要的型態：
print(np.array([1, 2, 3], dtype=complex), np.array([1, 2, 3], dtype=complex).dtype)

[1 2 3]
[1. 2. 3.] float64
[1.+0.j 2.+0.j 3.+0.j] complex128


字典型態雖然可以成功被轉成陣列，不過好像不符合我們的預期

In [None]:
print(np.array({0: 123, 1: 456}))
print(np.array({0: 123, 1: 456}).size)

{0: 123, 1: 456}
1


正確的寫法應該寫轉成有序的 List 再作轉換：

In [None]:
print(np.array(list({0: 123, 1: 456}.items())))
print(np.array(list({0: 123, 1: 456}.items())).size)

[[  0 123]
 [  1 456]]
4


### 從固定大小的初始值開始

* 先建立一個固定大小的初始值，例如由 0、1 或特定值所組成的陣列
* 建立元素全為 0 之一

In [None]:
np.zeros((2, 3))
# 建立由 0 組成的 2x3 陣列

array([[0., 0., 0.],
       [0., 0., 0.]])

* 建立元素全為 0 之二
  * 使用 `empty()` 函式時不需要給定起始值，但是可以建立給定形狀的陣列，元素值則會隨機給定

In [None]:
np.empty((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

* 建立元素全為 1

In [None]:
np.ones((2, 3))
# 建立由 1 組成的 2x3 陣列

array([[1., 1., 1.],
       [1., 1., 1.]])

* 建立元素全為 n

In [None]:
np.full((2, 3), 9)
# 建立由 9 組成的 2x3 陣列

array([[9, 9, 9],
       [9, 9, 9]])

### 從固定大小的序列值開始

* 可以產生一個特定的序列值，有三種不同的序列：
  * 固定長度的等差序列
  * 固定區間的等差序列
  * 等比序列

In [None]:
np.arange( 10, 30, 5 )
# array([10, 15, 20, 25])

array([10, 15, 20, 25])

In [None]:
np.linspace( 0, 2, 3 )
# array([0. 1. 2.])

array([0., 1., 2.])

In [None]:
np.logspace( 0, 2, 3 )
# array([1. 10. 100.])

array([  1.,  10., 100.])

### 從固定大小的亂數值開始

* 發現 np.random 其實還有許多種不同的亂數方法，發現這些隨機亂數最大的差別在於「分佈」

#### 【新版】
* numpy 1.16版以下無法使用

In [None]:
from numpy.random import default_rng

In [None]:
rng = default_rng()

normal = rng.standard_normal((3, 2))
random = rng.random((3, 2))
integers = rng.integers(0, 10, size=(3,2))

print(normal)
print(random)
print(integers)

[[-1.87389949  0.27757301]
 [ 0.05949928 -1.15602217]
 [ 0.26688927  1.38339595]]
[[0.12711796 0.93046184]
 [0.93236075 0.37161127]
 [0.02302414 0.17672433]]
[[4 2]
 [4 1]
 [0 1]]


#### 【舊版】

In [None]:
normal = np.random.randn(2, 3)
random = np.random.random((3,2))
integers = np.random.randint(0, 10, size=(3,2))

print(normal)
print(random)
print(integers)

[[ 0.11061457  0.41556585 -0.52819422]
 [ 1.24677815 -0.29290536  0.43128301]]
[[0.1869718  0.178604  ]
 [0.33396573 0.00675724]
 [0.45728336 0.40361004]]
[[4 3]
 [4 7]
 [9 2]]


* 為什麼習慣建立一個「固定大小」的陣列？
  * 因為陣列的儲存特性，陣列的元素會配置在連續的記憶體位置。每次改動到大小對於記憶體的更動負擔是比較大的，因此希望在一開始就練利一組固定的尺寸避免頻繁改動記憶體

## 結構化陣列 (Structured Arrays)

### 從檔案中讀取的資料建立結構化陣列

如：在CSV檔中有不同型別的資料要讀取，我們可以指定各個Column的資料型別。

In [None]:
%load structured.txt

透過 `numpy.dtype` 物件，指定要讀入各 Column 的資料型別，下面的例子分別示範 Python 的資料型別及字母代表的型別，其中字母後的數字代表其長度，例如： f8 代表 float64 (8 bytes)， U5 代表長度 5 以下的 unicode 字串。

* 資料型別也可以使用 NumPy 的資料型別，例如 `np.int32`。

In [None]:
# 使用字母代表的資料型別
dt = np.dtype('U5, i8, i8, U3')

In [None]:
a = np.genfromtxt('structured.txt', delimiter=',', dtype=dt)
a

array([('Jay', 1, 2, 'Yes'), ('James', 3, 4, 'No'), ('Joe', 5, 6, 'Yes')],
      dtype=[('f0', '<U5'), ('f1', '<i8'), ('f2', '<i8'), ('f3', '<U3')])

* 建立結構化陣列可透過 dictionary 型別的資料建立 `np.dtype` 物件，並指定 `dtype` 給陣列

* 資料型別可以使用 Python 的資料型別、 NumPy 的資料型別、或是字母代表的型別皆可。在範例中我們混用了 3 種型別的表示方式

In [None]:
dt = np.dtype({'names':('Name', 'num1', 'num2', 'True'), 'formats':((np.str_, 5), np.int32, int, 'U3')})

In [None]:
b = np.genfromtxt('structured.txt', delimiter=',', dtype=dt)
b

array([('Jay', 1, 2, 'Yes'), ('James', 3, 4, 'No'), ('Joe', 5, 6, 'Yes')],
      dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

* 建立陣列後，可以用索引的方式存取元素資料

In [None]:
b[0]

('Jay', 1, 2, 'Yes')

也可以用Column名稱，取得Column所有元素值

In [None]:
b['Name']

array(['Jay', 'James', 'Joe'], dtype='<U5')

或是單筆資料的欄位值。

In [None]:
b[1]['True']

'No'

也可以進行邏輯操作，取得對應的結果。

In [None]:
b[b['num2'] >= 3]['Name']

array(['James', 'Joe'], dtype='<U5')

### 建立結構化陣列

* 如果要新建立一個結構化陣列，與建立陣列的方式非常類似

下例使用 `zeros()` 初始化陣列，並指定 `dtype`。

In [None]:
c = np.zeros(3, dtype=dt)
c

array([('', 0, 0, ''), ('', 0, 0, ''), ('', 0, 0, '')],
      dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

In [None]:
print(c.dtype)

[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')]


將清單資料餵入結構化陣列中

In [None]:
name = ['Chloe', 'Charlotte', 'Clara']
num_1 = [11, 12, 13]
num_2 = [14, 15, 16]
check = ['Y', 'Y', 'N']

In [None]:
c['Name'] = name
c['num1'] = num_1
c['num2'] = num_2
c['True'] = check

In [None]:
print(c)

[('Chloe', 11, 14, 'Y') ('Charl', 12, 15, 'Y') ('Clara', 13, 16, 'N')]


## RecordArray：`numpy.recarray()`

* RecordArray 與 Structured Array 非常類似，但是提供更多的屬性可以用來存取結構化陣列
* RecordArray 雖然方便但是在效能上會比原來的陣列差。使用方法如下

In [None]:
c_rec = c.view(np.recarray)
c_rec

rec.array([('Chloe', 11, 14, 'Y'), ('Charl', 12, 15, 'Y'),
           ('Clara', 13, 16, 'N')],
          dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

原先我們是透過索引或是名稱存取元素值，但是 RecordArray 可以使用屬性的方式來取得。

In [None]:
c_rec.Name

array(['Chloe', 'Charl', 'Clara'], dtype='<U5')

## 參考資料

* [Python 中的 list 與 NumPy 中 array 的區别 及相互轉換](https://blog.csdn.net/CatStarXcode/article/details/79039891)