# 08 NumPy 結構化陣列 (Structured Arrays)

## 範例目標:

分辨不同資料型別 dtype，並注意與 python 資料型別的對應

實做結構化陣列 (Structured Arrays)

## 範例重點:

- 注意 Numpy 與 python 資料型別的對應
- 結構化陣列可透過 dictionary 型別的資料建立 np.dtype 物件，並指定 dtype 給陣列
- RecordArray 提供更多的屬性可以用來存取結構化陣列，但是相對的效能上較差於 Structured Array

## 1. 資料型別 (dtype)

|資料型別|字母|Python資料型別|NumPy通用資料型別|
|---|---|---|---|
|boolean | '?'|bool|np.bool_|
|signed byte | 'b'|bytes|np.bytes_|
|unsigned byte | 'B'|bytes|np.bytes_|
|signed integer | 'i'|int|np.int_|
|unsigned integer | 'u'||np.uint|
|floating-point | 'f'|float|np.float_|
|complex-floating point | 'c'|complex|np.cfloat|
|timedelta | 'm'|datetime.timedelta|np.timedelta64|
|datetime | 'M'|datetime.datetime|np.datetime64|
|string|'S', 'a'|str|np.str_|
|Unicode string | 'U'|str|np.str_|

在CSV檔中有不同型別的資料要讀取。我們可以指定各個Column的資料型別。

In [6]:
#載入特定檔案

In [None]:
%load structured.txt

- 透過 `np.dtype` 物件，指定要讀入各Column的資料型別
- 以下範例是使用 Python 的資料型別及字母代表的型別。
    - 其中字母後的數字代表其長度，例如 f8 代表 float64 (8 bytes)，U5代表長度5以下的unicode字串。
    - 資料型別也可以使用NumPy的資料型別，例如 np.int32。

In [9]:
import numpy as np
#使用字母代表資料型別
dt = np.dtype('U5, i8, i8, U3')

In [11]:
#從文字檔中讀取資料 (檔名, 分隔符號, 資料型別)
a = np.genfromtxt('structured.txt', delimiter=',', dtype=dt)
a

array([('Jay', 1, 2, 'Yes'), ('James', 3, 4, 'No'), ('Joe', 5, 6, 'Yes')],
      dtype=[('f0', '<U5'), ('f1', '<i8'), ('f2', '<i8'), ('f3', '<U3')])

## 2. 結構化陣列 (Structured Arrays)

建立結構化陣列可透過dictionary型別的資料建立 `np.dtype` 物件，並指定 `dtype` 給陣列。

這邊的資料型別可以使用Python的資料型別、NumPy的資料型別、或是字母代表的型別皆可。

在範例中我們混用了3種型別的表示方式。

In [55]:
#使用字典，指定 'names' 欄位名稱
#使用字典，指定 'format' 資料型別

dt = np.dtype({'names':('Name', 'num1', 'num2', 'True'), 
               'formats':((np.str_, 5), np.int32, int, 'U3')})

#Python的資料型別：int
#NumPy的資料型別：(np.str_, 5), np.int32
#字母代表的型別：'U3'

In [56]:
b = np.genfromtxt('structured.txt', delimiter=',', dtype=dt)
b

array([('Jay', 1, 2, 'Yes'), ('James', 3, 4, 'No'), ('Joe', 5, 6, 'Yes')],
      dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

### 以索引存取元素

建立陣列後，可以用索引的方式存取元素資料。

In [57]:
#使用索引取得元素
print('b[0] : ', b[0],
      '\nb[1] : ', b[1])

b[0] :  ('Jay', 1, 2, 'Yes') 
b[1] :  ('James', 3, 4, 'No')


### 以 Column Name 取得元素
使用 Column Name 取得該 Column 所有元素值

In [58]:
print('使用 Column name 取得元素值 : \n',
      "b['Name'] = ", b['Name'], '\n',
      "b['num1'] = ", b['num1'])

使用 Column name 取得元素值 : 
 b['Name'] =  ['Jay' 'James' 'Joe'] 
 b['num1'] =  [1 3 5]


### 使用 Row, Column Name，取得單筆資料的欄位值


In [59]:
b[1]['True']

'No'

In [60]:
b[0]['Name']

'Jay'

### 使用邏輯操作，取得對應的結果

In [61]:
b['num2'] >= 3  # 判斷 b 裡面 num2 這個 Column 中，每個 Row 是否 >=3  

array([False,  True,  True])

In [62]:
b[b['num2'] >=3] #取出條件為 True 的 Row: b['num2']>=3 

array([('James', 3, 4, 'No'), ('Joe', 5, 6, 'Yes')],
      dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

In [63]:
b[b['num2'] >=3]['Name'] #從符合條件的 Row 中，取得 Name 這個 Column 的資料 

array(['James', 'Joe'], dtype='<U5')

### 建立結構化陣列

In [64]:
c = np.zeros(3, dtype=dt) #產生3個元素是0的array #0的Unicode為空，第四個欄位沒資料也為空
c

array([('', 0, 0, ''), ('', 0, 0, ''), ('', 0, 0, '')],
      dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

In [66]:
#印出每個欄位名稱及資料型別
print(c.dtype)

[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')]


In [67]:
c['Name']

array(['', '', ''], dtype='<U5')

In [68]:
#建立資料串列
name = ['Chloe', 'Cherry', 'Clara']
num_1 = [11, 12, 13]
num_2 = [14, 15, 16]
check = ['Y','Y','N']


In [69]:
#將建立好的資料串列指定給c個每個Column
c['Name'] = name
c['num1'] = num_1
c['num2'] = num_2
c['True'] = check

In [71]:
#將 c 的內容印出來
print(c)

[('Chloe', 11, 14, 'Y') ('Cherr', 12, 15, 'Y') ('Clara', 13, 16, 'N')]


## 3. RecordArray：`numpy.recarray()`

- RecordArray 與 Structured Array 非常類似，但是提供更多的屬性可以用來存取結構化陣列。
- RecordArray 雖然方便但是在效能上會比原來的陣列差。
- Structured Array 是透過索引或是名稱存取元素值，但是 RecordArray 可以使用屬性的方式來取得。

In [74]:
#用RecordArray來存取結構化陣列
c_rec = c.view(np.recarray)
c_rec

rec.array([('Chloe', 11, 14, 'Y'), ('Cherr', 12, 15, 'Y'),
           ('Clara', 13, 16, 'N')],
          dtype=[('Name', '<U5'), ('num1', '<i4'), ('num2', '<i4'), ('True', '<U3')])

Structured Array 是透過索引或是名稱存取元素值，但是 RecordArray 可以使用屬性的方式來取得。

In [76]:
#Structured Array 是透過索引或是名稱存取元素值，但是 RecordArray 可以使用屬性的方式來取得。
c_rec.Name

array(['Chloe', 'Cherr', 'Clara'], dtype='<U5')