<img width=150 src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/200px-NumPy_logo.svg.png"></img>

# NumPy I/O

範例目標:<br>
1. 運用 Numpy 讀取或輸出不同檔案格式

範例重點:<br>
1. 注意不同檔案格式有不同的讀取、輸出方式
2. .npy 與 .npz 格式是NumPy的檔案格式，透過 save()、savez()、load() 函式進行儲存與讀取
3. 針對文字檔，可以使用 savetxt()、loadtxt()、genfromtxt() 來儲存與讀取

In [1]:
import numpy as np

## 1. `numpy.save()`、`numpy.savez()`、`numpy.load()`

`numpy.save()` 是將單一陣列儲存到 .npy 格式的函式，而 `numpy.savez()` 可以將多個陣列儲存到同一個 .npz 格式的檔案中。

讀取 .npy / .npz 檔案，使用 `numpy.load()` 函式來開啟檔案，並回傳檔案中的陣列。

相較於 CSV 或 TXT 檔案，開啟 NumPy 格式的檔案在效能上快非常多。

![](https://miro.medium.com/max/984/1*xwpjjSdZwiOMnPJtdp9L2w.png)

來源網址：[URL](https://towardsdatascience.com/what-is-npy-files-and-why-you-should-use-them-603373c78883)

儲存單一陣列到 .npy 檔案，並用 `numpy.load()` 載入回傳陣列。

In [2]:
with open('one_array.npy', 'wb') as f:
    np.save(f, np.array([1, 2]))

In [3]:
np.load('one_array.npy')

array([1, 2])

呼叫 `numpy.save()` 時，儲存多個陣列時，內容會依序附加 (append) 在該檔案的最後。

In [37]:
with open('test.npy', 'wb') as f:
    np.save(f, np.array([1, 2]))
    np.save(f, np.array([1, 3]))
    np.save(f, np.array([1, 4]))
    np.save(f, np.array([1, 3]))

載入的時候每一次 `numpy.load()` 就載入一個陣列。

In [38]:
with open('test.npy', 'rb') as f:
    a = np.load(f)
    b = np.load(f)
    c = np.load(f)
    d = np.load(f)

print(a, b, c, d)

[1 2] [1 3] [1 4] [1 3]


使用 `numpy.savez()` 時，可以儲存多個陣列。下面範例在儲存陣列時並指定陣列關鍵字 (array1, array2...)，若未指定的話預設會以 arr_0, arr_1... 關鍵字設定。

In [39]:
x = np.arange(10)
y = np.array([1, 2, 3])
z = np.random.rand(10)

with open('multi_array.npz', 'wb') as f:
    np.savez(f, array1=x, array2=y, array3=z)

當呼叫 `numpy.load()` 載入 .npz 檔案時，回傳的會是 NpzFile 類別。

In [40]:
npzfile = np.load('multi_array.npz')
type(npzfile)

numpy.lib.npyio.NpzFile

透過 files 屬性回傳的 List，可以看到載入的物件裡面包含 3 個陣列，名稱分別為 array1, array2, array3

In [41]:
npzfile.files

['array1', 'array2', 'array3']

顯示每一個陣列的內容。

In [42]:
print(npzfile['array1'])
print(npzfile['array2'])
print(npzfile['array3'])

[0 1 2 3 4 5 6 7 8 9]
[1 2 3]
[0.83405319 0.50592714 0.79742896 0.53667092 0.35305523 0.08692719
 0.45958777 0.38694245 0.28702453 0.95279837]


## 2. `savetxt()` 與 `loadtxt()`

### 2.1 `numpy.savetxt()`

`savetxt()` 可將一維或是二維陣列儲存到文字檔，並且可以設定元素值的格式、分隔符號、換行字元、檔頭 (header)、檔尾 (footer)、檔案字元編碼... 等引數。

函式的用法如下：

```python
numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='n', header='', footer='', comments='# ', encoding=None)
```

引數的定義如下表：其中僅 fname 是必輸欄位。

|引數名稱|定義|預設值|
|---|---|---|
|fname|檔案名稱||
|X|要儲存的一維或二維陣列||
|fmt|陣列元素的格式，例如科學記號的格式定義(%1.4e)、整數(%d)、浮點數(%f)...|%.18e|
|delimiter|分隔符號|空格|
|newline|換行字元|n|
|header|檔頭註解文字|空字串|
|footer|檔尾註解文字|空字串|
|comments|註解文字的前綴字元或字串|#加一空格|
|encoding|檔案的字元編碼|`None`|

In [43]:
x = y = z = np.arange(0.0,5.0,1.0)
x

array([0., 1., 2., 3., 4.])

In [44]:
y = np.arange(10).reshape(2, 5)
y

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

需注意，如果儲存的陣列是一維的話，須加上中括號才能正常產生符號分隔檔格式，否則分隔符號會被忽略。

In [45]:
np.savetxt('test.out', [x], delimiter=',')

使用 `%load <filename>` magic command 來查看檔案內容。

In [None]:
# %load test.out
0.000000000000000000e+00,1.000000000000000000e+00,2.000000000000000000e+00,3.000000000000000000e+00,4.000000000000000000e+00


如果副檔名為 .gz 的話，存檔時會存為壓縮的 gzip 檔案。

In [18]:
np.savetxt('test.gz', [x], delimiter=',')

二維陣列則沒有上述的情況。

In [19]:
np.savetxt('test.csv', y, delimiter=',')

In [None]:
# %load test.csv
0.000000000000000000e+00,1.000000000000000000e+00,2.000000000000000000e+00,3.000000000000000000e+00,4.000000000000000000e+00
5.000000000000000000e+00,6.000000000000000000e+00,7.000000000000000000e+00,8.000000000000000000e+00,9.000000000000000000e+00


使用 `fmt` 引數可以指定輸出的格式，下例是指定科學記號的格式來輸出陣列值。

在存檔時也可以加入 header / footer 做為檔案註解說明。

In [21]:
np.savetxt('test.out', x, fmt='%1.4e', delimiter=',', header='this is,\nheader', footer='this is footer')

In [None]:
# %load test.out
# this is,
# header
0.0000e+00
1.0000e+00
2.0000e+00
3.0000e+00
4.0000e+00
# this is footer


### 2.2 `numpy.loadtxt()`

函式的用法如下：

```python
numpy.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None)
```

引數的定義如下表：其中僅 fname 是必輸欄位。

|引數名稱|定義|預設值|
|---|---|---|
|fname|檔案名稱||
|dtype|陣列的資料型別|float|
|comments|註解文字的前綴字元或字串|#|
|delimiter|分隔符號|None|
|converters|以字典型別定義 {column:轉換函式} key/value值|None|
|skiprows|讀取時要略過開頭的row數目(例如註解的行數)|0|
|usecols|要讀取的column|None|
|unpack|bool值，如果是True的話，會轉置(transpose)輸出的陣列|False|
|ndmin|設定傳回陣列的最低軸數|0|
|encoding|檔案的字元編碼|bytes|
|max_rows|在skiprows的row數目後，最大的讀取row數目，預設讀取所有資料|None|

`loadtxt()` 函式與稍後會介紹的 `genfromtxt()` 函式有一些相同的引數及功能，但是 `genfromtxt()` 功能更有彈性，所以相關的功能會一併在 `genfromtxt()` 中介紹。

讀取儲存成文字檔的陣列時，使用 `loadtxt()` 載入，下面例子是載入我們上面儲存的 `test.out` 文字檔。這邊可以看到載入寺預設的資料型別是 `float`，而原先儲存時使用的科學記號格式，在載入時被轉換為浮點數格式。

呼叫時可用 `delimiter` 引數指定分隔符號來正確載入陣列資料。

在 `dtype` 引數中 `f4` 代表的是浮點數 4 bytes，也就是 `float32`。

In [23]:
np.loadtxt('test.out', delimiter=',', dtype='f4')

array([0., 1., 2., 3., 4.], dtype=float32)

## 3. `genfromtxt()`

跟 `loadtxt()` 相比，`genfromtxt()` 提供更 powerful 及更有彈性的功能，用來讀取文字檔格式的陣列。

函式用法如下：

```python
numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')
```

引數的定義如下表：其中僅 fname 是必輸欄位。

|引數名稱|定義|預設值|
|---|---|---|
|fname|檔案名稱或是輸入資料||
|dtype|陣列的資料型別|float|
|comments|註解文字的前綴字元或字串|#|
|delimiter|分隔符號|None|
|skip_header|讀取時忽略的檔頭行數|0|
|skip_footer|讀取時忽略的檔尾行數|0|
|converters|以字典型別定義 {column:轉換函式} key/value值|None|
|missing_values|用來識別缺值的字串|None|
|filling_values|用來填入缺值的值|None|
|usecols|要讀取的column|None|
|names|column名稱|None|
|excludelist|要排除的column名稱|None|
|deletechars|須從column名稱中刪除的字元|#$%&'()*+, -./:;<=>?@[\]^{|}~|
|replace_space|要取代空格的字元|_|
|autostrip|是否自動去空格|False|
|case_sensitive|欄位名稱是否區分大小寫，可以設定True/False/upper(轉為大寫)/lower(轉為小寫)|True|
|defaultfmt|如果names未定義完整名稱，defaultfmt可用來定義structured dtype的column名稱|f%i|
|unpack|bool值，如果是True的話，會轉置(transpose)輸出的陣列|False|
|usemask|如果是True的話，回傳masked array；否則回傳正常的array|False|
|loose|如果是True的話，無效的值不會導致錯誤|True|
|invalid_raise|設為True時，如果column數目不合會拋出exception；如果設為False的話，拋出warning並且跳過不合數目的資料|True|
|max_rows|在skiprows的row數目後，最大的讀取row數目，預設讀取所有資料|None|
|encoding|檔案的字元編碼|bytes|

### 3.1 將文字檔內容讀取並正確分隔Column

要將文字檔內容讀入並正確分隔Column，才能獲得預期中的陣列及元素值。常用的分隔符號有逗號、tab... 下面的範例中分別示範了逗號分隔以及固定寛度的元素值，要如何讀取。

最基本的用法就是讀取CSV檔案。預設的分隔符號為None，所以在這邊我們必須指定正確的分隔符號，範例檔案的分隔符號為逗號。

In [24]:
np.genfromtxt("test.csv", delimiter=",")

array([[0., 1., 2., 3., 4.],
       [5., 6., 7., 8., 9.]])

跟 `loadtxt()` 相同，如果檔案是 gz 或是 bz2 壓縮檔的話，可以直接讀取不需要先解壓縮。

In [25]:
np.genfromtxt("test.gz", delimiter=",")

array([0., 1., 2., 3., 4.])

字串 List 也可以做為輸入。

In [26]:
np.genfromtxt(["1", "2", "abc", "4", "5"])

array([ 1.,  2., nan,  4.,  5.])

類檔案的物件都可以做為輸入，例如 `StringIO`。

當 `delimiter` 給定的是一個整數、或是整數的序列時，可以用來將固定寬度的字串讀入，在下面的範例中，固定寬度包含了空格。

In [27]:
from io import StringIO

data = u"  1  2  3\n  4  5 67\n890123  4"
np.genfromtxt(StringIO(data), delimiter=3)

array([[  1.,   2.,   3.],
       [  4.,   5.,  67.],
       [890., 123.,   4.]])

如果給定的是單一整數代表所有陣列元素都是同一寬度；如有不同寬度時，可以使用整數序列來定義。

In [28]:
data = u"123456789\n   4  7 9\n   4567 9"
np.genfromtxt(StringIO(data), delimiter=(4, 3, 2))

array([[1234.,  567.,   89.],
       [   4.,    7.,    9.],
       [   4.,  567.,    9.]])

`autostrip` 引數如果設為 `True`，在讀取時會自動將元素值的空格去除。

In [29]:
data = u"1, 2 , 4\n 4, 5, 6"
np.genfromtxt(StringIO(data), delimiter=",", autostrip=True)

array([[1., 2., 4.],
       [4., 5., 6.]])

與 `loadtxt()` 相同，讀取時可以略過註解文字，或是 header / footer。

In [30]:
np.genfromtxt("test.out", comments="#")

array([0., 1., 2., 3., 4.])

在檔案內容中包含了以 # 啟始的 header / footer。header 有 2 行而 footer 有 1 行，設定要略過的行數就可以正確讀入欲讀取的陣列元素。

In [31]:
np.genfromtxt("test.out", comments=None, skip_footer=1, skip_header=2)

array([0., 1., 2., 3., 4.])

### 3.2 選擇要讀取的 Column

`names` 引數是用來指明是否檔案內容中有Column名稱，或是如果原來內容沒有的話，可以給定Column名稱。範例 `names.txt` 中的第一行是預期的Column名稱。

In [None]:
# %load names.txt
a,b,c
1,2,3
4,5,6
7,8,9

`names=True` 代表這個讀入的內容中有Column名稱，也就是這個檔案中的第一行。若有指定 `skip_header` 的話則會是 header 後的第一行。

In [47]:
np.genfromtxt("names.txt", delimiter=",", names=True)

array([(1., 2., 3.), (4., 5., 6.), (7., 8., 9.)],
      dtype=[('a', '<f8'), ('b', '<f8'), ('c', '<f8')])

若是原始資料中沒有名稱，可以透過 `names` 指定。

In [48]:
data = StringIO("1 2 3\n 4 5 6")
np.genfromtxt(data, names="a, b, c")

array([(1., 2., 3.), (4., 5., 6.)],
      dtype=[('a', '<f8'), ('b', '<f8'), ('c', '<f8')])

透過 `usecols` 引數可以選擇要讀入的Column，下面的例子是指定要讀入的Column名稱。

In [49]:
a = u"1,2,3,4,5\n6,7,8,9,10"
np.genfromtxt(StringIO(a), delimiter=",", names="a, b, c", usecols=("a", "c"))

array([(1., 3.), (6., 8.)], dtype=[('a', '<f8'), ('c', '<f8')])

如果沒有Column名稱的話，可以使用整數指定要讀取的Column索引值。

In [50]:
a = u"1 2 3 4 5\n6 7 8 9 10"
np.genfromtxt(StringIO(a), usecols=(1, -1))

array([[ 2.,  5.],
       [ 7., 10.]])

但是若已有 `names` 的話，使用索引值會產生錯誤訊息。

In [51]:
a = u"1 2 3 4 5\n6 7 8 9 10"
np.genfromtxt(StringIO(a), names="a, b, c", usecols=(1, -1))

IndexError: list index out of range

如果沒有給定 `names` 或是給的數目少於Column，那麼在回傳結構化陣列時，會自動以 `f%i` 的命名規則產生 `names`。

In [52]:
a = StringIO("1 2 3\n 4 5 6")
np.genfromtxt(a, dtype=(int, float, int))

array([(1, 2., 3), (4, 5., 6)],
      dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<i8')])

若要指定命名規則，可以使用 `defaultfmt` 引數。

In [53]:
a = StringIO("1 2 3\n 4 5 6")
np.genfromtxt(a, dtype=(int, float, int), defaultfmt="var_%i")

array([(1, 2., 3), (4, 5., 6)],
      dtype=[('var_0', '<i8'), ('var_1', '<f8'), ('var_2', '<i8')])

有關於結構化陣列 (Structured Arrays) 與 dtype，將會在後續內容中詳細介紹。

### 3.3 缺值處理

預設空值都被視為缺值 (missing value)，用 `filling_values` 可以指定要填值 (filling value)。

In [55]:
a = u", 2, 3\n4, ,"
np.genfromtxt(StringIO(a), delimiter=",")

array([[nan,  2.,  3.],
       [ 4., nan, nan]])

In [57]:
a = u", 2, 3\n4, ,"
np.genfromtxt(StringIO(a), delimiter=",", filling_values=np.nan)

array([[nan,  2.,  3.],
       [ 4., nan, nan]])

In [56]:
a = u", 2, 3\n4, ,"
np.genfromtxt(StringIO(a), delimiter=",", filling_values=0)

array([[0., 2., 3.],
       [4., 0., 0.]])

除了空值之外，若有特定字串應被視為缺值的話，使用 `missing_values` 引數可以指定，而且可以使用序列來指定缺值與填值。要留意的是，使用字串序列的話，要每個Column依序指定。

In [65]:
a = u"N/A, 2, 3, ???"
np.genfromtxt(StringIO(a), delimiter=",", 
              missing_values=["N/A", "N/A", "N/A", "???"], 
              filling_values=[0, 0, 0, -999])

array([   0.,    2.,    3., -999.])

針對不同的 `dtype`，如果沒有指定填值的話，根據不同的型別的缺值有不同的預設填值。

|dtype|預設填值|
|---|---|
|bool|False|
|int|-1|
|float|np.nan|
|complex|np.nan+0j|
|string|''|

In [66]:
a = u"1, , \n , 5, 6"
np.genfromtxt(StringIO(a), delimiter=',', dtype="int, float, str")

array([( 1, nan, ''), (-1,  5., '')],
      dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<U')])

### 3.4 資料轉換

在讀取檔案時使用 `converters` 引數可以同時轉換資料。在範例檔案中，資料包含Yes/No與百分比，將在讀取時進行轉換。

In [67]:
np.genfromtxt("transform.txt", delimiter=',', dtype="i8, i8, U3, U3")

OSError: transform.txt not found.

舉例來說，如果我們想將資料中的Yes/No與百分比進行轉換，使用自訂函式來進行。

In [68]:
def trans(s):
    if s == b'Yes':
        return 1
    else:
        return 0

In [69]:
def conversion(x):
    return float(x.strip(b"%"))/100

`converters` 引數接收的是字典型別 (dictionary)，key 代表的是Column，可以使用索引或是names定義的Column名稱。下面的例子是使用索引。

In [70]:
np.genfromtxt("transform.txt", delimiter=',', converters={2:trans, 3:conversion})

array([(1., 2., 1, 0.87), (3., 4., 0, 0.03), (5., 6., 1, 0.55)],
      dtype=[('f0', '<f8'), ('f1', '<f8'), ('f2', '<i8'), ('f3', '<f8')])