# numpy

## 数据类型及数组创建

**numpy.nan**

- 表示空值。

```
nan = NaN = NAN
```

两个`numpy.nan`是不相等的。

- `numpy.isnan(x, *args, **kwargs)` Test element-wise for NaN and return result as a boolean array.

- ```python
  z = np.count_nonzero(y)
  ```

**numpy.inf**

- 表示正无穷大。

**numpy.pi    numpy.e¶**

numpy 的数值类型实际上是 **dtype** 对象的实例
![image-20210410070910801](/home/lonelvino/.config/Typora/typora-user-images/image-20210410070910801.png)

#### **数据类型信息**

```python
import numpy as np

ii16 = np.iinfo(np.int16)
print(ii16.min)  # -32768
print(ii16.max)  # 32767

ii32 = np.iinfo(np.int32)
print(ii32.min)  # -2147483648
print(ii32.max)  # 2147483647
```

### 时间日期和时间增量

````python
import numpy as np

a = np.datetime64('2020-03-01')
print(a, a.dtype)  # 2020-03-01 datetime64[D]
````

从字符串创建 datetime64 数组时，如果单位不统一，则一律转化成其中最小的单位。

```python
import numpy as np

a = np.array(['2020-03', '2020-03-08', '2020-03-08 20:00'], dtype='datetime64')
print(a, a.dtype)
# ['2020-03-01T00:00' '2020-03-08T00:00' '2020-03-08T20:00'] datetime64[m]
```

#### datetime64 和 timedelta64 运算

```python
import numpy as np

a = np.datetime64('2020-03-08') - np.datetime64('2020-03-07')
print(a, a.dtype)  # 1 days timedelta64[D]
```

生成 timedelta64时，要注意年（'Y'）和月（'M'）这两个单位无法和其它单位进行运算（一年有几天？一个月有几个小时？这些都是不确定的）。

- `numpy.is_busday(dates, weekmask='1111100', holidays=None, busdaycal=None, out=None)` Calculates which of the given dates are valid days, and which are not.

【例】统计一个 `datetime64[D]` 数组中的工作日天数。

```python
import numpy as np

# 2020-07-10 星期五
begindates = np.datetime64('2020-07-10')
enddates = np.datetime64('2020-07-20')
a = np.arange(begindates, enddates, dtype='datetime64')
b = np.count_nonzero(np.is_busday(a))
print(a)
# ['2020-07-10' '2020-07-11' '2020-07-12' '2020-07-13' '2020-07-14'
#  '2020-07-15' '2020-07-16' '2020-07-17' '2020-07-18' '2020-07-19']
print(b)  # 6
```

【例】自定义周掩码值，即指定一周中哪些星期是工作日

```
a = np.is_busday('2020-07-10', weekmask=[1, 1, 1, 1, 1, 0, 0])
```



## 数组的创建

numpy 提供的最重要的数据结构是`ndarray`，它是 python 中`list`的扩展。

### 1. 依据现有数据来创建 ndarray

```python
# 创建三维数组
d = np.array([[(1.5, 2, 3), (4, 5, 6)],
              [(3, 2, 1), (4, 5, 6)]])
# <class 'numpy.ndarray'>
```

#### （b）通过asarray()函数进行创建¶

`array()`和`asarray()`都可以将结构数据转化为 ndarray，但是`array()`和`asarray()`主要区别就是当数据源是**ndarray** 时，`array()`仍然会 copy 出一个副本，占用新的内存，但不改变 dtype 时 `asarray()`不会。

换句话说，`asarray（）` 生成的数组会随着 原数组的改变而改变

#### （c）通过fromfunction()函数进行创建

【例】通过在每个坐标上执行一个函数来构造数组。

```python
import numpy as np

def f(x, y):
    return 10 * x + y

x = np.fromfunction(f, (5, 4), dtype=int)
print(x)
# [[ 0  1  2  3]
#  [10 11 12 13]
#  [20 21 22 23]
#  [30 31 32 33]
#  [40 41 42 43]]
```

```python
x = np.fromfunction(lambda i, j: i + j, (3, 3), dtype=int)
print(x)
# [[0 1 2]
#  [1 2 3]
#  [2 3 4]]
```

### 2. 依据 ones 和 zeros 填充方式[¶](https://tianchi.aliyun.com/mas-notebook/preview/151744/04. 数组的创建.ipynb/-1?lang=#2.-依据-ones-和-zeros-填充方式)

```python
x = np.zeros(5)
```

- `zeros_like()`函数：返回与给定数组形状和类型相同的零数组。

```python
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.zeros_like(x)
# [[0 0 0]
#  [0 0 0]]
```

- `ones_like()`函数：返回与给定数组形状和类型相同的1数组。

```python
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.ones_like(x)
print(y)
# [[1 1 1]
#  [1 1 1]]
```

- `empty()`函数：返回一个空数组，数组元素为随机数。
- `empty_like`函数：返回与给定数组具有相同形状和类型的新数组。

```python
x = np.empty(5)
print(x)
# [1.95821574e-306 1.60219035e-306 1.37961506e-306 
#  9.34609790e-307 1.24610383e-306]
```

```python
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.empty_like(x)
print(y)
# [[  7209029   6422625   6619244]
#  [      100 707539280       504]]
```

- `eye()`函数：返回一个对角线上为1，其它地方为零的单位数组。
- `identity()`函数：返回一个方的单位数组。
- `diag()`函数：提取对角线或构造对角数组。

```python
x = np.arange(9).reshape((3, 3))
# [[0 1 2]
#  [3 4 5]
#  [6 7 8]]
print(np.diag(x))  # [0 4 8]
print(np.diag(x, k=1))  # [1 5]
print(np.diag(x, k=-1))  # [3 7]

v = [1, 3, 5, 7]
x = np.diag(v)
# [[1 0 0 0]
#  [0 3 0 0]
#  [0 0 5 0]
#  [0 0 0 7]]
```

- `full()`函数：返回一个常数数组。
- `full_like()`函数：返回与给定数组具有相同形状和类型的常数数组。

### 3. 利用数值范围来创建ndarray

- `arange()`函数：返回给定间隔内的均匀间隔的值。
- `linspace()`函数：返回指定间隔内的等间隔数字。
- `logspace()`函数：返回数以对数刻度均匀分布。
- `numpy.random.rand()` 返回一个由[0,1)内的随机数组成的数组。

```python
print(np.around(x, 2))  # 保留2位小数
```

### 4. 结构数组的创建

结构数组，首先需要定义结构，然后利用`np.array()`来创建数组，其参数`dtype`为定义的结构。

```python
personType = np.dtype({
    'names': ['name', 'age', 'weight'],
    'formats': ['U30', 'i8', 'f8']
})
a = np.array([('Liming', 24, 63.9), ('Mike', 15, 67.), ('Jan', 34, 45.8)],dtype=personType)
```

### 数组的属性

- `numpy.ndarray.ndim`用于返回数组的维数（轴的个数）也称为秩，一维数组的秩为 1，二维数组的秩为 2，以此类推。
- `numpy.ndarray.shape`表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 `ndim` 属性(秩)。
- `numpy.ndarray.size`数组中所有元素的总量，相当于数组的`shape`中所有元素的乘积，例如矩阵的元素总量为行与列的乘积。
- `numpy.ndarray.dtype` `ndarray` 对象的元素类型。
- `numpy.ndarray.itemsize`以字节的形式返回数组中每一个元素的大小。

```python
b = np.array([[1, 2, 3], [4, 5, 6.0]])
print(b.shape)  # (2, 3)
print(b.dtype)  # float64
print(b.size)  # 6
print(b.ndim)  # 2
print(b.itemsize)  # 8
```

在`ndarray`中所有元素必须是同一类型，否则会自动向下转换，`int->float->str`。

### 其他Numpy 用法
#### numpy.diff
`numpy.diff(a, n=1, axis=-1, prepend=<no value>, append=<no value>)`

Calculate the n-th discrete difference along the given axis.

The first difference is given by `out[i] = a[i+1] - a[i]` along the given axis,
```python
x = np.array([1, 2, 4, 7, 0])
np.diff(x)
# array([ 1,  2,  3, -7])
np.diff(x, n=2)
# array([  1,   1, -10])
```

```python
x = np.arange('1066-10-13', '1066-10-16', dtype=np.datetime64)
np.diff(x)
# array([1, 1], dtype='timedelta64[D]')
```

#### numpy.hatack
numpy.hstack: Stack arrays in sequence horizontally (column wise).


In [36]:
import numpy as np
a = np.array((1,2,3))
b = np.array((2,3,4))
print(np.hstack((a,b)))
a = np.array([[1],[2],[3]])
b = np.array([[2],[3],[4]])
print(np.hstack((a,b)))

[1 2 3 2 3 4]
[[1 2]
 [2 3]
 [3 4]]


## 练习题

In [3]:
## 实践
import numpy as np
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(0.3 == 3* 0.1)
print(np.nan - np.nan)

nan
False
False
False
nan


In [42]:
import numpy as np
import datetime

# 将numpy的datetime64对象转换为datetime的datetime对象
dt64 = np.datetime64('2020-02-25 22:10:10')
dt = dt64.astype(datetime.datetime)
# 给定一系列不连续的日期序列。填充缺失的日期，使其成为连续的日期序列。¶
dates = np.arange('2020-02-01', '2020-02-10', 2, np.datetime64)
out = []
for date, d in zip(dates, np.diff(dates)):
    out.extend([date, date + d])
fillin = np.array(out)
fillin = np.hstack([fillin, dates[-1]])
print(fillin)
# 如何得到昨天，今天，明天的的日期
yesterday = np.datetime64('today', 'D') - np.timedelta64(1, 'D')
today = np.datetime64('today', 'D')
tomorrow = np.datetime64('today', 'D') + np.timedelta64(1, 'D')
print(yesterday, today, tomorrow)

['2020-02-01' '2020-02-03' '2020-02-03' '2020-02-05' '2020-02-05'
 '2020-02-07' '2020-02-07' '2020-02-09' '2020-02-09']
2021-04-09 2021-04-10 2021-04-11


In [43]:
# 创建从0到9的一维数字数组
print(np.arange(0,10).reshape(1,10))
# 创建一个元素全为True的 3×3 数组
print(np.full([3,3], True, dtype=np.bool))

[[0 1 2 3 4 5 6 7 8 9]]
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]


In [17]:
# 创建一个长度为10并且除了第五个值为1的空向量
arr = np.empty(10)
arr[4] = 1
print(arr)

[1.29766381e-316 0.00000000e+000 4.67996371e-317 4.67876214e-317
 1.00000000e+000 6.93160447e-310 6.93165667e-310 4.64701546e-317
 1.09436805e-316 0.00000000e+000]


In [46]:
# 创建一个值域范围从10到49的向量
print(np.arange(10,50))
# 创建一个 3x3x3的随机数组
print(np.random.random((3,3,3)))

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]
[[[0.90638996 0.83861751 0.30865797]
  [0.6022183  0.05187227 0.35893907]
  [0.58105072 0.40800591 0.05486058]]

 [[0.71165671 0.13281107 0.3110085 ]
  [0.69601601 0.7954221  0.3294367 ]
  [0.41502029 0.88045655 0.19413212]]

 [[0.68450887 0.47059548 0.38782568]
  [0.9840076  0.45149307 0.52628771]
  [0.73779943 0.47135231 0.57077923]]]


In [54]:
# 创建一个二维数组，其中边界值为1，其余值为0
# (提示: array[1:-1, 1:-1])
Z = np.ones((10,10))
Z[1:-1,1:-1] = 0
print(Z)

[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]


In [57]:
# 创建长度为10的numpy数组，从5开始，在连续的数字之间的步长为3
start = 5
length = 10
step = 3
print(np.arange(start=start, stop=start+step*length, step=step))

[ 5  8 11 14 17 20 23 26 29 32]


In [None]:
# 将本地图像导入并将其转换为numpy数组
'''
import numpy as np
from PIL import Image

img1 = Image.open('test.jpg')
a = np.array(img1)

print(a.shape, a.dtype)
# (959, 959, 3) uint8
'''