## 对 NumPy 的简单认识

Numpy 是 Numerical Python 的简称,一个开源的Python科学计算基础库，它是目前 Python 数值计算中最为重要的基础软件包. 大多数 Python 大数据和科学计算软件包都提供了基于 Numpy 的计算函数功能, 并将 Numpy 的数组对象作为数据交换的通用形式.

* https://numpy.org/
* 它的底层是由 c 来完成的。
* 拥有一个强大的N维数组对象 ndarray 。
* 广播函数功能。
* 整合C/C++/Fortran代码的工具。
* 线性代数、傅里叶变换、随机数生成等功能。

有很多语言或其他库，都运用了列优先的原则，但在numpy中，都是行优先

Python 是一种解释性的动态类型语言, 可自动化进行程序内存的分配和回收. 这大大减轻了用户编程的负担, 并带来了极大的编程灵活性.

###  C 和 Python 的不同

```C
/* C code */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

```python
# Python code
result = 0
for i in range(100):
    result += i
```

* Python 是一种动态类型的语言. 
* C 是一种静态类型的语言, 变量类型确定后就不能再改变。

Python 可以这样写:

```python
# Python code
x = 4
x = "four"
```

但在 C 中, 下面类似的家法是错误的!

```C
/* C code */
int x = 4;
x = "four";  // FAILS
```

### Python 中的整数不仅仅是一个整数

标准的 Python 是由 C 语言实现的, 它的整数对象除了要表示的整数, 还存储了很多其它信息, 它的具体实现代码如下.

```C
struct _longobject {
    long ob_refcnt; // 引用计数器, 辅且 Python 解释器分配和回收内存.
    PyTypeObject *ob_type; // 变量类型.
    size_t ob_size; // 数组 ob_digit 的长度
    long ob_digit[1]; // Python 变量实际表示的整数
};
```

![Integer Memory Layout](figures/cint_vs_pyint.png)

### Python 中的列表与 Numpy 数组

In [2]:
import numpy as np
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])# 建立一个长度为　８　的数组
i = [1, 2, 3 ,4, 5, 6, 7, 8]

![Array Memory Layout](figures/array_vs_list.png)

Python 列表对象和 Numpy 数组对象有不同之处是什么?

* Numpy 数组对象包含了一个指向一块连续内存的指针, 数据就存储在这块内存中. 数据的类型信息包含在数组的属性中. 这样**不灵活**, 但数据的存储和操作更高效.
* Python 列表对象包含一组指针, 每个指针又指向一个 Python 的对象, 这些对象又各自包含自己的数据和类型信息, 这样带来极大的**灵活性**, 但在数据存储和操作上**损失了效率**.

**注意：**
* 事物的尺度和规模
* 不同尺度和规模下，理解处理问题的策略和方法都会不同．

例：计算 $A^2+B^3$ 其中，A 和 B 是一维数组

* 未使用 ndarray 数组

```python
def pySum():
    a = [0, 1, 2, 3, 4]
    b = [9, 8, 7, 6, 5]
    c = []
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**3)
    return c
print(pySum())
```

* 使用 ndarray 数组

```python
import numpy as np 
def npSum():
    a = np.array([0, 1, 2, 3, 4])
    b = np.array([9, 8, 7, 6, 5])
    c = a**2 + b**3
    return c
print(npSum())
```

两者的答案都是 <pre>[729 513 347 225 141]</pre>

数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据。设置专门的数组对象，经过优化，还可以提高这类应用的运算速度。在一般的科学计算中，一个维度的所有数据往往是相同类型的，数组对象有助于节省运算和存储空间。

### 数据的维度

* 一维数据：由对等关系的有序或无序数据构成，采用线性式组织。对应列表（有序）、数组和集合（无序）等概念。
* 二维数据：由多个一维数据构成，是一维数据的集合。表格是典型的二维数据，其中，表头是否属于数据的一部分取决于表格定义。利用多维列表表示。
* 多维数据：由一维或二维数据在新维度上扩展形成。利用多维列表表示。
* 高维数据：仅利用最基本的二元关系展示数据间的复杂结构。利用字典或数据表示格式表示，例如键值对。现在公认的三种数据表示格式主要有：JSON、XML、YAML。

列表和数组都是一组数据的有序结构，区别最大在于列表中的数据类型可以不同，但数组中的数据类型要相同。

### numpy中的函数的类型被称为 Universal Function ，简称为 ufunc

In [161]:
np.log 

<ufunc 'log'>

### 关于nan和inf

* nan（not a number）表示不是一个数字
* inf（infinity）表示正无穷，n/0在python中会报错，但在numpy中会返回inf，(相应的负无穷为 -inf)
* 二者都是浮点型变量

In [3]:
import numpy as np
print(np.nan == np.nan)                 # 不是数字，不可比较
print(np.nan + 6)                       # nan和任何数值计算结果都为nan
print(np.sum([1, 9]))
print(np.sum([1, np.nan, 9]))           # 为nan
print(np.nansum([1, np.nan, 9]))        # 该函数可以跳过nan，计算其他数值的结果
print(np.isnan([1, 2, np.nan, 4, 5]))   # 判断数组中的各元素值是否为nan
np.count_nonzero(np.array([1, 2, np.nan, 4, 5]) != np.array([1, 2, np.nan, 4, 5]))  # 计算数组中nan的个数

False
nan
10
nan
10.0
[False False  True False False]


1

In [4]:
np.array([1, 2, np.nan, 4, 5])[np.isnan(np.array([1, 2, np.nan, 4, 5]))]

array([nan])

## NumPy 的 ndarray 类

Numpy 提供一个多维数组对象 ndarray, 它是同种类型数据的一个有序集合。(有时也直接写作array对象)

ndarray 由两部分构成：

* 实际的数据
* 描述这些数据的元数据（数据维度、数据类型等）

一般要求所有元素数据类型相同（同质），数组下标从 0 开始。

np.array() 生成一个 ndarray 数组，ndarray 在程序中的别名就是：array 。np.array() 输出成 [] 形式，元素由空格分隔。

数组有两个重要的属性，轴（axis）：保存数据的维度，与秩（rank）：轴的数量，即数组有多少维。

In [3]:
import numpy as np                     # 导入 numpy 
a = np.array([[0, 1], [2, 3]])         # 利用python的列表创建一个二维数组
print("a 的对象类型为：", type(a)) 
a

a 的对象类型为： <class 'numpy.ndarray'>


array([[0, 1],
       [2, 3]])

在计算机内存中， 上面的二维数组 a 是以一行接一行的方式存储在一块连续的内存当中，这种存储方式称为行优先(row-major) 存储。

In [8]:
' '.join(str(x) for x in a.flat) # 输出的是'0 1 2 3'，而不是'0 2 1 3' 。

'0 1 2 3'

### 多维数组的属性

- .dtype    
    * ndarray对象的元素类型
* .shape    
    * ndarray对象的尺度，对于矩阵，n行m列
* .size    
    * ndarray对象元素的个数，相当于 .shape 中 n*m 的值
* .ndim    
    * 秩，即轴的数量或维度的数量
* .itemsize    
    * ndarray对象中每个元素的大小，以字节为单位    
* .nbytes
    * 整个数组所占的大小，以字节为单位
* .T   
    * 返回ndarray对象的转置
    * .transpose()
    * .swapaxes(1,0) (二维数组换轴)
* .strides
    * 即步幅属性

#### array 多维数组的数据类型 (`.dtype` 属性)

多维数组是用来存储同种类型数据的，同种类型的数据占用内存的大小是固定的。 多维数组中的数据类型规定了数组中每个数据占用内存的大小。就比如 `int64` 表明数组中的每个数据占用 8 个字节(共 64 位)。

Python语法仅支持整数、浮点数和复数3种类型，但科学计算涉及数据较多，对存储和性能都有较高要求，所以需要NumPy对元素类型精细定义，来合理使用存储空间并优化性能，这也有助于使用者对程序规模有合理的评估。

ndarray数组可以由非同质对象构成，非同质ndarray元素的数据类型为对象类型（object），但这种类型无法发挥NumPy的优势，尽量避免使用。

|类型| 类型代码 | 描述 |
|:--| :-- |:--|
|int8,   uint8| i1, u1 | 有符号和无符号的 8 位整数
|int16, uint16| i2, u2 | 有符号和无符号的 16 位整数
|int32, uint32| i4, u4 | 有符号和无符号的 32 位整数
|int64, uint64| i8, u8 | 有符号和无符号的 64 位整数
|int,     uint|        | 有符号和无符号的 64 位整数
|float16      | f2     | 半浮点精度
|float32      | f4或 f  | 标准单浮点精度， 兼容 C 语言 float
|float64      | f8或 d  | 标准双浮点精度， 兼容 C 语言 double 和 Python float
|float128     | f16或 g | 拓展精度浮点数
|complex64     | c8     |  基于 32 位浮点数的复数
|complex128    | c16     |  基于 64 位浮点数的复数
|complex256    | c32     |  基于 128 位浮点数的复数
|bool          | ?       |  布尔值，存储 True 或 False
|oject        | o       |  Python object 类型
|string       | S       | 修正的 ASC II 字符串类型， 例如 `S10` 表示长度为 10 的字符串类型
|unicode_     | U       | 修正的 Unicode 类型，例如 `U10` 表示一个长度为 10 Unicode 类型

* bool    布尔类型，True或False
* intc    与C语言中的int类型一致，一般是int32或int64，（具体的int32或int64可以指定，默认类型由系统所影响）
* intp    用于索引的整数，与C语言中size_t一致，int32或int64
* int8    字节长度的整数，取值：[-128 , 127]
* int16    16位长度的整数，取值：[-32768 , 32767]
* int32    32位长度的整数，取值：[-2^31 , 2^31-1]
* int64    64位长度的整数，取值：[-2^63 , 2^63-1]
* uint8    8位无符号整数，取值：[0 , 255]
* uint16    16位无符号整数，取值：[0 , 65535]
* uint32    32位无符号整数，取值：[0 , 2^32-1]
* uint64    64位无符号整数，取值：[0 , 2^64-1]
* float16    16位半精度浮点数，1位符号位，5位指数，10位尾数
* float32    32位半精度浮点数，1位符号位，8位指数，23位尾数
* float64    64位半精度浮点数，1位符号位，11位指数，52位尾数
* complex64    复数类型，实部和虚部都是32位浮点数，（实部(.real) + 虚部(.imag)）
* complex128    复数类型，实部和虚部都是64位浮点数


In [9]:
test_0 = np.array([0, 1], dtype='?')
print(test_0)
print(test_0.dtype)

[False  True]
bool


In [10]:
test_1 = np.array([3, 4], dtype=np.float)
print(test_1)
print(test_1.dtype)

[3. 4.]
float64


In [18]:
test_2 = np.array([10, 11, 12, 13.0],dtype='int32')   # 可由dtype参数直接在创建array时指定数据类型 
test_2.dtype

dtype('int32')

In [17]:
test_3 = np.array([[1, 2, 3, 4], [2, 3, 4, 5]])
test_3       # 数组的类型在不是默认类型时才会显示出来

array([[1, 2, 3, 4],
       [2, 3, 4, 5]])

#### `.shape` 属性

* 它是一个 `tuple` 数组。
* 它的长度为多维数组的维数，即轴的个数。
* `shape[i]` 存储的是第 `i` 轴的长度， 当然 `0 <= i< len(shape)`。

In [27]:
test_0 = np.array([0, 1])
test_1 = np.array([3, 4, 4, 1])
test_2 = np.array([[1, 2, 3, 4], [2, 3, 4, 5]])
print("test_0 的 shape 属性为：", test_0.shape)
print("test_1 的 shape 属性为：", test_1.shape)
print("test_2 的 shape 属性为：", test_2.shape)
print("test_2 的 0 轴的长度为：", test_2.shape[0])
print("test_2 的 1 轴的长度为：", test_2.shape[1])

test_0 的 shape 属性为： (2,)
test_1 的 shape 属性为： (4,)
test_2 的 shape 属性为： (2, 4)
test_2 的 0 轴的长度为： 2
test_2 的 1 轴的长度为： 4


size
ndarray对象元素的个数，相当于 .shape 中 n*m 的值

.ndim
秩，即轴的数量或维度的数量

.itemsize
ndarray对象中每个元素的大小，以字节为单位

.T
返回ndarray对象的转置

.strides
即步幅属性

#### `.size` 属性

* 它是一个 整数值。
* ndarray对象元素的个数，相当于 .shape 中 n*m 的值。

In [49]:
print(test_0)
print("test_0 的 size 属性为：", test_0.size)
print("test_0 的 shape 属性为：", test_0.shape)
print(test_1)
print("test_1 的 size 属性为：", test_1.size)
print("test_1 的 shape 属性为：", test_1.shape)
print(test_2)
print("test_2 的 size 属性为：", test_2.size)
print("test_2 的 shape 属性为：", test_2.shape)

[0 1]
test_0 的 size 属性为： 2
test_0 的 shape 属性为： (2,)
[3 4 4 1]
test_1 的 size 属性为： 4
test_1 的 shape 属性为： (4,)
[[1 2 3 4]
 [2 3 4 5]]
test_2 的 size 属性为： 8
test_2 的 shape 属性为： (2, 4)


#### `.ndim` 属性

* 轴的数量，即array的维度
    * 轴 (axis) 是 Numpy 多维数组对象涉及到的一个重要概念。
    * 1 维数组有 1 个轴， 2 维数组有两个轴， n 维数组有 n 个轴, 即数组有 n 个轴就是 n 维数组。
    * 数组的轴是有顺序的，编号从 0 开始。
    * 数组的每一轴都是有长度的。

![](./figures/axis.jpg)

In [43]:
print(test_0)
print(test_2)
print("test_0 的 ndim 属性为：", test_0.ndim)
print("test_2 的 ndim 属性为：", test_2.ndim)

[0 1]
[[1 2 3 4]
 [2 3 4 5]]
test_0 的 ndim 属性为： 1
test_2 的 ndim 属性为： 2


In [44]:
print("test_2 的 ndim 属性为：", test_2.ndim)
print("test_2 的 shape 属性为：", test_2.shape)
print("test_2 的 0 轴的长度为：", test_2.shape[0])
print("test_2 的 1 轴的长度为：", test_2.shape[1])

test_2 的 ndim 属性为： 2
test_2 的 shape 属性为： (2, 4)
test_2 的 0 轴的长度为： 2
test_2 的 1 轴的长度为： 4


#### `.itemsize` 属性

In [47]:
print(test_0)
print(test_1)
print(test_2)
print("test_0 的 dtype 属性为：", test_0.dtype)
print("test_0 的 itemsize 属性为：", test_0.itemsize)
print("test_1 的 dtype 属性为：", test_1.dtype)
print("test_1 的 itemsize 属性为：", test_1.itemsize)
print("test_2 的 dtype 属性为：", test_2.dtype)
print("test_2 的 itemsize 属性为：", test_2.itemsize)

[0 1]
[3 4 4 1]
[[1 2 3 4]
 [2 3 4 5]]
test_0 的 dtype 属性为： int32
test_0 的 itemsize 属性为： 4
test_1 的 dtype 属性为： int32
test_1 的 itemsize 属性为： 4
test_2 的 dtype 属性为： int32
test_2 的 itemsize 属性为： 4
test_0 的 nbytes 属性为： 8
test_1 的 nbytes 属性为： 16
test_2 的 nbytes 属性为： 32


#### `.nbytes` 属性

In [50]:
print(test_0)
print(test_1)
print(test_2)
print("test_0 的 dtype 属性为：", test_0.dtype)
print("test_0 的 itemsize 属性为：", test_0.itemsize)
print("test_1 的 dtype 属性为：", test_1.dtype)
print("test_1 的 itemsize 属性为：", test_1.itemsize)
print("test_2 的 dtype 属性为：", test_2.dtype)
print("test_2 的 itemsize 属性为：", test_2.itemsize,'\n')


print("test_0 的 nbytes 属性为：", test_0.nbytes)
print("test_1 的 nbytes 属性为：", test_1.nbytes)
print("test_2 的 nbytes 属性为：", test_2.nbytes)

[0 1]
[3 4 4 1]
[[1 2 3 4]
 [2 3 4 5]]
test_0 的 dtype 属性为： int32
test_0 的 itemsize 属性为： 4
test_1 的 dtype 属性为： int32
test_1 的 itemsize 属性为： 4
test_2 的 dtype 属性为： int32
test_2 的 itemsize 属性为： 4 

test_0 的 nbytes 属性为： 8
test_1 的 nbytes 属性为： 16
test_2 的 nbytes 属性为： 32


#### `.T` 属性

* 对数组进行转置
* 对一维数组转置在numpy下无意义，也不会转为多维的数组，因为这里是数组而不是矩阵

In [63]:
print(test_1)
print(test_1.T,'\n')
print(test_2)
print(test_2.T)
print(test_2.transpose())
print(test_2.swapaxes(1,0))

[3 4 4 1]
[3 4 4 1] 

[[1 2 3 4]
 [2 3 4 5]]
[[1 2]
 [2 3]
 [3 4]
 [4 5]]
[[1 2]
 [2 3]
 [3 4]
 [4 5]]
[[1 2]
 [2 3]
 [3 4]
 [4 5]]


#### `.strides` 属性

* 步幅属性
* 它是一个 `tuple` 数组。
* 它的长度也为数组的维数，即轴的个数。
* `strides[i]` 存储的是沿 `axis=i` 轴上前进一步，需要跨过多少个**字节数**。
* 画图解释属性的意义。

In [29]:
print(test_0)
print("test_0 的 strides 属性为：", test_0.strides)

[0 1]
test_0 的 strides 属性为： (4,)


In [39]:
print(test_2)
print("test_2 的 strides 属性为：", test_2.strides)
' '.join(str(x) for x in test_2.flat)

[[1 2 3 4]
 [2 3 4 5]]
test_2 的 strides 属性为： (16, 4)


'1 2 3 4 2 3 4 5'

In [38]:
test_3 = np.array([[1,2,3],[4,5,6]])
print(test_3)
print("test_3[0, 1]", test_3[1, 1])

[[1 2 3]
 [4 5 6]]
test_3[0, 1] 5


#### 其他不太常用的属性

flags 属性默认是字典类型，它包含了数组是否含有数据信息等内容

In [135]:
print(test_0,'\n')
print(test_0.flags)

[0 1] 

  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False



data 包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性。

In [136]:
print(test_0,'\n')
print(test_0.data)

[0 1] 

<memory at 0x05F2E208>


### array 数组的创建

* 从 Python 中的列表、元组等类型创建
* 使用 NumPy 中函数创建 ndarray 数组
* 从字节流（raw bytes）中创建
* 从文件中读取特定格式来创建
* 对原有的ndarray数组，进行维度变换和元素类型的变换而得到新数组

![](./figures/numpy-matrix-ones-zeros-random.png)

#### 从 Python 中的列表、元组等类型创建

* x = np.array(list / tuple) 
* x = np.array(list / tuple, dtype=np.float32) 可以由dtype指定数据类型，如果不指定，NumPy将根据数据情况关联一个dtype类型
* ndarray数组也可以转换为列表，使用 .tolist() 方法，

In [83]:
test_7 = np.arange(8).reshape(4,2)
print(test_7,'\n')
print(test_7.tolist())

[[0 1]
 [2 3]
 [4 5]
 [6 7]] 

[[0, 1], [2, 3], [4, 5], [6, 7]]


#### 使用 NumPy 中函数创建 ndarray 数组

|        函数         |                         说明                         |
| :-----------------: | :--------------------------------------------------: |
|    np.arange(n)     |    类似range()函数，返回ndarray类型，元素从0到n-1    |
|   np.ones(shape)    |  根据shape生成一个元素全为 1 的数组，shape指定形状   |
|   np.zeros(shape)   |  根据shape生成一个元素全为 0 的数组，shape指定形状   |
| np.full(shape,val)  |      根据shape生成一个数组，每个元素的值都是val      |
|      np.eye(n)      | 创建一个正方的 n\*n 单位矩阵，主对角线为 1 ，其余为 0 |
|   np.ones_like(a)   |         根据a的形状生成一个元素全为 1 的数组         |
|  np.zeros_like(a)   |         根据a的形状生成一个元素全为 0 的数组         |
| np.full_like(a.val) |      根据a的形状生成一个数组，每个元素值都是val      |
|    np.linspace()    |        根据起始数据等间距地填充数据，形成数组        |
|  np.concatenate()   |           将两个或多个数合并成一个新的数组           |
|   np.empty(shape)   | 根据shape生成一个元素都接近 0 是数组，shape指定形状  |
|   np.empty_like(a)   | 仿照原有的数组，建立一个新的原形状的数组，但里面的数据是无用的垃圾数据，每次执行后的结果都可能不一样  |
|   np.transpose(a)   |                 返回数组a的转置数组                  |

In [149]:
test_4 = np.linspace(1, 10, 4)
test_5 = np.linspace(1, 10, 4, endpoint=False)
# endpoint=false表示不包含末值，默认true
test_6 = np.concatenate((test_4, test_5,))
print(test_4)
print(test_5)
print(test_6)

[ 1.  4.  7. 10.]
[1.   3.25 5.5  7.75]
[ 1.    4.    7.   10.    1.    3.25  5.5   7.75]


#### 从字节流（raw bytes）中创建

#### 从文件中读取特定格式来创建

#### 对原有的ndarray数组，进行维度变换和元素类型的变换而得到新数组

| 方法 | 说明 |
| :--: | :----: |
| .reshape(shape) | 不改变数组元素，返回一个shape形状的数组，原数组不变 |
| .resize(shape) | 与上个函数功能一致，但修改原数组 |
| .swapaxes(ax1,ax2) | 将数组n个维度中两个维度进行调换 |
| .flatten() | Udine数组进行降维，返回折叠后的一维数组，原数组不变 |
| .astype() | b = a.astype(np.float) ，将b保存为一个从 a 得到的float类型的数组 |

### array 数组的操作 

* 主要说明元素的调用与修改，即元素索引
    * 基础索引(basic indexing)
    * 布尔索引 (bool indexing)
    * 切片索引(slicing indexing)
    * 花式索引(fancy indexing)

索引到的数组子集不直接含有数据内容，如果直接对其进行修改，会影响原数组的数据，如果要做到不影响，要使用 copy 方法

#### 基础索引(basic indexing)

* 同list的元素调用 

![](./figures/numpy-array-slice.png)

![](./figures/numpy-matrix-indexing.png)

一维数组

In [95]:
test_8 = np.arange(12)
print('array数组为：',test_8)
print('array数组的第3个元素为：',test_8[3])

array数组为： [ 0  1  2  3  4  5  6  7  8  9 10 11]
array数组的第3个元素为： 3


二维数组

In [139]:
test_9 = np.arange(12).reshape(3,4)
print('array数组为：\n',test_9)
print('array数组的第2行元素为：',test_9[2])
print('array数组的第2行第3个元素为：',test_9[2,3])
print('array数组的第2行第3个元素为：',test_9[2][3]) 
print('两种访问二维数组内数据元素的方式，但在使用numpy数组时推荐前者，后者可能会出现意想不到的错误。')
print('这同样印证了numpy库的行优先法则，优先索引行，这样可以简单的推导到更多维的数组。')

array数组为：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
array数组的第2行元素为： [ 8  9 10 11]
array数组的第2行第3个元素为： 11
array数组的第2行第3个元素为： 11
两种访问二维数组内数据元素的方式，但在使用numpy数组时推荐前者，后者可能会出现意想不到的错误。
这同样印证了numpy库的行优先法则，优先索引行，这样可以简单的推导到更多维的数组。


#### 布尔索引 (bool indexing)

* 将一个布尔类型的数组或列表作为索引值
* 这样可以控制数组数据的显隐，实现调用，但要注意要与原数组有相同结构的布尔值

In [110]:
a = np.random.rand(10)   # 生成一个长度为 10 的一维随机数组，每个元素的取值都在 [0, 1] 区间中。
print(a,'\n')
flag = a > 0.5 
print('flag 的类型为：', type(flag))
print('flag 存储的数据类型为：', flag.dtype)
print('布尔索引返回一个根据布尔数组对应True位置的数组：',a[flag])

a[flag] = 1
print('利用布尔索引批量修改满足某一条件的元素：\n',a)

[0.03089104 0.54581921 0.54212024 0.47804595 0.62736365 0.20188228
 0.80186034 0.39181029 0.56432767 0.20027486] 

flag 的类型为： <class 'numpy.ndarray'>
flag 存储的数据类型为： bool
布尔索引返回一个根据布尔数组对应True位置的数组： [0.54581921 0.54212024 0.62736365 0.80186034 0.56432767]
利用布尔索引批量修改满足某一条件的元素：
 [0.03089104 1.         1.         0.47804595 1.         0.20188228
 1.         0.39181029 1.         0.20027486]


#### 切片索引(slicing indexing)

* 调用数组得到数组的子集
* 切片的格式：起始编号:终止编号（不含）:步长
    * 可以省略部分参数，如果只包含一个引号，即省略步长，默认步长为1
    * 如果参数位置为空，例如：7::2，即使用该参数位置的默认参数值，起始为0，终止为-1

一维数组

In [127]:
test_10 = np.arange(12)
print('array数组为：',test_10)
print('array数组的从第2到第9(不包括第9)的元素为：',test_10[2:9])
print('array数组的从第2到第9(不包括第9)且步长为2的元素为：',test_10[2:9:2]) 
print('如果在切片中出现负数作为参数值，则其绝对值就是从整个数组倒过来查找的元素，-1即为最后一个元素。')

array数组为： [ 0  1  2  3  4  5  6  7  8  9 10 11]
array数组的从第2到第9(不包括第9)的元素为： [2 3 4 5 6 7 8]
array数组的从第2到第9(不包括第9)且步长为2的元素为： [2 4 6 8]
如果在切片中出现负数作为参数值，则其绝对值就是从整个数组倒过来查找的元素，-1即为最后一个元素。


二维数组

* 选取一个维度用 :
* 每个维度切片方法与一维数组相同
* 每个维度可以使用步长跳跃切片

In [131]:
test_11 = np.arange(12).reshape(3,4) 
print('array数组为：\n',test_11)
print('array数组的从第1行到第2行(不包括第2行)的元素为：',test_11[1:2])
print('array数组的从第1行到第2行(不包括第2行)且在第1列到第3列(不包括第3列)的元素为：\n',test_11[1:2,1:3]) 

e = np.array([[0, 1, 2, 3, 4, 5], 
              [10, 11, 12, 13, 14, 15], 
              [20, 21, 22, 23, 24, 25], 
              [30, 31, 32, 33, 34, 35], 
              [40, 41, 42, 43, 44, 45], 
              [50, 51, 52, 53, 54, 55]])
print('下面是几个切片索引的例子，不说明切片:\n',e[0, 3:5],'\n\n',e[4:, 4:],'\n\n',e[:, 2],'\n\n',e[2::2, ::2])

array数组为：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
array数组的从第1行到第2行(不包括第2行)的元素为： [[4 5 6 7]]
array数组的从第1行到第2行(不包括第2行)且在第1列到第3列(不包括第3列)的元素为：
 [[5 6]]
下面是几个切片索引的例子，不说明切片:
 [3 4] 

 [[44 45]
 [54 55]] 

 [ 2 12 22 32 42 52] 

 [[20 22 24]
 [40 42 44]]


##### 切片实现行行交换与列列交换

In [44]:
t_2 = np.arange(12,24).reshape(3,4)
print(t_2)
t_2[[1,2],:] = t_2[[2,1],:]
print(t_2)
t_2[:,[0,2]] = t_2[:,[2,0]]
print(t_2)

[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
[[12 13 14 15]
 [20 21 22 23]
 [16 17 18 19]]
[[14 13 12 15]
 [22 21 20 23]
 [18 17 16 19]]


##### 切片常用方法

In [45]:
# 取几个指定位置的数据，（0,0），（2,1），（3,0）
# test_data0[[0,2,3],[0,1,0]]

#### 花式索引(fancy indexing)

In [145]:
g = np.arange(0, 80, 10)
print(g)
test_g0 = [1, 2, -3]
g[test_g0]                # 可以使用列表作为索引来实现一些调用数据的操作

[ 0 10 20 30 40 50 60 70]


array([10, 20, 50])

In [142]:
test_12 = np.arange(7*4).reshape(7, 4)
print(test_12,'\n')
print(test_12[[4, 0, 1, 5]],'\n')
print(test_12[[-3, -5, -7]],'\n')
print(test_12[[1, 2, 3], [0, 2, 3]],'\n')

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]] 

[[16 17 18 19]
 [ 0  1  2  3]
 [ 4  5  6  7]
 [20 21 22 23]] 

[[16 17 18 19]
 [ 8  9 10 11]
 [ 0  1  2  3]] 

[ 4 10 15] 



### array 数组的运算

#### 位运算

1. &(and)
1. |(or)
1. ~(not)
1. ^(xor)(亦或)

In [46]:
g = np.arange(0, 80, 10)
(g < 80).any()          # any()方法输出一个布尔值，只要数组中有一个真值，就输出True
(g > 30).all()          # all()方法输出一个布尔值，只有数组中全为真值时，才输出True

False

In [47]:
(g < 70) & (g > 30) 

array([False, False, False, False,  True,  True,  True, False])

#### 基本算术运算

数组与标量之间的运算：作用于数组的每一个元素

一元运算符：

In [152]:
x = np.array([1,2,6,9,0])
print("-x     = ", -x)

-x     =  [-1 -2 -6 -9  0]


二元运算符：

In [153]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # floor division
print("x % 2  =", x % 2)
print("x ** 2 = ", x ** 2)

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
x % 2  = [0 1 0 1]
x ** 2 =  [0 1 4 9]


**注意：** 上面的**运算符**都有对应的**通用函数**，本质上它们是相应**通用函数**的简写形式。
下面是这些**运算符**与**通用函数**的对应关系：

| 运算符	      | 等价的通用函数         | 描述                         |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |加法 (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |减法 (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |取负 (e.g., ``-2``)          |
|``*``          |``np.multiply``      |乘法 (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |除法 (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |求商 (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |幂次 (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |求余 (e.g., ``9 % 4 = 1``)|

#### 调用函数的运算


NumPy 一元函数 对ndarray中的数据执行元素级运算的函数：


| 函数| 说明(运算后不改变原数组，生成一个新数组)|
| :----------------:|:----------------:|
| np.abs(x) <br>np.fabs(x)<br>np.absolute(x) | 计算数组各元素的绝对值，如果是复数元素则返回模|
| np.sqrt(x)| 计算数组各元素的平方根|
| np.square(x)| 计算数组各元素的平方|
| np.log(x) <br>np.log10(x) <br>np.log2(x)| 计算数组各元素的自然对数、10底对数和2底对数|
| np.ceil(x) <br>np.floor(x)| 计算数组各元素的 ceiling 值(不超过参数的整数值)或 floor 值(不超过参数的最大整数值) |
| np.rint(x)| 计算数组各元素的四舍五入值|
| np.modf(x)| 将数组各元素的小数部分和整数部分以两个独立数组形式返回       |
| np.cos(x) np.cosh(x) <br>np.sin(x) np.sinh(x)<br>np.tan(x) np.tanh(x) | 计算数组各元素的普通型和双曲线三角函数值|
| np.arcsin(x)<br>np.arccos(x)<br>np.arctan(x)|计算数组各元素的反三角函数值|
| np.exp(x)<br>np.exp2(x)| 计算以数组各元素为指数的自然对数、2的幂值|
| np.power(n, x)| 计算以数组各元素为指数的n的幂值(n为常数)|
| np.sign(x)| 计算数组各元素的符号值，包括1(+), 0, -1(-)|
| np.sort(x)| 对数组x进行排序，默认升序，默认每行排序|
| np.clip(x,min,max)| 将数组x中小于min的数替换为min，大于max的数替换为max|
| np.split(x,n,axis=0)| 将数组x进行分割，n为均分份数，axis指定分割方向，默认为垂直方向（要赋值给n个变量，否则报错；如果x不支持均分n份，也会报错）|
| np.array_split(x,n,axis=0)| 可以在x不支持n等均分的情况下对x进行分割，非均等|
| np.vsplit(x,n)    np.hsplit(x,n)| 均等分割，利用h与v来区分方向，v为垂直分割，分割线为水平；h为水平分割，分割线为垂直。|
| np.min(a,axis=None)<br>np.max(a,axis=None)| 计算数组 a 中元素的最小值、最大值 |
| np.argmin(a)  np.argmax(a) | 计算数组 a 中元素最小值、最大值的降一维后下标（即得到扁平化后的下标，如果要使用需要重塑成多维下标） |
| np.unravel_index(index, shape) | 根据 shape 将一维下标 index 转换成多维下标|
| np.ptp(a,axis=None)| 计算数组 a 中元素最大值与最小值的差，即极差|
| np.median(a,axis=None)| 计算数组 a 中元素的中位数（中值）|
| np.sum(a, axis=None)| 根据给定轴 axis 计算数组 a 相关元素之和，axis 整数或元组   |
| np.mean(a, axis=None)| 根据给定轴 axis 计算数组 a 相关元素的期望，axis 整数或元组 |
| np.average(a, axis=None, weights=None) | 根据给定轴 axis 计算数组 a 相关元素的加权平均值            |
| np.std(a, axis=None)| 根据给定轴 axis 计算数组 a 相关元素的标准差|
| np.var(a, axis=None)| 根据给定轴 axis 计算数组 a 相关元素的方差|
| np.gradient(f) | 计算数组 f 中元素的梯度，当 f 为多维时，返回每个维度梯度 |
||* 梯度：连续值之间的变化率，即斜率<br>* XY坐标轴连续三个X坐标对应的Y轴值：a, b, c ，其中，b的梯度是：(c-a)/2|

NumPy的random子库

| 函数 | 说明 |
|:----:|:----:|
| np.random.rand(d0,d1,...,dn)| 根据d0-dn（维度信息）创建随机数数组，浮点数，[0,1)，均匀分布 |
| np.random.randn(d0,d1,...,dn)| 根据d0-dn创建随机数数组，标准正态分布|
| np.random.rangint(low[,high,shape]) | 根据shape创建随机整数或整数数组，范围是[low,high)|
| np.random.seed(s)| 随机数种子，s是给定的种子值|
| np.random.random(shape)| 根据shape生成随机数数组，所以元素的取值范围都为0到1|
| np.random.shuffle(a) | 根据数组a的第一轴进行随排列，改变数组x |
| np.random.permutation(a)| 根据数组a的第一轴产生一个新的乱序数组，不改变数组x|
| np.random.choice(a [, size, replace, p]) | 从一维数组a中以概率p抽取元素，形成size形状新数组，replace表示是否可以重用元素，默认为False |
| np.random.uniform(low, high, size) | 产生具有均匀分布的数组，low起始值，high结束值，size形状 |
| np.random.normal(loc, scale, size) | 产生具有正态分布的数组，loc均值，scale标准差，size形状  |
| np.random.poisson(lam,size) | 产生具有泊松分布的数组，lam随机事件发生率，size形状|

In [9]:
import numpy as np
x = np.arange(15).reshape(3,5)
y = np.median(x,axis=0)
y

array([5., 6., 7., 8., 9.])

In [15]:
x = np.random.randint(0, 20, (5))
print('一维数组：\n',x)
print('一维数组的梯度：\n',np.gradient(x))
y = np.random.randint(0, 50, (3, 5))
print('二维数组：\n',y)
print('二维数组的梯度：\n',np.gradient(y))   # 多维数组返回多个维度的梯度值数组

一维数组：
 [ 7 19  7 10  5]
一维数组的梯度：
 [12.   0.  -4.5 -1.  -5. ]
二维数组：
 [[25 39 22  4 11]
 [36  8  7 45  9]
 [ 5 22 32 19 17]]
二维数组的梯度：
 [array([[ 11. , -31. , -15. ,  41. ,  -2. ],
       [-10. ,  -8.5,   5. ,   7.5,   3. ],
       [-31. ,  14. ,  25. , -26. ,   8. ]]), array([[ 14. ,  -1.5, -17.5,  -5.5,   7. ],
       [-28. , -14.5,  18.5,   1. , -36. ],
       [ 17. ,  13.5,  -1.5,  -7.5,  -2. ]])]


In [148]:
x = [1, 2, 3]
print("x     =", x)
print("e^1   =", np.exp(1))
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x     = [1, 2, 3]
e^1   = 2.718281828459045
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2. 4. 8.]
3^x   = [ 3  9 27]
x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


In [26]:
np.random.seed(10)
print(np.random.randint(100, 200, (3, 4)))
np.random.seed(10)        # 种子相同，之后创建的随机数数组与之前该种子时创建的一致
print(np.random.randint(100, 200, (3, 4)))

[[109 115 164 128]
 [189 193 129 108]
 [173 100 140 136]]
[[109 115 164 128]
 [189 193 129 108]
 [173 100 140 136]]


**numpy.array(p_object, dtype=None, ndmin=0)**

1. p_object :array_like，数组，对象，其方法返回一个数组或任何(嵌套的)序列。
1. dtype：data-type，数据类型，可选，数组所需的数据类型，默认最小类型序列。
1. ndmin：int，最小维数，可选，默认0。

**numpy.arange([start, ]stop, [step, ]dtype=None)**

1. start：number，可选，开始，默认的起始值是0。
1. stop：number，可选，结束。
1. step：number，可选，间隔。
1. dtype: dtype，可选，输出数组的类型，默认推断类型。

##### np.random.choice() 随机分布一个数组

In [151]:
import numpy as np
# 参数
# 是从a中以概率p，随机选择size个, p没有指定的时候相当于是一致的分布
# replace 如果是False的话，3个值不一样
np.random.choice(a=5, size=3, replace=False, p=None)
# [4 1 2]
np.random.choice(a=5, size=2, replace=False, p=[0.2, 0.1, 0.3, 0.4, 0.0])
# [3 2] 4的概率为0

array([2, 1])

##### np.argmax() 返回沿轴axis最大值的索引

In [154]:
a = [[0, 1, 2], [3, 4, 5]]
np.argmax(a)
# 5
np.argmax(a, axis=0) # 0代表列
# array([1, 1, 1])
np.argmax(a, axis=1)# 1代表行
# array([2, 2])

array([2, 2], dtype=int32)

##### np.bincount() 返回数组中的值中索引出现的次数

In [155]:
# x中最大的数为7，那么它的索引值为0-7
x = np.array([0, 1, 1, 3, 2, 1, 7, 7])
# 索引0出现了1次，索引1出现了3次,索引2出现了1次,索引3出现了1次,索引4出现了0次,索引7出现了2次
np.bincount(x)
#因此，输出结果为：array([1, 3, 1, 1, 0, 0, 0, 2])

array([1, 3, 1, 1, 0, 0, 0, 2], dtype=int32)

##### np.gradient() 返回N维数组的梯度

In [157]:
f = np.array([1, 2, 4, 7, 11, 16], dtype=float)
np.gradient(f)
# array([ 1. ,  1.5,  2.5,  3.5,  4.5,  5. ])
np.gradient(f, 2)
# array([ 0.5 ,  0.75,  1.25,  1.75,  2.25,  2.5 ])

array([0.5 , 0.75, 1.25, 1.75, 2.25, 2.5 ])

##### np.isnan() 测试NaN的元素，并将结果作为布尔数组返回

In [158]:
np.isnan(np.nan)
# True
np.isnan(np.inf)
# False
np.isnan([np.log(-1.),1.,np.log(0)])
# array([ True, False, False], dtype=bool)

  np.isnan([np.log(-1.),1.,np.log(0)])
  np.isnan([np.log(-1.),1.,np.log(0)])


array([ True, False, False])

##### np.random.randn() 返回一个或一组样本，具有标准正态分布

In [159]:
np.random.randn(2,4)
# array([[ 0.27795239, -2.57882503,  0.3817649 ,  1.42367345],
#        [-1.16724625, -0.22408299,  0.63006614, -0.41714538]])

array([[-1.41827148, -0.44785264,  0.53220197, -0.45072336],
       [ 1.30883031,  0.06956885, -0.00417898,  0.46886575]])

一些numpy二元函数：


| 函数| 说明|
|:------:|:-----:|
| +  -  *  /  ** | 两个数组各元素进行对应运算 |
| np.maximum(x,y)  np.fmax() <br>np.minimum(x,y)  np.fmin() | 元素级的最大/小值|
| np.mod(x,y)| 元素级的模运算|
| np.copysign(x,y)| 将数组y中各元素值的符号赋值给数组x对应元素|
| >  <  >=  <=  ==  != | 算术比较，产生布尔型数组 |
| np.dot(a,b,out=None)| 两个数组的点积（一维数组相当于内积，二维数组相当于矩乘积）|
| np.vstack((x,y,...))  np.hstack((x,y,...))| 数组合并，前者为垂直合并，后者为水平合并。还可以直接添加多个数组进行合并 |
| np.concatenate((x,y,...),axis=0)| 数组合并，默认为垂直纵向合并|

##### numpy.dot(a, b)

1. a，数组1
1. b，数组2

In [None]:
import numpy as np
a = [[1, 0], [0, 1]]
b = [[4, 1], [2, 2]]
print(np.dot(a, b))
# [[4 1]
#  [2 2]]

# 4 = 1 * 4 + 0 * 2
# 1 = 1 * 1 + 0 * 2
# 2 = 0 * 4 + 1 * 2
# 2 = 0 * 1 + 1 * 2

##### np.newaxis  数组增加维度

np.newaxis的作用就是在这一位置增加一个一维，这一位置指的是np.newaxis所在的位置，比较抽象，需要配合例子理解。

In [27]:
x1 = np.array([1, 2, 3, 4, 5])    
print(x1)                         # the shape of x1 is (5,)
x1_new = x1[:, np.newaxis]      
print(x1_new)                     # now, the shape of x1_new is (5, 1)
x1_new = x1[np.newaxis,:]        
print(x1_new)                     # now, the shape of x1_new is (1, 5)

[1 2 3 4 5]
[[1]
 [2]
 [3]
 [4]
 [5]]
[[1 2 3 4 5]]


In [30]:
arr = np.arange(5*5).reshape(5,5)
print(arr)
print(arr.shape)
arr_5D = arr[np.newaxis, ..., np.newaxis, np.newaxis]   # promoting 2D array to a 5D array
print(arr_5D)
print(arr_5D.shape)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
(5, 5)
[[[[[ 0]]

   [[ 1]]

   [[ 2]]

   [[ 3]]

   [[ 4]]]


  [[[ 5]]

   [[ 6]]

   [[ 7]]

   [[ 8]]

   [[ 9]]]


  [[[10]]

   [[11]]

   [[12]]

   [[13]]

   [[14]]]


  [[[15]]

   [[16]]

   [[17]]

   [[18]]

   [[19]]]


  [[[20]]

   [[21]]

   [[22]]

   [[23]]

   [[24]]]]]
(1, 5, 5, 1, 1)


##### 数组拼接

In [43]:
t_0 = np.arange(12).reshape((2,6))
print(t_0)
t_1 = np.arange(12,24).reshape((2,6))
print(t_1)
print(np.vstack((t_0,t_1)))
# 竖直拼接
# 还有一种方法可以做到竖直分割与水平分割，这二者是和拼接互逆的，即竖直分割是水平一刀的分割
print(np.hstack((t_0,t_1)))
# 水平拼接

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[[12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[ 0  1  2  3  4  5 12 13 14 15 16 17]
 [ 6  7  8  9 10 11 18 19 20 21 22 23]]


#### np.where

In [50]:
f = np.arange(24).reshape(4,6)

In [51]:
np.where(f%3==0,f,np.nan)           # 一种特殊的方式，三个参数，
                                    #                 f%3==0（第一个参数）   是判断条件
                                    #                 如果判断正确，值为f（第二个参数）中相应的值，如果错误，就为np.nan（第三个参数）相应的值
        

array([[ 0., nan, nan,  3., nan, nan],
       [ 6., nan, nan,  9., nan, nan],
       [12., nan, nan, 15., nan, nan],
       [18., nan, nan, 21., nan, nan]])

###  数组的深拷贝与浅拷贝

* copy()
* a = b   完全不复制，a与b相互影响
* a = b[:] 视图的操作，切片，会创建新的对象a，但是a的数据完全由b保管，他们两个的数据变化是一致的
* a = b.copy(), 复制，a与b互不影响

切片一般都是浅拷贝，与原数组共用一片内存，改变其索引值也会直接改变原数组。
而numpy的函数一般都是生成一个新的数组，所以对原数组无影响。

花式索引永远给出一个副本，切片永远给出一个视图。

In [31]:
a = np.arange(5)
print(a)

# 浅拷贝
b = a            # b 与 a 共用内存，
print(b)
a[0] = 5
print(a)
print(b)

# 深拷贝
a = np.arange(5)
print(a)
c = a.copy()    # c 为重新开辟的内存
print(c)
a[0] = 2
print(a)
print(c)

[0 1 2 3 4]
[0 1 2 3 4]
[5 1 2 3 4]
[5 1 2 3 4]
[0 1 2 3 4]
[0 1 2 3 4]
[2 1 2 3 4]
[0 1 2 3 4]


## 使用文件存取数据

**CSV**：Comma-Separated Value，逗号分隔值文件<br>
显示：表格状态<br>
源文件：换行和逗号分隔行列的格式化文本，每一行数据表示一条记录<br>
<br>
CSV文件便于展示，读取和写入，所以很多地方也是用CSV格式的文件存储和传输中小型的数据，当然操作数据库中的数据也是容易实现的

### 生成csv文件：

* np.savetxt(frame, array, fmt=‘%.18e’, delimiter=None)
  * frame：文件、字符串或产生器，可以是 .gz 或 .bz2 的压缩文件
  * array：存入文件的数组
  * fmt：写入文件的数据的格式，例如：%d  %.2f  %.18e，（就是将数据类型保存为一个字符串）
  * delimiter：分割字符串，默认是任何空格

In [34]:
import numpy as np
a = np.arange(100).reshape(5,20)
np.savetxt('a.csv', a, fmt='%d', delimiter=',')
np.savetxt('b.csv', a, fmt='%.1f', delimiter=',')

### 读取CSV文件：

* np.loadtxt(frame,dtype=np.float,delimiter=None,skiprows=0,usecols=None,unpack=False)

loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding, max_rows)<br>
* frame  文件、字符串或产生器，可以是gz或bz2压缩文件<br>
* dtype  数据类型，可选，CSV的字符串以什么类型读入数组中，默认np.float，但对于较大的数据会以科学计数法进行显示<br>
* delimiter  分隔字符串，默认是任何空格，一般改为 逗号<br>
* skiprows  跳过前x行，一般跳过第一行表头<br>
* usecols  读取指定的列，索引，元组类型<br>
* unpack  如果True，读入属性将分别写入不同数组变量，Faise读入数据只写入一个数组变量，默认为False。（形同转置）
* 由此，文本文件都可以作为本地数据文件作为数据文件

In [35]:
c = np.loadtxt('a.csv', delimiter=',')
print(c)
d = np.loadtxt('a.csv', delimiter=',', unpack=True)
print(d)

[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
  18. 19.]
 [20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
  38. 39.]
 [40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57.
  58. 59.]
 [60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77.
  78. 79.]
 [80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97.
  98. 99.]]
[[ 0. 20. 40. 60. 80.]
 [ 1. 21. 41. 61. 81.]
 [ 2. 22. 42. 62. 82.]
 [ 3. 23. 43. 63. 83.]
 [ 4. 24. 44. 64. 84.]
 [ 5. 25. 45. 65. 85.]
 [ 6. 26. 46. 66. 86.]
 [ 7. 27. 47. 67. 87.]
 [ 8. 28. 48. 68. 88.]
 [ 9. 29. 49. 69. 89.]
 [10. 30. 50. 70. 90.]
 [11. 31. 51. 71. 91.]
 [12. 32. 52. 72. 92.]
 [13. 33. 53. 73. 93.]
 [14. 34. 54. 74. 94.]
 [15. 35. 55. 75. 95.]
 [16. 36. 56. 76. 96.]
 [17. 37. 57. 77. 97.]
 [18. 38. 58. 78. 98.]
 [19. 39. 59. 79. 99.]]


### CSV的局限性

csv只能有效存储一维和二维数组（np.savetxt() np.loadtxt()只能有效存取一维和二维数组）

### 多维数据的存取

* a.tofile(frame, sep=‘’, format=‘%s’)		(在存取多维数据的时候维度信息会丢失，需要知道维度信息而后转换)
  * frame：文件、字符串
  * sep：数据分割字符串，如果是空串，写入文件为二进制
  * format：写入数据的格式
* np.fromfile(frame, dtype=float, count=-1, sep=‘’)
  * frame：文件、字符串
  * dtype：读取的数据类型
  * count：读入元素的个数，-1表示读入整个文件
  * sep：数据分割字符串，如果是空串，写入文件为二进制

In [36]:
a = np.arange(100).reshape(5, 10, 2)
a.tofile("b.dat", sep=',', format='%d')
a.tofile("c.dat", format='%d')
d = np.fromfile("b.dat", dtype=np.int, sep=",")
print(d)
e = np.fromfile("c.dat", dtype=np.int)
print(e)
e.reshape(5, 10, 2)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]],

       [[20, 21],
        [22, 23],
        [24, 25],
        [26, 27],
        [28, 29],
        [30, 31],
        [32, 33],
        [34, 35],
        [36, 37],
        [38, 39]],

       [[40, 41],
        [42, 43],
        [44, 45],
        [46, 47],
        [48, 49],
        [50, 51],
        [52, 53],
        [54, 55],
        [56, 57],
        [58, 59]],

       [[60, 61],
        [62, 63],
        [64, 65],
        [66, 67],
        [68, 69],
        [70, 71],
        [72, 73],
        [74, 75],
        [76, 77],
        [78, 79]],

       [[80, 81],
        [82, 83],
        [84, 85],
        [86, 87],
        [88, 89],
        [90, 91],
        [92, 93],
        [94, 95],
        [96, 97],
        [98, 99]]])

### 其他的方法：NumPy 的便捷文件存取（指定类型的文件）

* np.save(fname, array) 或 np.savez(fname, array)
  * frame：文件名，以 .npy 为扩展名，压缩扩展名为 .npz
  * array：数组变量
* np.load(fname)
  * frame：文件名

## 小应用

### 与PIL库连用进行图形的变换

PIL 库  

（Python Image Library）

`from PIL import Image  # Image是PIL库中代表一个图像的类（对象）`

图像是一个由像素组成的二维矩阵，每个元素是一个RGB值。也可以认为是一个三维数组，维度分别是高度、宽度和像素RGB值。所以对其数组进行变换即可得到相应的图形变换的结果。

In [40]:
from PIL import Image
import numpy as np
im = np.array(Image.open("image_test.png"))
print(im.shape, im.dtype)

(800, 800, 4) uint8


![](image_test.png)

In [42]:
a = np.full((800,800,4),255)
a = a - im
b = Image.fromarray(a.astype('uint8'))
b.save("image_test_2.png")

## 面向数组编程(array-oriented programming)

使用 Numpy 数组, 可以利用**简单的数组表达式**完成多种数据操作的任务, 而无需编写大量的循环. 这种利用简单数组表达式来替代**显式循环**的编程方法, 称为**面向数组编程**.

Numpy 避免 Python 循环的编程方式，称为**向量化编程**，或者**面向数组编程**。面向数组编程大部分时候效率都要比用 Python 的 for 循环编程的方式效率要高，这里的效率有两方面的内涵：

1. 编写的代码量少，写代码的速度快。
1. 代码执行的速度快。

所以，只要你在脚本里看到很多 Python 的 for 循环(特别是循环次数很巨大的情形)，你就应该考虑如何用**面向数组编程**的方式替代它。

在 Numpy 中， 这种面向数组的运算方式是通过**通用函数(ufunc)** 实现的，所以要想熟练掌握**面向数组的编程**方式，要对常用的**通用函数**比较熟悉。

## Numpy 设计的一些基本原则

* 尽量避免复制数据
* 默认为**行优先(row-major)**存储
* 利用**广播(broadcast)**, 避免开辟新的内存
* 利用**面向数组编程(array-oriented programming)**方式提高运算效率.

## 便捷查找

    * 切片和索引
        * 选择行
            - t[2]
            - t[3:,:]
        * 选择列
            - t[:,4:]
        * 选择行列
            - 连续的多行
            - t[2:,:3]
        * 不连续的多行
            - t[[1,3],[2,4]]
            - 选择的是（1,2）（3,4）两个位置的值
        * 索引
            - t[2,3]
    * 赋值
        - t[2:,3] = 3
    * 布尔索引
        - t[t>10] = 10
    * 裁剪
        - t.clip(10,20)
        - 把小于10的替换为10，大于20的替换为20
    *  转置
        - t.T
        - t.transpose()
        - t.swapaxes(1,0)
    *  三元运算符
        - np.where(t>10,20,0)
            - 把t中大于10 的替换为20，其他的替换为0
    * 常用统计函数
        - t.sum(axis=0)
        - np.median(t,axis=0)
        - t.mean(axis=0)
        - t.max()
        - t.min()
        - np.ptp
            - 计算极差
        - t.std
            - 计算标准差
    *  nan和inf
        * nan
            - 不是一个数字
            - np.nan != np.nan
            - np.count_nonzero(np.nan != np.nan)
            - np.isnan(t)
                - 效果与np.nan != np.nan相同
        * inf
            - 无穷
    * 读取本地文件
        - np.loadtxt(file_path,delimiter,dtype)