## 初识NumPy

NumPy是一个功能强大的Python库，主要用语对多维数组执行计算。NumPy这个词来源于两个单词-- Numerical 和 Python。

NumPy通常被用于：机器学习模型，图像处理和计算机图形学，数学任务等。

**初识ndarray对象**

了解NumPy概念最重要的一点了解ndarray，ndarray是NumPy种的一种基本的数据对象，是一系列的 **同类型** 的数据的集合。

ndarray有着如下所示的多个属性：

![image.png](attachment:10e4c377-72f2-416e-bbbe-65c4405f15c1.png)

我们首先需要导入numpy，并且将其缩写：

In [1]:
import numpy as np

创建一个ndarray对象可以调用ndarray的构造函数：

```
np.ndarray(shape=, dtype=, buffer=, offset=, order=)
```

构造函数的参数的含义是：

![image.png](attachment:97533406-5b7b-4bab-aa5c-e920873309be.png)

或者，我们也可以直接调用NumPy的array函数：
```
np.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
```

参数的含义是：

![image.png](attachment:a249d9c8-4baa-440e-8c37-60da522ded2c.png)

我们来实现一段代码：

In [9]:
import numpy as np  # 导入NumPy数据库，并且缩写为np

mat1 = np.array([[1,2,3],[4,5,6]])
print("mat1 type:{}".format(type(mat1)))  # 测试一下类型
print("mat1 dtype:{}".format(mat1.dtype))

mat1 type:<class 'numpy.ndarray'>
mat1 dtype:int32


In [10]:
mat2 = np.ndarray(shape=(2,3), dtype=np.int32)
print("mat2 type:{}".format(type(mat2)))
print("mat2 dtype:{}".format(mat2.dtype))

mat2 type:<class 'numpy.ndarray'>
mat2 dtype:int32


ndarray是一个类，np.ndarray()其实是它的构造函数，得到一个 ndarray 对象，而 array() 其实是为了便于创建一个 ndarray对象的函数。两者得到的结果其实是一样的。

np.ndarray()构造函数相对更麻烦也更低级一些，使用默认构造函数创建的ndarray对象的数组元素是随机值，而 numpy提供了一系列的创建 ndarray对象的函数，array()就是其中的一种；使用来构造 ndarray对象会更方便一些。

## NumPy的数据类型

numpy支持的数据类型比Python内置的类型要多很多，具体如下所示：

![image.png](attachment:e83f8bcf-454d-4463-baea-2e831d5dc27c.png)

上述的这些数值类型实际上是dtype对象的实例，也就是一个对象，描述了如何解释与数组项对应的固定大小的内存块中的字节。

dtype对象使用如下形式进行构造：
```
numpy.dtype(object, algin, copy)
```

参数的解释为：
1. object：表示要转换为的数据类型对象
2. align：若为true，在内存块填充字符串将以C结构进行排列
3. copy：复制dtype对象，如果为false，则表示对内置数据类型对象的引用

引用NumPy的官方解释：
> 数据类型对象（numpy.dtype类的实例）描述了如何解释与数组项对应的固定大小的内存块中的字节。

主要描述了数据的几个方面：
1. 数据类型（整型、浮点型、Python对象等）。
2. 数据的大小（例如整数中有多少字节）。
3. 数据的顺序（little-endian 或 big-endian）。
4. 如果数据类型是结构化数据类型，则是其他数据类型的集合(例如，描述由整数和浮点数组成的数组项)。
    1. 结构的 “字段” 的名称是什么，通过这些名称可以访问它们。
    2. 每个 字段 的数据类型是什么，以及
    3. 每个字段占用内存块的哪一部分。
5. 如果数据类型是子数组，那么它的形状和数据类型是什么。

In [11]:
import numpy as np
dt_int64 = np.dtype(np.int64)
print(dt_int64)

int64


定义复合类型结构的数组是 dtype 的作用之一，符合类型结果类似C语言种的结构体，可以看成由多个基本数据组成的新数据类型，dtype可以使用很多的方式对符合类型数组进行定义。

In [14]:
import numpy as np

dt_obj = np.dtype([("name", np.str_)])
print(dt_obj)

dt_age=np.dtype([('age',np.int_)])
print(dt_age)

dt_score=np.dtype([('score',np.float32)])
print(dt_score)

[('name', '<U')]
[('age', '<i4')]
[('score', '<f4')]


< 意味着小端法(最小值存储在最小的地址，即低位组放在最前面)；> 意味着大端法(最重要的字节存储在最小的地址，即高位组放在最前面)。而 i4 , f4 则是 int32, float32 的替代，两者等价。

In [15]:
# 构建一个说明学生整体情况的数据类型

stu=np.dtype([('name','U3'),('age','i4'),('socre','f4')])
print(stu)

[('name', '<U3'), ('age', '<i4'), ('socre', '<f4')]


可能有同学要问构建结构化数据类型的意义在于：Numpy 数组必须是同质数组，即数组中每个元素的数据类型都相同。

但是一些情况之下，我们需要使用不同了类型的数据，比如说描述学生的数据就有姓名，年龄，成绩等等。

In [17]:
stu_list = np.array([('Tom',21,60),('Yan',20,59)],dtype=stu)
print(stu_list)

[('Tom', 21, 60.) ('Yan', 20, 59.)]


## NumPy的数组/矩阵创建

**从原生数组创建**

ndarray数组除了可以使用底层ndarray构造器来创建之外，也可以通过以下几种方式来创建。

**numpy.empty** 方法用来创建一个指定形状（shape），数据类型（dtype）并且未初始化的数组：
```
numpy.empty(shape, dtype = float, order = 'C')
```

参数的含义是：
1. shape：数组形状
2. dtype：数据类型，可选
3. order：有'C'和'F'两个选项，分别代表行优先和列优先，涉及到在计算机内存中的存储元素的顺序。

这是一个例子：

In [18]:
import numpy as np

# 创建一个大小为 2*2，数据类型为int的空数组
x = np.empty([2,2], dtype = int)
print(x)

[[ -739120123  -831831900]
 [ -848733906 -1006573613]]


打印出来的不是空数组，这是应为empty()创建的数组并没有初始化，所以当前的数组元素都是随机值。

**numpy.zeros** 函数可以用来创建指定大小的数组，并且将数组中的元素用0来填充：

```
numpy.zeros(shape, dtype = float, order = 'C')
```

参数的含义是：
1. shape：数组形状
2. dtype：数据类型，可选
3. order：'C'用于C的行数组，或者'F'用语FORTRAN的列数组

In [22]:
import numpy as np

# 创建一个大小为4的空数组，默认行优先
a4 = np.zeros(4)
print(a4)

# 创建一个大小为2*3，数据类型为float32的数组
a23 = np.zeros((2,3), dtype = np.float32)
print(a23)

# 创建一个大小为2*2，数据类型为自定义类型的数组
a22 = np.zeros((2,2), dtype = [('x', 'i4'), ('y', 'f4')])
print(a22)

[0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]
[[(0, 0.) (0, 0.)]
 [(0, 0.) (0, 0.)]]


**numpy.ones** 用来创建指定形状的数组，但是数组是用1来进行填充的：

```
numpy.ones(shape, dtype = None, order = 'C')
```

参数的说明：
1. shape：数组形状
2. dtype：数据类型，可选
3. order：'C'用于C的行数组，或者'F'用语FORTRAN的列数组

以下是ones()的用法：

In [23]:
import numpy as np

# 创建一个大小为5，用1进行填充的数组，默认行优先
a5 = np.ones(5)
print(a5)

# 创建一个大小为4*2，用1填充，数据类型为int的数组
a42 = np.ones((4, 2), dtype = np.int32)
print(a42)

[1. 1. 1. 1. 1.]
[[1 1]
 [1 1]
 [1 1]
 [1 1]]


**numpy.arange**

numpy.arange用于按照规则生成的数组：
```
numpy.arange(start, stop, step, dtype = None)
```

参数的说明是：
1. start：开始位置，数组，可选项，默认起始值为0
2. stop：停止位置，数字
3. setp：步长，数字，可选项，默认步长为1；如果给出了指定的step，则需要给出start
4. dtype：输出数组的类型，如果没有给出dtype，则从其他的输入传参数推断数据类型

一个具体的实例：

In [25]:
a = np.arange(5)
print(a)
print(type(a))

b = np.arange(1, 5) # 从1还是，到5结束（不包含5），没有给出步长所以默认为1
print(b)

c = np.arange(1, 5, 2)  # 从1开始，到5结束（不包含5），步长指定为2
print(c)

d = np.arange(1, 5.2, 0.6)  # 从1开始，到5.2结束，步长默认为0.6
#注意：对于浮点参数（参数为浮点），结果的长度为（stop - start）/ step）由于浮点溢出，此规则可能导致最后一个元素大于stop。因此要特别注意
print(d)

[0 1 2 3 4]
<class 'numpy.ndarray'>
[1 2 3 4]
[1 3]
[1.  1.6 2.2 2.8 3.4 4.  4.6 5.2]


**从已有的数组创建**

**numpy.asarray** 可以用来生成一个和参数a大小相同的数组，语法如下所示：
```
numpy.asarray(a, dtype = None, order = None)
```

参数的具体的含义是：
1. a：任意形式的输入参数
2. dtype：数据类型，可选
3. order：'C' 或者 'F'

以下是一个例子：

In [1]:
import numpy as np

a = [1, 2, 3, 4]
new_arr = np.asarray(a)
print(type(a))
print(type(new_arr))
print(new_arr)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3 4]


In [2]:
# 或者也可以这样
new_arr = np.asarray(a, dtype=np.float32)
print(new_arr)

[1. 2. 3. 4.]


**numpy.frombuffer** 用于实现动态数组，将数据以流的形式读入转化为ndarray对象。

In [4]:
s =  b'Hello World'  #buffer 是字符串的时候，Python3 默认 str 是 Unicode 类型，所以要转成 bytestring 在原 str 前加上 b
a = np.frombuffer(s, dtype =  'S1')
print (a)

[b'H' b'e' b'l' b'l' b'o' b' ' b'W' b'o' b'r' b'l' b'd']
