# Numpy 简介

numpy 是一个功能强大的 python 库，主要用于对多维数组执行计算。numpy 这个词来源于两个单词 *Numerical*和 *Python*。numpy提供了大量的库函数和操作，可以帮助程序员轻松地进行数值计算。这类数值计算广泛用于机器学习模型，图像处理和计算机图形学和数学任务。

在我们的计算机上安装 numpy 的最快也是最简单的方法是在 shell 上使用以下命令：
```
pip install numpy。
```
这将在我们的计算机上安装最新/最稳定的 numpy 版本。通过 PIP 安装是安装任 python 软件包的最简单方法。

教程使用的python编程环境中已经提供这个包了，我们能直接使用numpy，现在让我们来谈谈 numpy 中最重要的概念，numpy 数组。在本章的学习中，我们将了解什么是 numpy 数组；python 列表 numpy 数组之间的主要区别以及 numpy 数组的维数。

## 1.1 什么是 numpy 数组

numpy提供的最重要的数据结构是一个称为numpy数组的强大对象。numPy数组是通常的python数组的扩展。numpy数组配备了大量的函数和运算符，可以帮助我们快速编写各种类型计算的高性能代码。  

与 python 列表一样，numpy 数组也由有序值（称为元素）组成，并且还使用索引来组织和操作。numpy数组的一个关键特征是数组中的所有元素都必须是相同类型的数据（即整数、浮点数、文本、字符串等）。  

## 1.2 Python Array 和 Numpy Array 的区别

虽然 python 列表和 numpy 数组有相似之处，因为它们都是使用索引来帮助我们来存储和访问数据的值的集合，但这两种数据结构之间存在一些关键区别：

与 python 列表不同，numpy 数组中的所有元素必须具有相同的数据类型;

与 python 列表不同，numpy 数组不是通过添加/删除/替换数组中的元素来编辑的。相反，每次以某种方式操作 numpy 数组时，它实际上每次都会被删除并重新创建。

numpy 数组可以沿着彼此相对的多个维度（例如行，列）存储数据。这使得 numpy 数组成为大型数据集的非常有效的数据结构。

## 1.3 Numpy Array 的维度

numpy 数组可以是：

  由沿一个维度的值组成的一维（类似于 python 列表）。
  由具有一列或多列的单个数组行组成的二维。
  由具有一个或多个维度的嵌套数组组成的多维。

在本章中,我们将使用一维和二维 numpy 数组。对于 numpy 数组，括号用于分配和标识 numpy 数组的维度。下面的示例演示了如何使用一组括号来定义一维数组。

In [None]:
# Import numpy with alias np
import numpy as np

In [2]:
# Monthly avg precip for Jan through Mar in Boulder, CO
avg_monthly_precip = np.array([0.70, 0.75, 1.85])

print(avg_monthly_precip)

[0.7  0.75 1.85]


请注意，一维 numpy 数组的输出也包含在一组括号中。

要创建二维数组，我们需要指定两组括号 ，定义整个数组结构的外部集合和定义各个数组行的内部集合。

In [3]:
# Monthly precip for Jan through Mar in 2002 and 2013
precip_2002_2013 = np.array([
    [1.07, 0.44, 1.50],
    [0.27, 1.13, 1.72]
])

print(precip_2002_2013)

[[1.07 0.44 1.5 ]
 [0.27 1.13 1.72]]


再次注意，二维 numpy 数组的输出包含两组括号 ，这是一种识别 numpy 数组是否为二维的简单，直观的方法。

# 2 利用 numpy 进行统计分析

## 2.1 读写文件

numpy 文件读写主要有二进制的文件读写和文件列表形式的数据读写两种形式。
save 函数是以二进制的格式保存数据。np.save("../tmp/save_arr",arr)
load 函数是从二进制的文件中读取数据。np.load("../tmp/save_arr.npy")
savez 函数可以将多个数组保存到一个文件中。np.savez("../tmp/savez_arr",arr1.arr2)

读取文本格式的数据（txt csv格式）
savetxt 函数是将数组写到某种分隔符隔开的文本文件中。
 ```
np.savetxt("../tmp/arr.txt",arr,fmt="%d",delimiter=",")
 ```
##fmt="%d" 表示保存为整数，delimiter=",",表示用‘,’隔开

loadtxt 函数执行的是把文件加载到一个二维数组中。
 ```
np.loadtxt("../tmp/arr.txt",delimiter=",")
 ```

genfromtxt 函数面向的是结构化数组 和缺失数据。
 ```
np.genfromtxt("../tmp/arr.txt",delimiter=",")
 ```

### 2.2 使用数组进行简单的统计分析

**直接排序**

sort 函数是最常用的排序方法。 arr.sort()
sort 函数也可以指定一个 axis 参数，使得 sort 函数可以沿着指定轴对数据集进行排序。axis=1 时，沿横轴，列的方向排序；axis=0 时，沿纵轴，行的方向排序。

**间接排序**：

argsort 函数返回值为重新排序值得下标。arr.argsort()示例如下：

In [8]:
import numpy as np
 
arr = np.arange(4,0,-1)
 
print(arr)
 
res = arr.argsort()
 
print(res)

[4 3 2 1]
[3 2 1 0]


lexsort 函数返回值是按照最后一个传入数据排序的。np.lexsort((a,b,c)),则按照 c 的下标排序。

In [9]:
import numpy as np
 
arr1 = np.array([1,5,2,4])
 
arr2 = np.array([99,22,44,33])
 
res = np.lexsort((arr1,arr2))   ###按照arr2的下标排序
 
print(res)

[1 3 2 0]


**去重与重复数据**：
通过 unique 函数可以找出数组中的唯一值并返回已排序的结果。

In [10]:
import numpy as np
 
arr = np.array([[1,2,2,6,4,4,3,2,7]])
 
## 去重+排序
 
arr_new  = np.unique(arr)
 
print(arr_new)

[1 2 3 4 6 7]


## 2.3 常用统计函数
当 axis=0 时，表示沿着纵轴（行）计算。当 axis=1 时，表示沿着横轴（列）计算。默认时计算一个总值。

In [11]:
import numpy as np
 
arr = np.arange(9).reshape(3,3)
print(arr)
 
### sum,mean,std,var,min,max,argmax,argmin,cumsum,cumprod
print("arr的和为:",arr.sum(axis=1))   ##按照列的方向，横着求和
print("arr的和为:",arr.sum(axis=0))   ##按照行的方向，竖着求和
print("arr的平均值为：",np.mean(arr,axis=1))
print("arr的标准差为：",np.std(arr,axis=1))
print("arr的方差为：",np.var(arr,axis=1))
print("arr的最小值为：",np.min(arr,axis=1))
print("arr的最大值为：",np.max(arr,axis=1))
print("arr的最大值下标为：",np.argmax(arr,axis=1))
print("arr的最小值下标为：",np.argmin(arr,axis=1))
print("arr的累计和为：",np.cumsum(arr,axis=1))
print("arr的累计积为：",np.cumprod(arr,axis=1))

[[0 1 2]
 [3 4 5]
 [6 7 8]]
arr的和为: [ 3 12 21]
arr的和为: [ 9 12 15]
arr的平均值为： [1. 4. 7.]
arr的标准差为： [0.81649658 0.81649658 0.81649658]
arr的方差为： [0.66666667 0.66666667 0.66666667]
arr的最小值为： [0 3 6]
arr的最大值为： [2 5 8]
arr的最大值下标为： [2 2 2]
arr的最小值下标为： [0 0 0]
arr的累计和为： [[ 0  1  3]
 [ 3  7 12]
 [ 6 13 21]]
arr的累计积为： [[  0   0   0]
 [  3  12  60]
 [  6  42 336]]


# 3 numpy 数组索引和切片

## 3.1 numpy 数组索引

数组索引与访问数组元素相同。我们可以通过引用数组元素的索引号来访问该元素。numpy 数组中的索引以0开头，这意味着第一个元素的索引为0，第二个元素的索引为1，依此类推。

**一维 numpy 数组索引**

对于一维 numpy 数组，只需指定一个索引值，即元素在 numpy 数组中的位置（例如）:
从以下数组中获取第一个元素：

In [12]:
import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr[0])

1


**二维 numpy 数组索引**

要从二维数组中访问元素，我们可以使用逗号分隔的整数来表示元素的维度和索引。
将二维数组想象成包含行和列的表，其中行表示维度，索引表示列。
例:访问第一行第二列上的元素：

In [13]:
import numpy as np

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('第一行第二列上的元素为: ', arr[0, 1])

第一行第二列上的元素为:  2


## 3.2 numpy 数组切片

python中的切片意味着将元素从一个给定索引带到另一个给定索引。
我们传递切片而不是索引，如下所示：
```
[start:end]
```

我们也可以定义步骤，如下所示：
```
[start:end:step]
```
如果我们不设置 start ，则表示从 0 开始；如果我们不设置 end，则表示数组长度；如果我们不设置 step，则默认为1

例：从以下数组中将元素从索引 1 切片到索引 5：

In [14]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[1:5])

[2 3 4 5]


注意： 结果包括起始索引，但不包括结束索引。

例 : 将元素从索引 4 切片到数组的末尾

In [16]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[4:])


[5 6 7]


例：从开始到索引 4（不包括）对元素进行切片：

In [17]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[:4])

[1 2 3 4]


**step 步长**
使用 step 确定切片长度：
例：返回从索引 1 到索引 5 的所有其他元素：

In [18]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[1:5:2])


[2 4]


**2维数组切片**        
X[n0,n1]是通过 numpy 库引用二维数组或矩阵中的某一段数据集的一种写法。
X 是一个二维数组，维度分别为 0，1。为了方便理解多维，采取数中括号的方式确定维数。

**取元素 X[n0,n1]**        
这是最基本的情况，表示取第 0 维的第 n0 个元素，继续取第1维的第 n1个元素。如 X[2,2] 表示第0维第2个元素[20,21,22,23],然后取其第1维的第2个元素即 22；

**切片 X[s0:e0,s1:e1]**                      
这是最通用的切片操作，表示取第0维的第 s0 到 e0 个元素，继续取第1维的第 s1 到 e1 个元素（左闭右开）。如 X[1:3,1:3] 表示第 0 维第(1:3)个元素[[10,11,12,13],[20,21,22,23]],然后取其第1维的第(1:3)个元素即 [[11,12],[21,22]]；

**切片特殊情况 X[:e0,s1:]**           
特殊情况，即左边从 0 开始可以省略X[:e0,s1:e1]，右边到结尾可以省略X[s0:,s1:e1]，取某一维全部元素X[:,s1:e1]，事实上和 python 的序列切片规则是一样的。

常见的 X[:,0] 则表示第 0 维取全部，第1维取0号元素；

In [21]:
import numpy as np

X = np.array([[0,1,2,3],[10,11,12,13],[20,21,22,23],[30,31,32,33]])

# X 是一个二维数组，维度为 0 ，1
# 第 0 层 [] 表示第 0 维；第 1 层 [] 表示第 1 维；

# X[n0,n1] 表示第 0 维 取第n0 个元素 ，第 1 维取第 n1 个元素
print(X[1,0])
# X[1:3,1:3] 表示第 0 维 取 (1:3)元素 ，第 1 维取第(1:3) 个元素
print(X[1:3,1:3])

# X[:n0,:n1] 表示第 0 维 取 第0 到 第n0 个元素 ，第 1 维取 第0 到 第n1 个元素
print(X[:2,:2])
# X[:,:n1] 表示第 0 维 取 全部元素 ，第 1 维取 第0 到第n1 个元素
print(X[:,:2])

# X[:,0]) 表示第 0 维 取全部 元素 ，第 1 维取第 0 个元素
print(X[:,0])


10
[[11 12]
 [21 22]]
[[ 0  1]
 [10 11]]
[[ 0  1]
 [10 11]
 [20 21]
 [30 31]]
[ 0 10 20 30]


还有很多内容，但是这里篇幅所限，我们就介绍一些最基本的内容，更多内容大家可以自己在实际使用过程中从[官方文档](https://numpy.org/doc/stable/)慢慢学习，我们后面有一个完整例子，会介绍其中用到的numpy运算操作。