# Numpy 基础
## NumPy 库简介
- **NumPy(Numerical Python)** 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
- NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代MATLAB，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学和机器学习。

### 相关链接
- NumPy 官网 http://www.numpy.org/
- NumPy 源代码：https://github.com/numpy/numpy
- SciPy 官网：https://www.scipy.org/
- SciPy 源代码：https://github.com/scipy/scipy
- Matplotlib 官网：https://matplotlib.org/
- Matplotlib 源代码：https://github.com/matplotlib/matplotlib

## Ndarray 对象

ndarray是numpy中最基础的数据类型，ndarray是一个**多维数组**对象。

In [3]:
import numpy as np  # 导入numpy库，并且重命名为np

首先我们看一下传统的list在数据处理的时候的局限性

In [1]:
a = [1,2,3] # 一维列表（list）
b = [[1,2,3],[4,5,6],[7,8,9]] # 二维列表
b+2 # 不难发现，list无法进行常规的矩阵运算，限制了很多操作

TypeError: can only concatenate list (not "int") to list

### 从list创建ndarray

In [None]:
data=np.array([[ 1.9526, -0.246 , -0.8856],
               [ 0.5639, 0.2379, 0.9104]]) # 注意需要两层括号
data

In [None]:
np.sin(data) # ndarray数组可以直接进行数组层面的数据运算

In [None]:
np.sin(data)+np.cos(data) # ndarray数组可以直接进行数组层面的数据运算,这与matlab是相似的

###  Ndarray对象的属性
每个ndarray数组都具有下面几个常用的属性：
- `ndim`	维度数，如向量为1维，矩阵为2维
- `shape`	数组的形状，如(3,4)代表3行4列
- `size`	数组元素的总个数，相当于shape 中所有形状参数的乘积，在上一行的例子中为3*4=12
- `dtype`  每一个元素的类型
- `itemsize`  每个元素的大小，以字节为单位

In [5]:
data=np.array([[ 1.9526, -0.246 , -0.8856],
                [ 0.5639, 0.2379, 0.9104],
                [ 0.5639, 0.2379, 0.9104]
                ])
data.ndim

2

In [7]:
data.shape

(3, 3)

In [9]:
data.size

9

In [11]:
# 这里的dtype需要重点关注并记忆，当我们处理结构化数据的时候，常常需要基于数据类型进行必要的分类处理
data.dtype 

dtype('float64')

In [13]:
data.itemsize

8

### 其他创建Ndarray的方式

ndarray 数组除了可以使用`list`来创建外，也可以通过以下几种方式来创建。

#### 初始化创建数组

- `zeros`  创建指定形状大小的数组，数组元素以 0 来填充
- `ones`  创建指定形状的数组，数组元素以 1 来填充

In [None]:
data1=np.zeros((6,3))
data1

In [None]:
data2= 5 * np.ones((6,3))
data2

#### 从数值范围创建数组
numpy 中的使用 arange 函数创建数值范围并返回 ndarray 对象，函数格式如下：
`numpy.arange(start, stop, step, dtype)`
- `start`	起始值，默认为0
- `stop`	终止值（不包含）
- `step`	步长，默认为1
- `dtype`	返回ndarray的数据类型，如果没有提供，则会使用输入数据的类型。

In [15]:
x = np.arange(6)  
x

array([0, 1, 2, 3, 4, 5])

In [17]:
x = np.arange(4,5,0.1)  
x

array([4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

你也可以使用`linspace` 函数创建一个一维数组，该数组是一个等差数列，格式如下：

`np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)`

- `start`	序列的起始值
- `stop`	序列的终止值，如果endpoint为true，该值包含于数列中
- `num`	要生成的等步长的样本数量，默认为50
- `endpoint`	该值为 ture 时，数列中中包含stop值，反之不包含，默认是True。
- `retstep`	如果为 True 时，生成的数组中会显示间距，反之不显示。
- `dtype`	ndarray 的数据类型

In [47]:
x = np.linspace(4,5,10)
x

array([4.        , 4.11111111, 4.22222222, 4.33333333, 4.44444444,
       4.55555556, 4.66666667, 4.77777778, 4.88888889, 5.        ])

In [49]:
x = np.linspace(4,5,10,retstep=True)
print(x)

(array([4.        , 4.11111111, 4.22222222, 4.33333333, 4.44444444,
       4.55555556, 4.66666667, 4.77777778, 4.88888889, 5.        ]), 0.1111111111111111)


logspace 函数用于创建一个等比数列。格式如下：

`np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)`

- `base`	对数 log 的底数。

In [19]:
x = np.logspace(1.0,  6, num = 6,base = 2)  
print (x)

[ 2.  4.  8. 16. 32. 64.]


此外，我们还可以从文件中读取数据到ndarray，不过这一块的功能常常使用后续课程要介绍的pandas进行实现，此处不再介绍。

## 切片与索引

### 基本切片操作
ndarray对象的内容可以通过索引或切片来访问和修改，与list的切片操作是一样的。

In [None]:
a = np.arange(10)  
b = a[2:7:2]   # 从索引 2 开始到索引 7 停止，间隔为 2
b

### 多维数组切片
多维数组同样适用上述索引提取方法，切片还可以包括省略号:，来使选择元组的长度与数组的维度相同。

In [None]:
a = np.array([[1,2,3],
              [3,4,5],
              [4,5,6]])  
print (a)
print (a[:,1])   # 第2列元素
print (a[1,:])   # 第2行元素
print (a[:,1:3])  # 第2列及剩下的所有元素

### 布尔索引
我们可以通过一个布尔数组来索引目标数组。

布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组。

以下实例获取大于 5 的元素：

In [None]:
x = np.array([[ 0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]]) 

In [None]:
x[x>2]

In [None]:
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print ('我们的数组是：')
print (x)
print ('\n')

print  ('大于 5 的元素是：')
print (x[x > 5])
print ('\n')

print (x>5)

以下实例使用了 `~`（取补运算符）来过滤 NaN。

In [None]:
a = np.array([np.nan, 1,2,np.nan,3,4,5])  
print (a[~np.isnan(a)])

## ndarray的操作方法

NumPy常见的基本操作可以分为数组操作，数学函数操作，算术操作，统计函数操作和排序操作。

### 数组操作
数组操作主要用来：
- 修改数组形状
- 翻转数组、修改数组维度
- 连接、分割数组
- 数组元素的添加与删除

#### 修改数组形状

- `reshape`	不改变数据的条件下修改形状  
`reshape` 函数可以在不改变数据的条件下修改形状，格式如下：

`numpy.reshape(arr, newshape, order='C')`  

其中：

- `arr`：待修改形状的数组  
- `newshape`：整数或者整数数组，新的形状应当兼容原有形状  
- `order`：`'C'` -- 按行，`'F' `-- 按列，`'A'` -- 原顺序，`'k'` -- 元素在内存中的出现顺序

In [21]:
a = np.arange(100)
np.reshape(a,(20,5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54],
       [55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64],
       [65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74],
       [75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84],
       [85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94],
       [95, 96, 97, 98, 99]])

In [None]:
## 注意区分以下两种操作的区别在于是否修改了原变量
np.reshape(a,(20,5))
a.reshape((20,5))

`ndarray.flatten` 返回一份数组拷贝，对拷贝所做的修改不会影响原始数组。

- `ndarray.flatten(order='C')`

In [None]:
a = np.arange(9).reshape(3,3) 
a.flatten()

In [None]:
a = np.arange(8).reshape(2,4)
 
print ('原数组：')
print (a)
 
print ('展开的数组：')
print (a.flatten())
 
print ('以 F 风格顺序展开的数组：')
print (a.flatten(order = 'F'))

#### 翻转数组

- `transpose`	对换数组的维度
- `ndarray.T`	和 `self.transpose()` 相同

In [None]:
a = np.arange(12).reshape(3,4)
 
print ('原数组：')
print (a)

print ('对换数组：')
print (np.transpose(a))

print ('转置数组：')
print (a.T)

#### 连接数组

- `concatenate`	连接沿现有轴的数组序列
- `stack`	沿着新的轴加入一系列数组
- `hstack`	水平堆叠序列中的数组（列方向）
- `vstack`	竖直堆叠序列中的数组（行方向）

In [None]:
a = np.array([[1,2],[3,4]])
 
print ('第一个数组：')
print (a)
print (a.shape)
b = np.array([[5,6],[7,8]])
 
print ('第二个数组：')
print (b)
print (b.shape)
# 两个数组的维度相同
 
print ('沿轴 0 连接两个数组：')
print (np.concatenate((a,b)))
print (np.concatenate((a,b)).shape)
 
print ('沿轴 1 连接两个数组：')
print (np.concatenate((a,b),axis = 1))
print (np.concatenate((a,b),axis = 1).shape)

In [None]:
print ('沿轴 0 堆叠两个数组：')
print (np.stack((a,b),0))
print (np.stack((a,b),0).shape)

print ('沿轴 1 堆叠两个数组：')
print (np.stack((a,b),1))
print (np.stack((a,b),1).shape)

In [None]:
print ('水平堆叠：')
c = np.hstack((a,b))
print (c)

print ('竖直堆叠：')
c = np.vstack((a,b))
print (c)

#### 分割数组

- `split`	将一个数组分割为多个子数组
- `hsplit`	将一个数组水平分割为多个子数组（按列）
- `vsplit`	将一个数组垂直分割为多个子数组（按行）

In [None]:
a = np.arange(9)
 
print ('第一个数组：')
print (a)

print ('将数组分为三个大小相等的子数组：')
b = np.split(a,3)
print (b)
 
print ('将数组在一维数组中表明的位置分割：')
b = np.split(a,[4,7])
print (b)

In [None]:
a = np.array([[1,2],[3,4]])
print (a)
print (a.shape)
print ('hsplit拆分后：')
print(np.hsplit(a, 2))
print ('vsplit分割：')
print(np.vsplit(a,2))

#### 数组元素的添加与删除
- `resize`	返回指定形状的新数组
- `append`	将值添加到数组末尾
- `insert`	沿指定轴将值插入到指定下标之前
- `delete`	删掉某个轴的子数组，并返回删除后的新数组

In [None]:
a = np.array([[1,2,3],[4,5,6]])
 
print ('第一个数组：')
print (a)
 
print ('第一个数组的形状：')
print (a.shape)
b = np.resize(a, (3,2))

print ('第二个数组：')
print (b)
 
print ('第二个数组的形状：')
print (b.shape)

 
print ('修改第二个数组的大小：')
b = np.resize(a,(3,3))
print (b)
# 要注意 a 的第一行在 b 中重复出现，因为尺寸变大了

In [None]:
a = np.array([[1,2,3],[4,5,6]])
 
print ('第一个数组：')
print (a)

print ('向数组添加元素：')
print (np.append(a, [7,8,9]))

print ('沿轴 0 添加元素：')
print (np.append(a, [[7,8,9]],axis = 0))

print ('沿轴 1 添加元素：')
print (np.append(a, [[5,5,5],[7,8,9]],axis = 1))

In [None]:
a = np.arange(12).reshape(3,4)
 
print ('第一个数组：')
print (a)

print ('未传递 Axis 参数。 在插入之前输入数组会被展开。')
print (np.delete(a,5))

print ('删除第二列：')
print (np.delete(a,1,axis = 1))

print ('删除第二行：')
print (np.delete(a,1,axis = 0))

### 数学函数操作
常见的数学函数如对数函数，三角函数，指数函数等都在NumPy中有提供，同时，还有一些舍入函数。这些函数操作的要点是它们都是**对于变量中的每个元素进行的**。

#### 普通数学函数

In [None]:
a = np.array([0,30,45,60,90])
print ('不同角度的正弦值：')
# 通过乘 pi/180 转化为弧度  
print (np.sin(a*np.pi/180))

#### 舍入函数

In [None]:
a = np.array([1.0,5.55,  123,  0.567,  25.532])  
print ('原数组：')
print (a)
print ('舍入后：')
print (np.around(a))
print (np.around(a, decimals =  1))

#### 算术操作
NumPy 算术函数包含简单的加减乘除: add()，subtract()，multiply() 和 divide()等。你也可以用算术符号代替。

需要注意的是数组必须具有相同的形状或符合**数组广播规则**，是都是对于变量中的每个对应的元素进行的。

In [None]:
a = np.arange(9, dtype = np.float_).reshape(3,3)  
print ('第一个数组：')
print (a)
print ('第二个数组：')
b = np.array([10,10,10])  
print (b)
print ('两个数组相加：')
print (np.add(a,b))
print (a + b)
print ('两个数组相减：')
print (np.subtract(a,b))
print (a - b)
print ('两个数组相乘：')
print (np.multiply(a,b))
print (a * b)
print ('两个数组相除：')
print (np.divide(a,b))
print (a / b)
print ('两个数组作指数运算：')
print (np.power(a,b))
print (a ** b)
print ('两个数组作余数运算：')
print ('调用 mod() 函数：')
print (np.mod(a,b))
print ('调用 remainder() 函数：')
print (np.remainder(a,b))
print (a % b)
print ('两个数组作整除运算：')
print (a // b)

当运算中的 2 个数组的形状不同时，numpy 将自动触发广播机制。如：

In [16]:
a = np.array([0, 1, 2])
b = np.array([[0], [1], [2]]) # 兩次廣播機制
a+b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [8]:
a = np.array([[ 0, 0, 0],
           [10,10,10],
           [20,20,20],
           [30,30,30]])
b = np.array([0,1,2])
print(a + b) # 如果兩個數組在做運算時 有一個dim對的上 一個對不上 那我們就會 ??

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

下面的图片展示了数组 b 如何通过广播来与数组 a 兼容。
<img src="https://pan.imgbed.link/file/173599" width="500">

4x3 的二维数组与长为 3 的一维数组相加，等效于把数组 b 在二维上重复 4 次再运算。

广播的规则:

- 让所有输入数组都向其中形状最长的数组看齐，形状中不足的部分都通过在前面加 1 补齐。
- 输出数组的形状是输入数组形状的各个维度上的最大值。
- 如果输入数组的某个维度和输出数组的对应维度的长度相同或者其长度为 1 时，这个数组能够用来计算，否则出错。
- 当输入数组的某个维度的长度为 1 时，沿着此维度运算时都用此维度上的第一组值。

简单理解：对两个数组，分别比较他们的每一个维度（若其中一个数组没有当前维度则忽略），满足：

- 数组拥有相同形状。
- 当前维度的值相等。
- 当前维度的值有一个是 1。

#### 统计函数操作
NumPy中包含了很多基本的统计操作。
这些操作都可以添加`axis=`参数，变成对于某个维度求对应的值。

In [None]:
a = np.arange(1,10,dtype = np.float_).reshape(3,3) 
a

In [None]:
a = np.arange(1,10,dtype = np.float_).reshape(3,3) 
print ('原数组:',a)
print ('最小值:',np.amin(a))
print ('最大值:',np.amax(a))
print ('（最大值 - 最小值）:',np.ptp(a))
print ('百分位数:',np.percentile(a, 50))
print ('中位数:',np.median(a))
print ('均值:',np.mean(a,axis=1)) 
print ('均值:',np.mean(a,axis=0)) 
print ('加权均值:',np.average(a,weights = a))
print ('标准差;',np.std(a))
print ('方差:',np.var(a))

#### 排序操作
常用的排序函数有：
- `sort` 直接排序
- `argsort`  获得排序的索引值  

默认的排序是升序，即从小到大。

In [None]:
a = np.array([[3,7],[9,1]])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 sort() 函数：')
print (np.sort(a))
print ('\n')
print ('按列排序：')
print (np.sort(a, axis =  0))
print ('\n')

In [None]:
x = np.array([33,  11,  22])  
print ('我们的数组是：')
print (x)
print ('\n')
print ('对 x 调用 argsort() 函数：')
y = np.argsort(x)  
print (y)

## Numpy小练习

使用numpy中的函数实现如下功能
1. 使用`zeros`函数创建一个两行三列全零数组，变量名为`a`
2. 将变量`a`的第二行第三列元素置为1，并把其元素类型改为字符型，修改后的变量名为`a1`
2. 使用`arange`函数，创建一个包含从11到19的向量(共9个元素),变量名为`b`
2. 使用`reshape`函数，将`b`中的向量变形为一个3*3的矩阵,变量名为`b1`
2. 使用numpy中的函数写一段命令，对一个任意向量`c`进行归一化，将数组中所有的数字化到0～1，即最小的变成0，最大的变成1，最小与最大之间的等比例线性变换。用`c = np.array([1,2,3,4,5])`做例子。归一化以后的结果应该是`np.array([0.  , 0.25, 0.5 , 0.75, 1.  ])`
2. 使用`linspace`函数，生成从1到100之间分布的100个数，存储变量名为`d`。将`d`中变形为一个10\*10的矩阵,并对其每一列进行求和，得到一个size为1\*10的求和结果，命名为`d1`
4. 编写程序实现以下功能：
    - 已知数组`arr1`为`[[0,1,2,3],[4,5,6,7],[8,9,10,11],[12,13,14,15]]`，将其在水平方向上分别分割2个数组和4个数组。分割后的变量名不做要求。
    - 已知数组`arr2`为`[[0,1,2],[3,4,5],[6,7,8]]`，将其在垂直方向上进行分割成3个数组。分割后的变量名不做要求。

In [75]:
# 你的作业写在这里
import numpy as np
## 1. 
a = np.zeros((2, 3))

## 2. 
a[1, 2] = 1
a1 = a.astype(str)

## 3. 
b = np.arange(11, 20)

## 4.
b1 = b.reshape((3,3))

## 5. 
c = np.array([1, 2, 3, 4, 5])
c = (c - np.min(c)) / (np.max(c) - np.min(c))

## 6. 不能用廣播機制 廣播機制是"放大"
d = np.linspace(1, 100, 100)

# d1 = d.reshape((10, 10)) + np.zeros((10, 1))
d1 = np.sum(d.reshape((10, 10)), axis=0)

## 7. 
arr1 = np.array([[0, 1, 2, 3],
                 [4, 5, 6, 7],
                 [8, 9, 10, 11],
                 [12, 13, 14, 15]])

arr2 = np.array([[0, 1, 2],
                 [3, 4, 5],
                 [6, 7, 8]])

new_arr1 = np.hsplit(arr1, 4)
new_arr2 = np.vsplit(arr2, 3)
