# numpy基本操作

* **1 生成ndarray数组**
    * 1.1 生成0和1的数组
        * np.ones()
        * np.ones_like()
        * np.zeros()
        * np.zeros_like()
    * 1.2 从现有数组生成
        * np.array()
        * np.asarray()
    * 1.3 生成固定范围的数组
        * np.linspace()
        * np.arange()
        * np.logspace()
    * 1.4 生成随即数组
        * 1.4.1 正态分布
            * np.random.randn()
            * np.random.normal()
        * 1.4.2 均匀分布
            * np.random.rand()
            * np.random.randint()
            * np.random.uniform()
            
            
* **2 数组的索引和切片**
    * 一维举例
    * 二维举例
    * 三维举例
    
    
* **3 数组形状修改**
    * ndarray.reshape()       
    * ndarray.resize()     
    * ndarray.T
    
    
* **4 数组类型修改**
    * ndarray.astype()   
    * ndarray.tostring()


* **5 数组去重**
    * np.unique()


* **6 数据间的计算（广播机制）**
    * 6.1 广播原则
    * 6.2 数据与数的计算
    * 6.3 数组与数组的计算
    * 6.4 不同数组的组合
    * 6.5 数组的切割
        * np.hsplit()
        * np.vsplit()
        * np.array_split()

In [1]:
# 导入numpy库
import numpy as np

## 1 生成ndarray数组

### 1.1 生成0和1的数组
* **np.ones(shape, dtype)**
* np.ones_like(a, dtype)
* **np.zeros(shape, dtype)**
* np.zeros_like(a, dtype)

一般用于初始化参数列表等，深度学习经常使用。

举例：生成一个4行8列的全是1的数组

In [2]:
# 生成一个4行8列的全是1的数组
ones = np.ones([4, 8])
ones

array([[1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.]])

举例：生成一个和ones形状相同的全0数组

In [3]:
# 生成一个和数组ones形状相同的全0数组
np.zeros_like(ones)

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

### 1.2 从现有数组生成
* np.array(object, dtype): 深拷贝
* np.asarray(ndarray, dtype)：浅拷贝

In [4]:
# 新建一个数组
original_array = np.array([[1, 2, 3], [4, 5, 6]])

# 深拷贝
a1 = np.array(original_array)
a1

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
# 浅拷贝
a2 = np.asarray(original_array)
a2

array([[1, 2, 3],
       [4, 5, 6]])

当我们改变原数组的元素时，a1的元素不变，a2的元素跟着改变了

In [6]:
# 我们修改原始数组的值
original_array[0, 0] = 100
original_array

array([[100,   2,   3],
       [  4,   5,   6]])

In [7]:
# 检查深拷贝的a1数组里面的值是否发生变化
a1

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 检查浅拷贝的a2数组里面的值是否发生变化
a2

array([[100,   2,   3],
       [  4,   5,   6]])

### 1.3 生成固定范围的数组
* **np.linspace**(start, stop, num, endpoint):等差数列 (指定数量)


* **np.arange**(start,stop, step, dtype)：等差数列 (指定步长)


* np.logspace(start,stop, num)：等比数列

#### 1.3.1 np.linspace(start, stop, num, endpoint)
* 创建等差数组 — 指定数量
* 参数
    * start:序列的起始值
    * stop:序列的终止值
    * num:要生成的等间隔样例数量，默认为50
    * endpoint:序列中是否包含stop值，默认为ture

In [9]:
# 在0-100区间内，生成11个目标的等差数列
np.linspace(start=0, stop=100, num=11)

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

#### 1.3.2 np.arange(start,stop, step, dtype)
* 创建等差数组 — 指定步长
* 参数
    * step:步长,默认值为1

In [10]:
# 在10到50区间内，生成步长为2的等差数列
np.arange(start=10, stop=50, step=2)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])

#### 1.3.3 np.logspace(start,stop, num,base)
* 创建等比数列
* 参数:
    * num:要生成的等比数列数量，默认为50
    * base：底数，默认是10

In [11]:
# 生成10^x
np.logspace(start=0, stop=2, num=3)

array([  1.,  10., 100.])

### 1.4 生成随机数组
#### 1.4.1 正态分布
* **np.random.randn()**
    * 从标准正态分布返回一个或多个样本值
    * 标准正态分布：均值为0，标准差为1
    
    
* **np.random.normal(loc,scale,size)**
    * 正态分布，需要设置均值和标准差
    * loc:均值,默认是0
    * scale:标准差，默认是1
    * size: 输出的shape

In [12]:
# 生成size为2x3的标准正态分布（均值为0，标准差为1）的样本值
np.random.randn(2,3)

array([[ 0.26941133,  0.00656407,  0.23182072],
       [-0.05322456, -1.55625794,  0.37521673]])

In [13]:
# 生成size为2x4的正态分布（均值为1.75，标准差为1）的样本值
np.random.normal(loc=1.75, scale=1, size=(2,4))

array([[ 3.46355039,  1.87510558,  2.2049303 ,  0.60734333],
       [-0.06441742,  2.46174928,  2.14844333,  2.58349919]])

#### 1.4.2 均匀分布
* **np.random.rand()**
    * 返回[0-1]内的一组均匀分布的样本值
    
    
* **np.random.randint(low,high=None,size=None)**
    * 从一个均匀分布中随机采样，生成一个整数或N维整数数组
    * 取数范围：若high不为None时，取[low,high)之间随机整数，否则取值[0,low)之间随机整数。
    
    
* **np.random.uniform(low,high=None,size=None)**
    * 从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high。

In [14]:
# 生成0-1之间的符合均匀分布的一个样本值
print(np.random.rand())

# 生成0-1之间的符合均匀分布的，size为2x4的一组样本值
print(np.random.rand(2,4))

0.8683383053618581
[[0.39922496 0.94818025 0.16151047 0.60160386]
 [0.36553575 0.24755403 0.73500223 0.93663348]]


In [15]:
# 生成[1,5)之间的符合均匀分布的size为2x4的一组整数值
np.random.randint(low=1,high=5,size=(2,4))

array([[1, 4, 3, 4],
       [2, 2, 4, 2]])

In [16]:
# 生成[1,5)之间的符合均匀分布的size为2x4的一组样本值
np.random.uniform(low=1,high=5,size=(2,4))

array([[2.73045077, 2.21996652, 1.01187959, 1.28220952],
       [4.94933638, 1.85995895, 1.82160906, 3.21127003]])

## 2 数组的索引和切片
一维、二维、三维的数组如何索引？
* 一维：直接进行索引,切片（类似于Python列表的索引切片）
* 二维：对象[:,:] -- 先行后列
* 三维：对象[:,:,:] -- 对应三个维度

### 2.1 一维举例

In [17]:
# 生成一维数组
a1 = np.arange(0,10)
a1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
# 索引：想要获取下标为2的元素
a1[2]

2

In [19]:
# 切片：想要获取下标为2到5的元素
a1[2:6]

array([2, 3, 4, 5])

### 2.2 二维举例

In [20]:
# 生成一个3x8列的二维数组
a2 = np.arange(0,24).reshape((3,8))
a2

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]])

In [21]:
# 索引：想要获取第1行的第7个元素
a2[0,6]

6

In [22]:
# 切片：想要所有行的第0-6列元素
a2[:,0:6]

array([[ 0,  1,  2,  3,  4,  5],
       [ 8,  9, 10, 11, 12, 13],
       [16, 17, 18, 19, 20, 21]])

### 2.3 三维举例

In [23]:
# 生成一个2x3x4的三维数组
a3 = np.arange(0,24).reshape(2,3,4)
a3

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [24]:
# 索引：想要获取第一个维度的第0行的第0个元素
a3[0,0,0]

0

In [25]:
# 切片：想要获取第1个维度的前两行的第0至2列
a3[0,:2,:3]

array([[0, 1, 2],
       [4, 5, 6]])

## 3 数组形状修改
* **ndarray.reshape(shape, order)**
    * reshape是将数组转换成指定的形状，然后返回转换后的结果，对于原数组的形状是不会发生改变的  
    
    
* **ndarray.resize(new_shape)**
    * resize是将数组转换成指定的形状，会直接修改数组本身。并不会返回任何值。
    
    
* **ndarray.T**
    * 数组的转置

In [26]:
# 新建一个3x4的数组
a = np.random.randint(0,10,size=(3,4))
a

array([[4, 0, 3, 8],
       [5, 4, 2, 3],
       [3, 6, 2, 8]])

In [27]:
# 使用reshape进行修改数组形状
a1 = a.reshape((2,6))
print("转换前的数组:{}".format(a))
print("转换后的数组:{}".format(a1))

转换前的数组:[[4 0 3 8]
 [5 4 2 3]
 [3 6 2 8]]
转换后的数组:[[4 0 3 8 5 4]
 [2 3 3 6 2 8]]


In [28]:
# 使用resize进行修改数组形状,直接修改原数组a,没有返回值
a.resize((2,6))
print(a)
print(a.resize((2,6)))

[[4 0 3 8 5 4]
 [2 3 3 6 2 8]]
None


In [29]:
# 使用.T进行数组的转置
print(a)
print(a.T)

[[4 0 3 8 5 4]
 [2 3 3 6 2 8]]
[[4 2]
 [0 3]
 [3 3]
 [8 6]
 [5 2]
 [4 8]]


## 4 数组类型修改
* **ndarray.astype(type)**
    * 修改成指定数组类型
    
    
* **ndarray.tostring([order])**
    * 构建一个包含ndarray的原始字节数据的字节字符串

In [30]:
# 新建一个数组,检查其dtype
a = np.arange(0,24).reshape(3,8)
print(a)
print(a.dtype)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]]
int32


In [31]:
# 更改a的dtype，改为int8
a1 = a.astype(np.int8)
a1

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]], dtype=int8)

In [32]:
# 构造包含数组中原始数据字节的Python字节
a.tostring()

b'\x00\x00\x00\x00\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00\x05\x00\x00\x00\x06\x00\x00\x00\x07\x00\x00\x00\x08\x00\x00\x00\t\x00\x00\x00\n\x00\x00\x00\x0b\x00\x00\x00\x0c\x00\x00\x00\r\x00\x00\x00\x0e\x00\x00\x00\x0f\x00\x00\x00\x10\x00\x00\x00\x11\x00\x00\x00\x12\x00\x00\x00\x13\x00\x00\x00\x14\x00\x00\x00\x15\x00\x00\x00\x16\x00\x00\x00\x17\x00\x00\x00'

## 5 数组去重
* np.unique()

In [33]:
# 新建一个由重复元素的数组
temp = np.array([[1, 2, 3, 4],[3, 4, 5, 6]])

# 检查数组里不重复的元素有哪些
np.unique(temp)

array([1, 2, 3, 4, 5, 6])

## 6 数组间的计算（广播机制）

### 6.1 广播原则
**如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符或其中一方的长度为1，则认为他们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。** 看以下案例分析：
* shape为(3,8,2)的数组能和(8,3)的数组进行运算吗？
    * 分析：不能，因为按照广播原则，从后面往前面数，(3,8,2)和(8,3)中的2和3不相等，所以不能进行运算。 
    
    
* shape为(3,8,2)的数组能和(8,1)的数组进行运算吗？
    * 分析：能，因为按照广播原则，从后面往前面数，(3,8,2)和(8,1)中的2和1虽然不相等，但是因为有一方的长度为1，所以能参与运算。
    
    
* shape为(3,1,8)的数组能和(8,1)的数组进行运算吗？
    * 分析：能，因为按照广播原则，从后面往前面数，(3,1,4)和(8,1)中的4和1虽然不相等且1和8不相等，但是因为这两项中有一方的长度为1，所以能参与运算。


### 6.2 数组与数的计算
在Python列表中，想要对列表中所有的元素都加一个数，要么采用map函数，要么循环整个列表进行操作。但是NumPy因为**广播机制**的原因，**数组可以直接在数组上进行操作**。示例代码如下：

In [34]:
# 新建一个数组
a = np.arange(0,8)
a

array([0, 1, 2, 3, 4, 5, 6, 7])

In [35]:
a + 1

array([1, 2, 3, 4, 5, 6, 7, 8])

In [36]:
a * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14])

### 6.3 数组与数组的计算
根据**广播机制**的定义，不同数组之间的运算需要形状相同（或者其中一个维度为1，这样就会对这个维度进行扩展，使得两个数组形状变得相同）。示例代码如下：

In [37]:
# 新建两个数组
a1 = np.random.randint(1,10,size=(3,2,2))
a2 = np.random.randint(10,20,size=(2,1))
print(a1)
print(a2)

[[[8 5]
  [5 2]]

 [[4 1]
  [2 5]]

 [[1 7]
  [4 3]]]
[[16]
 [10]]


In [38]:
# 根据广播机制，是可以进行计算的
a1 + a2

array([[[24, 21],
        [15, 12]],

       [[20, 17],
        [12, 15]],

       [[17, 23],
        [14, 13]]])

In [39]:
# 新建两个数组
a1 = np.random.randint(1,10,size=(3,2,2))
a2 = np.random.randint(10,20,size=(3,1))
print(a1)
print(a2)

[[[9 3]
  [7 1]]

 [[9 5]
  [1 6]]

 [[6 9]
  [5 8]]]
[[14]
 [15]
 [18]]


In [40]:
# 根据广播机制，是不可以进行计算的
# a1 + a2

### 6.4 不同数组的组合
如果有多个数组想要组合在一起，也可以通过一些函数来实现。
* np.vstack: 将数组按垂直方向进行叠加。数组的列数必须相同才能叠加。


* np.hstack:将数组按水平方向进行叠加。数组的行必须相同才能叠加。


* **np.concatenate([],axis)**:将两个数组进行叠加，但是具体是按水平方向还是按垂直方向。则要看axis的参数，如果axis=0，那么代表的是往垂直方向（行）叠加，如果axis=1，那么代表的是往水平方向（列）上叠加，如果axis=None，那么会将两个数组组合成一个一维数组。需要注意的是，如果往水平方向上叠加，那么行必须相同，如果是往垂直方向叠加，那么列必须相同。示例代码如下：

In [41]:
# 新建两个数组
a = np.array([[1,2],[3,4]]) # 2x2
b = np.array([[5,6]]) # 1x2

In [42]:
# 按行进行叠加
np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [43]:
# 按列进行叠加
np.concatenate((a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

In [44]:
# 不设置axis，组合成一维数组
np.concatenate((a, b), axis=None)

array([1, 2, 3, 4, 5, 6])

### 6.5 数组的切割
通过hsplit和vsplit以及array_split可以将一个数组进行切割。
* np.hsplit:按照水平方向进行切割。


* np.vsplit:按照垂直方向进行切割。


* np.array_split:用于指定切割方式，axis=1代表按照列，axis=0代表按照行。

#### 6.5.1 np.hsplit
按照水平方向进行切割。用于指定**分割成几列**，可以使用数字来代表分成几部分，也可以使用数组来代表分割的地方。示例代码如下：

In [45]:
# 新建一个数组
a = np.arange(16.0).reshape(4, 4)
a

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [46]:
#使用hsplit，分割成两部分
np.hsplit(a,2)

[array([[ 0.,  1.],
        [ 4.,  5.],
        [ 8.,  9.],
        [12., 13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

In [47]:
# #代表在下标为1的地方切一刀，下标为2的地方切一刀，分成三部分
np.hsplit(a,[1,2])

[array([[ 0.],
        [ 4.],
        [ 8.],
        [12.]]),
 array([[ 1.],
        [ 5.],
        [ 9.],
        [13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

#### 6.5.2 np.vsplit
按照垂直方向进行切割。用于指定**分割成几行**，可以使用数字来代表分成几部分，也可以使用数组来代表分割的地方。示例代码如下：

In [48]:
#代表按照行总共分成2个数组
np.vsplit(a,2) 

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

In [49]:
#代表按照行进行划分，在下标为1的地方和下标为2的地方分割
np.vsplit(a,(1,2))

[array([[0., 1., 2., 3.]]),
 array([[4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

#### 6.5.3 np.array_split
用于指定切割方式，在切割的时候需要指定是按照行还是按照列，axis=1代表按照列，axis=0代表按照行。示例代码如下：

In [50]:
#按照垂直方向切割成2部分
np.array_split(a,2,axis=0)

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]