## NumPy简介  
NumPy是一个中队多为数组（Ndarray）的科学计算包，这个包封装了多个可以用于数组间计算的函数，可以直接使用。  
数组是一个系统数据类型元素按照一定顺序排列组合，需要注意的是必须**相同数据类型**。

## NumPy数组的生成

### 生成一般数组

- 给array()函数传入一个列表

In [3]:
import numpy as np
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

- 给array()函数传入一个元组

In [4]:
arr = np.array((2,4,6,8))
arr

array([2, 4, 6, 8])

- 给array()函数传入一个嵌套列表

In [5]:
arr = np.array([[1,2,3],[4,5,6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

### 生成特殊类型数组

- 生成固定范围的随机数组  
使用arange()函数  
np.arange(start,stop,step)  
以start开始(包括这个值)，stop结束(不包括这个值)，step为步长

In [7]:
#以1开始15为结束，步长为3的随机序列
np.arange(1,15,3)

array([ 1,  4,  7, 10, 13])

当sep不写时，步长默认为1：

In [8]:
np.arange(1,15)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

**当start不写时，默认从0开始**

In [9]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

**生成指定形状全为0的数组**  
生成指定形状全为0的数组要用到zeros()函数

In [10]:
#生成长度为3的0数组
np.zeros(3)

array([0., 0., 0.])

In [13]:
#生成2行3列的数组
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

**生成制定形状全为1的数组**  
用ones()函数，使用方法和zeros()函数类似

In [14]:
np.ones(3)

array([1., 1., 1.])

In [15]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

**生成一个正方形单位矩阵**  
单位矩阵就是对教学的元素值全为1，其余位置元素值全为0，用eye()函数  
eye()函数需要在括号中指明正方形边长

In [16]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 生成随机数组  
随机数组生成主要用到NumPy中的random模块

**np.random.rand()方法**  
np.random.rand()方法主要用于生成（0，1）之间的随机数组  
当给rand()函数传入具体值时，生成一个相应长度值且值位于(0,1)之间的随机数组

In [18]:
np.random.rand()

0.7475725418820932

In [19]:
np.random.rand(3)

array([0.94535405, 0.65689305, 0.76253242])

In [21]:
#生成2行3列值位于(0,1)之间的数组
np.random.rand(2,3)

array([[0.56619521, 0.03551248, 0.92040938],
       [0.08416216, 0.86372162, 0.34272074]])

**np.random.randn()方法**  
用来生成满足正态分布的指定形状数组  
当传入一个具体值时，生成相应长度满足正态分布的随机数组

In [22]:
np.random.randn(3)

array([ 0.51163337,  0.87618008, -0.56117356])

In [23]:
np.random.randn(2,3)

array([[ 0.87253144,  0.05644238, -2.41286612],
       [-2.05235295,  0.68378704,  0.12462664]])

**np.random.randint()方法**  
与np.arange()方法类似，用于生成一定范围内的随机数组  
np.random.randint(low,high= None,size = None)  
在左闭右开区间[low,high)生成数组大小为size的均匀分布的整数值

In [24]:
np.random.randint(1,5,10)

array([4, 2, 2, 4, 2, 1, 4, 4, 1, 1])

输出[low,high)之间的整数

In [5]:
import numpy as np
np.random.randint(5,10)

8

生成[0,5)10个元素的数组

In [3]:
import numpy as np
np.random.randint(5,size=10)

array([0, 2, 2, 3, 0, 1, 1, 0, 2, 3])

low=1,输入[0,1)之间的整数

In [34]:
np.random.randint(1)

0

low=5，high=None，size=（2，3）2行3列，输出范围[0,5)之间的整数

In [35]:
np.random.randint(5,size=(2,3))

array([[0, 3, 2],
       [4, 2, 4]])

**np.random.choice()方法**  
主要用来从已知数组中随机选取相应大小的数组  
np.random.choiice(a,size=None,replace=None,p=None)  
从数组a中选取size大小作为一个数组作为新的数组，a可以是一个数组，也可以是一个整数  
当a是一个数组时表示从该数组中随机采样  
当a为整数是，表示从range(int)中采样

In [38]:
#从整数a中随机选取3个值组成一个新的数组
np.random.choice(5,3)
a = np.array([1,4,6,7,8,9,])
np.random.choice(a,3)

array([9, 9, 1])

In [40]:
#从整数a中随机选取2行3列数值组成一个新的数组
np.random.choice(5,(2,3))

array([[4, 1, 4],
       [0, 1, 0]])

**np.random.shuffle()方法**  
主用用来将原数组顺序打乱

In [46]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
np.random.shuffle(arr)
arr

array([3, 4, 9, 7, 2, 6, 0, 8, 5, 1])

## NumPy数组的基本属性  
NumPy数组的基本属性包括数组的形状、大小、类型和维数。

**数组的形状**

In [98]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr
arr.shape

(3, 3)

**数组的大小**

In [51]:
arr.size

9

**数组的类型**

In [53]:
arr.dtype

dtype('int32')

**数组的维数**

In [54]:
arr.ndim

2

## NumPy数组的数据选取

### 一维数据选取

- **传入某个位置**

In [6]:
import numpy as np
arr = np.arange(10)
arr
arr[3]

3

In [4]:
#获取末尾数值
arr[-1]

9

- **传入某个区间位置**

In [9]:
#获取位置3到5的值，不包含位置5的值
arr[3:5]

array([3, 4])

In [10]:
#获取位置3以后的所有元素
arr[3:]

array([3, 4, 5, 6, 7, 8, 9])

In [11]:
#获取位置3之前的所有元素
arr[:3]

array([0, 1, 2])

In [12]:
#获取第3到倒数第2为的元素，不包括倒数第2位
arr[3:-2]

array([3, 4, 5, 6, 7])

- **传入某个条件**

In [14]:
#获取数组中大于3的元素
arr[arr>3]

array([4, 5, 6, 7, 8, 9])

### 多为数组获取

- **获取某一行**

In [16]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr
arr[1]

array([4, 5, 6])

In [17]:
#获取第2行和第3行的数据
arr[1:3]

array([[4, 5, 6],
       [7, 8, 9]])

In [18]:
#获取第3行之前的所有数据，不包括第3行
arr[:2]

array([[1, 2, 3],
       [4, 5, 6]])

- **获取某一列数据**

In [20]:
#获取第二列数据
arr[:,1] #逗号之前用来指明行的位置，逗号之后用来指明列的位置，当逗号之前是一个冒号时，表示获取或有行

array([2, 5, 8])

- **获取某些列的数据**

In [21]:
#获取第1到第哦列的数据，不包括第3列
arr[:,0:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [22]:
#获取第3列之前的所有列，不包括第3列
arr[:,:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [26]:
#获取第2列之后的所有列，包括第2列
arr[:,1:]

array([[2, 3],
       [5, 6],
       [8, 9]])

## NumPy数组的数据预处理

### NumPy数组的类型转换

In [28]:
arr =np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [29]:
arr.dtype

dtype('int32')

In [99]:
#将数组从int类型转为float类型
arr_float = arr.astype(np.float64)
arr_float

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [32]:
arr_float.dtype

dtype('float64')

In [33]:
#将数组从int类型转为str类型
arr_str = arr.astype(np.string_)

In [34]:
arr_str

array([b'0', b'1', b'2', b'3', b'4'], dtype='|S11')

In [35]:
arr_str.dtype

dtype('S11')

### NumPy数组数据的缺失值处理 
查找缺失值用isnan()方法

In [37]:
#创建一个含有缺失值的数组，nan表示缺失值
arr = np.array([1,2,np.nan,4])
arr

array([ 1.,  2., nan,  4.])

In [38]:
#判断确实值
np.isnan(arr)

array([False, False,  True, False])

In [40]:
#填充
arr[np.isnan(arr)]=0
arr

array([1., 2., 0., 4.])

### NumPy数组的重复值处理 
直接调用unique()方法即可

In [42]:
arr = np.array([1,2,3,2,1])
np.unique(arr)

array([1, 2, 3])

## NumPy数组重塑  
所谓的数组重塑就是改变数组的形状，在NumPy中用reshape方法来实现数组重塑

### 一维数组重塑

In [43]:
#新建一个一维数组
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [44]:
#重塑为2行4列的多为数组
arr.reshape(2,4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [45]:
arr.reshape(4,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

### 多维数组重塑

In [101]:
arr = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [102]:
#重塑为4行3列
arr.reshape(4,3)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [52]:
arr.reshape(2,6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

- **数组转置**  
数值转置就是将数组的行旋转为列，用的方法是.T

In [53]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [54]:
arr.T

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [55]:
arr.T.T

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

## NumPy数组合并

### 横向合并
横向合并就是将两个行数组相等的数字在行方向上进行简单的拼接。与DataFrame合并不同，NumPy数据合并不要公共的列，只要将两个数组简单的拼接在一起，有concatenate、hstack、column_stack三种方法。

In [59]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])
arr1
arr2

array([[ 7,  8,  9],
       [10, 11, 12]])

- **concatenate方法**  
concatenate方法是将待合并的数组以列表的形式传给concatenate，并通过设置axis参数来指明在行还是列方向进行合并

In [60]:
np.concatenate([arr1,arr2],axis =1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

- **hstack方法**  
hstack方法直接将两个待合并的数组以元组的形式传给hstack即可，不需要设置axis参数

In [62]:
np.hstack((arr1,arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

- **column_stack方法**  
column_stack方法直接将两个待合并的数组以元组的形式传给column_stack即可

In [63]:
np.column_stack((arr1,arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

###  纵向合并  
纵向合并与荷香合并类似，将两个列数相等的数组在列方向进行拼接，有concatenate、vstack、row_stack三种方法可以实现

- **concatenate方法**  
concatenate方法对数组进行纵向合并时，参数axis的值必须为0

In [64]:
np.concatenate([arr1,arr2],axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

- **vstack方法**  
vstack是与hstack相对应的方法，同样只要将待合并的数组以元组的形式传给vstack即可

In [66]:
np.vstack((arr1,arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

- **row_stack方法**  
row_stack是与column_stack相对应的方法，将两个待合并的数组以元组的形式传给row_stack即可

In [69]:
np.row_stack((arr1,arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

## 常用的数据分析函数

### 元素级函数 
- abs：求元素的绝对值  
- sqrt：求元素的平方根  
- square：求哦各元素的平方  
- exp：计算各个元素以e为敌的指数  
- log、log10、log2、loglp：分别计算以e为底、10为底、2为底的对数，以及log(1+x)  
- modf：适用于浮点数，将小数和整数部分以独立的数组返回  
- isnan：用来判断是否是NaN，返回一个布尔值

In [71]:
arr = np.arange(4)
arr

array([0, 1, 2, 3])

In [72]:
#求各元素的平方
np.square(arr)

array([0, 1, 4, 9], dtype=int32)

In [73]:
#求各个元素的平方根
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081])

### 描述统计函数
- sum：对数字中全部元素或者某行/列的元素求和  
- mean：平均值求取  
- std、var：分别为标准差和方差  
- min、max：分别为最小值和最大值  
- argmin、argmax：分别为最小值和最大值对应的索引  
- cumsum：所有元素的累积和，结果以数组的形式返回  
- cumpord：所有元素累计积 

In [107]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- **求和**

In [108]:
#对整个数组求和
arr.sum()

45

In [109]:
#对数组的每一行求和
arr.sum(axis =1)

array([ 6, 15, 24])

In [110]:
#对数组的每一列求和
arr.sum(axis =0)

array([12, 15, 18])

- **求平均值**

In [111]:
#对整个数组求平均值
arr.mean()

5.0

In [112]:
#对数组每一行求平均值
arr.mean(axis=1)

array([2., 5., 8.])

In [113]:
#对数组每一列求平均值
arr.mean(axis=0)

array([4., 5., 6.])

- **求最大值**

In [114]:
#对整个数组求最大值
arr.max()
#对数组每一行求最大值
arr.max(axis=1)
#对数组每一列求最大值
arr.max(axis=0)

array([7, 8, 9])

### 条件函数
NumPy数组中的条件函数np.where(condition,x,y)类似Excel中if(condition,x,True,False)函数,如果条件为真则返回x，否则返回y

In [89]:
arr = np.array([56,61,65])
np.where(arr>60,"及格","不及格")

array(['不及格', '及格', '及格'], dtype='<U3')

In [90]:
#返回满足条件值对应的位置
np.where(arr>60)

(array([1, 2], dtype=int64),)

### 集合关系
每个数组都可以单做一个集合，主要有四种关系：包含、交集、并集、差集

In [92]:
arr1 = np.array([1,2,3,4])
arr2 = np.array([1,2,5])
arr1
arr2

array([1, 2, 5])

- **包含**

In [94]:
np.in1d(arr1,arr2)

array([ True,  True, False, False])

- **交集**

In [95]:
np.intersect1d(arr1,arr2)

array([1, 2])

- **并集**

In [96]:
np.union1d(arr1,arr2)

array([1, 2, 3, 4, 5])

- **差集**

In [97]:
np.setdiff1d(arr1,arr2)

array([3, 4])