## NumPy简介  
NumPy是一个针对多维数组（Ndarray）的科学计算包，这个包封装了多个可以用于数组间计算的函数，可以直接使用。  
数组是一个系统数据类型，元素按照一定顺序排列组合，需要注意的是必须**相同数据类型**。

## NumPy数组的生成

### 生成一般数组

- 给array()函数传入一个列表

In [None]:
import numpy as np
arr = np.array([1,2,3,4,5])
arr

In [None]:
arr = np.array([1,"2",3,4,5])
arr

- 给array()函数传入一个元组

In [None]:
arr = np.array((2,4,6,8))
arr

- 给array()函数传入一个嵌套列表

In [None]:
#arr = np.array([[1,2,3],[4,5,6]])
arr = np.array([[1,2,3],[4,5]])
arr = np.array([[1,2,3],(4,5)])
arr

### 生成特殊类型数组

- 生成固定范围的随机数组  
使用arange()函数  
np.arange(start,stop,step)  
以start开始(包括这个值)，stop结束(不包括这个值)，step为步长

In [None]:
#以1开始15为结束，步长为3的序列
np.arange(1,15,3)

当sep不写时，步长默认为1：

In [None]:
np.arange(1,15)

**当start不写时，默认从0开始**

In [None]:
np.arange(15)

**生成指定形状全为0的数组**  
生成指定形状全为0的数组要用到zeros()函数

In [None]:
#生成长度为3的0数组
np.zeros(3)

In [None]:
#生成2行3列的数组
np.zeros((2,3))

**生成制定形状全为1的数组**  
用ones()函数，使用方法和zeros()函数类似

In [None]:
np.ones(3)

In [None]:
np.ones((3,3))

**生成一个正方形单位矩阵**  
单位矩阵就是对教学的元素值全为1，其余位置元素值全为0，用eye()函数  
eye()函数需要在括号中指明正方形边长

In [None]:
np.eye(3)

### 生成随机数组  
随机数组生成主要用到NumPy中的random模块

**np.random.rand()方法**  
np.random.rand()方法主要用于生成（0，1）之间的随机数组  
当给rand()函数传入具体值时，生成一个相应长度值且值位于(0,1)之间的随机数组

In [None]:
np.random.rand()

In [None]:
np.random.rand(3)

In [None]:
#生成2行3列值位于(0,1)之间的数组
np.random.rand(2,3)

**np.random.randn()方法**  
用来生成满足正态分布的指定形状数组  
当传入一个具体值时，生成相应长度满足正态分布的随机数组

In [None]:
np.random.randn(3)

In [None]:
np.random.randn(2,3)

**np.random.randint()方法**  
与np.arange()方法类似，用于生成一定范围内的随机数组  
np.random.randint(low,high= None,size = None)  
在左闭右开区间[low,high)生成数组大小为size的均匀分布的整数值

In [None]:
np.random.randint(1,5,10)

输出[low,high)之间的整数

In [None]:
import numpy as np
np.random.randint(5,10)

生成[0,5)10个元素的数组

In [None]:
import numpy as np
np.random.randint(5,size=10)

low=1,输入[0,1)之间的整数

In [None]:
np.random.randint(1)

low=5，high=None，size=（2，3）2行3列，输出范围[0,5)之间的整数

In [None]:
np.random.randint(5,size=(2,3))

**np.random.choice()方法**  
主要用来从已知数组中随机选取相应大小的数组  
np.random.choice(a,size=None,replace=None,p=None)  
从数组a中选取size大小作为一个数组作为新的数组，a可以是一个数组，也可以是一个整数  
当a是一个数组时表示从该数组中随机采样  
当a为整数是，表示从range(int)中采样

In [None]:
#从整数a中随机选取3个值组成一个新的数组
print(np.random.choice(5,3))
a = np.array([1,4,6,7,8,9,])
np.random.choice(a,5)

In [None]:
np.random.choice(a,5,replace=False)

In [None]:
#从整数a中随机选取2行3列数值组成一个新的数组
np.random.choice(5,(2,3))

**np.random.shuffle()方法**  
主用用来将原数组顺序打乱

In [None]:
arr = np.arange(10)
arr

In [None]:
np.random.shuffle(arr)
arr

In [None]:
np.random.seed(10)
np.random.shuffle(arr)
arr

## NumPy数组的基本属性  
NumPy数组的基本属性包括数组的形状、大小、类型和维数。

**数组的形状**

In [None]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
#arr = np.array([["1",2,3],[4,5,6],[7,8,9]])
print(arr)
arr.shape

**数组的大小**

In [None]:
arr.size

**数组的类型**

In [None]:
arr.dtype

**数组的维数**

In [None]:
arr.ndim

## NumPy数组的数据选取

### 一维数据选取

- **传入某个位置**

In [1]:
import numpy as np
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
arr[3]

In [None]:
#获取末尾数值
arr[-1]

- **传入某个区间位置**

In [None]:
#获取位置3到5的值，不包含位置5的值
arr[3:5]

In [None]:
#获取位置3以后的所有元素
arr[3:]

In [None]:
#获取位置3之前的所有元素
arr[:3]

In [None]:
#获取第3到倒数第2为的元素，不包括倒数第2位
arr[3:-2]

- **传入某个条件**

In [None]:
#获取数组中大于3的元素
print(arr>3)
arr[arr>3]

In [None]:
#arr[3 < arr and arr<5]

### 多为数组获取

- **获取某一行**

In [None]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr)
arr[1]

In [None]:
#获取第2行和第3行的数据
arr[1:3]

In [None]:
#获取第3行之前的所有数据，不包括第3行
arr[:2]

- **获取某一列数据**

In [None]:
#获取第二列数据
arr[:,1] #逗号之前用来指明行的位置，逗号之后用来指明列的位置，当逗号之前是一个冒号时，表示获取或有行

- **获取某些列的数据**

In [None]:
#获取第1到第哦列的数据，不包括第3列
arr[:,0:2]

In [None]:
#获取第3列之前的所有列，不包括第3列
arr[:,:2]

In [None]:
#获取第2列之后的所有列，包括第2列
arr[:,1:]

## NumPy数组的数据预处理

### NumPy数组的类型转换

In [None]:
arr =np.arange(5)
arr

In [None]:
arr.dtype

In [None]:
#将数组从int类型转为float类型
arr_float = arr.astype(np.float64)
arr_float

In [None]:
arr_float.dtype

In [None]:
#将数组从int类型转为str类型
arr_str = arr.astype(np.string_)

In [None]:
arr_str

In [None]:
arr_str.dtype

### NumPy数组数据的缺失值处理 
查找缺失值用isnan()方法

In [None]:
#创建一个含有缺失值的数组，nan表示缺失值
arr = np.array([1,2,np.nan,4])
arr

In [None]:
#判断确实值
np.isnan(arr)

In [None]:
#填充
arr[np.isnan(arr)]=0
arr

### NumPy数组的重复值处理 
直接调用unique()方法即可

In [None]:
arr = np.array([1,2,3,2,1])
np.unique(arr)

## NumPy数组重塑  
所谓的数组重塑就是改变数组的形状，在NumPy中用reshape方法来实现数组重塑

### 一维数组重塑

In [None]:
#新建一个一维数组
arr = np.arange(8)
arr

In [None]:
#重塑为2行4列的多为数组
arr.reshape(2,4)

In [None]:
arr.reshape(4,2)

### 多维数组重塑

In [None]:
arr = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
arr

In [None]:
#重塑为4行3列
arr.reshape(4,3)

In [None]:
arr.reshape(2,6)

- **数组转置**  
数值转置就是将数组的行旋转为列，用的方法是.T

In [None]:
arr

In [None]:
arr.T

In [None]:
arr.T.T

## NumPy数组合并

### 横向合并
横向合并就是将两个行数组相等的数字在行方向上进行简单的拼接。与DataFrame合并不同，NumPy数据合并不要公共的列，只要将两个数组简单的拼接在一起，有concatenate、hstack、column_stack三种方法。

In [None]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])
print(arr1)
print(arr2)

- **concatenate方法**  
concatenate方法是将待合并的数组以列表的形式传给concatenate，并通过设置axis参数来指明在行还是列方向进行合并

In [None]:
np.concatenate([arr1,arr2],axis =1)

- **hstack方法**  
hstack方法直接将两个待合并的数组以元组的形式传给hstack即可，不需要设置axis参数

In [None]:
np.hstack((arr1,arr2))

- **column_stack方法**  
column_stack方法直接将两个待合并的数组以元组的形式传给column_stack即可

In [None]:
np.column_stack((arr1,arr2))

###  纵向合并  
纵向合并与荷香合并类似，将两个列数相等的数组在列方向进行拼接，有concatenate、vstack、row_stack三种方法可以实现

- **concatenate方法**  
concatenate方法对数组进行纵向合并时，参数axis的值必须为0

In [None]:
np.concatenate([arr1,arr2],axis=0)

- **vstack方法**  
vstack是与hstack相对应的方法，同样只要将待合并的数组以元组的形式传给vstack即可

In [None]:
np.vstack((arr1,arr2))

- **row_stack方法**  
row_stack是与column_stack相对应的方法，将两个待合并的数组以元组的形式传给row_stack即可

In [None]:
np.row_stack((arr1,arr2))

## 常用的数据分析函数

### 元素级函数 
- abs：求元素的绝对值  
- sqrt：求元素的平方根  
- square：求哦各元素的平方  
- exp：计算各个元素以e为敌的指数  
- log、log10、log2、loglp：分别计算以e为底、10为底、2为底的对数，以及log(1+x)  
- modf：适用于浮点数，将小数和整数部分以独立的数组返回  
- isnan：用来判断是否是NaN，返回一个布尔值

In [None]:
arr = np.arange(4)
arr

In [None]:
#求各元素的平方
np.square(arr)

In [None]:
#求各个元素的平方根
np.sqrt(arr)

### 描述统计函数
- sum：对数字中全部元素或者某行/列的元素求和  
- mean：平均值求取  
- std、var：分别为标准差和方差  
- min、max：分别为最小值和最大值  
- argmin、argmax：分别为最小值和最大值对应的索引  
- cumsum：所有元素的累积和，结果以数组的形式返回  
- cumpord：所有元素累计积 

In [None]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

- **求和**

In [None]:
#对整个数组求和
arr.sum()

In [None]:
#对数组的每一行求和
arr.sum(axis =1)

In [None]:
#对数组的每一列求和
arr.sum(axis =0)

- **求平均值**

In [None]:
#对整个数组求平均值
arr.mean()

In [None]:
#对数组每一行求平均值
arr.mean(axis=1)

In [None]:
#对数组每一列求平均值
arr.mean(axis=0)

- **求最大值**

In [None]:
#对整个数组求最大值
print(arr.max())
#对数组每一行求最大值
print(arr.max(axis=1))
#对数组每一列求最大值
print(arr.max(axis=0))

### 条件函数
NumPy数组中的条件函数np.where(condition,x,y)类似Excel中if(condition,x,True,False)函数,如果条件为真则返回x，否则返回y

In [None]:
arr = np.array([56,61,65])
np.where(arr>60,"及格","不及格")

In [None]:
#返回满足条件值对应的位置
np.where(arr>60)

### 集合关系
每个数组都可以单做一个集合，主要有四种关系：包含、交集、并集、差集

In [None]:
arr1 = np.array([1,2,3,4])
arr2 = np.array([1,2,5])
arr1
arr2

- **包含**

In [None]:
np.in1d(arr1,arr2)

- **交集**

In [None]:
np.intersect1d(arr1,arr2)

- **并集**

In [None]:
np.union1d(arr1,arr2)

- **差集**

In [None]:
np.setdiff1d(arr1,arr2)