# Numpy

## 创建ndarray多维数组

|属性|说明|
|:--:|:--:|
|ndim|返回int。表示数组的维数|
|shape|返回tuple。表示数组的尺寸(n, m), n行m列的矩阵|
|size|返回int。表示数组的元素总数。shape的乘积|
|dtype|返回data-type。描述数组中元素的类型|
|itemsize|返回int。表示数组每个元素的大小|

创建： `numpy.array(object, dtype = None, copy = True, order = 'K', subok = False, ndmin = 0)`

|参数名称|说明|
|:--:|:--:|
|object|接受array。表示想要创建的数组|
|dtype|接受data-type。表示数组所需的数据类型。如果未给定，则为最小|
|ndmin|接受int。指定数组具有的最小维数|



- 用`reshape`改变数组形状

In [17]:
import numpy as np
a = np.array([[1, 2, 3],[1, 2, 4]])
a.size
a.shape
a.ndim
a.dtype
a.itemsize
a.shape = 3, 2
print(a)

[[1 2]
 [3 1]
 [2 4]]


### arange函数创建数组

In [19]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### linspace函数创建数组

- 等差数列

In [21]:
np.linspace(0, 10, 10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

### logspace函数创建数组

- 等比数列

In [25]:
np.logspace(0, 10, 10, endpoint=False, base=2)

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256., 512.])

### zeros函数创建全零数组

In [26]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### eye函数创建单位矩阵

In [27]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### diag函数创建对角线数组

In [28]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

### 使用ones函数创建全1数组

In [29]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

### 数据类型转换

In [30]:
np.float32(17)

17.0

## 生成随机数

### 无约数条件下生成随机数

In [32]:
np.random.random(10) # 0-1的随机数

array([0.04432497, 0.79281113, 0.95991813, 0.83350089, 0.35351659,
       0.85744125, 0.91077652, 0.9883447 , 0.96750121, 0.16530764])

### 生成服从均匀分布的随机数

In [34]:
np.random.rand(2, 5)

array([[0.78005443, 0.70226363, 0.50596482, 0.37395834, 0.71283069],
       [0.7040831 , 0.31902719, 0.94682194, 0.30413788, 0.09177402]])

### 生成服从正态分布的随机数

In [36]:
np.random.randn(2,5)

array([[-2.36958768,  1.01005526,  0.45521447, -0.24496107,  0.73156815],
       [-0.87959129, -0.93689153, -0.46016613, -0.18664932,  0.92466233]])

### 生成给定上下范围的随机数

In [45]:
np.random.randint(low = 2, high = 5, size = [2,3])

array([[4, 3, 3],
       [4, 3, 2]])

|函数|说明|
|:--:|:--:|
|seed|确定生成随机数的种子|
|permutation|返回一个序列的随机排列|
|shuffle|对一个序列进行随机排序|
|binomial|产生二项分布的随机数|
|beta|产生beta分布的随机数|
|chisquare|产生卡方分布的随机数|
|gamma|产生gamma分布的随机数|
|uniform|产生在`[0,1)`中均匀分布的随机数| 

## 通过索引访问数组

- 一维数组同list索引
- 多维数组用逗号隔开，或者用布尔数组

In [47]:
print(a[0,0:2])

[1 2]


## 改变数组形态

- 使用reshape函数改变数组形状
- 使用ravel函数展平数组
- 使用flatten函数展平数组

In [54]:
a.reshape(2,3)
a.ravel()
a.flatten()

array([1, 2, 3, 1, 2, 4])

### 组合数组

- 使用hstack函数横向组合数组
- 使用vstack函数纵向组合数组
- 使用concatenate函数实现数组组合，axis=1横向，axis=0纵向

In [62]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[0,0,0],[9,9,9]])
np.hstack((a,b))
np.vstack((a,b))
np.concatenate((a,b),axis= 1)

array([[1, 2, 3, 0, 0, 0],
       [4, 5, 6, 9, 9, 9]])

### 切割数组

- 使用hsplit横向切割
- 使用vsplit纵向切割
- 使用split切割，axis=1横向，axis=0纵向

In [66]:
np.hsplit(a,1)
np.vsplit(a,2)
np.split(a,2,axis=0)

[array([[1, 2, 3]]), array([[4, 5, 6]])]

---

## 矩阵和通用函数

### 创建与组合矩阵

- 使用mat函数创建矩阵
- 使用matrix函数创建矩阵
- 使用bmat函数合成矩阵

In [15]:
import numpy as np
matr1 = np.mat([[1,2,3],[4,5,6]])
matr2 = np.matrix([[2,3,4],[5,6,7]])
np.bmat('matr1 matr2; matr2 matr1')

matrix([[1, 2, 3, 2, 3, 4],
        [4, 5, 6, 5, 6, 7],
        [2, 3, 4, 1, 2, 3],
        [5, 6, 7, 4, 5, 6]])

### 矩阵的运算

- 矩阵与数相乘
- 矩阵相加减
- 矩阵相乘
- 矩阵对应元素相乘: np.multiply
- 矩阵特有属性：

|属性|说明|
|:--:|:--:|
|T|返回自身的转置|
|H|返回自身的共轭转置|
|I|返回自身的逆矩阵|
|A|返回自身数据的2维数组的一个视图|

In [23]:
a = np.matrix([[1,2],[3,4]])
b = np.matrix([[1,1],[1,1]])
a * 3
a + b
a * b
np.multiply(a,b)
a.I

matrix([[-2. ,  1. ],
        [ 1.5, -0.5]])

### ufunc函数

#### 对所有元素进行操作

- 四则运算：对应元素进行四则运算，形状必须相同。`+` `-` `*` `/` `**`
- 比较运算：对应元素进行比较，返回bool数组
- 逻辑运算：`np.any`表示逻辑“or”，`np.all`表示逻辑“and”，返回bool值。

#### ufunc函数的广播机制

- 让所有输入数组都像shape最长的数组看齐，不足的部分通过在前面加1补齐。
- 输出数组的shape是输入数组shape的各个轴上的最大值。
- 如果输入数组的某个轴和输出数组对应轴的长度相等或者其长度为1时，这个数组可盈用来运算，否则出错。
- 当输入数组的某个轴为1时，沿着此轴运算时都用此轴上的第一组值。


In [27]:
a = [[0]*3,[1]*3,[2]*3,[3]*3]
np.array(a) + np.array([1,2,3])
np.array(a) + np.array([[1],[2],[3],[4]])

array([[1, 1, 1],
       [3, 3, 3],
       [5, 5, 5],
       [7, 7, 7]])

---

### 统计分析

#### 读写文件

##### 读写二进制文件

- save函数是以二进制的格式保存数据：`np.save('filepath',obj)`
- load函数是从二进制的文件中读取数据: `np.load('filepath')`
- savez函数可以把多个数组保存到一个文件中: `np.savez('filepath',obj1,obj2)

In [5]:
import numpy as np
a = np.random.random((3,3))
np.save('./tmp.npy', a)
np.load('./tmp.npy')

array([[0.06293226, 0.0272803 , 0.12238883],
       [0.60636136, 0.2088013 , 0.28002023],
       [0.23651273, 0.45554342, 0.97464954]])

##### 读写文本格式的数据

- savetxt函数是将数组写到某分隔符隔开的文本文件。
`np.savetxt('filepath',obj,fmt = "%d",delimiter = ',')`

- loadtxt函数执行的是把文件加载到一个二维数组中。
`np.loadtxt('filepath', delimiter = ',')`

- genformtxt函数面向的是结构化数组和缺失数据。
`np.genformtxt('filepath',delimiter = ',')`

#### 简单统计分析

##### 直接排序

- sort函数排序,axis = 1横轴 0纵轴。`arr.sort(obj,axis = 0)`

##### 间接排序

- argsort函数返回值为重新排序值的下标。

- lexsort函数返回值是按照最后一个传入数据排序的。

##### 去重与重复数据

- 通过unique函数可以找出数组中的唯一值并返回已排序的结果。

- tile函数用于重复数组，'A'指定重复数组，'reps'指定重复次数。`np.tile(A, reps)`

- repeat函数，'A'为重复数组，'repeat'是重复次数，axis = 1表示按列重复。`np.repeat(A, repeat,axis = None)`

- `tile`和`repeat`的区别：`tile`是对数组做重复操作，`repeat`是对数组的每个元素做重复操作。

#### 常用的统计函数

当`axis=0`时，表示沿着纵轴计算，`axis=1`时沿着横轴计算。默认计算一个总值。

|函数|说明|
|:--:|:--:|
|sum|计算数组的和|
|mean|计算数组均值|
|std|计算数组标准差|
|var|计算数组方差|
|min|计算数组最小值|
|max|计算数组最大值|
|argmin|返回数组最小元素索引|
|argmax|返回数组最大元素索引|
|cumsum|计算所有元素的累计和|
|cumprod|计算所有元素的累计积|

---

## 实现操作

读取iris数据集的花萼长度数据，排序、去重、求和、累计和、均值、标准差、方差、最小值、最大值。

In [16]:
import numpy as np


data = np.loadtxt('./data/iris_sepal_length.csv')
# 排序与去重
data.sort()
data = np.unique(data)
data

array([4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1, 5.2, 5.3, 5.4, 5.5,
       5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8,
       6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.6, 7.7, 7.9])

In [18]:
# 求和
np.sum(data)

210.39999999999998

In [20]:
# 累计和
np.cumsum(data)

array([  4.3,   8.7,  13.2,  17.8,  22.5,  27.3,  32.2,  37.2,  42.3,
        47.5,  52.8,  58.2,  63.7,  69.3,  75. ,  80.8,  86.7,  92.7,
        98.8, 105. , 111.3, 117.7, 124.2, 130.8, 137.5, 144.3, 151.2,
       158.2, 165.3, 172.5, 179.8, 187.2, 194.8, 202.5, 210.4])

In [21]:
# 均值
np.mean(data)

6.011428571428571

In [22]:
# 标准差
np.std(data)

1.0289443768310533

In [23]:
# 方差
np.var(data)

1.0587265306122449

In [24]:
# 最小值
np.min(data)

4.3

In [25]:
# 最大值
np.max(data)

7.9