In [1]:
import numpy as np

# 数据分析基础 --- 工具：Numpy

简介：
- Numpy (Numerical python) 是基于Python的高性能的开源数据计算与数据分析基础包，支持大量的数组与矩阵运算，此外也针对数组运算提供大量的数学函数库，Numpy本身没有提供太多的高级数据分析功能，但理解Numpy数组的概念以及面向数组的运算设计将有助于高效使用pandas等更加高级的工具，所以跳过Numpy直接开始学习pandas不会有任何问题，只是越基础的知识架构会带来更长远的效益，所以我将从Numpy开始学习。

### 一、Numpy---ndarray:一种多维数组对象
- NumPy最重要的一个特点就是其N维数组对象(即ndarray) ，该对象是一个快速而灵活的同构数据多维容器，可以利用这种数组对整块数据执行一些数学运算，通常叫做矢量化运算，即大小相等的数组之间的任何算数运算都会将运算应用到元素级，这一部分，将对ndarray的相关操作进行总结说明。

In [6]:
# 举例说明数组的优点  计算A**2 + B**3
a = [0,1,2,3,4]
b = [9,8,7,6,5]

### 一般Python循环方法
def pysum():
    c = []
    for i in range (len(a)):
        c.append(a[i]**2 + b[i]**3)
    return c
print (pysum())

### numpy 算法
"""
- 去掉循环，使一维数据更像单个数据，优化算法，提高运算速度
- 数组对象采用相同的数据类型，有助于节省运算和存储空间
"""
import numpy as np
def npsum():
    a = np.array([1,2,3,4])
    b = np.array([8,7,6,5]) 
    c = a**2 + b**3
    return c
print(npsum())

[729, 513, 347, 225, 141]
[513 347 225 141]


#### 1.ndarray的生成函数

![image.png](attachment:image.png)
- 注意：由于Numpy关注的是数值运算，所以，如果没有特别指定，数据类型基本上是“float64”，因为标准的双精度浮点值（即Python中的float对象）需要占用8个字节，即64位，而且如果没有显式说明，在创建数组时，若有多种数据类型存在，Numpy将会推断出一个较为合适的数据类型。当然Numpy也提供其他的数据类型，以便在操作中自由使用。

In [29]:
x = [1,2,3,4]
a = np.array(x)
print(a)

c = np.array(x,float)
print(c)

d = np.ones((2,3))# 注意此处的括号:一维单括号，多维双括号
print(d)

e = np.ones_like(d)
print(e)

i = np.eye(3,3)
print (i)

h = np.arange(10)
print(h)

[1 2 3 4]
[1. 2. 3. 4.]
[[1. 1. 1.]
 [1. 1. 1.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[0 1 2 3 4 5 6 7 8 9]


#### 2.ndarray的数据类型：
- dtype是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息。
**提供多种元素类型，优化存储与运算性能**
![image.png](attachment:image.png)
- 注意：可以使用astype方法显式转换其dtype，而且会创建一个新的数组，若浮点数转换为小数，小数部分截断。

In [31]:
b = a.astype(np.float64)
print(b)

[1. 2. 3. 4.]


#### 3.ndarray的属性查看：
![image.png](attachment:image.png)

In [38]:
a = np.arange(100).reshape(10,10)
print(a)
print(a.dtype,a.shape,a.size,a.ndim)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]
int32 (10, 10) 100 2


#### 4.ndarray的运算与数学函数
- 数组的运算时整体化矢量运算，每一种算术都应用到元素级。

In [15]:
x = [2,3,4,5,3,4,5,6,7,9]
a = np.array((x))
print (a)

d = a ** 2
print (d)

c = a.reshape(2,5)
print (c + c)

[2 3 4 5 3 4 5 6 7 9]
[ 4  9 16 25  9 16 25 36 49 81]
[[ 4  6  8 10  6]
 [ 8 10 12 14 18]]


![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 5.基本索引与切片
**切片与索引不复制数据**
- 两个概念：
    - 轴（axis）：数据的维度
    - 秩（rank）：轴的数量   
- 医学领域结构化数据一般为二位数据，所以这里我只记录一维与二维数据的索引与切片。

- 一维数组
    - 与Python列表的索引和切片相似，区别在于数据不会被复制，切片上的修改会直接反应到源数据上。
- 二维数据的索引
    - 各索引及切片位置上的元素不再是标量，而是一维数组。
![image.png](attachment:image.png)

In [60]:
a = np.arange(10)
print(a[5],a[5:8])

a[5:8] = 12
print(a)

b = np.arange(100).reshape(10,10)
print(b)
print(b[1],b[2:4])

b[6] = 6
print(b)

5 [5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]
[10 11 12 13 14 15 16 17 18 19] [[20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]]
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [ 6  6  6  6  6  6  6  6  6  6]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


#### 6.布尔型索引
**布尔型索引对于数据处理十分重要，可以通过布尔索引进行数据筛选与分组**
- 选择型 “==”“>”“<”
- 排除型 “！=”“-（布尔索引）”
- 多条件型  布尔索引以“&”“|”连接
- 混合切片  布尔索引与切片相结合,也可以进行赋值。

In [2]:
x = np.arange(10)
y = np.arange(70).reshape(10,7)
print(x,y)

print (x == 3)

print(y[x == 3])
print(y[x != 3])

print(y[(x == 3)|(x == 4)])# 注意括号的使用

[0 1 2 3 4 5 6 7 8 9] [[ 0  1  2  3  4  5  6]
 [ 7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34]
 [35 36 37 38 39 40 41]
 [42 43 44 45 46 47 48]
 [49 50 51 52 53 54 55]
 [56 57 58 59 60 61 62]
 [63 64 65 66 67 68 69]]
[False False False  True False False False False False False]
[[21 22 23 24 25 26 27]]
[[ 0  1  2  3  4  5  6]
 [ 7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20]
 [28 29 30 31 32 33 34]
 [35 36 37 38 39 40 41]
 [42 43 44 45 46 47 48]
 [49 50 51 52 53 54 55]
 [56 57 58 59 60 61 62]
 [63 64 65 66 67 68 69]]
[[21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34]]


#### 7.转置
- 转置是数组重塑的特殊形式，返回源数组的视图，不会复制数据。
- 函数：A.T

In [88]:
a = np.random.randn(6,3)# 创建随机正态分布数组
print(np.dot(a.T,a))#矩阵内积

[[ 6.8975724  -1.92207052 -2.89699154]
 [-1.92207052  3.20868513  2.23896653]
 [-2.89699154  2.23896653 10.58565458]]


### 二、Numpy---数据处理:矢量化高级数据处理
- Numpy数组可以使许多数据处理任务表述为简洁的数组表达式，代替循环的做法，这比纯Python实现数值计算快一两个数量级，这对于处理大量数据极为有利。

#### 1.np.where(condition,x,y)
- 是x if condition else y 的矢量化表达式，速度快，适用于高维数据，可结合布尔型切片进行操作。

In [15]:
import numpy as np
x = np.array([1.1,1.2,1.3,1.4,1.5])
y = np.array([2.1,2.2,2.3,2.4,2.5])
c = np.array([True,False,True,True,False])

result1 = [(x if c else y) for x,y,c in zip(x,y,c)]
result2 = np.where(c,x,y)

print (result1,result2)

[1.1, 2.2, 1.3, 1.4, 2.5] [1.1 2.2 1.3 1.4 2.5]


In [16]:
a = np.random.randn(4,4)
c = np.where(a>0,2,-1)#第二，三参数可以不是数组，而是一个标量值，也可以进行替换。
print(a,c)

[[-0.13459706  1.63629199 -0.89066691 -1.00667575]
 [-0.3481731  -1.94854153 -0.41441843 -0.12558806]
 [-0.70402948  1.35566097 -0.38905817  0.87416012]
 [-1.69382453 -1.5967454   1.92896353  0.65667122]] [[-1  2 -1 -1]
 [-1 -1 -1 -1]
 [-1  2 -1  2]
 [-1 -1  2  2]]


#### 2.统计方法
![image.png](attachment:image.png)
注：mean和sum可以传一个参数，计算某一轴的统计数据。

In [21]:
a = np.random.randn(5,4)

print(a,a.mean(),a.sum(1),(a>0).sum())

[[ 1.43610162  0.16343292 -0.4166603   0.40284091]
 [ 0.75687002  0.23863071 -0.60034795  0.48330689]
 [-1.06080127  0.40358608 -0.17456231 -0.89734725]
 [ 1.12881331 -0.08816324  0.64248797 -0.80114331]
 [ 0.49558746 -0.43425761 -0.52551639 -0.72540461]] 0.021372682573139668 [ 1.58571516  0.87845966 -1.72912475  0.88199473 -1.18959114] 10


#### 3.排序
- a.sort(axis)  不复制，修改数据本身。

In [25]:
a.sort()
print(a)

[[-0.4166603   0.16343292  0.40284091  1.43610162]
 [-0.60034795  0.23863071  0.48330689  0.75687002]
 [-1.06080127 -0.89734725 -0.17456231  0.40358608]
 [-0.80114331 -0.08816324  0.64248797  1.12881331]
 [-0.72540461 -0.52551639 -0.43425761  0.49558746]]


#### 4.线性代数
- 线性代数是任何数组库重要的组成部分，Numpy依据行业标准Fortran(MALTLAB,R同样适用)，在numpy.lingla模块中有一组标准的矩阵分解运算以及其他矩阵操作相关的程序。
![image.png](attachment:image.png)

In [38]:
from numpy.linalg import det,inv,svd,solve,eig
a = np.arange(9).reshape(3,3)
print(a)

print(np.dot(a,a),a.T*a)

c = det(a)
e = svd(a)
g = eig(a)

print(c,e,g)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[ 15  18  21]
 [ 42  54  66]
 [ 69  90 111]] [[ 0  3 12]
 [ 3 16 35]
 [12 35 64]]
0.0 (array([[-0.13511895,  0.90281571,  0.40824829],
       [-0.49633514,  0.29493179, -0.81649658],
       [-0.85755134, -0.31295213,  0.40824829]]), array([1.42267074e+01, 1.26522599e+00, 4.97902781e-16]), array([[-0.4663281 , -0.57099079, -0.67565348],
       [-0.78477477, -0.08545673,  0.61386131],
       [-0.40824829,  0.81649658, -0.40824829]])) (array([ 1.33484692e+01, -1.34846923e+00, -1.15433316e-15]), array([[ 0.16476382,  0.79969966,  0.40824829],
       [ 0.50577448,  0.10420579, -0.81649658],
       [ 0.84678513, -0.59128809,  0.40824829]]))


#### 5.随机数生成
numpy.random对python中内置的random进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数。
![image.png](attachment:image.png)