# NumPy
### 简介
* 官网链接：http://www.numpy.org/
* NumPy是Python语言的一个扩展程序库。支持高级大量的维度数组与矩阵运算，此外也对数组运算挺大量的数据库。
* 作者介绍
   * Jim Hugunin(作者) http://www.linkedin.com/in/jimhugunin
   * Travis Oliphant（商业推广者） http://wwww.linkedin.com/in/teoliphant

### 基本功能
 * 快速高效的多维数组对象ndarray
 * 用于数组执行元素级计算以及直接对数组执行数学运算是函数
 * 用于读写硬盘上基于数组的数据集工具
 * 线性代数运算、傅里叶变换、以及随机数生成
 * 用于C、C++、Fortran代码集成到Python的工具
 * 除了为Python提供快速的数组处理能力，Numpy在数据分析方面还有另外一个主要作用，即作为在算法之间传递数据的容器

### 效率对比
 * 三种数据结构：list/array/numpy.array
 * 三种方法求和：for/sum/numpy.sum

In [39]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

### NumPy的ndarray的创建

In [19]:
data = [6, 7.5, 8, 0 , 1]
arr = np.array(data)
print(arr)
print(arr.dtype)

[ 6.   7.5  8.   0.   1. ]
float64


In [16]:
data = [[1, 2, 3, 4],[5, 6, 7, 8]]
arr = np.array(data)
print(arr)
print(arr.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


### NumPy的ndarray NumPy数据类型
* 创建ndarray时指定dtype类型
* 使用astype显示转换类型

### NumPy的ndarray数组和标量之间的运算
* 不用编写循环即可对数据执行批量运算
* 大小相等的数组之间的任何算术运算都会将运算应用到元素级
* 数组与标量的算术运算也会将那个标量值传播到各个元素

In [24]:
# 对应位置元素进行运算
# 数组乘法/减法，对应元素相乘/相减
arr = np.array([[1.0, 2.0, 3.0], [4., 5., 6.]])
print(arr * arr)
print(arr - arr)
print()
# 标量操作作用在数组的每个元素上
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(1 / arr)
print(arr ** 0.5) # 开根号

[[  1.   4.   9.]
 [ 16.  25.  36.]]
[[ 0.  0.  0.]
 [ 0.  0.  0.]]

[[ 1.          0.5         0.33333333]
 [ 0.25        0.2         0.16666667]]
[[ 1.          1.41421356  1.73205081]
 [ 2.          2.23606798  2.44948974]]


### NumPy的ndarray基本的索引和切片
* 索引原理
* 切片原理

In [29]:
# 通过索引方位二维数组某一行或某个元素
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr[2])
print(arr[0][2]) # 上面两种普通Python也能这样用
print(arr[0, 2]) # 普通Python数组不能这样用
print()

# 对更高维数组的访问和操作
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr[0]) # 结果是个2维数组
print(arr[1, 0]) # 结果是个1维数组
old_values = arr[0].copy() # 复制arr[0]的值
arr[0] = 42 # 把arr[0]所有元素都设置为同一个值
print(arr)
arr[0] = old_values # 把原来的数组写回去
print(arr)
print()

print('使用切片访问和操作数组')
arr = np.array([1, 2, 3, 4, 5, 6 , 7, 8, 9, 10])
print(arr[1:6])
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr[: 2]) #打印1、2行
print(arr[: 2, 1:]) #打印第1、2行，第2,、3列
print(arr[:, : 1]) #打印所有行的第1列
arr[:2, 1:] = 0 #打印第1、2行，第2,、3列赋值为0
print(arr)


[7 8 9]
3
3

[[1 2 3]
 [4 5 6]]
[7 8 9]
[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]

使用切片访问和操作数组
[2 3 4 5 6]
[[1 2 3]
 [4 5 6]]
[[2 3]
 [5 6]]
[[1]
 [4]
 [7]]
[[1 0 0]
 [4 0 0]
 [7 8 9]]


### NumPy的ndarray布尔型索引
* 布尔型数组的长度必须跟索引的轴长度一致
* 可以将布尔型数组跟切片、整数（或整数序列）混合使用

### NumPy的ndarray花式索引
* 花式索引（Fancy indexing）是NumPy术语，它指的是利用整数数组进行索引。
* 一次传入多个索引数组会有一点特别，它返回的是一个一维数组，其中的元素对应各个元素元组。

### NumPy的ndarray数组转置和轴对换
* 一维/二维数组转置
* 高维数组轴对换

In [38]:
print('转置矩阵')
arr = np.arange(15).reshape((3, 5))
print(arr) # 3行5列的矩阵
print(arr.T) # 转置成5行3列的矩阵
print()
print('转置矩阵做点积')
arr = np.random.randn(6, 3)
print(np.dot(arr.T, arr))
print()
print('高维矩阵转换')
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print(arr.transpose((1, 0, 2)))
print(arr.swapaxes(1, 2))

转置矩阵
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]

转置矩阵做点积
[[ 7.72718934  4.66356798  3.44517468]
 [ 4.66356798  3.79931214  1.07704525]
 [ 3.44517468  1.07704525  4.79874336]]

高维矩阵转换
[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]


### NumPy的ndarray快速的元素级数组函数
* 一元函数
  * abs,fabs：计算整数，浮点数或复数的绝对值，对于非复数值，可以使用更快的fabs。
  * sqrt
  * sqare
  * exp
  * log,log10,log2,log1p
  * sign
  * ceil
  * floor
  * rint
  * modf
  * isnan
  * isfinite,isinf
  * cos,cosh,sin,sinh,tan,tanh：普通型或双曲型三角函数
  * arccos,arccosh,arcsin,arcsinh,arctan,arctanh：反三角函数
  * logical_not
* 二元函数
  * add
  * subtract
  * multiply
  * divide,floor_divide
  * power
  * maximum,fmax
  * minimum,fmin
  * mod
  * copysign
  * greater,greater_equal,less,less_equal,equal,not_equal
  * logical_and,logical_or,logical_xor

### 利用数组进行数据处理 
#### 简介
* NumPy数组使你可以将许多数据处理任务表述为简洁的数组表达式（否则需要编写循环）。用数组表达式代替循环的做法，通常被称为矢量化。
* 矢量化数组运算要比等价的纯Pyhton方式快上一两个数量级

#### 将条件逻辑表述为数组运算
* 列表推导的局限性
    * 纯Python代码，速度不够快
    * 无法应用于高维数组
* np.where和where的嵌套

#### 数学和统计方法
* 数学和统计方法
  * sum  对数组中全部或某轴向的元素求和。零长度的数组sum为0
  * mean  算术平均数，零长度的数组mean为NaN
  * std,var  分别为标准差和方差，自由度可调（默认为n）
  * min,max  最小值和最大值
  * argmin,argmax  分别为最小值索引和最大值索引
  * cumsum  所有元素的累计和
  * cumprod  所有元素的累计积
* 标准差和方差的解释
* cumsum和cumprod的解释
* 带axis参数的统计函数

#### 用于布尔型数组的方法
* sum对True值计数
* any和all测试布尔型数组，对于非布尔型数组，所有非0元素将会被当做True

In [42]:
print('对正数求和')
arr = np.random.randn(100)
print((arr > 0).sum())
print()
print('对数组逻辑操作')
bools = np.array([False, False, True, True])
print(bools.any())
print(bools.all())

对正数求和
49

对数组逻辑操作
True
False


#### 去重以及其它集合操作
* 去重以及其它集合操作
  * unique(x)
  * intersect1d(x, y)
  * union1d(x, y)
  * in1d(x,y )
  * setdiff1d(x, y)
  * setxor(x, y)

### 数组文件的输入输出
* 将数组以二进制格式保存到磁盘
* 存取文本文件

### 线性代数
* 常用的numpy.linalg函数
  * diag
  * dot
  * trace
  * det
  * eig
  * inv
  * pinv
  * qr
  * svd
  * solve
  * lstsq

### 随机数生成
* 部分numpy.random函数
  * seed 
  * permutation
  * shuffle
  * rand
  * randint
  * randn
  * binomial
  * 

### 高级应用 
#### 数组重塑
* reshape重塑数组
* -1自动推导维度大小

#### 数组的合并和拆分
* 数组连接函数

  * concatenate
  * vstack,row_stack
  * hstack
  * column_stack
  * dstack
  * split
  * hsplit,vsplit,dsplit
* _r对象
* _c对象

#### 元素的重复操作
* _tile
* _repeat

#### 花式索引的等价函数
* take
* put

##### 例题分析 距离矩阵计算
给定m * n阶矩阵X，满足X=[x1, x2, …,xn],这里第i行向量是m维向量。<br>
求n * n矩阵，使得Dij = ||xi - xj||^2