# NumPy基础 

NumPy：高性能科学计算以及数据分析的基础包（pandas），理解它有助于更好的使用pandas等数据分析包；
NumPy内容包括：
1. ndarray：一种具有矢量算术能力和复杂广播能力的快速且节省空间的多维数组；
2. 对整组数据（ndarray）进行快速（低级语言实现）运算的标准数学函数（无需编写for循环等）；
3. 读写磁盘数据以及操作内存映射文件的工具；
4. 线性代数、随机数生成和傅里叶变换；
5. 集成C、C++、Fortran等其他语言代码的工具（粘合剂）；

In [1]:
import numpy as np
import math

## ndarray -- 一种多维数组对象 

### 创建ndarray 

#### np.array 

In [2]:
arr1 = np.array([1, 2, 3, 4])
print arr1.shape
print arr1.dtype

(4,)
int64


In [3]:
arr2 = np.array([[1, 2, 3, 4],[4, 3, 2, 1]])
print arr2.shape
print arr2.dtype

(2, 4)
int64


In [4]:
arr2 = np.array([[2, 3, 4],[4, 3, 2, 1]])
print arr2.shape
print arr2.dtype

(2,)
object


#### np.zeros/zeros_like 

In [5]:
arr_zeros = np.zeros([2])
arr_zeros

array([ 0.,  0.])

In [6]:
arr_zeros = np.zeros([2,4])
arr_zeros

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [7]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_zeros_like = np.zeros_like(test)
arr_zeros_like

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

#### np.ones/ones_like 

In [8]:
arr_ones = np.ones([2])
arr_ones

array([ 1.,  1.])

In [9]:
arr_ones = np.ones([2,4])
arr_ones

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

In [10]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_ones_like = np.ones_like(test)
arr_ones_like

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

#### np.empty/empty_like 不等同于zeros/zeros_like，开辟内存空间后不修改当中的内容，因此结果是不可预知的 

In [11]:
arr_empty = np.empty([2])
arr_empty

array([ 0.,  0.])

In [12]:
arr_empty = np.empty([2,4])
arr_empty

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [13]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_empty_like = np.empty_like(test)
arr_empty_like

array([[1, 2, 3, 4],
       [4, 3, 2, 1]])

#### np.arange 类似与python的range，但是返回的不是array而是ndarray 

In [14]:
arr_arange = np.arange(5)
arr_arange

array([0, 1, 2, 3, 4])

#### np.eye/identity 

In [15]:
arr_identity = np.identity(5) # 单位矩阵
arr_identity

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [16]:
arr_eye = np.eye(5) # 单位矩阵
arr_eye

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [17]:
arr_eye = np.eye(5, M=3) # 非方阵
arr_eye

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [18]:
arr_eye = np.eye(5, M=3, k=1) # 非方阵，向上偏离1
arr_eye

array([[ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [19]:
arr_eye = np.eye(5, M=3, k=-1) # 非方阵，向下偏离1
arr_eye

array([[ 0.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.]])

### numpy数组运算以及与标量的运算 

In [20]:
arr = np.array([[1,2,3],[4,5,6]])

#### 相同shape的数组之间的运算会应用到每一个元素上 

In [21]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [22]:
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [23]:
arr / arr

array([[1, 1, 1],
       [1, 1, 1]])

In [24]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

#### 数组与标量的运算同样会应用到每一个元素上 

In [25]:
arr * 2

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [26]:
arr - 2

array([[-1,  0,  1],
       [ 2,  3,  4]])

In [27]:
arr + 2

array([[3, 4, 5],
       [6, 7, 8]])

In [28]:
arr / 2

array([[0, 1, 1],
       [2, 2, 3]])

#### 不同大小的数组同样可以运算，称为广播，暂时不讨论 

### 基本索引和切片（重点，pandas中应用很广） 

#### 一维数组 

In [29]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
arr[3]

3

In [31]:
arr[5:]

array([5, 6, 7, 8, 9])

In [32]:
arr[:2]

array([0, 1])

In [33]:
arr[2:8]

array([2, 3, 4, 5, 6, 7])

In [34]:
arr[6:] = -1 # 广播：某个值被传播给多个位置的元素
arr

array([ 0,  1,  2,  3,  4,  5, -1, -1, -1, -1])

In [35]:
cp_arr = arr[3:6] # ndarray的子集选取（切片操作）是不会复制数据的，因此任何改动都会影响数据源，出于大数据量的性能内存等考虑
cp_arr[:] = 123
cp_arr

array([123, 123, 123])

In [36]:
arr # u see

array([  0,   1,   2, 123, 123, 123,  -1,  -1,  -1,  -1])

In [37]:
real_cp_arr = arr[3:6].copy() # 如果需要副本而不是引用，需要显示调用copy方法
real_cp_arr[:] = -999
arr

array([  0,   1,   2, 123, 123, 123,  -1,  -1,  -1,  -1])

#### 多维数组 

In [38]:
arr2d = np.array([[1,2,3],[2,1,3],[3,2,1]])
arr2d

array([[1, 2, 3],
       [2, 1, 3],
       [3, 2, 1]])

In [39]:
arr2d[1]

array([2, 1, 3])

In [40]:
arr2d[1][2]

3

In [41]:
arr2d[1,2] # 效果同上

3

### 切片索引（重点）

In [42]:
arr2d

array([[1, 2, 3],
       [2, 1, 3],
       [3, 2, 1]])

In [43]:
arr2d[1:] # axis0轴上切片，也就是行

array([[2, 1, 3],
       [3, 2, 1]])

In [44]:
arr2d[:, :1] # axis1轴上切片，也就是列

array([[1],
       [2],
       [3]])

In [45]:
arr2d[1:, :2] # 两个方向上都做切片处理

array([[2, 1],
       [3, 2]])

In [46]:
arr2d[1, :2] # 集合索引和切片实现降维切片子集获取

array([2, 1])

In [47]:
arr2d[1:, :2] = 21 # 同样对切片获取的子集复制同样会传播到整个区域
arr2d

array([[ 1,  2,  3],
       [21, 21,  3],
       [21, 21,  1]])

### 布尔型索引（应用得当可以大大简化代码，与其他获取子集不同的是该方式得到的总是副本） 

In [48]:
names = np.array(['Jobs', 'Mike', 'Jobs', 'Mary', 'Jack', 'Mike'])
scores = np.array([[12,23],[34,45],[56,67],[78,89],[90,101],[110,123]])

In [49]:
scores[names == 'Mike'] # 首先通过names == 'Mike'获取到一个布尔型一维数组，再使用这个一维数组来获取scores中的行

array([[ 34,  45],
       [110, 123]])

In [50]:
scores[-(names == 'Mike')] # 取反，同样可以使用!=号来实现

  """Entry point for launching an IPython kernel.


array([[ 12,  23],
       [ 56,  67],
       [ 78,  89],
       [ 90, 101]])

In [51]:
scores[(names == 'Mike') | (names == 'Jack')] # 注意：由于其本质是在布尔型数组上做运算，因此不能使用逻辑运算符and, or这些，而是要用&, | 这些位运算符来替代

array([[ 34,  45],
       [ 90, 101],
       [110, 123]])

In [52]:
scores[names == 'Mike', 1] # 结合切片，索引使用

array([ 45, 123])

In [53]:
mary_scores = scores[names == 'Mary']
mary_scores[:] = -999 # 使用布尔型索引得到的总是副本，即使是一模一样的结果
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [ 78,  89],
       [ 90, 101],
       [110, 123]])

In [54]:
scores[names == 'Mary'] = 0 # 通过该方式设置整个区域的值很方便（这个Mary可能是作弊了。。。。）
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [  0,   0],
       [ 90, 101],
       [110, 123]])

In [55]:
scores[names == 'Jack', 0] = 0 # 单科作弊0分处理
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [  0,   0],
       [  0, 101],
       [110, 123]])

### 花式索引 （用于交换调整数组的行列顺序，与其他获取子集不同的是该方式得到的总是副本） 

In [56]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [57]:
arr[[2,0]] # 使用一维数组做索引，达到按照顺序获取axis0的元素的目的

array([[7, 8, 9],
       [1, 2, 3]])

In [58]:
arr[[2,0],[2,0]] # 最终获取到的是arr[2][2]，arr[0][0]这两个元素

array([9, 1])

In [59]:
arr[[2,0]][:,[2,0]] # 这种写法的效果才是先按顺序获取2,0两行，再在基础上按顺序获取2,0两列

array([[9, 7],
       [3, 1]])

In [60]:
arr[np.ix_([2,0],[2,0])] # 使用ix_达到arr[[2,0]][:,[2,0]]一样的效果，本质上ix_就是构建一个获取指定区域的索引器

array([[9, 7],
       [3, 1]])

### 数组转置和轴对换 

#### 2维 

In [61]:
arr = np.arange(16).reshape(4,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [62]:
arr.T # ndarray的一个属性，表示数组对应的转置数组

array([[ 0,  4,  8, 12],
       [ 1,  5,  9, 13],
       [ 2,  6, 10, 14],
       [ 3,  7, 11, 15]])

#### 3维 

In [63]:
arr3d = np.arange(24).reshape(2,3,4)
arr3d

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [64]:
arr3d.T # 数组结构变为4,3,2

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

In [65]:
arr3d.transpose([2,1,0]) #  transpose方法需要给定一个指定轴角标顺序的集合，指定[2,1,0]等价于arr.T

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

In [66]:
arr3d.swapaxes(0,2) # 交换某两个轴角标，同样等价于transpose([2,1,0])，因此轴1没变，本质上只需要交换0，2就好

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

## 通用函数：快速的元素级数组函数 

ufunc：看做是一般函数的矢量化封装，使得操作作用于数组中的每个元素，比如sqrt，exp；

### 一元ufunc 

In [67]:
arr = np.arange(9)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [68]:
np.sqrt(arr) # 不会修改数据源

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712])

In [69]:
np.exp(arr) # e的指数

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03])

In [70]:
arr2d = np.array([[1,2,3],[2,1,3],[3,2,1]])
np.max(arr2d)

3

In [71]:
arr_float = np.arange(9).reshape(3,3) / 5. # 返回多个数组的通用函数，modf用于整数小数的分离
print arr_float
np.modf(arr_float)

[[ 0.   0.2  0.4]
 [ 0.6  0.8  1. ]
 [ 1.2  1.4  1.6]]


(array([[ 0. ,  0.2,  0.4],
        [ 0.6,  0.8,  0. ],
        [ 0.2,  0.4,  0.6]]), array([[ 0.,  0.,  0.],
        [ 0.,  0.,  1.],
        [ 1.,  1.,  1.]]))

### 常用一元ufunc 

* abs/fabs：求整数，浮点数，复数的绝对值，对于非复数，可以使用更快的fabs；
* sqrt：开平方；
* square：2次方；
* exp：计算指数e的X次方；
* log、log10、log2、log1p：分别对应自然对数（底数为e）、底数为10的log、底数为2的log、log(1+x)；
* sign：计算正负号，1代表整数，0代表0，,1代表负数；
* ceil：大于等于该值的最小整数；
* floor：小于等于该值的最大整数；
* rint：四舍五入到最近的整数，保留dtype；
* modf：将整数和小数分开返回；
* isnan：返回一个哪些元素不是数字的布尔型数组；
* isfinite/isinf：返回一个哪些数是 有穷/无穷 的布尔型数组；
* cos/cosh/sin/sinh/tan/tanh：普通型和双曲线的三角函数；
* arccos/arccosh/arcsin/arcsinh/arctan/arctanh：反三角函数；
* logical_not：计算not x的真值，相当于-arr；

### 二元ufunc 

In [72]:
np.maximum(arr2d[0], arr2d[1]) # 逐位比较大小，将结果组成一个维度低一级的数组返回

array([2, 2, 3])

In [73]:
arr3d = np.arange(24).reshape(2,3,4)
np.maximum(arr3d[0], arr3d[1])

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

### 常用二元ufunc 

* add/subtract/multiply/divide：数组的加减乘除，相当于+,-,*,/；
* floor_divide：向下圆整除法，丢弃余数；
* power：针对每个数组A中的元素，取对应位置的数组B中的元素做次方运算；
* maximum/fmax/minimum/fmin：最大最小元素级计算，fxxx会忽略NaN；
* mod：求模运算；
* copysign：将参数二数组中的符号付给参数一的数组中的元素；
* greater/greater_equal/less/less_equal/equal/not_equal：>、>=、<、<=、==、!=；
* logical_and/logical_or/logical_xor：&、|、^；

## 利用数组进行数据处理 

ndarray可以使得不必进行循环而是直接在数组级上操作，通常来讲这种方式要比纯python循环快一两个数量级，这种方式也称为矢量化（广播就是针对矢量化计算的一种强大手段，12章介绍）；

### 对比下速度 -- 在一组值(网格型)上计算函数sqrt(x^2+y^2) 

#### 普通循环方式 

In [74]:
def normal_for():
    data = [[0 for i in range(1000)] for j in range(1000)]
    for i in range(1000):
        for j in range(1000):
            x = i + j
            y = i - j
            data[i][j] = math.sqrt(x**2 + y**2)

In [75]:
%time normal_for()

CPU times: user 292 ms, sys: 12 ms, total: 304 ms
Wall time: 306 ms


#### 数组方式 

In [76]:
def ndarray_way():
    points = np.arange(-5, 5, 0.01)
    xs, ys = np.meshgrid(points, points)
    print xs.shape
    data = np.sqrt(xs**2 + ys**2)

In [77]:
%time ndarray_way()

(1000, 1000)
CPU times: user 16 ms, sys: 32 ms, total: 48 ms
Wall time: 47.3 ms


能够看到，同样是在1000 × 1000的数量级上运算，数组方式要快15倍左右，且代码可读性更高，也更精简，不易出错；

### 将条件逻辑表述为数组运算 

#### np.where是三元运算符 x if condition else y的矢量化形式 

根据条件集合选择数据源A或者B中的数据

In [78]:
cond_arr = [True, True, False, False, True]
data_a = [70, 80, 35, 45, 90]
data_b = [55, 75, 95, 87, 66]

cond_arr_np = np.asarray(cond_arr)
data_a_np = np.asarray(data_a)
data_b_np = np.asarray(data_b)

In [79]:
# 普通列表推导式
[a if cond else b for cond, a, b in zip(cond_arr, data_a, data_b)]

[70, 80, 95, 87, 90]

In [80]:
# 数组方式
np.where(cond_arr_np, data_a_np, data_b_np)

array([70, 80, 95, 87, 90])

分析：
* 列表推导式：
    * 可读性较差；
    * 不适用于多维数组（依赖于zip的解包操作）；
    * 作用于大数组时性能问题（毕竟是纯python实现）；
* np.where：
    * 可读性较强；
    * 代码简单；
    * 适用于多维数组；
    * 性能更优秀（底层实现使用C）；

#### 假设有一个由随机数据组成的矩阵,你希望将所有正值替换为2,将所有负值替换为-2 

In [81]:
data = np.array([12,2,-7,-90,23,44,-65,34,22,-9,-21])
print data
print np.where(data>=0, 2, -2) # 将正数和0设置为2，负数设置为-2
print np.where(data>=0, 2, data) # 将正数和0设置为2，负数不处理

[ 12   2  -7 -90  23  44 -65  34  22  -9 -21]
[ 2  2 -2 -2  2  2 -2  2  2 -2 -2]
[  2   2  -7 -90   2   2 -65   2   2  -9 -21]


#### 两个布尔型数组cond1和cond2,希望根据4种不同的布尔值组合实现不同的赋值操作

In [82]:
cond1 = np.array([True, False, True, True, False])
cond2 = np.array([True, True, False, False, True])
print np.where(cond1 | cond2, 'yes', 'no') # 两组条件满足其一
print np.where(cond1 & cond2, 'yes', 'no') # 两组条件全满足
print np.where(cond1 ^ cond2, 'yes', 'no') # 两组条件相反
print np.where(cond1 & cond2, 4, np.where(cond1, 1, np.where(cond2, 2, 0))) # 满足两个赋值4，满足cond1赋值1，满足cond2赋值2，都不满足赋值0

['yes' 'yes' 'yes' 'yes' 'yes']
['yes' 'no' 'no' 'no' 'no']
['no' 'yes' 'yes' 'yes' 'yes']
[4 2 1 1 2]


### 数学和统计方法 

可以通过一组数学函数针对整个数组或者某个轴向上进行运算，进行聚合或非聚合；

#### 聚合 -- sum,mean,std 

In [83]:
data = np.arange(100).reshape(10, 10)
print data.sum() # 求和
print np.mean(data) # 求平均值
print data.std() # 求标准差

4950
49.5
28.8660700477


#### 非聚合 非聚合返回的不再是一个标量，而是降低一个维度的数组

In [84]:
print data
print data.sum(axis=0) # 求和
print np.mean(data, axis=1) # 求平均值
print data.std(1) # 求标准差

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]
[450 460 470 480 490 500 510 520 530 540]
[  4.5  14.5  24.5  34.5  44.5  54.5  64.5  74.5  84.5  94.5]
[ 2.87228132  2.87228132  2.87228132  2.87228132  2.87228132  2.87228132
  2.87228132  2.87228132  2.87228132  2.87228132]


#### 数组中由中间结果组成结果 -- cumsum,cumprod 

In [85]:
data = np.array([[1,2,3],[4,5,6],[7,8,9]])
print data.cumsum() # 作为一个线性数列进行sum递增求和，得到一个一维数组
print '\n'
print data.cumsum(0) # 取行作为计算单元，得到一个二维数组
print '\n'
print data.cumsum(1) # 取列作为计算单元，得到一个二维数组

[ 1  3  6 10 15 21 28 36 45]


[[ 1  2  3]
 [ 5  7  9]
 [12 15 18]]


[[ 1  3  6]
 [ 4  9 15]
 [ 7 15 24]]


In [86]:
data = np.array([[1,2,3],[4,5,6],[7,8,9]])
print data.cumprod() # 作为一个线性数列进行sum递乘求和，得到一个一维数组
print '\n'
print data.cumprod(0) # 取行作为计算单元，得到一个二维数组
print '\n'
print data.cumprod(1) # 取列作为计算单元，得到一个二维数组

[     1      2      6     24    120    720   5040  40320 362880]


[[  1   2   3]
 [  4  10  18]
 [ 28  80 162]]


[[  1   2   6]
 [  4  20 120]
 [  7  56 504]]


#### 基本统计方法

* sum,mean,std,var,min,max,argmin,argmax：默认是得到一个标量，通过设置axis可以按照轴来计算得到一维数组；
    * sum：求和
    * mean：平均值
    * std：标准差
    * var：方差
    * min：最小值
    * argmin：最大值
    * max：最小值索引
    * argmax：最大值索引
* cumsum,cumprod：默认得到一维数组，将原数据当做一个长列来处理，通过设置axis可以按照轴来计算得到同数据维度的数组；
    * cumsum：元素累计和
    * cumprod：元素累计积

### 用于布尔型数组的方法

#### python中布尔型可以被算数计算，分别当做1和0 

In [95]:
data = np.random.randn(100)
print (data > 0).sum() # 根据data>0得到的布尔型数组通过sum来计算整数的个数
print data > 0
print (data > 0) * 2 # 在运算符时，就是当做1和0来理解

43
[ True  True False  True False  True False  True  True False  True False
  True False  True  True False False  True  True False False False False
  True False  True False False False  True  True False  True  True  True
  True False False  True  True  True  True  True False False False False
  True False False False False  True False  True False False False False
  True  True  True False  True False False  True False  True False False
  True False False  True  True  True False False False False False False
 False False False False False  True  True False  True  True False False
 False False False  True]
[2 2 0 2 0 2 0 2 2 0 2 0 2 0 2 2 0 0 2 2 0 0 0 0 2 0 2 0 0 0 2 2 0 2 2 2 2
 0 0 2 2 2 2 2 0 0 0 0 2 0 0 0 0 2 0 2 0 0 0 0 2 2 2 0 2 0 0 2 0 2 0 0 2 0
 0 2 2 2 0 0 0 0 0 0 0 0 0 0 0 2 2 0 2 2 0 0 0 0 0 2]


#### any 

In [108]:
data = np.random.randn(100).reshape(10, 10)
print (data > 0).any() # 任何一个为True则返回True
print data.any() # 可以作用于非布尔型数组，此时所有非0均为True
print np.array([0.]).any()
print (data > 0).any(axis=0) # 同统计求和部分，可以通过axis来将计算指向到某个轴上从而得到一维数组结果

True
True
False
[ True  True  True  True  True  True  True  True  True  True]


#### all 

In [110]:
data = np.random.randn(100).reshape(10, 10)
print (data > 0).all() # 全部为True则返回True
print data.all() # 可以作用于非布尔型数组，此时所有非0均为True
print np.array([0.1]).all()
print (data > 0).all(axis=0) # 同统计求和部分，可以通过axis来将计算指向到某个轴上从而得到一维数组结果

False
True
True
[False False False False False False False False False False]


### 排序 

#### 数组自身排序 -- 会修改数组本身顺序 

In [119]:
data = np.random.randn(10)
data.sort()
data

array([-1.67313195,  0.00551965,  0.00843488,  0.12100903,  0.25699465,
        0.25734936,  0.58861909,  0.754374  ,  0.77282982,  0.77509179])

#### np顶级排序 -- 返回排序的数组副本 

In [116]:
data = np.random.randn(10)
np.sort(data)

array([-1.32388801, -1.13208594, -1.0615483 , -1.00737014, -0.37109673,
       -0.36580835,  0.07025476,  0.25509695,  0.94536529,  2.11301638])

#### 多维数组排序 

In [125]:
data = np.random.randn(5, 5)
print np.sort(data) # 默认是按axis=1排序的
print '\n'
print np.sort(data, axis=1)
print '\n'
print np.sort(data, axis=0) # 按行排序

[[-2.31394073 -2.29621811  0.1171308   0.81430759  0.97166236]
 [-0.5897459  -0.16601679  0.10598839  0.74025233  1.16775598]
 [-1.53192665 -1.26969425 -0.65120537  0.08648574  2.03057525]
 [-0.34873943 -0.30550124  0.7682611   1.60001368  2.28861167]
 [-0.67693927 -0.62706063 -0.33440652  0.29131686  1.44934295]]


[[-2.31394073 -2.29621811  0.1171308   0.81430759  0.97166236]
 [-0.5897459  -0.16601679  0.10598839  0.74025233  1.16775598]
 [-1.53192665 -1.26969425 -0.65120537  0.08648574  2.03057525]
 [-0.34873943 -0.30550124  0.7682611   1.60001368  2.28861167]
 [-0.67693927 -0.62706063 -0.33440652  0.29131686  1.44934295]]


[[-0.5897459  -0.62706063 -1.26969425 -2.29621811 -2.31394073]
 [ 0.08648574  0.74025233 -0.67693927 -1.53192665 -0.65120537]
 [ 0.29131686  0.81430759 -0.16601679 -0.30550124 -0.34873943]
 [ 0.7682611   1.60001368  0.1171308   1.16775598 -0.33440652]
 [ 0.97166236  2.03057525  2.28861167  1.44934295  0.10598839]]


### 唯一化以及其他的集合逻辑 

#### 唯一化unique -- 还顺带排序哦 

In [126]:
data = np.array(['Jobs', 'Hill', 'Jack', 'Hill', 'Jack'])
np.unique(data)

array(['Hill', 'Jack', 'Jobs'], 
      dtype='|S4')

In [129]:
data = np.array([2, 3, 2, 4, 1])
np.unique(data)

array([1, 2, 3, 4])

In [133]:
# 纯python方法 先去重，再排序，两步走
sorted(set(np.array(['Jobs', 'Hill', 'Jack', 'Hill', 'Jack'])))

['Hill', 'Jack', 'Jobs']

#### np.in1d -- 测试一个数组中的元素是否存在与另一个数组中

In [135]:
np.in1d(np.array([1, 2, 3, 4, 5]), np.array([1, 3, 5])) # 获取[1,2,3,4,5]中的值是否为1/3/5的布尔型数组

array([ True, False,  True, False,  True], dtype=bool)

#### 常用集合函数

* unique：求唯一值，一元函数；
* intersect1d：求交集，二元函数；
* union1d：求并集，二元函数；
* in1d：前者元素是否存在于后者的布尔型数组结果，二元函数；
* setdiff1d：在x中但不在y中，二元函数；
* setxor1d：只存在于某一个数组中，二元函数；

In [136]:
np.setxor1d(np.array([1,2,3]), np.array([2,3,4]))

array([1, 4])

In [137]:
np.setdiff1d(np.array([1,2,3]), np.array([2,3,4]))

array([1])

## 用于数组的文件输入输出 

### 二进制方式

#### 单个数组 

In [142]:
data = np.random.randn(10, 10)
np.save('data/np_save', data)
!ls data

np_save.npy


In [144]:
np.load('data/np_save.npy')

array([[-0.51872665, -0.89768315, -0.6344221 , -0.35117882, -0.60530866,
        -0.92853884, -1.30714436,  1.55801467,  0.14808436,  3.02176163],
       [-1.74360027,  0.40577302, -0.71692686,  0.39398537,  1.26531666,
         1.56466159, -0.02177681,  0.06806766, -1.42504262,  2.36210895],
       [-0.9280141 ,  0.57432839,  0.43204843,  1.19653887, -1.42651904,
        -0.45965631,  0.46624122,  0.61025348,  1.68360852, -0.10892967],
       [-0.52461154, -0.41201682, -0.44754113,  0.01550712,  0.56380904,
         0.76153868,  0.22024003, -0.56209844, -0.71553776, -0.69146266],
       [-0.88990635,  0.92049535,  0.98615568, -2.74357816, -1.78353326,
        -1.00860049, -2.14797378, -0.21586331, -1.17602916, -0.43934755],
       [ 0.16961542, -0.80577545,  2.26230418, -0.95458272,  1.73309932,
        -1.14011126,  0.15454721, -0.85392377, -1.36602   , -0.40411664],
       [-0.34058429,  0.07231424, -0.24239079, -0.18409774,  0.02879999,
         0.58126975,  0.38358469,  1.94238718

#### 多个数组 

In [145]:
data_a = np.random.randn(5, 5)
data_b = np.random.randn(5, 5)
np.savez('data/np_savez', a=data_a, b=data_b)
!ls data

np_save.npy  np_savez.npz


In [148]:
np.load('data/np_savez.npz')['b'] # load xxx.npz 得到一个类似字典一样的实例，key为a和b

array([[ 1.02672332,  0.06329227,  0.53010671,  1.20475368,  0.4584274 ],
       [-0.93812047, -0.38504007,  0.58565354,  2.00500698, -0.72911063],
       [-1.55795504,  0.87740219,  1.36013844,  0.30954772, -0.22908768],
       [-1.2216182 , -1.52749027,  0.31937895, -1.04211644,  0.92724684],
       [ 0.91279073, -0.49942656,  1.36525734, -1.7034101 ,  0.87165617]])

In [149]:
np.load('data/np_savez.npz')['a']

array([[ 0.64574292, -0.40458346,  1.17366455,  0.29681499, -0.95742706],
       [ 0.13617232,  0.01058252,  1.05656635,  0.06592022,  0.80908766],
       [ 0.28061506,  0.45243871, -0.39266155, -2.30859686,  1.14600764],
       [ 0.07134108,  0.23822032,  0.34915181,  0.85638029, -0.44839945],
       [ 0.73549462,  0.00801274, -0.21017778, -0.14151638, -0.85638165]])

### 存取文本文件

In [158]:
data = np.random.randn(8, 8)
np.savetxt('data/np_savetxt.txt', data)
!ls data

np_save.npy  np_savetxt.txt  np_savez.npz
rm: 无法删除'np_savetxt': 没有那个文件或目录


In [159]:
np.loadtxt('data/np_savetxt.txt')

array([[-0.39488342,  1.27625639, -1.07904231,  1.83624657, -0.80620082,
         1.19380987,  0.59702868, -0.8386713 ],
       [-0.120669  , -1.30339481,  0.84112529, -0.43012386,  0.48082888,
        -0.64400191,  0.42296434, -1.06481647],
       [ 0.17351447, -1.25352172,  0.20624911,  1.40556728, -0.57870403,
        -0.03851826, -0.27527108,  1.38852282],
       [-1.6392091 ,  1.1960432 , -0.35371123,  0.12386463,  0.2849831 ,
         0.45169626, -0.51748063, -0.54830665],
       [-0.15358575,  0.00271863, -0.53058051, -0.33055311,  0.73203652,
         0.49572415,  0.89686713,  0.75041149],
       [-0.06137562,  1.25362289, -0.01488251, -0.14381895,  1.31001545,
         0.11723508, -1.16232529, -0.26040972],
       [-1.48911207, -0.80974234, -0.3054316 ,  1.16844145, -0.24931779,
        -0.40248048, -0.83482463, -1.53966653],
       [ 0.66804127, -0.33167094, -0.96394919,  0.40323008,  1.00243066,
        -0.68464728, -0.71761983, -1.10056973]])

## 线性代数