# NumPy基础 

NumPy：高性能科学计算以及数据分析的基础包（pandas），理解它有助于更好的使用pandas等数据分析包；
NumPy内容包括：
1. ndarray：一种具有矢量算术能力和复杂广播能力的快速且节省空间的多维数组；
2. 对整组数据（ndarray）进行快速（低级语言实现）运算的标准数学函数（无需编写for循环等）；
3. 读写磁盘数据以及操作内存映射文件的工具；
4. 线性代数、随机数生成和傅里叶变换；
5. 集成C、C++、Fortran等其他语言代码的工具（粘合剂）；

In [2]:
import numpy as np

## ndarray -- 一种多维数组对象 

### 创建ndarray 

#### np.array 

In [5]:
arr1 = np.array([1, 2, 3, 4])
print arr1.shape
print arr1.dtype

(4,)
int64


In [6]:
arr2 = np.array([[1, 2, 3, 4],[4, 3, 2, 1]])
print arr2.shape
print arr2.dtype

(2, 4)
int64


In [8]:
arr2 = np.array([[2, 3, 4],[4, 3, 2, 1]])
print arr2.shape
print arr2.dtype

(2,)
object


#### np.zeros/zeros_like 

In [12]:
arr_zeros = np.zeros([2])
arr_zeros

array([ 0.,  0.])

In [13]:
arr_zeros = np.zeros([2,4])
arr_zeros

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [14]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_zeros_like = np.zeros_like(test)
arr_zeros_like

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

#### np.ones/ones_like 

In [15]:
arr_ones = np.ones([2])
arr_ones

array([ 1.,  1.])

In [16]:
arr_ones = np.ones([2,4])
arr_ones

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

In [17]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_ones_like = np.ones_like(test)
arr_ones_like

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

#### np.empty/empty_like 不等同于zeros/zeros_like，开辟内存空间后不修改当中的内容，因此结果是不可预知的 

In [18]:
arr_empty = np.empty([2])
arr_empty

array([ 0.,  0.])

In [19]:
arr_empty = np.empty([2,4])
arr_empty

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [20]:
test = np.array([[1,2,3,4],[4,3,2,1]])
arr_empty_like = np.empty_like(test)
arr_empty_like

array([[1, 2, 3, 4],
       [4, 3, 2, 1]])

#### np.arange 类似与python的range，但是返回的不是array而是ndarray 

In [21]:
arr_arange = np.arange(5)
arr_arange

array([0, 1, 2, 3, 4])

#### np.eye/identity 

In [28]:
arr_identity = np.identity(5) # 单位矩阵
arr_identity

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [29]:
arr_eye = np.eye(5) # 单位矩阵
arr_eye

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [30]:
arr_eye = np.eye(5, M=3) # 非方阵
arr_eye

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [31]:
arr_eye = np.eye(5, M=3, k=1) # 非方阵，向上偏离1
arr_eye

array([[ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [32]:
arr_eye = np.eye(5, M=3, k=-1) # 非方阵，向下偏离1
arr_eye

array([[ 0.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  0.,  0.]])

### numpy数组运算以及与标量的运算 

In [33]:
arr = np.array([[1,2,3],[4,5,6]])

#### 相同shape的数组之间的运算会应用到每一个元素上 

In [34]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [35]:
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [36]:
arr / arr

array([[1, 1, 1],
       [1, 1, 1]])

In [37]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

#### 数组与标量的运算同样会应用到每一个元素上 

In [38]:
arr * 2

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [39]:
arr - 2

array([[-1,  0,  1],
       [ 2,  3,  4]])

In [40]:
arr + 2

array([[3, 4, 5],
       [6, 7, 8]])

In [41]:
arr / 2

array([[0, 1, 1],
       [2, 2, 3]])

#### 不同大小的数组同样可以运算，称为广播，暂时不讨论 

### 基本索引和切片（重点，pandas中应用很广） 

#### 一维数组 

In [42]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [43]:
arr[3]

3

In [44]:
arr[5:]

array([5, 6, 7, 8, 9])

In [45]:
arr[:2]

array([0, 1])

In [46]:
arr[2:8]

array([2, 3, 4, 5, 6, 7])

In [48]:
arr[6:] = -1 # 广播：某个值被传播给多个位置的元素
arr

array([ 0,  1,  2,  3,  4,  5, -1, -1, -1, -1])

In [50]:
cp_arr = arr[3:6] # ndarray的子集选取（切片操作）是不会复制数据的，因此任何改动都会影响数据源，出于大数据量的性能内存等考虑
cp_arr[:] = 123
cp_arr

array([123, 123, 123])

In [52]:
arr # u see

array([  0,   1,   2, 123, 123, 123,  -1,  -1,  -1,  -1])

In [53]:
real_cp_arr = arr[3:6].copy() # 如果需要副本而不是引用，需要显示调用copy方法
real_cp_arr[:] = -999
arr

array([  0,   1,   2, 123, 123, 123,  -1,  -1,  -1,  -1])

#### 多维数组 

In [56]:
arr2d = np.array([[1,2,3],[2,1,3],[3,2,1]])
arr2d

array([[1, 2, 3],
       [2, 1, 3],
       [3, 2, 1]])

In [57]:
arr2d[1]

array([2, 1, 3])

In [58]:
arr2d[1][2]

3

In [60]:
arr2d[1,2] # 效果同上

3

### 切片索引（重点）

In [62]:
arr2d

array([[1, 2, 3],
       [2, 1, 3],
       [3, 2, 1]])

In [61]:
arr2d[1:] # axis0轴上切片，也就是行

array([[2, 1, 3],
       [3, 2, 1]])

In [63]:
arr2d[:, :1] # axis1轴上切片，也就是列

array([[1],
       [2],
       [3]])

In [64]:
arr2d[1:, :2] # 两个方向上都做切片处理

array([[2, 1],
       [3, 2]])

In [65]:
arr2d[1, :2] # 集合索引和切片实现降维切片子集获取

array([2, 1])

In [66]:
arr2d[1:, :2] = 21 # 同样对切片获取的子集复制同样会传播到整个区域
arr2d

array([[ 1,  2,  3],
       [21, 21,  3],
       [21, 21,  1]])

### 布尔型索引（应用得当可以大大简化代码，与其他获取子集不同的是该方式得到的总是副本） 

In [72]:
names = np.array(['Jobs', 'Mike', 'Jobs', 'Mary', 'Jack', 'Mike'])
scores = np.array([[12,23],[34,45],[56,67],[78,89],[90,101],[110,123]])

In [68]:
scores[names == 'Mike'] # 首先通过names == 'Mike'获取到一个布尔型一维数组，再使用这个一维数组来获取scores中的行

array([[ 34,  45],
       [110, 123]])

In [69]:
scores[-(names == 'Mike')] # 取反，同样可以使用!=号来实现

  """Entry point for launching an IPython kernel.


array([[ 12,  23],
       [ 56,  67],
       [ 78,  89],
       [ 90, 101]])

In [74]:
scores[(names == 'Mike') | (names == 'Jack')] # 注意：由于其本质是在布尔型数组上做运算，因此不能使用逻辑运算符and, or这些，而是要用&, | 这些位运算符来替代

array([[ 34,  45],
       [ 90, 101],
       [110, 123]])

In [70]:
scores[names == 'Mike', 1] # 结合切片，索引使用

array([ 45, 123])

In [80]:
mary_scores = scores[names == 'Mary']
mary_scores[:] = -999 # 使用布尔型索引得到的总是副本，即使是一模一样的结果
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [ 78,  89],
       [ 90, 101],
       [110, 123]])

In [82]:
scores[names == 'Mary'] = 0 # 通过该方式设置整个区域的值很方便（这个Mary可能是作弊了。。。。）
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [  0,   0],
       [ 90, 101],
       [110, 123]])

In [83]:
scores[names == 'Jack', 0] = 0 # 单科作弊0分处理
scores

array([[ 12,  23],
       [ 34,  45],
       [ 56,  67],
       [  0,   0],
       [  0, 101],
       [110, 123]])

### 花式索引 （用于交换调整数组的行列顺序，与其他获取子集不同的是该方式得到的总是副本） 

In [84]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [86]:
arr[[2,0]] # 使用一维数组做索引，达到按照顺序获取axis0的元素的目的

array([[7, 8, 9],
       [1, 2, 3]])

In [90]:
arr[[2,0],[2,0]] # 最终获取到的是arr[2][2]，arr[0][0]这两个元素

array([9, 1])

In [94]:
arr[[2,0]][:,[2,0]] # 这种写法的效果才是先按顺序获取2,0两行，再在基础上按顺序获取2,0两列

array([[9, 7],
       [3, 1]])

In [95]:
arr[np.ix_([2,0],[2,0])] # 使用ix_达到arr[[2,0]][:,[2,0]]一样的效果，本质上ix_就是构建一个获取指定区域的索引器

array([[9, 7],
       [3, 1]])

### 数组转置和轴对换 

#### 2维 

In [96]:
arr = np.arange(16).reshape(4,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [98]:
arr.T # ndarray的一个属性，表示数组对应的转置数组

array([[ 0,  4,  8, 12],
       [ 1,  5,  9, 13],
       [ 2,  6, 10, 14],
       [ 3,  7, 11, 15]])

#### 3维 

In [101]:
arr3d = np.arange(24).reshape(2,3,4)
arr3d

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [103]:
arr3d.T # 数组结构变为4,3,2

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

In [107]:
arr3d.transpose([2,1,0]) #  transpose方法需要给定一个指定轴角标顺序的集合，指定[2,1,0]等价于arr.T

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

In [109]:
arr3d.swapaxes(0,2) # 交换某两个轴角标，同样等价于transpose([2,1,0])，因此轴1没变，本质上只需要交换0，2就好

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

## 通用函数：快速的元素级数组函数 

ufunc：看做是一般函数的矢量化封装，使得操作作用于数组中的每个元素，比如sqrt，exp；

### 一元ufunc 

In [112]:
arr = np.arange(9)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [113]:
np.sqrt(arr) # 不会修改数据源

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712])

In [114]:
np.exp(arr) # e的指数

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03])

In [115]:
arr2d = np.array([[1,2,3],[2,1,3],[3,2,1]])
np.max(arr2d)

3

In [121]:
arr_float = np.arange(9).reshape(3,3) / 5. # 返回多个数组的通用函数，modf用于整数小数的分离
print arr_float
np.modf(arr_float)

[[ 0.   0.2  0.4]
 [ 0.6  0.8  1. ]
 [ 1.2  1.4  1.6]]


(array([[ 0. ,  0.2,  0.4],
        [ 0.6,  0.8,  0. ],
        [ 0.2,  0.4,  0.6]]), array([[ 0.,  0.,  0.],
        [ 0.,  0.,  1.],
        [ 1.,  1.,  1.]]))

### 常用一元ufunc 

* abs/fabs：求整数，浮点数，复数的绝对值，对于非复数，可以使用更快的fabs；
* sqrt：开平方；
* square：2次方；
* exp：计算指数e的X次方；
* log、log10、log2、log1p：分别对应自然对数（底数为e）、底数为10的log、底数为2的log、log(1+x)；
* sign：计算正负号，1代表整数，0代表0，,1代表负数；
* ceil：大于等于该值的最小整数；
* floor：小于等于该值的最大整数；
* rint：四舍五入到最近的整数，保留dtype；
* modf：将整数和小数分开返回；
* isnan：返回一个哪些元素不是数字的布尔型数组；
* isfinite/isinf：返回一个哪些数是 有穷/无穷 的布尔型数组；
* cos/cosh/sin/sinh/tan/tanh：普通型和双曲线的三角函数；
* arccos/arccosh/arcsin/arcsinh/arctan/arctanh：反三角函数；
* logical_not：计算not x的真值，相当于-arr；

### 二元ufunc 

In [117]:
np.maximum(arr2d[0], arr2d[1]) # 逐位比较大小，将结果组成一个维度低一级的数组返回

array([2, 2, 3])

In [118]:
arr3d = np.arange(24).reshape(2,3,4)
np.maximum(arr3d[0], arr3d[1])

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

### 常用二元ufunc 

* add/subtract/multiply/divide：数组的加减乘除，相当于+,-,*,/；
* floor_divide：向下圆整除法，丢弃余数；
* power：针对每个数组A中的元素，取对应位置的数组B中的元素做次方运算；
* maximum/fmax/minimum/fmin：最大最小元素级计算，fxxx会忽略NaN；
* mod：求模运算；
* copysign：将参数二数组中的符号付给参数一的数组中的元素；
* greater/greater_equal/less/less_equal/equal/not_equal：>、>=、<、<=、==、!=；
* logical_and/logical_or/logical_xor：&、|、^；

## 利用数组进行数据处理 