# 魔法命令

### %run：载入并运行模块

In [2]:
%run mymoudles\currtime.py

Current time: Tue Jan 23 21:40:11 2018


### %timeit：测试多次运行时间取最好平均

In [3]:
%timeit l = [(i**3) for i in range(1000)]

397 µs ± 2.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [4]:
%%timeit
l = []
for i in range(100000):
    l.append(i**2)

45.2 ms ± 840 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### %time：测试一次运行时间

In [5]:
%time l = [i**3 for i in range(1000)]

Wall time: 1 ms


In [6]:
%%time
l = []
for i in range(100000):
    l.append(i**2)

Wall time: 50 ms


### %lsmagic：魔法命令列表

### %name? ：魔法命令查询

# NumPy

In [1]:
import numpy as np

## dtype：必须注意数据的dtype类型，避免产生错误截断！！！

### np.full：填充自定义数字，类似于zeros和ones

In [8]:
np.full(shape=(3,5), fill_value=666.0)

array([[ 666.,  666.,  666.,  666.,  666.],
       [ 666.,  666.,  666.,  666.,  666.],
       [ 666.,  666.,  666.,  666.,  666.]])

### np.arange：类似于range但更强大，步长可以设为小数

In [9]:
np.arange(0, 5, 0.5)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5])

### np.linspace：在一个区间等长返回num个点（interval=(start-end)/(num-1)）

In [10]:
np.linspace(start=1, stop=10, num=10, retstep=True) #num默认为50

(array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.]), 1.0)

In [11]:
np.linspace(start=1, stop=10, num=10, endpoint=False, retstep=True)

(array([ 1. ,  1.9,  2.8,  3.7,  4.6,  5.5,  6.4,  7.3,  8.2,  9.1]),
 0.90000000000000002)

### np.random.randint：在左闭右开区间随机一个整数

In [12]:
np.random.randint(0, 10)

3

In [13]:
np.random.randint(0, 10, size=(3,5))

array([[2, 0, 9, 8, 1],
       [3, 4, 7, 8, 4],
       [1, 1, 6, 3, 9]])

### np.random.seed：设置随机数种子，可用于调试随机算法

In [14]:
np.random.seed(27)
np.random.randint(0, 10, size=(3,5))

array([[3, 8, 8, 8, 0],
       [5, 8, 9, 1, 2],
       [1, 1, 4, 6, 3]])

In [15]:
np.random.seed(27)
np.random.randint(0, 10, size=(3,5))

array([[3, 8, 8, 8, 0],
       [5, 8, 9, 1, 2],
       [1, 1, 4, 6, 3]])

### np.random.random：生成一个0到1之间的随机浮点数

In [16]:
np.random.random()

0.7492622137435189

In [17]:
np.random.random(4)

array([ 0.87014472,  0.18675584,  0.32556672,  0.37293743])

In [18]:
np.random.random((3,5))

array([[ 0.79371303,  0.15106027,  0.1699427 ,  0.08116909,  0.30517534],
       [ 0.7832898 ,  0.16290618,  0.0706413 ,  0.70107117,  0.18097988],
       [ 0.59891725,  0.41526365,  0.51357225,  0.22065617,  0.72557301]])

### np.random.normal：生成一个服从正态分布的随机数

In [19]:
np.random.normal()

-0.1705928048543867

In [20]:
np.random.normal(loc=10, scale=100, size=(3,5)) #loc为均值，scale为方差

array([[ 181.91341132,  267.18677779,   -9.33800309,   18.15112033,
          55.6326603 ],
       [ -74.32288279,  162.67531492,   54.25152682,   31.5025501 ,
         109.68235545],
       [-104.75620131,  115.6678254 ,   15.68219076,    7.93774376,
          91.1681599 ]])

### np.random.shuffle：使一个数组随机排序

In [33]:
arr = np.arange(9).reshape((3, 3)) #对于二维数组axis=0
np.random.shuffle(arr)
arr

array([[0, 1, 2],
       [6, 7, 8],
       [3, 4, 5]])

## 函数名/模块名?：查询函数/模块用法（页外）

In [21]:
np.absolute?

## help(函数名/模块名)：查询函数/模块用法（页内）

In [22]:
#help(np.absolute)

# numpy.array基本属性

### ndim：数组的维度

In [28]:
x = np.arange(10)
x.ndim

1

In [41]:
X = np.arange(15).reshape(3, 5)
X.ndim

2

### shape：数组的规模

In [30]:
x.shape

(10,)

In [31]:
X.shape

(3, 5)

### size：数组的长度（元素个数）

In [32]:
x.size

10

In [33]:
X.size

15

# np.array的数据访问

## var[a, b, ..., n]：访问单一元素

In [42]:
print(X)
X[1, 3] #numpy不推荐使用多方括号操作

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


8

## var[dim1, dim2, ..., dimn]：取子数组（numpy切片，需对每一个维度分别操作）

### 上述方法取得的子数组与原数组相互引用！！！即对子数组元素的改变会影响到原数组，反之亦然

In [43]:
X[:, 1:3] #取第1，2列（从0计数）

array([[ 1,  2],
       [ 6,  7],
       [11, 12]])

In [44]:
X[::-1, ::-1] #全逆序排序

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

## np.copy：复制一个array副本（这样的两个数组无关联）

In [50]:
subX = X[:2, :3].copy()
subX

array([[0, 1, 2],
       [5, 6, 7]])

## np.reshape：由已有数组产生一个规定规模的新数组（原数组不变）

In [53]:
x.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### reshape可以设置某一维度为-1，让系统自己计算此维度元素数量（必须可以整除，否则报错）

In [55]:
y = x.reshape(5, -1) #表示一个固定为5行的矩阵
y

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

# numpy合并操作

## np.concatenate：合并多个同规模数组

In [64]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.array([999, 999, 999, 999])
np.concatenate([a, b, c]) #向量按顺序拼接

array([  1,   2,   3,   4,   5,   6, 999, 999, 999, 999])

### 矩阵纵向拼接（类似于添加样本）

In [58]:
A = np.array([[1, 2, 3], 
              [4, 5, 6]])
np.concatenate([A, A]) #矩阵拼接需同规模

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

### 矩阵横向拼接：axis（类似于添加特征）

In [67]:
np.concatenate([A, A], axis=1) # axis表示从设置的维度拼接，默认为0（即第一个维度）

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

##### 矩阵规模必须相同，否则需统一（向量可不同）

In [60]:
B = np.array([666, 666, 666])
np.concatenate([A, B.reshape(1, -1)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

## np.vstack：纵向合并数组（列数必须相同）

In [73]:
np.vstack([A, B])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

## np.hstack：横向拼接数组（行数必须相同）

In [77]:
np.hstack([A, np.vstack([B, B])]) #使用vstack将向量变成同规模矩阵

array([[  1,   2,   3, 666, 666, 666],
       [  4,   5,   6, 666, 666, 666]])

# numpy分割操作

## np.split：可按轴自定义分割数组（不含尾）

- 分割向量

##### 单元素情况（必须得整除）

In [15]:
x = np.arange(10)
np.split(x, 5)

[array([0, 1]), array([2, 3]), array([4, 5]), array([6, 7]), array([8, 9])]

##### 切片情况（左闭右开）

In [17]:
x1, x2, x3 = np.split(x, [3, 7])
x1, x2, x3

(array([0, 1, 2]), array([3, 4, 5, 6]), array([7, 8, 9]))

- 分割矩阵

##### 纵向分割：默认

In [39]:
A = np.arange(16).reshape((4,4)) #可省略圆括号
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [38]:
upper, lower = np.split(A, [2]) #可省略方括号
upper

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [27]:
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

##### 横向分割：axis

In [31]:
left, right = np.split(A, [2], axis=1) #从维度1进行分割，也就是分割成列
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [30]:
right

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

## np.vsplit：纵向分割数组

In [32]:
upper, lower = np.vsplit(A, [2]) #可省略方括号
upper

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [33]:
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

## np.hsplit：横向分割数组

In [34]:
left, right = np.hsplit(A, [2]) #可省略方括号
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [35]:
right

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

### 上述方法可用于分割数据集

In [37]:
data = np.arange(16).reshape(4, 4)
X, y = np.hsplit(data, [-1])
X

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [40]:
y

array([[ 3],
       [ 7],
       [11],
       [15]])

### 小技巧：将上述标签y由矩阵变为向量

In [43]:
y[:, -1]

array([ 3,  7, 11, 15])

# numpy矩阵运算

### 常量与矩阵：对应元素运算

- Universal functions：+，-，<，==，!=，np.sin，np.log，np.power，表达式 ...

In [82]:
A = np.arange(10)
A * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [87]:
X = np.arange(1, 16).reshape((3, 5))
X - 1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [88]:
X ** 2

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225]], dtype=int32)

In [89]:
1 / X

array([[ 1.        ,  0.5       ,  0.33333333,  0.25      ,  0.2       ],
       [ 0.16666667,  0.14285714,  0.125     ,  0.11111111,  0.1       ],
       [ 0.09090909,  0.08333333,  0.07692308,  0.07142857,  0.06666667]])

In [90]:
np.arctan(X)

array([[ 0.78539816,  1.10714872,  1.24904577,  1.32581766,  1.37340077],
       [ 1.40564765,  1.42889927,  1.44644133,  1.46013911,  1.47112767],
       [ 1.48013644,  1.48765509,  1.49402444,  1.49948886,  1.50422816]])

In [51]:
X == 3

array([[False, False, False,  True],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]], dtype=bool)

In [55]:
x = np.arange(16)
x * 2 == 24 - 4 * x

array([False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False], dtype=bool)

###  矩阵与矩阵

- 矩阵加/减/乘/除：对应元素进行加/减/乘/除

In [94]:
A = np.arange(4).reshape(2, 2)
A

array([[0, 1],
       [2, 3]])

In [95]:
B = np.full((2, 2), 10)
B

array([[10, 10],
       [10, 10]])

In [96]:
A * B

array([[ 0, 10],
       [20, 30]])

- 矩阵乘法：np.dot

In [92]:
A.dot(B)

array([[10, 10],
       [50, 50]])

- 矩阵转置

In [97]:
A.T

array([[0, 2],
       [1, 3]])

- 矩阵求逆（方阵）

In [106]:
np.linalg.inv(A)

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

- 伪逆矩阵（非方阵）

In [109]:
B = np.arange(6).reshape(2, 3)
pB = np.linalg.pinv(B)
pB

array([[-0.77777778,  0.27777778],
       [-0.11111111,  0.11111111],
       [ 0.55555556, -0.05555556]])

In [110]:
B.dot(pB) #原矩阵与逆矩阵的乘积为单位阵

array([[  1.00000000e+00,  -1.11022302e-16],
       [  2.66453526e-15,   1.00000000e+00]])

### 向量与矩阵

- 加/减/乘/除：对应元素进行运算，维数不匹配时会自动向高维扩展

In [99]:
v = np.array([1, 2])
v + A

array([[1, 3],
       [3, 5]])

#### np.tile：扩展数组

In [101]:
np.tile(v, 2)

array([1, 2, 1, 2])

In [102]:
np.tile(v, [2, 2])

array([[1, 2, 1, 2],
       [1, 2, 1, 2]])

- np.dot：自动转换成规范形式运算，所以不同的运算顺序得到的结果不同！！！

In [103]:
v.dot(A)

array([4, 7])

In [105]:
A.dot(v) #这里将2*2与1*2做乘法，numpy将自动把1*2转换为2*1再进行计算

array([2, 8])

# numpy聚合运算

### np.sum：求和运算，比原生sum更快，可用表达式

##### 全部求和：默认

In [113]:
big = np.random.random(10000)
#%timeit sum(big)
#%timeit np.sum(big)
np.sum(big)

4983.4064591246033

##### 纵向求和：axis=0（列求和）

In [116]:
X = np.arange(16).reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [117]:
np.sum(X, axis=0)

array([24, 28, 32, 36])

##### 横向求和：axis=1（行求和）

In [118]:
np.sum(X, axis=1)

array([ 6, 22, 38, 54])

### np.prod：数组求积

In [120]:
A = np.arange(6).reshape(2, 3)
A

array([[0, 1, 2],
       [3, 4, 5]])

In [124]:
np.prod(A + 1)

720

### np.mean：沿轴计算均值

##### 全部求均值：默认

In [125]:
X = np.arange(16).reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [130]:
np.mean(X)

7.5

##### 纵向求均值：axis=0（返回1*n）

In [126]:
np.mean(X, axis=0)

array([ 6.,  7.,  8.,  9.])

##### 横向求均值：axis=1（返回m*1）

In [127]:
np.mean(X, axis=1)

array([  1.5,   5.5,   9.5,  13.5])

### np.min/max：沿轴计算最小/最大值

### np.median：沿轴计算中位数

### np.percentile：沿轴计算百分位数

### np.var：沿轴计算方差

### np.std：沿轴计算标准差

# numpy索引运算

### np.argmin/argmax：沿轴返回最小值/最大值的索引

### np.sort：沿轴为数组排序（axis默认为1）

In [36]:
x = np.random.randint(10, size=(4, 4))
np.sort(x) #不影响原数组

array([[0, 1, 3, 5],
       [0, 1, 1, 9],
       [0, 2, 5, 7],
       [3, 4, 8, 9]])

In [39]:
x.sort() #改变原数组
x

array([[0, 1, 3, 5],
       [0, 1, 1, 9],
       [0, 2, 5, 7],
       [3, 4, 8, 9]])

### np.argsort：沿轴对索引排序

### np.partition：沿轴快排划分数组

In [43]:
x = np.arange(10)
np.partition(x, 7) #选取中轴为7，划分后的左右两部分均为无序的

array([1, 0, 2, 3, 4, 6, 5, 7, 8, 9])

### np.argpartition：沿轴返回划分数组的索引

# numpy的高阶索引：Fancy indexing

- 变量索引：用一个或多个变量来表示索引

In [44]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

##### 一维变量索引：

In [45]:
ind = [3, 5, 8]
x[ind]

array([3, 5, 8])

##### 二维变量索引：

In [46]:
ind = np.array([[0, 5],
                [3, 2]])
x[ind] #单个变量情况

array([[0, 5],
       [3, 2]])

In [47]:
X = x.reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [48]:
row = np.array([0, 1, 2])
col = np.array([1, 2, 3])
X[row, col] #多个变量情况

array([ 1,  6, 11])

In [49]:
X[:, col] #与切片搭配

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11],
       [13, 14, 15]])

- 布尔索引：保留值为True的行或列，丢弃为False的

In [50]:
col = [True, False, True, True]
X[:, col]

array([[ 0,  2,  3],
       [ 4,  6,  7],
       [ 8, 10, 11],
       [12, 14, 15]])

- 表达式索引：用表达式求得的值来表示索引

In [76]:
x[x < 5]
x[x % 2 == 0]
X[X[:, 3] % 3 == 0, :] #求矩阵每一行最后一个元素可以被3整除的行

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

### 对np.sum运用表达式

In [66]:
x = np.arange(16)
np.sum(x < 4) #返回总共符合表达式要求的数量

4

In [67]:
X = np.arange(16).reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [68]:
np.sum(X % 2 == 0) #计算矩阵中偶数的个数

8

In [69]:
np.sum(X % 2 == 0, axis=1) #沿轴计算矩阵中偶数的个数

array([2, 2, 2, 2])

In [72]:
np.sum((x > 3) & (x < 10)) #计算符合复合表达式的值，必须用位运算符号连接
np.sum((x % 2 == 0) | (x > 10))
np.sum(~(x == 0))

15

### np.count_nonzero：沿轴计算数组中非零元素个数

In [59]:
np.count_nonzero(x < 4)

4

### np.any：沿轴测试是否存在符合表达式的数组元素

In [61]:
np.any(x == 0) #若存在返回True，否则返回False

True

### np.all：沿轴测试是否所有数组元素都符合表达式

In [65]:
np.all(x < 4) #若全部符合返回True，否则返回False

False