# Numpy.array的基本操作

In [1]:
import numpy as np

In [2]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
X = np.arange(15).reshape(3,5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

## 基本属性

In [4]:
# 查看数组的维度ndim
x.ndim

1

In [5]:
X.ndim

2

In [6]:
# 查看数组的形状,
x.shape

(10,)

说明只有一个维度，这个维度有10个元素

In [7]:
X.shape

(3, 5)

## 数据访问

In [8]:
#跟普通的array一样的，加上索引号就好了
x[0]

0

In [9]:
# 最后一个元素
x[-1]

9

In [10]:
X[(2,2)]
# 这样是最规范的，
# 当然X[2,2]是更常见的写法，不建议X[0][0]的写法

12

## 切片

In [11]:
x[0:5]

array([0, 1, 2, 3, 4])

In [12]:
# 不写的话默认从头开始
x[:5]

array([0, 1, 2, 3, 4])

In [13]:
# 或者默认走到最后
x[5:]

array([5, 6, 7, 8, 9])

In [14]:
# 还可以设置步长,这里设置为2
x[::2]

array([0, 2, 4, 6, 8])

In [15]:
# 步长如果是-1的话，那就是倒序了
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [16]:
# 对于二维数组，也是可以用切片的
# 这样取到的就是前两行，前三列的二维数组
# 不要用X[:2][:3]这种模式，python会先解析X[;2],
# 再把它作为一个整体取[:3]，就不是我们想要的了
X[:2,:3]

array([[0, 1, 2],
       [5, 6, 7]])

In [17]:
#访问前两行，但是每一行的间隔都为2
X[:2,::2]

array([[0, 2, 4],
       [5, 7, 9]])

In [18]:
# 整个倒个
X[::-1,::-1]

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

In [19]:
# 只想取出第一行
X[0]

array([0, 1, 2, 3, 4])

In [20]:
# 也可以用二维的表达法
X[0,:]

array([0, 1, 2, 3, 4])

In [21]:
# 如果想取一列的话，就稍微麻烦一点，取第一列好了
X[:,0]

array([ 0,  5, 10])

## subX

In [22]:
subX = X[:2,:3]
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [23]:
subX[0,0] = 100
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [24]:
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

在subX中改变元素，在numpy中原矩阵的元素也是会被改变的。因为是引用的关系，同理，改变X中的元素，在subX中也是会被改变的。如果不想这样的话

In [25]:
# 就再用个copy就好了
subX = X[:2,:3].copy()
subX

array([[100,   1,   2],
       [  5,   6,   7]])

## Reshape

In [26]:
#reshape(2,5)中的2，5仍然是一个元组，只是可以不写而已。
A = x.reshape(2,5)
A
#与上面不同，这就是创建了一个新的矩阵了，是不会改变x自身的

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [27]:
# x本身是一维矩阵，但是可以用reshape的方法把它修改为2维度的
B = x.reshape(1,10)
B

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [28]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
B.ndim

2

In [30]:
# 在reshape的时候我们可能只想指定一个维度，那另一个维度就可以让
# reshape帮我们计算
x.reshape(10,-1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [31]:
x.reshape(-1,10)

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [32]:
x.reshape(2,-1)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

# 合并和分割

## 合并

In [33]:
x = np.array([1,2,3])
y = np.array([3,2,1])

In [34]:
# 我想获得一个1*6的向量
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [35]:
z = np.array([6,6,6])

In [36]:
np.concatenate([x,y,z])

array([1, 2, 3, 3, 2, 1, 6, 6, 6])

In [37]:
A = np.array(([1,2,3],
             [4,5,6]))

In [38]:
np.concatenate([A,A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [39]:
# 横着插入,axis是轴的意思，默认为0，就是竖着，1就是横着
np.concatenate([A,A],axis=1)
# 只要数据支持，axis还可以填更高的.

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [40]:
# 如果不将z进行变形，是会报错的，concatenate只能处理同一维度的矩阵
np.concatenate([A,z.reshape(1,-1)])

array([[1, 2, 3],
       [4, 5, 6],
       [6, 6, 6]])

上面的拼接后的矩阵都是新的矩阵，就不存在引用的问题，A永远是原来的样子

 如果嫌concatanate只能处理同一纬度的矩阵？那就试试下面的函数叭,它会在竖直层面自动地判断应该如何叠加，水平岑么也会有hstack的

In [41]:
np.vstack([A,z])

array([[1, 2, 3],
       [4, 5, 6],
       [6, 6, 6]])

In [42]:
B = np.full((2,2),100)
B

array([[100, 100],
       [100, 100]])

In [43]:
np.hstack([A,B])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

## 分割

In [44]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
x1,x2,x3 = np.split(x,[3,7])

In [46]:
x1

array([0, 1, 2])

In [47]:
x2

array([3, 4, 5, 6])

In [48]:
x3

array([7, 8, 9])

In [49]:
# 上面传入了一个数组，把原有的数据分成了三段
# 如果想要分成两端，也是要用【】把一个数字括起来的
x1,x2 = np.split(x,[5])

In [50]:
x1

array([0, 1, 2, 3, 4])

In [51]:
x2

array([5, 6, 7, 8, 9])

In [52]:
A = np.arange(16).reshape((4,4))
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [53]:
A1,A2 = np.split(A,[2])

In [54]:
A1

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [55]:
A2

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

默认情况下，仍然是以行，即是第0个轴进行分割

In [56]:
A1,A2 = np.split(A,[2],axis=1)
A1

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [57]:
#与合并类似的，也有更加简单直观的函数
upper,lower = np.vsplit(A,[2])
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [58]:
left,right = np.hsplit(A,[2])
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

# 矩阵运算

In [59]:
n = 10
L = [i for i in range(n)]

In [60]:
2*L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

从结果可以看到，列表是不支持自己的数据相乘的

In [61]:
## 那就这样？
A = []
for e in L:
    A.append(2*e)
##或者这样
A = [2*e for e in L]

In [62]:
# 如果是用Numpy的话,就可以用这种方式，而且速度是更快的，被优化过了
L = np.arange(n)
A = np.array(2*e for e in L)

In [63]:
# list不支持的自乘方式，它也是支持了的
A = 2*L
A

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

# Universal Functions

In [64]:
X = np.arange(1,16).reshape((3,5))
X

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [65]:
X + 1

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [66]:
X - 1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [67]:
X * 2

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20],
       [22, 24, 26, 28, 30]])

In [68]:
X / 2

array([[0.5, 1. , 1.5, 2. , 2.5],
       [3. , 3.5, 4. , 4.5, 5. ],
       [5.5, 6. , 6.5, 7. , 7.5]])

In [69]:
# 整数的除法
X // 2

array([[0, 1, 1, 2, 2],
       [3, 3, 4, 4, 5],
       [5, 6, 6, 7, 7]], dtype=int32)

In [70]:
# 乘方
X ** 2

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225]], dtype=int32)

In [71]:
# 取余
X % 2

array([[1, 0, 1, 0, 1],
       [0, 1, 0, 1, 0],
       [1, 0, 1, 0, 1]], dtype=int32)

In [72]:
# 取倒数
1 / X

array([[1.        , 0.5       , 0.33333333, 0.25      , 0.2       ],
       [0.16666667, 0.14285714, 0.125     , 0.11111111, 0.1       ],
       [0.09090909, 0.08333333, 0.07692308, 0.07142857, 0.06666667]])

In [73]:
# 求绝对值
np.abs(X)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [74]:
# 求三角函数，其他的三角函数同理
np.sin(X)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427],
       [-0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111],
       [-0.99999021, -0.53657292,  0.42016704,  0.99060736,  0.65028784]])

In [75]:
# 取e的X次方
np.exp(X)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01,
        1.48413159e+02],
       [4.03428793e+02, 1.09663316e+03, 2.98095799e+03, 8.10308393e+03,
        2.20264658e+04],
       [5.98741417e+04, 1.62754791e+05, 4.42413392e+05, 1.20260428e+06,
        3.26901737e+06]])

In [76]:
# 如果不想以e为底
np.power(3,X)

array([[       3,        9,       27,       81,      243],
       [     729,     2187,     6561,    19683,    59049],
       [  177147,   531441,  1594323,  4782969, 14348907]], dtype=int32)

In [77]:
# 当然，这个和下面的写法没什么区别
3 ** X

array([[       3,        9,       27,       81,      243],
       [     729,     2187,     6561,    19683,    59049],
       [  177147,   531441,  1594323,  4782969, 14348907]], dtype=int32)

In [78]:
# 不写底数默认以e为底
np.log(X)

array([[0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791],
       [1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509],
       [2.39789527, 2.48490665, 2.56494936, 2.63905733, 2.7080502 ]])

In [79]:
np.log2(X)

array([[0.        , 1.        , 1.5849625 , 2.        , 2.32192809],
       [2.5849625 , 2.80735492, 3.        , 3.169925  , 3.32192809],
       [3.45943162, 3.5849625 , 3.70043972, 3.80735492, 3.9068906 ]])

## 矩阵之间的运算

In [80]:
A = np.arange(4).reshape(2,2)
A

array([[0, 1],
       [2, 3]])

In [81]:
B = np.full((2,2),10)
B

array([[10, 10],
       [10, 10]])

In [82]:
# 加减同理
A + B

array([[10, 11],
       [12, 13]])

In [83]:
# numpy中这里的乘法是对应元素的乘法，与矩阵乘法定义不一，除法也是这样
A * B

array([[ 0, 10],
       [20, 30]])

### 矩阵乘法

In [84]:
# 标准的矩阵乘法
A.dot(B)

array([[10, 10],
       [50, 50]])

### 矩阵转置

In [85]:
# 转置
A.T

array([[0, 2],
       [1, 3]])

如果矩阵之间不能运算的话那就会报错的，我懒得打了

In [86]:
v = np.array([1,2])

In [87]:
A

array([[0, 1],
       [2, 3]])

In [88]:
# 这样其实是向量与矩阵中的每一行做加法，在数学上是没意义的
v + A

array([[1, 3],
       [3, 5]])

In [89]:
# 把v落成有A的行那么高的矩阵，这里传入的是列表
np.vstack([v]*A.shape[0])

array([[1, 2],
       [1, 2]])

In [90]:
# 这样就能得到合理的运算结果了，即矩阵与矩阵之间的加法
np.vstack([v]*A.shape[0]) + A

array([[1, 3],
       [3, 5]])

In [91]:
# 也可以这么堆叠
np.tile(v,(2,1))

array([[1, 2],
       [1, 2]])

In [92]:
# 这个依然是元素对应之间的乘法，不是我们常规的
v * A

array([[0, 2],
       [2, 6]])

### 矩阵与向量的乘法

In [93]:
# 这样就对了
v.dot(A)

array([4, 7])

In [94]:
# 当向量和矩阵进行乘法的时候，numpy会自动的帮我们判断
# 向量应该是行向量还是列向量，所以v没有设定是OK的
A.dot(v)

array([2, 8])

### 矩阵的逆

In [95]:
A

array([[0, 1],
       [2, 3]])

In [96]:
invA = np.linalg.inv(A)

In [97]:
invA.dot(A)

array([[1., 0.],
       [0., 1.]])

In [98]:
# 伪逆矩阵,X是什么随便吧，我懒得打了。
pinvX = np.linalg.pinv(X)

# 聚合

## 向量上的聚合

In [99]:
L = np.random.random(100)
L

array([0.42525799, 0.96594925, 0.20182412, 0.63837325, 0.31010669,
       0.16263766, 0.97744384, 0.28966416, 0.42963366, 0.26973909,
       0.87387974, 0.21813167, 0.2008299 , 0.91860972, 0.22231809,
       0.42089319, 0.2453091 , 0.40608236, 0.46924393, 0.49821447,
       0.84891883, 0.88945615, 0.54664442, 0.82504859, 0.72514834,
       0.5673246 , 0.27148953, 0.87879971, 0.43972652, 0.13627389,
       0.18455931, 0.03800901, 0.96852593, 0.31799438, 0.69898534,
       0.33201483, 0.87267989, 0.17652437, 0.7505474 , 0.82449244,
       0.68014898, 0.20679891, 0.57081465, 0.40462841, 0.90969244,
       0.95651596, 0.12678418, 0.97948815, 0.78698444, 0.88531049,
       0.27527114, 0.16130278, 0.8619607 , 0.4806539 , 0.31812066,
       0.11340642, 0.20070517, 0.95911756, 0.66433601, 0.77178088,
       0.716054  , 0.79827939, 0.46168742, 0.01121623, 0.78985077,
       0.50675573, 0.62602766, 0.82359086, 0.45342257, 0.13183822,
       0.39429101, 0.82537732, 0.17119834, 0.30141829, 0.42897

In [100]:
sum(L)

49.820358934560325

In [101]:
np.sum(L)

49.820358934560325

计算结果是一样的，但是还是和以前一样,numpy的sum是经过优化了的，更快

In [102]:
np.min(L)

0.011216232330254261

In [103]:
np.max(L)

0.9794881521988716

## 矩阵的聚合

In [104]:
X = np.arange(16).reshape(4,-1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [105]:
# 所有的元素相加
np.sum(X)

120

In [106]:
# axis代表的就是沿着某一个维度进行运算的意思，那现在沿着
# 行进行运算，就是逐列进行运算的意思。
np.sum(X,axis=0)

array([24, 28, 32, 36])

In [107]:
# 逐行运算
np.sum(X,axis=1)

array([ 6, 22, 38, 54])

In [108]:
# 所有元素相乘
np.prod(X)

0

In [109]:
np.prod(X + 1)

2004189184

In [110]:
# 均值
np.mean(X)

7.5

In [111]:
# 中位数
np.median(X)

7.5

In [112]:
# 百分位 
np.percentile(X,q=50)
# 就是有百分之50的元素都是小于等于这个7.5的

7.5

In [113]:
# 大致的百分位点的情况显示
for percent in [0,25,50,75,100]:
    print(np.percentile(X,q=percent))

0.0
3.75
7.5
11.25
15.0


In [114]:
# 方差
np.var(X)

21.25

In [115]:
# 标准差
np.std(X)

4.6097722286464435

# 索引

In [116]:
X = np.random.normal(0,1,size=1000000)

In [117]:
# 告诉我们最小值是多少
np.min(X)

-4.922691371572037

In [118]:
# 告诉我们最小值在哪
np.argmin(X)

556973

In [119]:
# 你看，是一样的（哎，我忘了设没设随机种子了，再次运行的时候可能就不准了）
X[687853]

0.5865115015341427

In [120]:
# 最大的
np.argmax(X)

179171

## 排序和使用索引

In [121]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [122]:
# 这就打乱了
np.random.shuffle(x)
x

array([15,  0,  5, 13,  2, 14, 10,  7, 11,  9,  1,  3,  6,  8, 12,  4])

In [123]:
# 用sort把它给再排好序，sort返回的是一个新的
T = np.sort(x)
T

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [124]:
x

array([15,  0,  5, 13,  2, 14, 10,  7, 11,  9,  1,  3,  6,  8, 12,  4])

In [125]:
x.sort()
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [126]:
# 对于二维矩阵
X = np.random.randint(10,size=(4,4))
X

array([[2, 1, 7, 8],
       [7, 2, 7, 0],
       [0, 0, 6, 1],
       [4, 3, 7, 5]])

In [127]:
# 这就是把每一行都排好序了
np.sort(X)

array([[1, 2, 7, 8],
       [0, 2, 7, 7],
       [0, 0, 1, 6],
       [3, 4, 5, 7]])

In [128]:
# 你会发现好像没有什么变化，因为sort函数的axis默认值为1
np.sort(X,axis=1)

array([[1, 2, 7, 8],
       [0, 2, 7, 7],
       [0, 0, 1, 6],
       [3, 4, 5, 7]])

In [130]:
# 这样每一列就都是有序的了
np.sort(X,axis=0)

array([[0, 0, 6, 0],
       [2, 1, 7, 1],
       [4, 2, 7, 5],
       [7, 3, 7, 8]])

In [131]:
# 再把它打乱
np.random.shuffle(x)
x

array([ 8,  4, 13, 11,  5,  0, 15,  7,  3,  9, 10, 12, 14,  6,  2,  1])

In [132]:
# 这个函数就返回从小到大的索引值，第一小的就在原来数组的第五个位置
np.argsort(x)

array([ 5, 15, 14,  8,  1,  4, 13,  7,  0,  9, 10,  3, 11,  2, 12,  6],
      dtype=int64)

In [133]:
# 标定点,快速排序的内容，在3前面的数字都比3要小，3后的数字都比3要大，但不保证有序
np.partition(x,3)

array([ 0,  1,  2,  3,  4,  5,  6,  7, 15,  9, 10, 12, 14, 11, 13,  8])

In [134]:
# 返回索引，对比x和partition（x，3）来看
np.argpartition(x,3)

array([ 5, 15, 14,  8,  1,  4, 13,  7,  6,  9, 10, 11, 12,  3,  2,  0],
      dtype=int64)

In [135]:
# 矩阵类比,记得返回的是索引啊，此时按行进行排序
np.argsort(X,axis=1)

array([[1, 0, 2, 3],
       [3, 1, 0, 2],
       [0, 1, 3, 2],
       [1, 0, 3, 2]], dtype=int64)

## Fancy lindexing

In [137]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [138]:
#这样出来的是3，5，7，但如果我想要3，5，8怎么办？
x[3:9:2]

array([3, 5, 7])

In [139]:
# 把索引放入这个列表中
ind = [3,5,8]
x[ind]

array([3, 5, 8])

In [141]:
#设置好索引，形状也给你安排上
ind = np.array([[0,2],
                [1,3]])
# 形状被ind决定，值由ind内的索引决定
x[ind]

array([[0, 2],
       [1, 3]])

In [142]:
X = x.reshape(4,-1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [144]:
# 这样写，最终真正输出的就是（0，1）（1，2）（2，3）上的数值了。向下向右数。
row = np.array([0,1,2])
col = np.array([1,2,3])
X[row,col]

array([ 1,  6, 11])

In [145]:
X[0,col]

array([1, 2, 3])

In [146]:
X[:2,col]

array([[1, 2, 3],
       [5, 6, 7]])

In [147]:
col =[True,False,True,True]
X[1:3,col]

array([[ 4,  6,  7],
       [ 8, 10, 11]])

In [148]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [149]:
x < 3

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [150]:
x <= 3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [151]:
#可以得到更加复杂的逻辑,二维矩阵同理
2*x == 24 - 4*x

array([False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False])

numpy中还有all和any这样的方法，哎好累啊不管了

In [152]:
x[x<5]

array([0, 1, 2, 3, 4])