# Lecture 01 Numpy 

## 1. 数组上的数学操作

假如我们想让列表中的每个元素增加1，但列表不支持“直接a+1”的操作，只能够让我们写for循环

In [2]:
a=[1,2,3,4]
[x+1 for x in a]

[2, 3, 4, 5]

与另外一个数组对应元素相加，得到一个新的数组，列表可以做但非常耗时间

In [3]:
b=[2,3,4,5]
a+b #这是拼接两个列表，不是我们想要的对应元素相加

[1, 2, 3, 4, 2, 3, 4, 5]

利用zip配合for循环，我们勉强可以使两个列表的对应元素相加

zip的功能：将a,b两个对象用元组进行封装

In [7]:
[x+y for (x,y) in zip(a,b)]

[3, 5, 7, 9]

In [8]:
[*zip(a,b)]

[(1, 2), (2, 3), (3, 4), (4, 5)]

**如果我们使用NumPy,就会非常简单**

In [9]:
import numpy as np

In [11]:
a = np.array([1,2,3,4])
a

array([1, 2, 3, 4])

In [12]:
a+1

array([2, 3, 4, 5])

In [13]:
a*2

array([2, 4, 6, 8])

In [14]:
b = np.array([2,3,4,5])
a+b

array([3, 5, 7, 9])

## 2. 产生数组

### 2.1 从列表产生数组

In [23]:
l = [0,1,2,3]
a = np.array(l)
a

array([0, 1, 2, 3])

生成全0的数组，其中默认为浮点数

In [24]:
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [25]:
np.zeros(10,dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

生成全1的数组，其中**默认为浮点数**

In [28]:
a = np.ones(6)
a

array([1., 1., 1., 1., 1., 1.])

生成全1的数组，但规定类型为整数型，将**dtype参数**规定为int即可

In [29]:
np.ones(6, dtype="int")

array([1, 1, 1, 1, 1, 1])

使用fill方法，将整个数组设为指定的值

In [30]:
a = np.array([1,2,3,4])
a 

array([1, 2, 3, 4])

In [36]:
a.fill(102)
a

array([102, 102, 102, 102])

In [38]:
a.fill(2.5)
a

array([2, 2, 2, 2])

**居然不是全部变成2.5，原因在于当前数组的默认类型是整数类型**

与列表不同，数组中要求所有元素的dtype是一样的。

如果传入参数的类型和数组类型不一样，需要按照已有的类型进行转换，使用**astype("需要的数据类型")方法**

In [39]:
a = a.astype("float") #强制转换元素的类型
a.fill(2.5)
a

array([2.5, 2.5, 2.5, 2.5])

### 2.2 特定生成数组的方法

生成整数序列

In [73]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [74]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

生成等差数列:linspace(初始值，终点值，元素个数）

In [40]:
np.linspace(1,10,21)

array([ 1.  ,  1.45,  1.9 ,  2.35,  2.8 ,  3.25,  3.7 ,  4.15,  4.6 ,
        5.05,  5.5 ,  5.95,  6.4 ,  6.85,  7.3 ,  7.75,  8.2 ,  8.65,
        9.1 ,  9.55, 10.  ])

生成随机数

In [49]:
np.random.rand(10) #生成一个一维数组，内含10个元素

array([0.1028448 , 0.73729259, 0.46530711, 0.78759544, 0.85952977,
       0.74237703, 0.6439074 , 0.03570564, 0.7464859 , 0.54508777])

In [50]:
np.random.rand(10,3) #生成一个二维数组，10行3列

array([[0.2354413 , 0.61647106, 0.26274081],
       [0.4144389 , 0.59925124, 0.69958132],
       [0.07620362, 0.84553984, 0.87846343],
       [0.67237454, 0.68178598, 0.18261417],
       [0.04366081, 0.81867358, 0.70396021],
       [0.54727677, 0.63919648, 0.36556146],
       [0.61371411, 0.71318248, 0.56214477],
       [0.03345725, 0.53860727, 0.66661567],
       [0.4027842 , 0.8534977 , 0.95116977],
       [0.59718952, 0.0510505 , 0.07156776]])

In [60]:
np.random.randn(10) #服从标准正态分布的10个随机数

array([ 0.18562382,  0.92926999, -1.65852487,  2.58553369,  2.22800612,
       -1.61378678,  0.10247542, -2.58319784,  0.07566494,  0.29186918])

In [62]:
np.random.randn(10,3)

array([[-1.28142057, -1.03665913, -0.57129256],
       [ 0.3814512 , -0.3698336 , -0.09593527],
       [-0.6954615 ,  0.06680527,  0.41235809],
       [ 1.15495755, -0.36259426, -0.15258552],
       [-0.48512259, -0.78279747, -0.89218902],
       [ 0.96216827,  0.45921251, -0.79803688],
       [-1.23304704,  1.10148484, -0.56175718],
       [-0.8231298 , -0.14587558,  0.06295387],
       [ 0.85060943,  0.16036363, -0.81535116],
       [-0.64112596, -0.5952461 ,  1.61341333]])

In [63]:
np.random.randint(1,10,100) #范围[1,10)的100个随机整数

array([1, 2, 3, 7, 9, 5, 2, 4, 3, 9, 4, 3, 1, 7, 1, 9, 1, 4, 1, 6, 7, 9,
       6, 4, 8, 1, 6, 9, 9, 2, 4, 2, 3, 8, 2, 7, 7, 9, 5, 9, 1, 6, 3, 3,
       5, 2, 3, 8, 5, 1, 1, 8, 1, 2, 9, 4, 1, 2, 3, 6, 4, 2, 7, 8, 1, 1,
       1, 5, 2, 8, 1, 2, 6, 5, 8, 7, 6, 8, 2, 2, 5, 3, 7, 4, 7, 5, 6, 5,
       4, 3, 3, 8, 7, 3, 6, 8, 3, 5, 2, 6])

In [83]:
np.random.randint(80,90,100) #范围在[80,90)的100个随机整数

array([88, 80, 82, 88, 82, 80, 81, 86, 86, 88, 89, 82, 87, 80, 87, 82, 80,
       89, 88, 81, 88, 83, 81, 81, 83, 81, 82, 85, 82, 84, 81, 86, 87, 89,
       85, 89, 81, 89, 89, 89, 87, 87, 81, 87, 86, 84, 89, 81, 80, 85, 89,
       85, 85, 82, 88, 81, 87, 85, 84, 89, 85, 84, 85, 87, 85, 84, 87, 81,
       84, 80, 85, 80, 82, 82, 83, 81, 88, 83, 85, 85, 86, 89, 88, 86, 87,
       88, 85, 87, 88, 87, 89, 84, 81, 87, 83, 81, 87, 87, 84, 87])

## 3. 数组属性

查看数组类型：**type( )**方法

In [84]:
a = np.linspace(1,10,21)

In [86]:
type(a) #numpy的n维数组

numpy.ndarray

查看数组中的数据类型：**使用.dtype属性**

In [87]:
a.dtype #浮点数类型

dtype('float64')

查看形状，会返回一个元组，每个元素代表这一维的元素数目

In [89]:
a.shape

(21,)

查看数组里面的元素的数目

In [90]:
a.size

21

查看数组的维度

In [91]:
a.ndim

1

## 4. 数组的索引与切片

### 4.1 一维数组的索引与切片 

索引第一个元素

In [92]:
a = np.array([0,1,2,3])
a[0]

0

修改第一个元素的值

In [93]:
a[0]=10
a

array([10,  1,  2,  3])

切片，支持负索引

In [95]:
a=np.array([11,12,13,14,15])
a[1:3]

array([12, 13])

In [96]:
a[1:-2]

array([12, 13])

In [97]:
a[-4:3]

array([12, 13])

省略参数

In [98]:
a[-2:]

array([14, 15])

In [99]:
a[::2]

array([11, 13, 15])

假设我们记录一部电影的累计票房：

In [100]:
ob = np.array([21000,21800,22240,23450,25000])
ob

array([21000, 21800, 22240, 23450, 25000])

可以计算出每天的票房：后面的数减去前面的数

In [101]:
ob2 = ob[1:]-ob[:-1]
ob2

array([ 800,  440, 1210, 1550])

### 4.2 多维数组及其属性

array还可以用来生成多维数组

In [102]:
a = np.array([[0,1,2,3],
              [10,11,12,13]])
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13]])

事实上我们传入的是一个一列表为元素的列表，最终得到的是一个二维数组

查看形状：

In [103]:
a.shape #2行4列

(2, 4)

查看总的元素个数：

In [104]:
a.size #一共8个元素

8

查看维数：

In [105]:
a.ndim

2

### 4.3 多维数组索引

对于二维数组，可以传入两个数字来进行索引

In [106]:
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13]])

In [109]:
a[1,3]

13

其中，1是行索引，3是列索引，中间用逗号隔开。事实上，Python会将他们看成一个元组(1,3)，然后按照顺序进行对应

In [117]:
a[1,3]=-1
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, -1]])

我们还可以用单个索引来索引一整行或一整列的内容

In [118]:
a[1]   #提取第1行

array([10, 11, 12, -1])

In [119]:
a[:,2] #提取第2列

array([ 2, 12])

### 4.4 多维数组的切片

多维数组也支持切片操作

In [142]:
a = np.array([[0,1,2,3,4,5], 
              [10,11,12,13,14,15], 
              [20,21,22,23,24,25], 
              [30,31,32,33,34,35],
              [40,41,42,43,44,45],
              [50,51,52,53,54,55]
             ])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

提取第一行的第4和第5两个元素

In [143]:
a[0,3:5]

array([3, 4])

得到最后两行的最后两列

In [144]:
a[4:,4:]

array([[44, 45],
       [54, 55]])

得到第三和第四列

In [147]:
a[:,[2,3]]

array([[ 2,  3],
       [12, 13],
       [22, 23],
       [32, 33],
       [42, 43],
       [52, 53]])

查出3，5行的奇数列

In [164]:
a[2::2,::2]

array([[20, 22, 24],
       [40, 42, 44]])

In [127]:
a[[2,4],::2]

array([[20, 22, 24],
       [40, 42, 44]])

### 4.5 切片是引用机制

numypy的切片在内存中使用的是**引用机制**。

In [128]:
a = np.array([0,1,2,3,4])
b = a[2:4]
print(b)

[2 3]


In [131]:
b[0]=1

In [132]:
a

array([0, 1, 1, 3, 4])

我们发现修改了b里面的元素，居然把a里面的元素也修改掉了

引用机制意味着，Python是让b这个指针直接指向了a所分配的内存空间。
因此，改变b的值会改变a的值

但是，Python的列表并不是引用机制，列表的切片会开辟新的空间

In [133]:
a=[1,2,3,4,5]
b=a[2:4]
b[0]=10
print(a)

[1, 2, 3, 4, 5]


引用机制有点在于节省内存，但有时我不想切片出来还会影响原来的数组。此时，使用copy()来解决

In [138]:
a = np.array([1,2,3,4,5])
b = a[2:4].copy()
b[0]=10
a

array([1, 2, 3, 4, 5])

## 5. 花式索引 Fancy Slicing

### 5.1 一维数组的花式索引 

In [157]:
a=np.arange(0,100,10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

花式索引需要指定索引位置

In [158]:
index = [1,2,-3]
y = a[index]
print(y)

[10 20 70]


还可以使用布尔数组来花式索引

In [159]:
mask = np.array([0,2,2,0,0,1,0,0,1,0],dtype=bool)
mask #非0为true,0为false

array([False,  True,  True, False, False,  True, False, False,  True,
       False])

mask必须是布尔数组，且布尔数组的长度与我们要切片的长度必须都是一致的

In [160]:
a[mask]

array([10, 20, 50, 80])

### 5.2 二维花式索引

In [161]:
a = np.array([[0,1,2,3,4,5], 
              [10,11,12,13,14,15], 
              [20,21,22,23,24,25], 
              [30,31,32,33,34,35],
              [40,41,42,43,44,45],
              [50,51,52,53,54,55]
             ])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

返回的是一条次对角线上的5个值

In [167]:
a[[0,1,2,3,4],[1,2,3,4,5]] 
# 理解这个代码：取出的元素是0行1列，1行2列，2行3列....

array([ 1, 12, 23, 34, 45])

**注意区分！这两种完全不同！**

In [174]:
a[0:5,1:6]

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35],
       [41, 42, 43, 44, 45]])

返回最后三行的1，3，5列

In [177]:
a[3:,[0,2,4]]

array([[30, 32, 34],
       [40, 42, 44],
       [50, 52, 54]])

也可以用布尔数组来进行索引

In [181]:
mask=np.array([1,0,1,0,0,1],dtype=bool)
mask

array([ True, False,  True, False, False,  True])

In [184]:
a[mask,:]

array([[ 0,  1,  2,  3,  4,  5],
       [20, 21, 22, 23, 24, 25],
       [50, 51, 52, 53, 54, 55]])

**注意：与切片不同，花式索引返回的是源对象的一个复制而不是直接引用！**

### 5.3 不完全索引

只给行索引，不给列索引，返回的是整行

In [185]:
a[:3]

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

这个时候也可以用花式索引取出2，3，5行

In [186]:
con=np.array([0,1,1,0,1,0],dtype=bool)
a[con]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

In [187]:
a[[False,True,True,False,True,False]]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

## 6. where语句

where函数会返回所有非零元素的索引

In [189]:
a = np.array([0,12,5,20])

判断数组中的元素是不是大于10

In [191]:
a>10

array([False,  True, False,  True])

数组中所有大于10的元素的索引位置

In [193]:
np.where(a>10)

(array([1, 3]),)

注意：where返回出来的是一个元组。返回的索引位置

索引出来大于10的数可以直接用数组操作

In [196]:
a[a>10]

array([12, 20])

In [73]:
a[np.where(a>10)]

array([12, 20])

## 7.数组类型转换

In [207]:
np.array([1,5,-3],dtype=float)

array([ 1.,  5., -3.])

#### asarray(数据，dtype)函数

In [208]:
a=np.array([1,2,3])
np.asarray(a, dtype=float)

array([1., 2., 3.])

#### astype(数据类型)方法：返回的是一个新的数组

In [209]:
a = np.array([1,2,3])
b = a.astype(float)

In [210]:
b[0]=0.5
b

array([0.5, 2. , 3. ])

In [211]:
a

array([1, 2, 3])

## 8. 案例分析：豆瓣10部高分电影

In [212]:
##电影名称
mv_names = ["肖申克的救赎","控方证人","美丽人生","阿甘正传","霸王别姬","泰坦尼克号","辛德勒的名单","这个杀手不太冷","保持通话","画皮"]

In [213]:
##评分人数
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])

In [214]:
##评分
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

In [215]:
##电影时长
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

### 8.1 数组排序

#### sort函数

In [83]:
np.sort(mv_num)

array([ 42995, 157074, 159302, 284652, 306904, 327855, 478523, 580897,
       662552, 692795])

sort函数并不会对原来的数组产生影响，sort函数产生的是一个新的数组

#### argsort函数

argsort返回的是：将数组中的元素从小到大的排列后（即上面经过sort后的mv_num的结果），各个元素在原来数组中的索引位置

比如42995在原来排序前的数组中是1号位置，157074在原来排序前的数组中是5号位置......

In [224]:
order = np.argsort(mv_num)
order

array([1, 5, 9, 8, 6, 2, 4, 3, 7, 0])

查找评分人数最少的电影:只需要查找**order[0]**对应的元素即可

In [225]:
mv_names[order[0]]

'控方证人'

查找评分人数最多的电影：只要查找**order[-1]**对应的元素即可

In [226]:
mv_names[order[-1]]

'肖申克的救赎'

### 8.2 变量的数字特征

#### 求和

In [227]:
np.sum(mv_num)

3693549

In [228]:
mv_num.sum()

3693549

#### 最大值

In [229]:
np.max(mv_length)

195

In [230]:
max(mv_length)

195

In [231]:
mv_length.max()

195

#### 最小值

In [232]:
np.min(mv_score)

9.3

#### 均值

In [233]:
np.mean(mv_length)

141.0

In [234]:
mv_length.mean()

141.0

#### 标准差

In [235]:
np.std(mv_length)

33.713498780162226

In [236]:
mv_length.std()

33.713498780162226

#### 协方差矩阵

In [242]:
np.cov(mv_length, mv_score)

array([[1.26288889e+03, 4.55555556e-01],
       [4.55555556e-01, 9.88888889e-03]])

## 9. 多维数组操作

### 9.1 数组形状

In [243]:
a = np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

将a数组转化为2行3列的形状

#### 方法1：改变数组的shape属性 

In [245]:
a.shape = 2,3
a

array([[0, 1, 2],
       [3, 4, 5]])

In [246]:
a.shape

(2, 3)

#### 方法2：使用数组的reshape方法 

reshape不会修改原来数组的值，而是返回一个新的数组

In [247]:
a=np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

In [248]:
a.reshape(2,3)

array([[0, 1, 2],
       [3, 4, 5]])

In [249]:
a

array([0, 1, 2, 3, 4, 5])

###  9.2 转置 

In [250]:
a = a.reshape(2,3)
a

array([[0, 1, 2],
       [3, 4, 5]])

#### 方法1：数组.T

In [255]:
a.T

array([[0, 3],
       [1, 4],
       [2, 5]])

#### 方法2：使用transpose( )方法

In [256]:
a.transpose()

array([[0, 3],
       [1, 4],
       [2, 5]])

In [257]:
a

array([[0, 1, 2],
       [3, 4, 5]])

上面两种转置的方法都是**产生一个新的数组，不会改变原数组**

### 9.3 数组连接

有时我们需要将不同的数组按照一定的顺序连接起来：
concatenate((a0,a1,...,aN),axis=0)

其中axis=0是按照列和来拼接，axis=1是按照行来拼接

注意：这些数组要用()包括到一个元组中去，除了给定的轴外，这些数组的其他轴的长度必须是一样的

In [258]:
x = np.array([[0,1,2],
              [10,11,12]])

y = np.array([[50,51,52],
              [60,61,62]])

print(x.shape)
print(y.shape)

(2, 3)
(2, 3)


#### 拼接方式1：行和行拼接（上下拼接）axis=0

In [115]:
z = np.concatenate((x,y),axis=0)
z

array([[ 0,  1,  2],
       [10, 11, 12],
       [50, 51, 52],
       [60, 61, 62]])

#### 拼接方式2：列和列拼接（左右拼接）axis=1

In [116]:
z = np.concatenate((x,y),axis=1)
z

array([[ 0,  1,  2, 50, 51, 52],
       [10, 11, 12, 60, 61, 62]])

#### 拼接方式3：将两个二维数组拼接成三维数组 使用np.array( )

拼接成三维数组的前提：x和y这两个二维数组形状一样，均为(2,3)矩阵

In [117]:
z = np.array((x,y))
z

array([[[ 0,  1,  2],
        [10, 11, 12]],

       [[50, 51, 52],
        [60, 61, 62]]])

上面三种拼接方式NumPy有对应的函数：vstack, hstack, dstack

In [259]:
np.vstack((x,y))

array([[ 0,  1,  2],
       [10, 11, 12],
       [50, 51, 52],
       [60, 61, 62]])

In [260]:
np.hstack((x,y))

array([[ 0,  1,  2, 50, 51, 52],
       [10, 11, 12, 60, 61, 62]])

In [261]:
np.dstack((x,y))

array([[[ 0, 50],
        [ 1, 51],
        [ 2, 52]],

       [[10, 60],
        [11, 61],
        [12, 62]]])

## 10. NumPy的内置函数

In [262]:
a = np.array([-1,2,3,-2])

In [263]:
np.abs(a) #绝对值

array([1, 2, 3, 2])

In [264]:
np.exp(a) #指数

array([ 0.36787944,  7.3890561 , 20.08553692,  0.13533528])

In [265]:
np.median(a) #中位数

0.5

In [266]:
np.cumsum(a) #累积和

array([-1,  1,  4,  2])

内置函数非常多，不需要死记硬背，查资料