# 11.2 科学计算工具Numpy

## 11.2.2 Numpy数据类型

Python原生数组与NumPy数组执行效率对比

In [11]:
import random
import time
import numpy as np
a = []
for i in range(1000000):
    a.append(random.random())
# 通过%time方法, 查看当前行的代码运行一次所花费的时间
%time sum1=sum(a)
b=np.array(a)
%time sum2=np.sum(b)

Wall time: 7 ms
Wall time: 2 ms


## 11.2.3 Numpy数组操作

### （1）Numpy数组创建

#### ①	从常规Python列表或元组中创建数组

In [12]:
import numpy as np
a = np.array([2,3,4])
a

array([2, 3, 4])

In [13]:
a.dtype

dtype('int32')

In [14]:
b = np.array([1.2, 3.5, 5.1])
b.dtype

dtype('float64')

#### ②	从序列中创建数组

In [15]:
import numpy as np
b = np.array([(1.5,2,3), (4,5,6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

In [16]:
import numpy as np
c = np.array( [ [1,2], [3,4] ], dtype=complex )     #转换为复数形式
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

#### ③	使用函数创建数组

In [17]:
import numpy as np
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [18]:
np.ones((2,3,4)) 

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [19]:
np.empty((2,3))

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

In [20]:
np.arange(10, 50, 5)               #第三个参数为步长，若空，则默认步长为1

array([10, 15, 20, 25, 30, 35, 40, 45])

In [21]:
np.arange( 3, 5, 0.4 )                    # 允许参数为浮点数

array([3. , 3.4, 3.8, 4.2, 4.6])

### （2）Numpy切片和索引

In [27]:
import numpy as np
a = np.arange(10)                            #使用arange()函数创建ndarray对象
print("原始数组a：",a)
s = slice(2,7,2)                           #从索引 2 开始到索引 7 停止，间隔为2
print ("切片后的数组为：",a[s])

原始数组a： [0 1 2 3 4 5 6 7 8 9]
切片后的数组为： [2 4 6]


In [28]:
import numpy as np
a = np.arange(10)  
b = a[1:9:3]   # 从索引 1 开始到索引9 停止，间隔为3
print(b)

[1 4 7]


In [29]:
import numpy as np
a = np.arange(20) 
b = a[13]
print("a[13]:  \t",b)
c = a[13:]
print("a[13:]: \t",c)
d = a[13:15]
print("d[13:15]:\t",d)

a[13]:  	 13
a[13:]: 	 [13 14 15 16 17 18 19]
d[13:15]:	 [13 14]


#### ①	整数数组索引

In [30]:
import numpy as np                        #整数数组索引
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print ('原数组是：' )
print (x)
rows = np.array([[0,0],[3,3]])
cols = np.array([[0,2],[0,2]])
y = x[rows,cols]  
print  ('这个数组的四个角元素是：')
print (y)

原数组是：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
这个数组的四个角元素是：
[[ 0  2]
 [ 9 11]]


#### ②	布尔索引

In [31]:
import numpy as np                     #布尔数组索引
arr = np.arange(7)
booling1 = np.array([True,False,False,True,True,False,False])
print(arr)
print(arr[booling1])

[0 1 2 3 4 5 6]
[0 3 4]


In [32]:
import numpy as np                     #布尔数组索引
arr = np.arange(7)
booling1 = np.array([True,False,False,True,True,False])
print(arr)
print(arr[booling1])

[0 1 2 3 4 5 6]


IndexError: boolean index did not match indexed array along dimension 0; dimension is 7 but corresponding boolean dimension is 6

In [33]:
arr = np.arange(16).reshape((4,4))                     #布尔运算索引
print(arr)
print("-------------------------")
names = np.array(['Ben','Tom','Ben','Jeremy'])
print(names == 'Ben')
print("-------------------------")
print(arr[names == 'Ben'])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
-------------------------
[ True False  True False]
-------------------------
[[ 0  1  2  3]
 [ 8  9 10 11]]


In [34]:
arr = np.arange(12).reshape((3,4))                       #比较运算索引
print(arr)
arr[arr<=5]=0                     #数组中小于或者等于5的数字归零
print("----------------")
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
----------------
[[ 0  0  0  0]
 [ 0  0  6  7]
 [ 8  9 10 11]]


#### ③	花式索引

In [35]:
import numpy as np                    #花式索引
x = np.array([[0,1,2],[3,4,5],[6,7,8],[9,10,11]])  
y = np.array([0,1,2,3,4,5,6,7])
print(x[[-1,-3]])
print("-------------------------")
print(y[[-1,-3]])

[[ 9 10 11]
 [ 3  4  5]]
-------------------------
[7 5]


### （3）Numpy数组运算

#### ①	修改数组形状

In [36]:
import numpy as np
a = np.arange(4)
print ('原始数组：')
print (a)
b = a.reshape(2,2)         #修改数组为两行两列的数组
print ('修改后的数组：')
print (b)

原始数组：
[0 1 2 3]
修改后的数组：
[[0 1]
 [2 3]]


#### ②	迭代数组

In [37]:
import numpy as np
x = np.array([[0, 1],[3,4]]) 
print ('原始数组：')
for row in x:
    print (row)
print ('迭代后的数组：')
for element in x.flat:
    print (element)
print ('按 F顺序展开的数组：')
print (x.flatten(order = 'F'))

原始数组：
[0 1]
[3 4]
迭代后的数组：
0
1
3
4
按 F顺序展开的数组：
[0 3 1 4]


#### ③	转置数组

In [38]:
import numpy as np
a = np.arange(12).reshape(3,4)
print ('原数组：')
print (a )
print ('转置数组：')
print (a.T)

原数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
转置数组：
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


In [39]:
import numpy as np
data = np.arange(24).reshape(2,3,4)
print(data)
print("-------------------------")
print(data.transpose(1,0,2))

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
-------------------------
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]


In [40]:
import numpy as np
data = np.arange(24).reshape(2,3,4)
print('-----data.T result-----')
print(data.T)
print('-----transpose result-----')
print(data.transpose(2,1,0)) 

-----data.T result-----
[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]]
-----transpose result-----
[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]]


In [41]:
import numpy as np
data = np.arange(24).reshape(2,3,4)
print('-----original data-----')
print(data)
print('-----transpose result-----')
print(data.transpose(1,0,2))
print('-----swapaxes result------')
print(data.swapaxes(0,1)) 

-----original data-----
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
-----transpose result-----
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]
-----swapaxes result------
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]


#### ④	广播数组

In [42]:
import numpy as np 
a = np.array([1,2,3,4]) 
b = np.array([10,20,30,40]) 
c = a * b 
print (c)

[ 10  40  90 160]


In [43]:
import numpy as np 
a = np.array([[10,10,10],
           [20,20,20],
           [30,30,30]])
b = np.array([1,2,3])
print(a + b)

[[11 12 13]
 [21 22 23]
 [31 32 33]]


In [45]:
import numpy as np 
a = np.array([[10,10,10],
           [20,20,20],
           [30,30,30]])                   #a.shape = (3,3)
b = np.array([1,2])                      #b.shape = (2,)
print(a + b)

ValueError: operands could not be broadcast together with shapes (3,3) (2,) 

In [46]:
import numpy as np
a = np.array([[0, 0, 0],[1, 1, 1],[2, 2, 2], [3, 3, 3]])  #a.shape = (4,3)
b = np.array([[1],[2],[3],[4]])                         #b.shape = (4, 1)
print(a+b)

[[1 1 1]
 [3 3 3]
 [5 5 5]
 [7 7 7]]


In [47]:
import numpy as np
x = np.array([1, 2, 3])
y = np.broadcast_to(x, (5, 3))
print(x)
print("广播后：")
print(y)

[1 2 3]
广播后：
[[1 2 3]
 [1 2 3]
 [1 2 3]
 [1 2 3]
 [1 2 3]]


In [48]:
import numpy as np
x = np.array(([1,2],[3,4]))
print('数组 x：')
print(x)
y = np.expand_dims(x, axis = 0)          #为二维数组x添加一个维度
print('数组 y：')
print(y)
z = np.squeeze(y)                          #为三维数组y减少一个维度
print('数组 x,y,z 的形状：')
print(x.shape, y.shape,z.shape)

数组 x：
[[1 2]
 [3 4]]
数组 y：
[[[1 2]
  [3 4]]]
数组 x,y,z 的形状：
(2, 2) (1, 2, 2) (2, 2)


#### ⑤	连接数组

In [49]:
import numpy as np
a = np.array([[1,2],[3,4]])
print('第一个数组：')
print(a)
b = np.array([[5,6],[7,8]])
print('第二个数组：')
print(b)

第一个数组：
[[1 2]
 [3 4]]
第二个数组：
[[5 6]
 [7 8]]


In [50]:
# 两个数组的维度相同
print('沿轴 0 连接两个数组：')
print(np.concatenate((a,b)))
print('沿轴 1 连接两个数组：')
print(np.concatenate((a,b),axis = 1))

沿轴 0 连接两个数组：
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
沿轴 1 连接两个数组：
[[1 2 5 6]
 [3 4 7 8]]


In [51]:
import numpy as np
a = np.array([[1,2],[3,4]])
print ('第一个数组：')
print (a)

第一个数组：
[[1 2]
 [3 4]]


In [52]:
b = np.array([[5,6],[7,8]])
print ('第二个数组：')
print (b)

第二个数组：
[[5 6]
 [7 8]]


In [53]:
print ('沿轴 0 堆叠两个数组：')
print (np.stack((a,b),0))

沿轴 0 堆叠两个数组：
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [54]:
print ('沿轴 1 堆叠两个数组：')
print (np.stack((a,b),1))

沿轴 1 堆叠两个数组：
[[[1 2]
  [5 6]]

 [[3 4]
  [7 8]]]


In [55]:
print ('水平堆叠：')
c = np.hstack((a,b))
print (c)

水平堆叠：
[[1 2 5 6]
 [3 4 7 8]]


In [56]:
print ('竖直堆叠：')
d = np.vstack((a,b))
print (d)

竖直堆叠：
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


#### ⑥	分割数组

In [57]:
import numpy as np
a = np.arange(16).reshape(4,4)
print ('第一个数组：')
print (a)

第一个数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [58]:
print ('将数组分为两个大小相等的子数组：')
b = np.split(a,2)
print (b)

将数组分为两个大小相等的子数组：
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]


In [59]:
print ('将数组在一维数组中标的位置分割：')
b = np.split(a,[2,4])
print (b)

将数组在一维数组中标的位置分割：
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]]), array([], shape=(0, 4), dtype=int32)]


In [60]:
print ('按水平拆分后：')
print(np.hsplit(a, 2))

按水平拆分后：
[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]


In [61]:
print ('按垂直拆分后：')
print(np.vsplit(a, 2))

按垂直拆分后：
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]


#### ⑦	添加与删除数组元素

In [62]:
import numpy as np
a = np.array([[6,5,4],[3,2,1]])
print ('第一个数组：')
print (a)
print ('第一个数组的形状：')
print (a.shape)
b = np.resize(a, (3,2))

第一个数组：
[[6 5 4]
 [3 2 1]]
第一个数组的形状：
(2, 3)


In [63]:
print ('第二个数组：')
print (b)
print ('第二个数组的形状：')
print (b.shape)

第二个数组：
[[6 5]
 [4 3]
 [2 1]]
第二个数组的形状：
(3, 2)


In [64]:
# 要注意 a 的第一行在 b 中重复出现，因为尺寸变大了
print ('修改第二个数组的大小：')
b = np.resize(a,(3,3))
print (b)

修改第二个数组的大小：
[[6 5 4]
 [3 2 1]
 [6 5 4]]


In [65]:
import numpy as np
a = np.array([[1,2,3],[4,5,6]])
print ('第一个数组：')
print (a)

第一个数组：
[[1 2 3]
 [4 5 6]]


In [66]:
print ('向数组添加元素：')
print (np.append(a, [7,8,9]))

向数组添加元素：
[1 2 3 4 5 6 7 8 9]


In [67]:
print ('沿轴 0 添加元素：')
print (np.append(a, [[7,8,9]],axis = 0))

沿轴 0 添加元素：
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [68]:
print ('沿轴 1 添加元素：')
print (np.append(a, [[5,5,5],[7,8,9]],axis = 1))

沿轴 1 添加元素：
[[1 2 3 5 5 5]
 [4 5 6 7 8 9]]


In [69]:
import numpy as np
a = np.array([[1,2],[3,4],[5,6]])
print ('第一个数组：')
print (a)

第一个数组：
[[1 2]
 [3 4]
 [5 6]]


In [70]:
print ('不传递 Axis 参数：')
print (np.insert(a,3,[11,12]))

不传递 Axis 参数：
[ 1  2  3 11 12  4  5  6]


In [71]:
print ('传递 Axis 参数：')
print ('沿轴 0 ：')
print (np.insert(a,1,[11],axis = 0))
print ('沿轴 1 ：')
print (np.insert(a,1,11,axis = 1))

传递 Axis 参数：
沿轴 0 ：
[[ 1  2]
 [11 11]
 [ 3  4]
 [ 5  6]]
沿轴 1 ：
[[ 1 11  2]
 [ 3 11  4]
 [ 5 11  6]]


In [72]:
import numpy as np
a = np.arange(8).reshape(2,4)
print ('第一个数组：')
print (a)
print ('未传递 Axis 参数：')
print (np.delete(a,5))
print ('删除第二列：')
print (np.delete(a,1,axis = 1))

第一个数组：
[[0 1 2 3]
 [4 5 6 7]]
未传递 Axis 参数：
[0 1 2 3 4 6 7]
删除第二列：
[[0 2 3]
 [4 6 7]]


In [73]:
import numpy as np
a = np.array([1,3,7,4,5,2,6,2,7,5,6,8,2,9])
print ('第一个数组：')
print (a)
print ('去重数组：')
u = np.unique(a)
print (u)

第一个数组：
[1 3 7 4 5 2 6 2 7 5 6 8 2 9]
去重数组：
[1 2 3 4 5 6 7 8 9]


In [74]:
print ('去重数组元素在原数组中的下标：')
u,indices = np.unique(a, return_index = True)
print (indices)

去重数组元素在原数组中的下标：
[ 0  5  1  3  4  6  2 11 13]


In [75]:
print ('原数组元素在去重数组中的下标：')
u,indices = np.unique(a,return_inverse = True)
print (indices)
print ('使用下标重构原数组：')
print (u[indices])
print ('返回去重元素的重复数量：')
u,indices = np.unique(a,return_counts = True)
print (u)
print (indices)

原数组元素在去重数组中的下标：
[0 2 6 3 4 1 5 1 6 4 5 7 1 8]
使用下标重构原数组：
[1 3 7 4 5 2 6 2 7 5 6 8 2 9]
返回去重元素的重复数量：
[1 2 3 4 5 6 7 8 9]
[1 3 1 1 2 2 2 1 1]


### （4）Numpy数组元素位运算

In [76]:
import numpy as np 
print ('12 和 15 的二进制形式：')
a,b = 13,17
print (bin(a), bin(b))
print ('12 和 15 的位与：')
print (np.bitwise_and(12, 15))
print ('12 和 15 的位或：')
print (np.bitwise_or(12, 15))
print ('12 的按位取反')
print (np.invert(np.array([12])))
print ('将 12 左移两位：')
print (np.left_shift(12,2))
print ('将 12 右移两位：')
print (np.right_shift(12,2))

12 和 15 的二进制形式：
0b1101 0b10001
12 和 15 的位与：
12
12 和 15 的位或：
15
12 的按位取反
[-13]
将 12 左移两位：
48
将 12 右移两位：
3


## 11.2.4 Numpy字符串函数

In [78]:
import numpy as np 
str1 = "apple"
str2 = "this is, A pEN"
print(np.char.add(str1,str2))           #连接str1与str2
print(np.char.multiply(str1,2))         #复制2次str1
print(np.char.center(str1,20,'-'))      #str1居中，用-填充
print(np.char.capitalize(str2))         #str2首字母大写
print(np.char.title(str2))              #str2所有单词的首字母大写
print(np.char.lower(str2))              #str2所有单词的字母小写
print(np.char.upper(str2))              #str2所有单词的字母大写
print(np.char.split(str2))              #空格分隔str2所有单词
print(np.char.split(str2,','))          #','分隔str2所有单词
print(np.char.strip(str1,'a'))          #移除str1的首字母a
print(np.char.join(['^'],str1))         #用^连接str1
print(np.char.join(['-'],[str1,str2]))  #用-连接str1和str2
print(np.char.replace(str1,"pp","mm"))  #用mm替换apple中的pp
a = np.char.encode('apple','cp500')
print(a)    #对'apple'进行编码
print(np.char.decode(a,'cp500'))        #解码

applethis is, A pEN
appleapple
-------apple--------
This is, a pen
This Is, A Pen
this is, a pen
THIS IS, A PEN
['this', 'is,', 'A', 'pEN']
['this is', ' A pEN']
pple
['a^p^p^l^e']
['a-p-p-l-e' 't-h-i-s- -i-s-,- -A- -p-E-N']
ammle
b'\x81\x97\x97\x93\x85'
apple


## 11.2.5 Numpy计算函数

### （1）算术函数

In [79]:
import numpy as np 
a = np.arange(8, dtype = np.float_).reshape(2,4)  
print ('第一个数组：')
print (a)
print ('第二个数组：')
b = np.array([3,3,3,3])  
print (b)
print ('两个数组相加：')
print (np.add(a,b))
print ('两个数组相减：')
print (np.subtract(a,b))
print ('两个数组相乘：')
print (np.multiply(a,b))
print ('两个数组相除：')
print (np.divide(a,b))
print ('返回第二个数组的倒数')
print (np.reciprocal(b))
print ('第二个数组作为第一个数组的幂进行计算')
print (np.power(a,b))
print ('两个数组相除后的余数：')
print (np.mod(a,b))
print ('两个数组相除后的余数：')
print (np.remainder(a,b))

第一个数组：
[[0. 1. 2. 3.]
 [4. 5. 6. 7.]]
第二个数组：
[3 3 3 3]
两个数组相加：
[[ 3.  4.  5.  6.]
 [ 7.  8.  9. 10.]]
两个数组相减：
[[-3. -2. -1.  0.]
 [ 1.  2.  3.  4.]]
两个数组相乘：
[[ 0.  3.  6.  9.]
 [12. 15. 18. 21.]]
两个数组相除：
[[0.         0.33333333 0.66666667 1.        ]
 [1.33333333 1.66666667 2.         2.33333333]]
返回第二个数组的倒数
[0 0 0 0]
第二个数组作为第一个数组的幂进行计算
[[  0.   1.   8.  27.]
 [ 64. 125. 216. 343.]]
两个数组相除后的余数：
[[0. 1. 2. 0.]
 [1. 2. 0. 1.]]
两个数组相除后的余数：
[[0. 1. 2. 0.]
 [1. 2. 0. 1.]]


### （2）数学函数

#### •	三角函数

In [80]:
import numpy as np  
arr = np.array([0,30,45,60])  
print("角的正弦值",end=' ')  
sin = np.sin(arr * np.pi/180)
print(sin)  
print("角的余弦值",end=' ')  
cos = np.cos(arr * np.pi/180)
print(cos)  
print("角的正切值",end=' ')  
tan = np.tan(arr * np.pi/180)
print(tan)
print ('计算角度的反正弦，返回值以弧度为单位：')
arcsin = np.arcsin(sin)  
print(arcsin)
print ('通过转化为角度制来检查结果：')
print (np.degrees(arcsin))
print ('计算角度的反余弦，返回值以弧度为单位：')
print(np.arccos(cos))
print ('计算角度的反正切，返回值以弧度为单位：')
print(np.arctan(tan))

角的正弦值 [0.         0.5        0.70710678 0.8660254 ]
角的余弦值 [1.         0.8660254  0.70710678 0.5       ]
角的正切值 [0.         0.57735027 1.         1.73205081]
计算角度的反正弦，返回值以弧度为单位：
[0.         0.52359878 0.78539816 1.04719755]
通过转化为角度制来检查结果：
[ 0. 30. 45. 60.]
计算角度的反余弦，返回值以弧度为单位：
[0.         0.52359878 0.78539816 1.04719755]
计算角度的反正切，返回值以弧度为单位：
[0.         0.52359878 0.78539816 1.04719755]


#### •	舍入函数

In [81]:
import numpy as np
a = np.array([1.0,5.55,123,-0.2,0.567,25.532])  
print  ('原数组：')
print (a)
print ('舍入后：')
print (np.around(a))
print (np.around(a, decimals =  1))
print (np.around(a, decimals =  -1))
print ('向下取整：')
print (np.floor(a))
print ('向上取整：')
print (np.ceil(a))

原数组：
[  1.      5.55  123.     -0.2     0.567  25.532]
舍入后：
[  1.   6. 123.  -0.   1.  26.]
[  1.    5.6 123.   -0.2   0.6  25.5]
[  0.  10. 120.  -0.   0.  30.]
向下取整：
[  1.   5. 123.  -1.   0.  25.]
向上取整：
[  1.   6. 123.  -0.   1.  26.]


### （3）统计函数

In [82]:
import numpy as np 
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
print('原始数组是：')
print(a)
print(' amin() 函数查看轴1的最小值：')
print(np.amin(a,1))
print(' amin() 函数查看轴0的最小值：')
print(np.amin(a,0))
print(' amax() 函数查看整个数组的最大值：')
print(np.amax(a))
print('amax() 函数查看轴0的最大值：')
print(np.amax(a, axis =  0))

原始数组是：
[[3 7 5]
 [8 4 3]
 [2 4 9]]
 amin() 函数查看轴1的最小值：
[3 3 2]
 amin() 函数查看轴0的最小值：
[2 4 3]
 amax() 函数查看整个数组的最大值：
9
amax() 函数查看轴0的最大值：
[8 7 9]


In [83]:
import numpy as np 
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
print('原始数组是：')
print(a)

原始数组是：
[[3 7 5]
 [8 4 3]
 [2 4 9]]


In [84]:
print('调用 ptp() 函数：')
print(np.ptp(a))
print('沿轴 1 调用 ptp() 函数：')
print(np.ptp(a, axis =  1))
print('沿轴 0 调用 ptp() 函数：')
print(np.ptp(a, axis =  0))

调用 ptp() 函数：
7
沿轴 1 调用 ptp() 函数：
[4 5 7]
沿轴 0 调用 ptp() 函数：
[6 3 6]


In [85]:
import numpy as np 
a = np.array([[10, 7, 4], [3, 2, 1]])
print('原始数组是：')
print(a)
print('调用 percentile() 函数求数组的中位数：')
print(np.percentile(a, 50))     # 50% 的分位数，就是 a 里排序之后的中位数
print('在纵列上求中位数：')
print(np.percentile(a, 50, axis=0))    # axis 为 0，在纵列上求
print('在横行上求中位数：')
print(np.percentile(a, 50, axis=1))    # axis 为 1，在横行上求
print('在横行上求中位数且保持维度不变：')
print(np.percentile(a, 50, axis=1, keepdims=True))    # 保持维度不变

原始数组是：
[[10  7  4]
 [ 3  2  1]]
调用 percentile() 函数求数组的中位数：
3.5
在纵列上求中位数：
[6.5 4.5 2.5]
在横行上求中位数：
[7. 2.]
在横行上求中位数且保持维度不变：
[[7.]
 [2.]]


In [86]:
import numpy as np 
a = np.array([[30,65,70],[80,95,10],[50,90,60]])  
print('原始数组是：')
print(a)
print('调用 median() 函数：')
print(np.median(a))
print('沿轴 0 调用 median() 函数：')
print(np.median(a, axis =  0))
print('沿轴 1 调用 median() 函数：')
print(np.median(a, axis =  1))

原始数组是：
[[30 65 70]
 [80 95 10]
 [50 90 60]]
调用 median() 函数：
65.0
沿轴 0 调用 median() 函数：
[50. 90. 60.]
沿轴 1 调用 median() 函数：
[65. 80. 60.]


In [87]:
import numpy as np 
a = np.array([[1,2,3],[3,4,5],[4,5,6]])  
print('原始数组是：')
print(a)
print('调用 mean() 函数：')
print(np.mean(a))
print('沿轴 0 调用 mean() 函数：')
print(np.mean(a, axis =  0))
print('沿轴 1 调用 mean() 函数：')
print(np.mean(a, axis =  1))

原始数组是：
[[1 2 3]
 [3 4 5]
 [4 5 6]]
调用 mean() 函数：
3.6666666666666665
沿轴 0 调用 mean() 函数：
[2.66666667 3.66666667 4.66666667]
沿轴 1 调用 mean() 函数：
[2. 4. 5.]


In [88]:
import numpy as np 
a = np.array([1,2,3,4])  
print('原始数组是：')
print(a)
print('调用 average() 函数：')
print(np.average(a))
print('赋权重后，再次调用 average() 函数：')
print(np.average(a,weights = [4,3,2,1]))

原始数组是：
[1 2 3 4]
调用 average() 函数：
2.5
赋权重后，再次调用 average() 函数：
2.0


In [89]:
import numpy as np
print(np.var([1,2,3,4]))

1.25


In [90]:
import numpy as np 
print(np.std([1,2,3,4]))

1.118033988749895


## 11.2.6 Numpy其他函数

### （1）字节交换

In [91]:
import numpy as np 
a = np.array([1,225,6666], dtype = np.int16)  
print('数组：',end=' ')
print(a)
print('以十六进制表示内存中的数据：',end=' ')
print(map(hex,a))
# byteswap() 函数通过传入 true 来原地交换 
print('调用 byteswap() 函数：',end=' ')
print(a.byteswap(True))
print('十六进制形式：',end=' ')
print(map(hex,a))

数组： [   1  225 6666]
以十六进制表示内存中的数据： <map object at 0x00000248B9C88DA0>
调用 byteswap() 函数： [  256 -7936  2586]
十六进制形式： <map object at 0x00000248B9C88198>


### （2）线性代数

In [92]:
import numpy as np
x=np.array([2, 3, 4, 5, 6, 7])#等价于:x=np.arange(2,8)
y=np.random.randint(0,10,6)
print(x)
print(y)
print(np.dot(x,y))

[2 3 4 5 6 7]
[7 8 6 6 9 2]
160


In [93]:
import numpy as np
x=np.arange(0,5)
y=np.random.randint(0,10,size=(5,1))
print(x)
print(y)
print("x.shape:"+str(x.shape))
print("y.shape"+str(y.shape))
print(np.dot(x,y))

[0 1 2 3 4]
[[6]
 [5]
 [7]
 [0]
 [7]]
x.shape:(5,)
y.shape(5, 1)
[47]


In [98]:
import numpy as np
x=np.arange(0,6).reshape(2,3)
y=np.random.randint(0,10,size=(3,2))
print(x)
print(y)
print( "x.shape:"+ str(x.shape))
print ("y.shape" + str(y.shape))
print (np.dot(x,y))

[[0 1 2]
 [3 4 5]]
[[1 5]
 [5 5]
 [3 9]]
x.shape:(2, 3)
y.shape(3, 2)
[[11 23]
 [38 80]]


### （3）排序函数

In [99]:
import numpy as np
x=np.array([[0,12,48],[4,18,14],[7,1,99]])
np.sort(x)
print("按行排序：")
print(np.sort(x,axis=0))
print("按列排序：")
print(np.sort(x,axis=1))
x.sort()
dt = np.dtype([('name',  'S10'),('age',  int)]) 
a = np.array([("Mike",21),("Nancy",25),("Bob",17),("Jane",27)], dtype = dt)
print("按name排序：")
print(np.sort(a, order =  'name'))
print("按age排序：")
print(np.sort(a, order =  'age'))

按行排序：
[[ 0  1 14]
 [ 4 12 48]
 [ 7 18 99]]
按列排序：
[[ 0 12 48]
 [ 4 14 18]
 [ 1  7 99]]
按name排序：
[(b'Bob', 17) (b'Jane', 27) (b'Mike', 21) (b'Nancy', 25)]
按age排序：
[(b'Bob', 17) (b'Mike', 21) (b'Nancy', 25) (b'Jane', 27)]


## 11.2.7 Numpy副本和视图

## 11.2.8 Numpy矩阵库

In [100]:
import numpy.matlib 
import numpy as np
print (np.matlib.empty((2,2)))
# 填充为随机数据

[[2.25 0.25]
 [0.25 2.25]]


In [101]:
print (np.matlib.zeros((2,5)))

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [102]:
print (np.matlib.ones((2,2)))

[[1. 1.]
 [1. 1.]]


In [103]:
print (np.matlib.eye(n=3, M=4, k=0, dtype=float))

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


# 11.3 数据分析工具Pandas

## 11.3.1 Pandas安装
## 11.3.2 Pandas数据类型
### （1）Series类型

In [104]:
import pandas as pd
arr = [0, 1, 2, 3, 4]
s1 = pd.Series(arr) # 如果不指定标签索引，则默认从 0 开始
print("从列表创建：")
print(s1)

从列表创建：
0    0
1    1
2    2
3    3
4    4
dtype: int64


In [105]:
n = np.random.randn(5) # 创建一个随机 Ndarray 数组
index = ['a', 'b','c','d','e']
s2 = pd.Series(n, index=index)
print("加入标签索引创建")
print(s2)

加入标签索引创建
a   -0.947678
b    0.184481
c    1.218491
d   -0.682160
e    1.810709
dtype: float64


In [106]:
d = {'a':1,  'b':2, 'c': 3, 'd': 4, 'e': 5}
s3 = pd.Series(d)
print("从字典创建")
print(s3)

从字典创建
a    1
b    2
c    3
d    4
e    5
dtype: int64


In [107]:
import pandas as pd
arr1 = [0, 1, 2, 3, 4]
arr2 = [5, 6, 7, 8, 9]
s1 = pd.Series(arr1)
s2 = pd.Series(arr2)
print("两个序列相加")
print(s1.add(s2))

两个序列相加
0     5
1     7
2     9
3    11
4    13
dtype: int64


In [109]:
print("两个序列相减")
print(s1.sub(s2))

两个序列相减
0   -5
1   -5
2   -5
3   -5
4   -5
dtype: int64


In [110]:
print("两个序列相乘")
print(s1.mul(s2))

两个序列相乘
0     0
1     6
2    14
3    24
4    36
dtype: int64


In [111]:
print("两个序列相除")
print(s1.div(s2))

两个序列相除
0    0.000000
1    0.166667
2    0.285714
3    0.375000
4    0.444444
dtype: float64


In [112]:
print(s1.median(),"\t",s1.max(),"\t",s1.min(),"\t",s1.sum())

2.0 	 4 	 0 	 10


### （2）DataFrame类型

In [113]:
import pandas as pd
import numpy as np
dates = pd.date_range('today', periods=6)  # 定义时间序列作为 index
num_arr = np.random.randn(6, 4)  # 传入 numpy 随机数组
columns = ['1', '2', '3', '4']  # 将列表columns作为列名
df1 = pd.DataFrame(num_arr, index=dates, columns=columns)
print("通过numpy创建：")
print(df1)

通过numpy创建：
                                   1         2         3         4
2020-02-12 21:28:34.938635  1.218815  0.888946 -0.639056  0.934186
2020-02-13 21:28:34.938635 -0.420068  0.930008  0.916125  0.733019
2020-02-14 21:28:34.938635 -1.275246  0.762553 -0.353253  0.933175
2020-02-15 21:28:34.938635 -0.527845 -0.781266 -1.205466  0.110819
2020-02-16 21:28:34.938635 -0.455233 -0.942764  1.824587  0.560300
2020-02-17 21:28:34.938635  1.194986  0.708424  1.362298  1.331574


In [114]:
data = {'animal': ['cat', 'snake', 'dog'],
        'age': [2.5, 3, np.nan],
        'visits': [1, 3, 2],
        'priority': ['yes', 'yes', 'no']}
labels = ['a', 'b', 'c']
df2 = pd.DataFrame(data, index=labels)
print("通过字典创建：")
print(df2)


通过字典创建：
  animal  age  visits priority
a    cat  2.5       1      yes
b  snake  3.0       3      yes
c    dog  NaN       2       no


## 11.3.3 Pandas数据表操作
### （1）数据查看

In [115]:
import pandas as pd
data = {'animal': ['cat', 'snake', 'dog'],
        'age': [2.5, 3,1.5], 'visits': [1, 3, 2],
        'priority': ['yes', 'yes', 'no']}
labels = ['a', 'b', 'c']
df = pd.DataFrame(data, index=labels)
print("DataFrame：")
print(df)


DataFrame：
  animal  age  visits priority
a    cat  2.5       1      yes
b  snake  3.0       3      yes
c    dog  1.5       2       no


In [116]:
print("查看二维数组的前两行：")
print(df.head(2))


查看二维数组的前两行：
  animal  age  visits priority
a    cat  2.5       1      yes
b  snake  3.0       3      yes


In [117]:
print("查看二维数组的后两行：")
print(df.tail(2))


查看二维数组的后两行：
  animal  age  visits priority
b  snake  3.0       3      yes
c    dog  1.5       2       no


In [118]:
print("查看二维数组的形状：")
print(df.shape)


查看二维数组的形状：
(3, 4)


In [119]:
print("查看二维数组的列标：")
print(df.columns)


查看二维数组的列标：
Index(['animal', 'age', 'visits', 'priority'], dtype='object')


In [120]:
print("查看二维数组的第2行的数据：")
print(df.iloc[1:2])


查看二维数组的第2行的数据：
  animal  age  visits priority
b  snake  3.0       3      yes


### （2）数据清洗
### （3）索引

In [121]:
import pandas as pd
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print(df)
print("对2013-01-02：2013-01-04进行索引")
print(df['2013-01-02':'2013-01-04'])
print("索引2013-01-02对应的单个行")
print(df.loc['2013-01-02'])
print("索引标签'2013-01-02','B'对应的数据")
print(df.loc['2013-01-02','B'])
print("索引第二行对应的数据")
print(df.iloc[1])
print("索引第二列对应的数据")
print(df.iloc[:,1])
print("索引第二行第二列对应的数据")
print(df.iloc[1,1])


                   A         B         C         D
2013-01-01 -2.857438  1.151273 -0.267758  1.071481
2013-01-02  0.714538 -0.628621  0.606667  0.311074
2013-01-03 -1.617556  0.225789  0.734152  0.057209
2013-01-04  0.292442 -0.694416 -1.643562  1.037897
2013-01-05  1.723396 -0.529898 -0.760442 -0.926109
2013-01-06  1.760820 -1.090288 -0.605358  0.605122
对2013-01-02：2013-01-04进行索引
                   A         B         C         D
2013-01-02  0.714538 -0.628621  0.606667  0.311074
2013-01-03 -1.617556  0.225789  0.734152  0.057209
2013-01-04  0.292442 -0.694416 -1.643562  1.037897
索引2013-01-02对应的单个行
A    0.714538
B   -0.628621
C    0.606667
D    0.311074
Name: 2013-01-02 00:00:00, dtype: float64
索引标签'2013-01-02','B'对应的数据
-0.62862059971006
索引第二行对应的数据
A    0.714538
B   -0.628621
C    0.606667
D    0.311074
Name: 2013-01-02 00:00:00, dtype: float64
索引第二列对应的数据
2013-01-01    1.151273
2013-01-02   -0.628621
2013-01-03    0.225789
2013-01-04   -0.694416
2013-01-05   -0.529898
2013-01-06   -1.

### （4）排序

In [122]:
import pandas as pd
df=pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
print(df)
print("按b列升序排序：")
print(df.sort_values(by='b'))    #等同于df.sort_values(by='b',axis=0)
print("先按b列降序，再按a列升序排序：")
print(df.sort_values(by=['b','a'],axis=0,ascending=[False,True]))
#等同于df.sort_values(by=['b','a'],axis=0,ascending=[False,True]) 
print("按行3升序排列")
print(df.sort_values(by=3,axis=1)) #必须指定axis=1
print("按行3升序，行0降排列")
print(df.sort_values(by=[3,0],axis=1,ascending=[True,False]))


   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  2  1  2
按b列升序排序：
   b  a  c
2  1  4  1
0  2  3  3
3  2  1  2
1  3  2  8
先按b列降序，再按a列升序排序：
   b  a  c
1  3  2  8
3  2  1  2
0  2  3  3
2  1  4  1
按行3升序排列
   a  b  c
2  4  1  1
0  3  2  3
1  2  3  8
3  1  2  2
按行3升序，行0降排列
   a  c  b
2  4  1  1
0  3  3  2
1  2  8  3
3  1  2  2


In [123]:
import pandas as pd
df=pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
print(df)
print("默认按“行标签”升序排列：")
print(df.sort_index())
#默认按“行标签”升序排序，等价于df.sort_index(axis=0, ascending=True)
print("按“列标签”升序排列：")
print(df.sort_index(axis=1))     #按“列标签”升序排序
print("指定“多列”排序")
#先按b列“降序”排列，因为b列中有相同值，相同值再按a列的“升序”排列
print(df.sort_index(by = ['b','a'],ascending = [False,True]))


   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  2  1  2
默认按“行标签”升序排列：
   b  a  c
0  2  3  3
1  3  2  8
2  1  4  1
3  2  1  2
按“列标签”升序排列：
   a  b  c
2  4  1  1
0  3  2  3
1  2  3  8
3  1  2  2
指定“多列”排序
   b  a  c
1  3  2  8
3  2  1  2
0  2  3  3
2  1  4  1


  # This is added back by InteractiveShellApp.init_path()


## 11.3.4 Pandas数据统计

In [124]:
import pandas as pd
import numpy as np
np.random.seed(99999)
df = pd.DataFrame(np.random.randn(90, 4), columns=list('ABCD'))
print("查看数组的前5行：")
print(df.head(5)) 
print("抽取数组中的任意两行")
print(df.sample(2, replace=True))
print("查看数据值列的汇总统计")
print(df.describe())


查看数组的前5行：
          A         B         C         D
0  0.624094  1.274963 -1.659604  0.507950
1 -0.220914  0.087326 -0.769793 -0.563945
2  0.643137 -1.856903  0.065747 -0.334846
3 -0.148285  1.383846  0.171603  0.914018
4 -0.540344 -1.127328 -2.245613 -0.277435
抽取数组中的任意两行
           A         B         C         D
29  0.832836  0.280771  0.389746 -0.569840
47 -0.795336 -0.704923 -1.303940  0.208034
查看数据值列的汇总统计
               A          B          C          D
count  90.000000  90.000000  90.000000  90.000000
mean    0.155216   0.013836   0.001115  -0.005970
std     0.951849   1.044072   0.948925   1.065934
min    -3.093253  -2.545695  -2.245613  -2.372215
25%    -0.319846  -0.708213  -0.756502  -0.720217
50%     0.166186  -0.025201   0.058330  -0.138358
75%     0.739681   0.728162   0.525397   0.833774
max     2.413741   2.978871   2.224619   2.416655


## 11.3.5 Pandas IO操作
### ①	读取Excel文件的两种方式：

In [127]:
#方法一：默认读取第一个表单
import  pandas  as pd
df=pd.read_excel('E:\example.xls')         #默认读取到Excel的第一个表单
data=df.head()                                #默认读取前5行的数据
print("获取所有的值:\n{0}".format(data))     #格式化输出

获取所有的值:
  NAME  AGE  GENDER  TELEPHONE
0    A   20    MALE     569513
1    B   21  FEMALE     235613
2    C   22    MALE     546864
3    D   23  FEMALE     841521


In [128]:
#方法二：通过指定表单名的方式来读取
import  pandas  as pd
df=pd.read_excel('E:\example.xls',sheet_name='BOOK')
#可以通过sheet_name来指定读取的表单
data=df.head()                               #默认读取前5行的数据
print("获取到所有的值:\n{0}".format(data))  #格式化输出


获取到所有的值:
   ID   TITLE  PRICE
0   1   APPLE     50
1   2  WINNER     55


### ②	写入Excel文件

In [149]:
import  pandas  as pd
from pandas import DataFrame
write = pd.ExcelWriter('E:\example1.xlsx')
data = {'name': ['cat', 'snake'],
        'age': [2.5, 3]}
labels = ['a', 'b']
df1 = pd.DataFrame(data, index=labels)
excel_header = ['name','age']#excel的标题
df1.to_excel(write,sheet_name='Sheet1',header=excel_header,index=False)

In [151]:
import  pandas  as pd
from pandas import DataFrame
#构建一组数据
data = pd.DataFrame([['文章阅读量', 982000], 
                   ['查看原文访问详情页', 8912], 
                   [ '翻到详情页底部', 4514], 
                   [ '点击购买', 1207], 
                   ['支付成功', 124]],
                   columns=['action','count'])
DataFrame(data).to_excel('E:\example.xls',sheet_name='sheet1', index=False, header=True)


# 11.4 上机实践

（1）使用numpy中的arange函数来创建三个包含1~10的整数的numpy数组，使三个数组的形状分别为10*1，2*5，5*2。
参考代码如下：


In [157]:
import numpy as np
print(np.arange(1,11))
print(np.arange(1,11).reshape([2,5]))
print(np.arange(1,11).reshape([2,-1]))


[ 1  2  3  4  5  6  7  8  9 10]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


（2）对生成的数组做exp、exp2、sqrt、sin、log函数运算。
参考代码如下：


In [158]:
import numpy as np
lst=np.arange(1,11).reshape([2,-1])
print("exp:")
print(np.exp(lst))
print("exp2:")
print(np.exp2(lst))
print("sqrt:")
print(np.sqrt(lst))
print("sin:")
print(np.sin(lst))
print("log:")
print(np.log(lst))


exp:
[[2.71828183e+00 7.38905610e+00 2.00855369e+01 5.45981500e+01
  1.48413159e+02]
 [4.03428793e+02 1.09663316e+03 2.98095799e+03 8.10308393e+03
  2.20264658e+04]]
exp2:
[[   2.    4.    8.   16.   32.]
 [  64.  128.  256.  512. 1024.]]
sqrt:
[[1.         1.41421356 1.73205081 2.         2.23606798]
 [2.44948974 2.64575131 2.82842712 3.         3.16227766]]
sin:
[[ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427]
 [-0.2794155   0.6569866   0.98935825  0.41211849 -0.54402111]]
log:
[[0.         0.69314718 1.09861229 1.38629436 1.60943791]
 [1.79175947 1.94591015 2.07944154 2.19722458 2.30258509]]


（3）生成一个3*4的数组，并分别计算数组及第一列、第二行的总和，同时找到数组的最大最小值。
参考代码如下：


In [159]:
import numpy as np
lst=np.arange(1,13).reshape([3,4])
print(lst)
print("数组的总和:",lst.sum())
print("数组第一列的和:",lst[:,0].sum())
print("数组第二行的和:",lst[1].sum())
print("数组的最大值:",lst.max())
print("数组的最小值:",lst.min())


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
数组的总和: 78
数组第一列的和: 15
数组第二行的和: 26
数组的最大值: 12
数组的最小值: 1


（4）从二维数组创建一个学生DataFrame，并为其加上索引和列标，输出年龄大于18的学生信息。
参考代码如下：


In [160]:
import pandas 
dict={
    "name":["Tom","Jim","Cindy"],
    "sex":["男","女","女"],
    "age":[18,19,17]
}
data_frame=DataFrame(dict,index=[1,2,3])
print(data_frame)
print("行索引："+str(data_frame.index))
print("列索引："+str(data_frame.columns))
print("数据："+str(data_frame.values))


    name sex  age
1    Tom   男   18
2    Jim   女   19
3  Cindy   女   17
行索引：Int64Index([1, 2, 3], dtype='int64')
列索引：Index(['name', 'sex', 'age'], dtype='object')
数据：[['Tom' '男' 18]
 ['Jim' '女' 19]
 ['Cindy' '女' 17]]
