# Numpy第三方库的使用

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发。2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。
NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：

一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能。

NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。

In [2]:
import numpy as np
#from numpy import *

## 产生数组(所有元素类型一致)
从列表产生数组
    

In [69]:
np.array([1,2,3,4])

array([1, 2, 3, 4])

全0数组：

In [3]:
np.zeros(10) #10个元素

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

全1数组：

In [4]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [3]:
np.ones(10,dtype='int') 

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

可以使用fill方法将数组设为指定值

In [7]:
a=np.array([0,1,2,3,4,5])
a

array([0, 1, 2, 3, 4, 5])

In [8]:
a.fill(5.3) #类型自动转换为原来的类型
a

array([5, 5, 5, 5, 5, 5])

In [9]:
a.astype('float') #转换为float类型

array([5., 5., 5., 5., 5., 5.])

In [10]:
a

array([5, 5, 5, 5, 5, 5])

生成等差序列 

In [6]:
np.arange(0,10,0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

In [4]:
np.linspace(0,10,20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

生成随机数：   

In [11]:
np.random.rand(10)  #10个[0,1)之间的随机数

array([0.50364338, 0.27337004, 0.04925917, 0.53519536, 0.93377852,
       0.36412189, 0.94108844, 0.04912785, 0.8503165 , 0.61078265])

In [12]:
np.random.randn(10) #正态分布的

array([-0.24475416,  1.8083287 , -1.49657901,  1.01041245, -1.43978854,
       -0.06891481,  0.56136146, -0.67808498,  0.22080092, -0.45464224])

In [13]:
np.random.randint(1,10,20) #20个1到10之间的

array([9, 2, 3, 8, 2, 1, 8, 3, 5, 7, 8, 8, 5, 6, 6, 7, 5, 7, 1, 4])

In [4]:
np.random.randint(1,10,(4,3))#生成一个4行3列的二维数组

array([[4, 8, 1],
       [4, 7, 7],
       [7, 9, 4],
       [5, 8, 1]])

## 数组的属性
查看类型：

In [14]:
type(a)

numpy.ndarray

查看数据元素的类型:

In [15]:
a.dtype

dtype('int32')

查看形状,会返回一个元组，每个元素代表这一维的元素数目：

In [16]:
a.shape  #每维元素的个数

(6,)

In [17]:
a.size #元素的数目  

6

In [18]:
a.ndim #几维

1

## 数组的索引和切片

 索引：a[0] , a[0]=10
 切片，支持负索引    

In [6]:
a=np.array([11,12,13,14,15])
a[1:-2] 

array([12, 13])

In [20]:
a[-4:3]

array([12, 13])

省略参数：

In [9]:
a[::2]

array([11, 13, 15])

In [10]:
a[::-1] #逆序输出

array([15, 14, 13, 12, 11])

假设记录一部电影的累计票房：

In [7]:
ob=np.array([21000,23000,24300,25400,28000,30000])
ob

array([21000, 23000, 24300, 25400, 28000, 30000])

可以这样计算每天的票房：

In [30]:
ob1=ob[:-1]
ob1

array([21000, 23000, 24300, 25400, 28000])

In [31]:
ob2=ob[1:]
ob2

array([23000, 24300, 25400, 28000, 30000])

In [32]:
ob=ob2-ob1

In [33]:
ob

array([2000, 1300, 1100, 2600, 2000])

## 多维数组及其属性
### 生成多维数组:

In [34]:
a=np.array([[0,1,2,3],[10,11,12,13]])
a.shape

(2, 4)

In [35]:
a.size

8

In [36]:
a.ndim

2

多维数组索引

In [12]:
a=np.array([[0,1,2,3],[10,11,12,13]])

In [53]:
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13]])

In [13]:
a[1,3]#取值  

13

In [14]:
a[1,3]=66#赋值
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, 66]])

可以使用单个索引来索引一整行内容  

In [9]:
a[1]#是一个单行的数组

array([10, 11, 12, 13])

In [39]:
a[:,1] #取第2列的内容

array([ 1, 11])

### 多维数组的切片
每一维都支持切片的规则，包括负索引

In [42]:
a=np.array([[0,1,2,3,4,5],[10,11,12,13,14,15],[20,21,22,23,24,25] 
           ,[30,31,32,33,34,35],[40,41,42,43,44,45],[50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

In [43]:
a.dtype

dtype('int32')

In [44]:
a[0,3:5]#第一行的第4和第5两个元素

array([3, 4])

In [45]:
a[4:,4:]#最后两行的最后两列

array([[44, 45],
       [54, 55]])

In [46]:
a[:,2]#得到第三列
a[2::2,::2]#取出第3，5行的奇数列

array([[20, 22, 24],
       [40, 42, 44]])

   注意：切片是引用
   
   数组切片在内存中使用的是引用机制，可节省空间,可使用a[2:4].copy()防止对原数组的修改；
   
   而列表不是引用机制，切片的赋值不会引起对原列表的改动

### 一维花式索引    
花式索引（Fancy indexing）：是指利用整数数组进行索引，这里的整数数组可以是Numpy数组也可以是Python中列表、元组等可迭代类型。

In [47]:
a=np.arange(0,100,10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [48]:
index=[1,2,-3]
index

[1, 2, -3]

In [49]:
y=a[index]
y

array([10, 20, 70])

还可以使用布尔数组来花式索引（亦称作布尔索引）：

In [50]:
mask=np.array([0,2,2,0,0,1,0,0,1,0],dtype=bool)
mask

array([False,  True,  True, False, False,  True, False, False,  True,
       False])

In [51]:
a[mask]#mask必须是布尔数组，长度必须和数组长度相等

array([10, 20, 50, 80])

### 二维花式索引

   返回一条次对角线上的5个值

In [13]:
a=np.array([[0,1,2,3,4,5],[10,11,12,13,14,15],[20,21,22,23,24,25] 
           ,[30,31,32,33,34,35],[40,41,42,43,44,45],[50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

In [14]:
a[(0,1,2,3,4),(1,2,3,4,5)]

array([ 1, 12, 23, 34, 45])

返回最后三行的第1，3，5列

In [15]:
a[3:,[0,2,4]]

array([[30, 32, 34],
       [40, 42, 44],
       [50, 52, 54]])

也可以使用mask进行索引：

In [16]:
mask=np.array([1,0,1,0,0,1],dtype=bool)

In [17]:
a[mask,2] #取第1，3，6行的第3个元素    

array([ 2, 22, 52])

花式索引返回的是原对象的一个复制，而不是引用

### “不完全”索引

只给定行索引的时候，返回整行：

In [18]:
y=a[:3] #取的是前三行 
y

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

用花式索引：

In [19]:
con=np.array([0,1,1,0,1,0],dtype=bool)
a[con] #取第2，3，5行
    

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

where语句:返回所有非零元素的索引

In [15]:
a=np.array([0,12,5,20])
a

array([ 0, 12,  5, 20])

In [21]:
a>10 #返回布尔数组，表示各元素是不是大于10

array([False,  True, False,  True])

In [18]:
np.where(a>10) #返回数组中所有大于10的元素的索引位置

(array([1, 3], dtype=int64),)

注意：where的返回值是一个元组

所有大于10的元素

In [16]:
a[np.where(a>10)]

array([12, 20])

直接用数组操作：    

In [17]:
a[a>10]      

array([12, 20])

## 数组类型转换

In [12]:
a=np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [18]:
np.asarray(a,dtype=float)#不改变原有类型

array([1., 2., 3., 4., 5.])

In [19]:
a

array([1, 2, 3, 4, 5])

In [20]:
a.astype(float)  #不改变原有类型

array([1., 2., 3., 4., 5.])

In [21]:
a

array([1, 2, 3, 4, 5])

## 数组操作
排序：

In [50]:
mv_name=np.array(['肖申克的救赎','控方证人','美丽人生','阿甘正传',
             '霸王别姬','泰坦尼克号','辛德勒的名单'])
mv_num=np.array([692795,42995,327855,580897,478523,157074,306904]) #投票人数
mv_length=np.array([142,116,116,142,171,194,195])  #时长
mv_score=np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4])   #评分
np.sort(mv_num)  #排序,不影响原有顺序

array([ 42995, 157074, 306904, 327855, 478523, 580897, 692795])

In [51]:
order=np.argsort(mv_num) #返回从小到大的排列在数组中的索引位置
order

array([1, 5, 6, 2, 4, 3, 0], dtype=int64)

In [52]:
mv_name[order[-1]]

'肖申克的救赎'

求和：

In [53]:
np.sum(mv_num)
mv_num.sum() 

2587043

In [54]:
mv_num.cumsum() #求累计和

array([ 692795,  735790, 1063645, 1644542, 2123065, 2280139, 2587043],
      dtype=int32)

最大值max，最小值min

In [55]:
np.mean(mv_num)#均值   

369577.5714285714

In [56]:
np.std(mv_num)#标准差   

213299.65735144747

## 多维数组操作
 改形状：    

In [57]:
a=np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

In [37]:
a.shape=2,3  #改了a的原始形状
a

array([[0, 1, 2],
       [3, 4, 5]])

In [38]:
b=a.reshape(2,3)#不修改a的原始形状
b
a

array([[0, 1, 2],
       [3, 4, 5]])

In [39]:
b

array([[0, 1, 2],
       [3, 4, 5]])

转置：

In [40]:
a.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [41]:
a.transpose()   

array([[0, 3],
       [1, 4],
       [2, 5]])

数组连接：
   concatenate((a0,a1,...,aN)，axis=0)

In [59]:
x=np.array([[0,1,2],[10,11,12]])
y=np.array([[50,51,52],[60,61,62]])

In [60]:
x

array([[ 0,  1,  2],
       [10, 11, 12]])

In [61]:
y

array([[50, 51, 52],
       [60, 61, 62]])

沿着第一维进行连接：

In [62]:
z=np.concatenate((x,y),axis=0)
z

array([[ 0,  1,  2],
       [10, 11, 12],
       [50, 51, 52],
       [60, 61, 62]])

沿着第二维进行连接：

In [63]:
z=np.concatenate((x,y),axis=1)
z

array([[ 0,  1,  2, 50, 51, 52],
       [10, 11, 12, 60, 61, 62]])

可以将其连接成三维的数组：

In [65]:
z=np.array((x,y))
z

array([[[ 0,  1,  2],
        [10, 11, 12]],

       [[50, 51, 52],
        [60, 61, 62]]])

Numpy中提供了分别对应上述三种情况的函数进行数组的堆叠：
   
   vstack
   
   hstack
   
   dstack
   
   如：

In [66]:
np.hstack((x,y))

array([[ 0,  1,  2, 50, 51, 52],
       [10, 11, 12, 60, 61, 62]])

增加元素：

In [67]:
import numpy as np
list22=np.array([2,3,4,5])
list22=np.append(list22,10)
list22

array([ 2,  3,  4,  5, 10])

numpy内置函数有很多。。。自行查阅。。