## 第4章 NumPy基础
---
#### ndarray
- 具有矢量算数运算和复杂广播能力的快速且节省空间的N维数组对象
- 每个ndarray都有2个属性：dtype（指明数组中元素的数据类型）和shape（表示各维度大小的tuple）

In [1]:
import numpy as np
#创建ndarray
data1=[1,2.5,7,11,0,1]
arr1=np.array(data1,dtype=np.float32)

print(arr1)
print('----------')
print(arr1.dtype)
print('----------')
print(arr1.shape)

[  1.    2.5   7.   11.    0.    1. ]
----------
float32
----------
(6,)


In [2]:
''' astype()显式转换dtype
    astype()会创建一个新ndarray(原数组的拷贝)，即使新数组的dtype和原数组的dtype相同'''
arr2=np.arange(5)
arr2_c=arr2.astype(np.float64)
print(arr2.dtype)
print('----------')
print(arr2_c.dtype)

int32
----------
float64


In [3]:
print(np.zeros((3,3)))#注意有括号
print('----------')
print(np.ones((3,3)))
np.empty((3,3)) #创建新数组，只分配内存空间但不填充任何值
#np.ones_like()是以另一个ndarray为参数，而不是输入一个shape

[[ 0.  0.  0.]
 [ 0.  0.  0.]
 [ 0.  0.  0.]]
----------
[[ 1.  1.  1.]
 [ 1.  1.  1.]
 [ 1.  1.  1.]]


array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [4]:
arr3=np.arange(10) #内置函数range()的ndarray版
print(arr3)
print('----------')
print(type(arr3))

[0 1 2 3 4 5 6 7 8 9]
----------
<class 'numpy.ndarray'>


In [5]:
#创建单位矩阵
print(np.eye(3))
print('----------')
print(np.identity(3))

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]
----------
[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


In [6]:
'''矢量化（数组与标量之间的运算）：不用编写循环即可对数据执行批量运算'''
arr4=np.arange(10)
print(arr4)
print('----------')
print(arr4*3)

[0 1 2 3 4 5 6 7 8 9]
----------
[ 0  3  6  9 12 15 18 21 24 27]


In [7]:
'''广播：不同大小ndarray之间的运算'''
arr5=np.arange(10)
print(arr5)
print('----------')
arr5[2:6]=0     #ndarray切片是原始数组的视图，所以说任何修改会直接反映到源数组上，如果想得到切片的副本，用arr5[2:6].copy()
print(arr5)

[0 1 2 3 4 5 6 7 8 9]
----------
[0 1 0 0 0 0 6 7 8 9]


In [54]:
#randn()生成一些正态分布的随机数据
data2=np.random.randn(3,2)
print(data2)

[[ 1.14077627  0.08700035]
 [-1.28419757 -0.06709453]
 [ 0.09788866  0.07834158]]


In [12]:
'''布尔型ndarray'''
names1=np.array(['Bob','Joe','Will','Bob','Will','Sed','Bob'])
print(names1 == 'Bob')
print('----------')
print(~(names1 == 'Bob'))
print('----------')
print((names1 == 'Will') | (names1 == 'Sed'))  #关键字and和or在布尔型ndarray中无效

[ True False False  True False False  True]
----------
[False  True  True False  True  True False]
----------
[False False  True False  True  True False]


In [9]:
#any测试数组中是否存在1个或多个True，all测试数组中所有值是否都是True.
#这2个方法也能用于非布尔型数组，所有非0的元素都会被当做True
bools=np.array([False,False,True,False])
print(bools.any())
print('----------')
print(bools.all())

True
----------
False


In [14]:
'''布尔型数组的应用'''
#1.结合切片
data3=np.random.randn(7,5)
print(data3)
print('----------')
print(data3[names1 == 'Bob',:3])
print('----------')
#2.广播
data3[names1 != 'Bob']=5
print(data3)

[[ 0.27646875  0.19453286  1.0226491   0.68275397 -0.95233933]
 [ 1.34290127  0.08727183 -0.15667288 -1.06698594 -2.95866188]
 [-1.18642548  1.26981638  0.07852258 -0.46909895  1.29365512]
 [-0.21055044  1.29140558  1.09110666  0.73107916 -0.01826704]
 [ 1.17286737  0.08910958 -0.07739427 -0.96939697 -1.71949696]
 [ 0.27138749  0.1055644   1.5484579   1.65927117  0.37831255]
 [-1.59126297  1.02637748 -1.49882424 -2.56182094  0.52617018]]
----------
[[ 0.27646875  0.19453286  1.0226491 ]
 [-0.21055044  1.29140558  1.09110666]
 [-1.59126297  1.02637748 -1.49882424]]
----------
[[ 0.27646875  0.19453286  1.0226491   0.68275397 -0.95233933]
 [ 5.          5.          5.          5.          5.        ]
 [ 5.          5.          5.          5.          5.        ]
 [-0.21055044  1.29140558  1.09110666  0.73107916 -0.01826704]
 [ 5.          5.          5.          5.          5.        ]
 [ 5.          5.          5.          5.          5.        ]
 [-1.59126297  1.02637748 -1.49882424 -2

In [15]:
'''花式索引：将数据复制到新数组中'''
#特定的顺序选取行子集
arr6=np.empty((7,4))
for i in range(7):
    arr6[i]=i
print(arr6)
print('----------')
print(arr6[[4,0,5,2]])#注意双括号
print('----------')
print(arr6[[-1,-3,-5]])

[[ 0.  0.  0.  0.]
 [ 1.  1.  1.  1.]
 [ 2.  2.  2.  2.]
 [ 3.  3.  3.  3.]
 [ 4.  4.  4.  4.]
 [ 5.  5.  5.  5.]
 [ 6.  6.  6.  6.]]
----------
[[ 4.  4.  4.  4.]
 [ 0.  0.  0.  0.]
 [ 5.  5.  5.  5.]
 [ 2.  2.  2.  2.]]
----------
[[ 6.  6.  6.  6.]
 [ 4.  4.  4.  4.]
 [ 2.  2.  2.  2.]]


In [16]:
#reshape(x,y)生成x行y列的ndarray
arr7=np.arange(32).reshape(8,4)
print(arr7)
print('----------')
#一次传入多个索引数组
print(arr7[[1,2,3,4],[0,0,0,0]])  #对应(1,0),(2,0),(3,0),(4,0)位置的元素
print('----------')
#np.ix_()
print(arr7[np.ix_([1,5,7,2],[0,3,1,2])]) #将2个数组转换为一个用户选取方形区域的索引器，将第1行的第0,3,1,2个元素存入数组

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]
----------
[ 4  8 12 16]
----------
[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


In [17]:
'''数组装置和轴对换'''
#arr.T和np.dot()
arr8=np.arange(12).reshape(2,6)
print(arr8)
print('----------')
print(arr8.T)
print('----------')
print(np.dot(arr8,arr8.T))  #高维数组转置arr9.transpose()和arr9.swapaxes()

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
----------
[[ 0  6]
 [ 1  7]
 [ 2  8]
 [ 3  9]
 [ 4 10]
 [ 5 11]]
----------
[[ 55 145]
 [145 451]]


In [19]:
'''通用函数ufunc'''
#一元ufunc
arr9=np.random.randn(16).reshape(4,4)
print(arr9)
print('----------')
print(np.ceil(arr9)) #取大于等于该值的最小整数
print('----------')
print(np.floor(arr9)) #取小于等于该值的最小整数
print('----------')
print(np.rint(arr9)) #四舍五入到最接近的整数
print('----------')
print(np.modf(arr9)) #将数组的小数部分和整数部分以2个独立数组的形式返回
print('----------')
#二元ufunc
arr10=np.array([1,2,3,4])
arr11=np.array([2,2,2,2])
print(np.power(arr10,arr11)) #二个数组的规格要相等，对应的元素计算A^B

[[-0.90769788  0.40719696 -0.07985651  0.48737663]
 [-1.10989143  0.90572395  0.67298364 -0.01750161]
 [ 1.77106692 -1.07944291 -0.93414387  0.62162372]
 [ 0.03863436 -0.88743234  0.49344329  1.29125518]]
----------
[[-0.  1. -0.  1.]
 [-1.  1.  1. -0.]
 [ 2. -1. -0.  1.]
 [ 1. -0.  1.  2.]]
----------
[[-1.  0. -1.  0.]
 [-2.  0.  0. -1.]
 [ 1. -2. -1.  0.]
 [ 0. -1.  0.  1.]]
----------
[[-1.  0. -0.  0.]
 [-1.  1.  1. -0.]
 [ 2. -1. -1.  1.]
 [ 0. -1.  0.  1.]]
----------
(array([[-0.90769788,  0.40719696, -0.07985651,  0.48737663],
       [-0.10989143,  0.90572395,  0.67298364, -0.01750161],
       [ 0.77106692, -0.07944291, -0.93414387,  0.62162372],
       [ 0.03863436, -0.88743234,  0.49344329,  0.29125518]]), array([[-0.,  0., -0.,  0.],
       [-1.,  0.,  0., -0.],
       [ 1., -1., -0.,  0.],
       [ 0., -0.,  0.,  1.]]))
----------
[ 1  4  9 16]


In [20]:
'''meshgrid():接受2个1维数组，产生2个二维数组。当计算sqrt(x^2+y^2)时很有效'''
points=np.arange(-5,5,1)
print(points)
print('----------')
xs,ys=np.meshgrid(points,points)
result1=np.sqrt(xs**2+ys**2)
print(result1)

[-5 -4 -3 -2 -1  0  1  2  3  4]
----------
[[ 7.07106781  6.40312424  5.83095189  5.38516481  5.09901951  5.
   5.09901951  5.38516481  5.83095189  6.40312424]
 [ 6.40312424  5.65685425  5.          4.47213595  4.12310563  4.
   4.12310563  4.47213595  5.          5.65685425]
 [ 5.83095189  5.          4.24264069  3.60555128  3.16227766  3.
   3.16227766  3.60555128  4.24264069  5.        ]
 [ 5.38516481  4.47213595  3.60555128  2.82842712  2.23606798  2.
   2.23606798  2.82842712  3.60555128  4.47213595]
 [ 5.09901951  4.12310563  3.16227766  2.23606798  1.41421356  1.
   1.41421356  2.23606798  3.16227766  4.12310563]
 [ 5.          4.          3.          2.          1.          0.          1.
   2.          3.          4.        ]
 [ 5.09901951  4.12310563  3.16227766  2.23606798  1.41421356  1.
   1.41421356  2.23606798  3.16227766  4.12310563]
 [ 5.38516481  4.47213595  3.60555128  2.82842712  2.23606798  2.
   2.23606798  2.82842712  3.60555128  4.47213595]
 [ 5.83095189  5.    

In [21]:
'''np.where()函数是三元表达式x if condition else y的矢量化版本'''
xarr=np.array([1.1,1.2,1.3,1.4,1.5])
yarr=np.array([2.1,2.2,2.3,2.4,2.5])
cond=np.array([True,False,True,True,False])
result2=[(x if c else y) for x,y,c in zip(xarr,yarr,cond)]
print(result2)
print('----------')
result3=np.where(cond,xarr,yarr)
print(result3)

[1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]
----------
[ 1.1  2.2  1.3  1.4  2.5]


In [22]:
'''基本数组的统计方法'''
arr12=np.arange(9).reshape(3,3)
print(arr12)
print('----------')
print(arr12.sum())
print('----------')
print(arr12.mean())
print('----------')
print(arr12.min())
print('----------')
print(arr12.max())
print('----------')
print(arr12.argmin()) #最小元素的索引
print('----------')
print(arr12.argmax()) #最大元素的索引
print('----------')
print(arr12.std()) #标准差
print('----------')
print(arr12.var()) #方差
print('----------')
print(arr12.cumsum()) #所有元素的累计和
print('----------')
print(arr12.cumprod()) #所有元素的累计积

[[0 1 2]
 [3 4 5]
 [6 7 8]]
----------
36
----------
4.0
----------
0
----------
8
----------
0
----------
8
----------
2.58198889747
----------
6.66666666667
----------
[ 0  1  3  6 10 15 21 28 36]
----------
[0 0 0 0 0 0 0 0 0]


In [23]:
'''数组的集合运算'''
names2=np.array(['Bob','Joe','Will','Bob','Will','Sed','Bob'])
names3=np.array(['Bob','Lily','Will','John'])
print(np.unique(names2)) #计算数组中的唯一值
print(np.intersect1d(names2,names3)) #计算2个数组的公共元素
print(np.union1d(names2,names3)) #计算2个数组的并集
print(np.in1d(names2,names3)) #计算第一个数组的元素是否存在于第二个数组中，得到一个布尔型数组
print(np.setdiff1d(names2,names3)) #计算集合的差
print(np.setxor1d(names2,names3)) #计算对称差，即取‘存在于一个数组中但不同时存在于2个数组中’的元素

['Bob' 'Joe' 'Sed' 'Will']
['Bob' 'Will']
['Bob' 'Joe' 'John' 'Lily' 'Sed' 'Will']
[ True False  True  True  True False  True]
['Joe' 'Sed']
['Joe' 'John' 'Lily' 'Sed']


In [30]:
'''数组文件的输入输出'''
arr13=np.arange(12).reshape(3,4)
np.save('D://test.npy',arr13) #将ndarray以未压缩的原始二进制格式保存在扩展名为.npy的文件中
np.load('D://test.npy') #读取

np.savez('D://array_group.npy',one=arr13,two=arr12) #savez()将多个ndarray保存到一个压缩文件中，通过关键字参数的形式区分
file=np.load('D://array_group.npy')
print(file['a']) #根据关键字取出数组

In [None]:
#对于含有分隔符的文件，如csv文件中数据之间用'，'分隔
np.loadtxt('XXX.txt',delimiter=',')
np.savetxt('xxx.txt')

In [23]:
'''线性代数
    numpy.linalg函数'''
arr14=np.array([1,2,3,4]).reshape(2,2)
print(np.linalg.det(arr14)) #求行列式
print('----------')
print(np.linalg.eig(arr14)) #求奇异值
print('----------')
print(np.linalg.svd(arr14)) #求SVD

-2.0
----------
(array([-0.37228132,  5.37228132]), array([[-0.82456484, -0.41597356],
       [ 0.56576746, -0.90937671]]))
----------
(array([[-0.40455358, -0.9145143 ],
       [-0.9145143 ,  0.40455358]]), array([ 5.4649857 ,  0.36596619]), array([[-0.57604844, -0.81741556],
       [ 0.81741556, -0.57604844]]))


In [24]:
'''案例：随机漫步'''
nsteps=1000
draws=np.random.randint(0,2,nsteps) #取值0和1
steps=np.where(draws>0,1,-1)
walk=steps.cumsum()
print(walk.min())
print('----------')
print(walk.max())
print('----------')
print((np.abs(walk)>=10).argmax())  #计算第一个10或者-10的索引
print('----------')
print((np.abs(walk)>=10).any())

-9
----------
38
----------
109
----------
True
