# numpy概览
- numpy包的核心是nadarry对象，是多维数组
- 所有类型都是相同的
- numpy中的维度称为轴

# ndarray对象的属性
- ndim:数组维度的个数
- shape：数组的维度
- size:数组元素的个数
- dtype：数组中元素的类型
- itemsize：数组中每个元素的字节大小
- data：数组中实际元素(通常不需要)

In [1]:
import numpy as np
a = np.arange(15).reshape(3, 5)

In [2]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [3]:
a.shape

(3, 5)

In [4]:
a.ndim

2

In [5]:
a.dtype

dtype('int64')

In [6]:
a.itemsize

8

In [7]:
a.size

15

In [8]:
type(a)

numpy.ndarray

# 创建数组

In [9]:
# 通过python的列表和数组创建，数据类型是推导而来的
# 注意：numpy中数据类型必须全部相同，而python的列表中可以不同
a = np.array([2,3,4])
a
# 调用array的时候不要传入多个数字参数，要传入列表

array([2, 3, 4])

In [10]:
# array 还可以将序列的序列转换成二维数组，将序列的序列的序列转换成三维数组，等等。
b = np.array([(1.5,2,3), (4,5,6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

In [11]:
# 也可以在创建时显式指定数组的类型：
c = np.array( [ [1,2], [3,4] ], dtype=complex )
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

In [12]:
# 函数zeros创建一个由0组成的数组，函数 ones创建一个完整的数组，函数empty 创建一个数组
# 默认情况下，创建的数组的dtype是 float64 类型的
np.zeros( (3,4) )

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [13]:
np.ones( (2,3,4), dtype=np.int16 ) 

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [14]:
np.empty( (2,3) )

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

In [15]:
# 为了创建数字组成的数组，NumPy提供了一个类似于range的函数，该函数返回数组而不是列表。
np.arange( 10, 30, 5 )

array([10, 15, 20, 25])

In [16]:
np.arange( 0, 2, 0.3 )

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

In [17]:
# linspace函数来接收我们想要的元素数量的函数，而不是步长（step）
# 也就是传入范围和再这个范围里面要去多少个数
from numpy import pi
np.linspace( 0, 2, 9 )  

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [18]:
x = np.linspace( 0, 2*pi, 100 ) 
f = np.sin(x)
f

array([ 0.00000000e+00,  6.34239197e-02,  1.26592454e-01,  1.89251244e-01,
        2.51147987e-01,  3.12033446e-01,  3.71662456e-01,  4.29794912e-01,
        4.86196736e-01,  5.40640817e-01,  5.92907929e-01,  6.42787610e-01,
        6.90079011e-01,  7.34591709e-01,  7.76146464e-01,  8.14575952e-01,
        8.49725430e-01,  8.81453363e-01,  9.09631995e-01,  9.34147860e-01,
        9.54902241e-01,  9.71811568e-01,  9.84807753e-01,  9.93838464e-01,
        9.98867339e-01,  9.99874128e-01,  9.96854776e-01,  9.89821442e-01,
        9.78802446e-01,  9.63842159e-01,  9.45000819e-01,  9.22354294e-01,
        8.95993774e-01,  8.66025404e-01,  8.32569855e-01,  7.95761841e-01,
        7.55749574e-01,  7.12694171e-01,  6.66769001e-01,  6.18158986e-01,
        5.67059864e-01,  5.13677392e-01,  4.58226522e-01,  4.00930535e-01,
        3.42020143e-01,  2.81732557e-01,  2.20310533e-01,  1.58001396e-01,
        9.50560433e-02,  3.17279335e-02, -3.17279335e-02, -9.50560433e-02,
       -1.58001396e-01, -

# 打印数组

In [19]:
a = np.arange(6)  
print(a)

[0 1 2 3 4 5]


In [20]:
b = np.arange(12).reshape(4,3)
print(b)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [21]:
c = np.arange(24).reshape(2,3,4) 
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [22]:
# 如果数组太大而无法打印，NumPy会自动跳过数组的中心部分并仅打印角点：
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


In [23]:
# reshape
print(np.arange(10000).reshape(100,100))

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


# 基本操作

- 算数运算

In [24]:
a = np.array( [20,30,40,50] )
b = np.arange( 4 )

In [25]:
c = a-b
c

array([20, 29, 38, 47])

In [26]:
b**2

array([0, 1, 4, 9])

In [27]:
10*np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [28]:
a<35

array([ True,  True, False, False])

- 矩阵运算

In [29]:
A = np.array([[1,1],
              [0,1]])
B = np.array([[2,0],
               [3,4]])

In [30]:
# 乘积运算
A * B

array([[2, 0],
       [0, 4]])

In [31]:
# 矩阵乘积
A @ B

array([[5, 4],
       [3, 4]])

In [32]:
# 或者使用dot函数
A.dot(B)

array([[5, 4],
       [3, 4]])

In [33]:
# 某些操作（例如+=和 *=）会更直接更改被操作的矩阵数组而不会创建新矩阵数组
a = np.ones((2,3), dtype=int)
b = np.random.random((2,3))

In [34]:
a *=3
a

array([[3, 3, 3],
       [3, 3, 3]])

In [35]:
b +=a
b

array([[3.40597351, 3.94256894, 3.81044438],
       [3.96943969, 3.1863472 , 3.3738982 ]])

In [36]:
# a +=b 会报错，因为类型不同，而且是改变a数组，不是生成其他数组
# 不同类型运算，结果更精确
a = np.ones(3, dtype=np.int32)
b = np.linspace(0,pi,3)
b.dtype.name

'float64'

In [37]:
c = a+b
c

array([1.        , 2.57079633, 4.14159265])

In [38]:
c.dtype.name

'float64'

In [39]:
d = np.exp(c*1j)
d

array([ 0.54030231+0.84147098j, -0.84147098+0.54030231j,
       -0.54030231-0.84147098j])

In [40]:
d.dtype.name

'complex128'

- sum(),min(),max()函数

In [41]:
a = np.random.random((2,3))
a

array([[0.72820942, 0.43240037, 0.00148125],
       [0.71749954, 0.24646713, 0.26178946]])

In [42]:
a.sum()

2.3878471606932408

In [43]:
a.min()

0.0014812455008612613

In [44]:
a.max()

0.7282094161424741

- 这些操作适用于数组，就像它是一个数字列表一样

In [45]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [46]:
# axis = 0 取列
b.sum(axis=0)   

array([12, 15, 18, 21])

In [47]:
# axis = 1 取行
b.min(axis=1)

array([0, 4, 8])

In [48]:
b.cumsum(axis=1) 

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

## 通函数
- 另见这些通函数
all
， any ， apply_along_axis ， argmax ， argmin ， argsort ， average ， bincount ， ceil ， clip ， conj ， corrcoef ， cov ， cross ， cumprod ， cumsum ， diff ， dot ， floor ， inner ， INV ， lexsort ， max ， maximum ， mean ， median ， min ， minimum ， nonzero ， outer ， prod ， re ， round ， sort ， std ， sum ， trace ， transpose ， var ， vdot ， vectorize ， where 

In [49]:
B = np.arange(3)
print(np.exp(B))
print(np.sqrt(B))
C = np.array([2., -1., 4.])
print(np.add(B, C))

[1.         2.71828183 7.3890561 ]
[0.         1.         1.41421356]
[2. 0. 6.]


# 索引、切片和迭代
- 一维的数组可以进行索引、切片和迭代操作的，就像 列表 和其他Python序列类型一样。

In [50]:
# 就像python中的切片一样
vector = np.array([5, 10, 15, 20,55,32])
vector[2]

15

In [51]:
vector[0:3]

array([ 5, 10, 15])

In [52]:
vector[:5:2]

array([ 5, 15, 55])

In [53]:
vector[: : -1]

array([32, 55, 20, 15, 10,  5])

- 多维数组的索引

In [54]:
matrix = np.array([[5, 10, 15], [20, 25, 30], [35, 40, 45]])
matrix[1,2]

30

In [55]:
matrix[1]

array([20, 25, 30])

In [56]:
# 第二列数据
matrix[: ,1]

array([10, 25, 40])

In [57]:
# 取多列
matrix[:,0:2]

array([[ 5, 10],
       [20, 25],
       [35, 40]])

In [58]:
# 取多行的多列
matrix[1:3,0:2]

array([[20, 25],
       [35, 40]])

In [59]:
c = np.array( [[[  0,  1,  2],               # a 3D array (two stacked 2D arrays)
                [ 10, 12, 13]],
                [[100,101,102],
                [110,112,113]]])
c

array([[[  0,   1,   2],
        [ 10,  12,  13]],

       [[100, 101, 102],
        [110, 112, 113]]])

In [60]:
c.shape

(2, 2, 3)

In [61]:
c[1,...]
#等价c[1,:,:]或者c[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [62]:
c[...,2]
#等价c[:,:,2]

array([[  2,  13],
       [102, 113]])

In [63]:
# 迭代
for row in c:
    print(row)

[[ 0  1  2]
 [10 12 13]]
[[100 101 102]
 [110 112 113]]


In [64]:
# flat属性迭代每个元素
for element in c.flat:
    print(element)

0
1
2
10
12
13
100
101
102
110
112
113


# 形状操作

In [65]:
# 改变数组的形状
a = np.floor(10*np.random.random((3,4)))
a.shape

(3, 4)

In [66]:
# 返回修改后的数组，不改变原数组
a.ravel()

array([5., 0., 0., 1., 5., 4., 4., 6., 2., 7., 4., 1.])

In [67]:
a.reshape(6,2)

array([[5., 0.],
       [0., 1.],
       [5., 4.],
       [4., 6.],
       [2., 7.],
       [4., 1.]])

In [68]:
a.T

array([[5., 5., 2.],
       [0., 4., 7.],
       [0., 4., 4.],
       [1., 6., 1.]])

In [69]:
# resize函数会改变原数据
a.resize((2,6))
a

array([[5., 0., 0., 1., 5., 4.],
       [4., 6., 2., 7., 4., 1.]])

In [70]:
# reshape()函数指定为-1,会自动计算大小
a.reshape(3,-1)

array([[5., 0., 0., 1.],
       [5., 4., 4., 6.],
       [2., 7., 4., 1.]])

# 不同数组堆叠在一起

In [71]:
a = np.floor(10*np.random.random((2,2)))
a

array([[8., 7.],
       [4., 0.]])

In [72]:
b = np.floor(10*np.random.random((2,2)))
b

array([[8., 5.],
       [3., 5.]])

In [73]:
# 按行堆叠
np.vstack((a,b))

array([[8., 7.],
       [4., 0.],
       [8., 5.],
       [3., 5.]])

In [74]:
# 按列堆叠
# 形成新的数组
np.hstack((a,b))

array([[8., 7., 8., 5.],
       [4., 0., 3., 5.]])

In [75]:
# 拆分数组
a = np.floor(10*np.random.random((2,12)))
a

array([[3., 1., 1., 8., 7., 6., 2., 1., 6., 4., 6., 2.],
       [9., 2., 1., 8., 5., 5., 4., 9., 1., 9., 3., 9.]])

In [76]:
np.hsplit(a,3)

[array([[3., 1., 1., 8.],
        [9., 2., 1., 8.]]),
 array([[7., 6., 2., 1.],
        [5., 5., 4., 9.]]),
 array([[6., 4., 6., 2.],
        [1., 9., 3., 9.]])]

In [77]:
np.hsplit(a,(3,4))

[array([[3., 1., 1.],
        [9., 2., 1.]]),
 array([[8.],
        [8.]]),
 array([[7., 6., 2., 1., 6., 4., 6., 2.],
        [5., 5., 4., 9., 1., 9., 3., 9.]])]

- 如果数组中元素类型不同，其余的类型全部改为最精确的类型

In [78]:
numbers = np.array([1,2,3,4])
numbers.dtype.name

'int64'

In [79]:
numbers = np.array([1,2,3,4.0])
numbers.dtype.name

'float64'

In [80]:
numbers = np.array([1,2,3,'4'])
numbers.dtype.name

'str672'

# 其他操作

- 判断矩阵是否含有某个值，并当作索引

In [81]:
vector = np.array([5, 10, 15, 20])
matrix = np.array([[5, 10, 15], [20, 25, 30], [35, 40, 45]])

In [82]:
# 判断矩阵是否含有某个值
matrix==25

array([[False, False, False],
       [False,  True, False],
       [False, False, False]])

In [83]:
vector==10

array([False,  True, False, False])

In [84]:
# 拿判断的结果当作索引,来进行选择
vector[vector==10]=100
vector

array([  5, 100,  15,  20])

In [85]:
# 判断某个数字，在某行或者某列
matrix[ : ,1]==25

array([False,  True, False])

In [86]:
# 然后把判断结果作为索引，输出含有这个数字的某一行
matrix[matrix[ : ,1]==25,:]

array([[20, 25, 30]])

In [87]:
enual_to_ten_and_five_1 = (vector==10)|(vector==5)
enual_to_ten_and_five_2 = (vector == 10)&(vector == 5)
print(enual_to_ten_and_five_1)
print(enual_to_ten_and_five_2)

[ True False False False]
[False False False False]


In [88]:
#用取出来的索引，改变某些值
vector[enual_to_ten_and_five_1]=50
vector

array([ 50, 100,  15,  20])

In [89]:
#对二维
second_column_25 = matrix[:,1]==25
print(second_column_25)
matrix[second_column_25,1] = 10
print(matrix)

[False  True False]
[[ 5 10 15]
 [20 10 30]
 [35 40 45]]


In [90]:
# 改变类型
vector = np.array(["1", "2", "3"])
print(vector.dtype)
vector=vector.astype(float)
print(vector.dtype.name)

<U1
float64


In [91]:
#数组之间的数学运算
def math_array():
    a = np.array([20, 30, 40, 50])
    b = np.arange(4)
    c = a-b
    print(c)
    c=c-1
    print(c)
    print(b**2)
    print(a<35)
    print("----------")
    A = np.array([[1, 1],
                      [0,1]])
    B = np.array([[2, 0],
                      [3,4]])
    print(A*B)#*乘是对应位置相乘
    print(A.dot(B))#矩阵乘法
    print(np.dot(A, B))

    B= np.arange(3)
    print(np.exp(B))#e的幂次方
    print(np.sqrt(B))#每个数求平方
    #floor向下取整
    a = np.floor(10 * np.random.random((3, 4)))
    print(a)
    #把矩阵拉成成向量
    print(a.ravel())
    a.shape = (6,2)
    print(a)
    print("-----------")
    print((a.T))#转置矩阵
    #指定为-1的意思是自动计算行数
    print(a.reshape(3,-1))
    print("---------------")
    #取整操作
    a = np.floor(10 * np.random.random((2, 2)))
    b = np.floor(10 * np.random.random((2, 2)))
    #行之间的拼接
    print((np.hstack((a, b))))
    #列之间的拼接
    print((np.vstack((a, b))))
    print("-----------------")
    a = np.floor(10 * np.random.random((2, 12)))
    print((np.hsplit(a, 3)))#按照行进行切分
    print((np.vsplit(a, 2)))#按照列进行切分
math_array()

[20 29 38 47]
[19 28 37 46]
[0 1 4 9]
[ True  True False False]
----------
[[2 0]
 [0 4]]
[[5 4]
 [3 4]]
[[5 4]
 [3 4]]
[1.         2.71828183 7.3890561 ]
[0.         1.         1.41421356]
[[0. 5. 3. 6.]
 [4. 8. 7. 8.]
 [1. 7. 3. 3.]]
[0. 5. 3. 6. 4. 8. 7. 8. 1. 7. 3. 3.]
[[0. 5.]
 [3. 6.]
 [4. 8.]
 [7. 8.]
 [1. 7.]
 [3. 3.]]
-----------
[[0. 3. 4. 7. 1. 3.]
 [5. 6. 8. 8. 7. 3.]]
[[0. 5. 3. 6.]
 [4. 8. 7. 8.]
 [1. 7. 3. 3.]]
---------------
[[7. 3. 2. 9.]
 [9. 1. 8. 5.]]
[[7. 3.]
 [9. 1.]
 [2. 9.]
 [8. 5.]]
-----------------
[array([[1., 8., 5., 7.],
       [4., 5., 4., 0.]]), array([[9., 0., 8., 7.],
       [5., 9., 1., 6.]]), array([[4., 7., 2., 7.],
       [7., 8., 6., 3.]])]
[array([[1., 8., 5., 7., 9., 0., 8., 7., 4., 7., 2., 7.]]), array([[4., 5., 4., 0., 5., 9., 1., 6., 7., 8., 6., 3.]])]


In [92]:
#矩阵的复制
def copy_arrany():
    #等号复制，形式相同，id相当
    a = np.arange(12)
    b = a
    print( (b is a) )
    print((id(a)))
    print((id(b)))
    print("-----------")
    #指向不同，id不同，共用的值是相同的
    c = a.view()#浅复制
    print((c is a))
    c.shape= 2,6
    print(a.shape)
    c[0,4] = 1234
    print(a)
    print(id(a))
    print(id(c))
    print("-------------")
    #指向不同，共用值不同
    d = a.copy()#之后d和a就没有关系，深复制
    d is a
    d[0] = 9999
    print(d)
    print(a)
copy_arrany()

True
140060427839568
140060427839568
-----------
False
(12,)
[   0    1    2    3 1234    5    6    7    8    9   10   11]
140060427839568
140060427837968
-------------
[9999    1    2    3 1234    5    6    7    8    9   10   11]
[   0    1    2    3 1234    5    6    7    8    9   10   11]


In [93]:
#排序与索引问题
def max_suoying():
    data = np.sin(np.arange(20)).reshape(5, 4)
    print(data)
    ind = data.argmax(axis=0)
    print(ind)
    #输出每列最大的索引
    data_max = data[ind,range(data.shape[1])]
    print(data_max)
    print("-------------")
    a = np.arange(0, 40, 10)
    #对a进行扩展
    b = np.tile(a, (3, 5))
    print(b)
    print("-----------")
    #排序
    a = np.array([[4, 3, 5], [1, 2, 1]])
    b = np.sort(a, axis=1)
    print(b)
    a = np.array([4, 3, 1, 2])
    #按照索引排序
    j = np.argsort(a)
    print(j)
    print(a[j])
max_suoying()

[[ 0.          0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155   0.6569866 ]
 [ 0.98935825  0.41211849 -0.54402111 -0.99999021]
 [-0.53657292  0.42016704  0.99060736  0.65028784]
 [-0.28790332 -0.96139749 -0.75098725  0.14987721]]
[2 0 3 1]
[0.98935825 0.84147098 0.99060736 0.6569866 ]
-------------
[[ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]
 [ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]
 [ 0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30  0 10 20 30]]
-----------
[[3 4 5]
 [1 1 2]]
[2 3 1 0]
[1 2 3 4]
