# 如何创建数组

In [1]:
# 创建一维数组
import numpy as np
list1 = [0,1,2,3,4]
arr1d = np.array(list1)
print(arr1d)
print(type(arr1d))
arr1d


[0 1 2 3 4]
<class 'numpy.ndarray'>


array([0, 1, 2, 3, 4])

In [2]:
# 对于列表来说不可以操作
# [1,2,3] + 2
# 但是对于ndarray可以
arr1d + 2
# 对于列表来说，操作size可以使用pop或者append来修改
#  [1,2,3].append(4)
# 但是对于ndarray来说，创建后不可以再增减元素，但可以对元素进行修改

array([2, 3, 4, 5, 6])

In [3]:
# 创建2d数组
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
arr2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [42]:
# 创建浮点型2d数组
arr2d_f = np.array(list2,dtype='float')
arr2d_f

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

In [9]:
# 其他dtypes 包括: 'float', 'int', 'bool', 'str' and 'object'.
# 如果要对数据类型做转换，使用astype
arr2d_f.astype('int')

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [11]:
# 只要是array对象，就可以进行类型转换，包括连续转换
arr2d_f.astype('int').astype('str')

array([['0', '1', '2'],
       ['3', '4', '5'],
       ['6', '7', '8']], dtype='<U11')

In [12]:
# 创建bool类型的数据，只有True和False，非空数值将被转换为True
arr2d_b = np.array([1,0,10],dtype='bool')
arr2d_b

array([ True, False,  True])

In [14]:
# 和list不同，array要求所有数据为一致的对象，除非使用的dtype='object'
arr1d_obj = np.array([1, 'a'],dtype='object')
arr1d_obj

array([1, 'a'], dtype=object)

In [15]:
# array对象也可以再转换为list对象
arr1d_obj.tolist()

[1, 'a']

## 总结python的list和array的主要区别

1. list不支持向量操作，而array支持向量操作
2. array一旦创建就不可变更size，除非新建一个array或者覆盖一个已经存在的。
3. 每个数组有且只有1个dtype时，所有的项都会是那个类型.
4. 等价的array和list，前者占用空间更少。

# 如何查看numpy的array的维度，数量和类型。

In [3]:
# 创建一个3行4列的2维数组
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
arr2

#> array([[ 1.,  2.,  3.,  4.],
#>        [ 3.,  4.,  5.,  6.],
#>        [ 5.,  6.,  7.,  8.]])
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

Shape:  (3, 4)
Datatype:  float64
Size:  12
Num Dimensions:  2


# 如何提取数组项

In [35]:
print("两行两列\n",arr2[:2,:2])
  
print("一行两列\n",arr2[:1,:2])

print("第二行前两列\n",arr2[1:2,:2])

print("第二到三行第二到三列\n",arr2[1:3,1:3])



两行两列
 [[1. 2.]
 [3. 4.]]
一行两列
 [[1. 2.]]
第二行前两列
 [[3. 4.]]
第二到三行第二到三列
 [[4. 5.]
 [6. 7.]]


In [36]:
# 通过计算式直接将数组转化为bool型
b = arr2>4
# 对于元素大于4的值为真
b

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

In [37]:
# bool式作为列表索引输入数组
arr2[b]

array([5., 6., 5., 6., 7., 8.])

# 如何翻转数组


In [44]:
# 二维数组翻转
# 切片每组为slice(起点,终点,步长)，步长为-1则为倒序在中括号中用:分隔，其中起点和终点为左闭右开，如slice(1,3,1)，实际上只有索引1,2
print("仅对行翻转\n",arr2[::-1,])
print("对称翻转\n",arr2[::-1,::-1])
print("仅对行列翻转\n",arr2[::,::-1])
# 切片中的参数每个维度以逗号分隔，相当于[axis=0,axis=1,axis=2,...]

仅对行翻转
 [[5. 6. 7. 8.]
 [3. 4. 5. 6.]
 [1. 2. 3. 4.]]
对称翻转
 [[8. 7. 6. 5.]
 [6. 5. 4. 3.]
 [4. 3. 2. 1.]]
对称翻转
 [[4. 3. 2. 1.]
 [6. 5. 4. 3.]
 [8. 7. 6. 5.]]


In [61]:
# 二维数组指定位置选取
arr2d_ind = np.arange(60).reshape(6,10)
print(arr2d_ind,"\n====选取第2->4行，5-7-9列====")

print(arr2d_ind[1:4:,5:10:2])

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]] 
====选取第2->4行，5-7-9列====
[[15 17 19]
 [25 27 29]
 [35 37 39]]


In [6]:
# 多维数组选取，本质上来说相当于贴片中的位置参数是按维度依次排序
arr3d_ind =  np.arange(100).reshape(5,4,5)
print(arr3d_ind,"\n====选取d1:2->4，d2:1-2-3,d3:1,3,5====")
print(arr3d_ind[1:4:,0:4:,0:5:2])


[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]
  [30 31 32 33 34]
  [35 36 37 38 39]]

 [[40 41 42 43 44]
  [45 46 47 48 49]
  [50 51 52 53 54]
  [55 56 57 58 59]]

 [[60 61 62 63 64]
  [65 66 67 68 69]
  [70 71 72 73 74]
  [75 76 77 78 79]]

 [[80 81 82 83 84]
  [85 86 87 88 89]
  [90 91 92 93 94]
  [95 96 97 98 99]]] 
====选取d1:2->4，d2:1-2-3,d3:1,3,5====
[[[20 22 24]
  [25 27 29]
  [30 32 34]
  [35 37 39]]

 [[40 42 44]
  [45 47 49]
  [50 52 54]
  [55 57 59]]

 [[60 62 64]
  [65 67 69]
  [70 72 74]
  [75 77 79]]]


# 如何表示丢失的值和无限的值

In [66]:
# 使用np.nan表示丢失的值,np.inf表示无限大
arr2[1,1] = np.nan
arr2[1,2] = np.inf
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., nan, inf,  6.],
       [ 5.,  6.,  7.,  8.]])

In [69]:
# 特殊情况下，对于丢失的值，也可以使用-1或者0代替
# 先构造bool表达式，判断
missing_bool = np.isnan(arr2) | np.isinf(arr2)
print("空值和无限值bool式子\n",missing_bool)
arr2[missing_bool] = -1
arr2



空值和无限值bool式子
 [[False False False False]
 [False  True  True False]
 [False False False False]]


array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

# 如何计算方差，最小值，最大值?

In [3]:
arr3 = np.array([1,3,5,7,9,11]).reshape(2,3)
print("平均数:",arr3.mean())
print("最小值:",arr3.min())0
print("最大值:",arr3.max())
arr3

平均数: 6.0
最小值: 1
最大值: 11


array([[ 1,  3,  5],
       [ 7,  9, 11]])

In [4]:
# 行列最小，可以使用amin或者min，不过后者可以给np数据类型直接使用，前者为调用方法
print("最小行:",np.amin(arr3,axis=0))
print("最小列:",np.amin(arr3,axis=1))

最小行: [1 3 5]
最小列: [1 7]


In [7]:
# 三维 最小
print(arr3d_ind)
# axis从最高维度或说从列表外列表的列表最外层前一层算起即axis=0
# 故axis=max时，为列表里面的最里层一维数组
print("第一维度中最小:\n",np.min(arr3d_ind,axis=0))
print("第二维度中最小:\n",np.min(arr3d_ind,axis=1))
print("第三维度中最小:\n",np.min(arr3d_ind,axis=2))
print("显然,求取三维的最小值,实际上都降维到二维了,后续可以继续使用二维求最小值:\n")
print("第三维度中最小的最小列:\n",np.amin(arr3d_ind,axis=2).min(axis=1))
# 跨维度计算比较难以理解最后一维，一般来说，都是列



[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]
  [30 31 32 33 34]
  [35 36 37 38 39]]

 [[40 41 42 43 44]
  [45 46 47 48 49]
  [50 51 52 53 54]
  [55 56 57 58 59]]

 [[60 61 62 63 64]
  [65 66 67 68 69]
  [70 71 72 73 74]
  [75 76 77 78 79]]

 [[80 81 82 83 84]
  [85 86 87 88 89]
  [90 91 92 93 94]
  [95 96 97 98 99]]]
第一维度中最小:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
第二维度中最小:
 [[ 0  1  2  3  4]
 [20 21 22 23 24]
 [40 41 42 43 44]
 [60 61 62 63 64]
 [80 81 82 83 84]]
第三维度中最小:
 [[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]
 [60 65 70 75]
 [80 85 90 95]]
显然,求取三维的最小值,实际上都降维到二维了,后续可以继续使用二维求最小值:

第三维度中最小的最小列:
 [ 0 20 40 60 80]


In [63]:
# 数组累加
print("原始数组：",arr2d)
# 无论几维数组直接累加会降维成一维
print("二维累加\n",np.cumsum(arr2d))
print("一维累加\n",np.cumsum(arr2d).cumsum())
print("二维按列累加\n",np.cumsum(arr2d,axis=0))
print("二维按行累加\n",np.cumsum(arr2d,axis=1))


原始数组： [[0 1 2]
 [3 4 5]
 [6 7 8]]
二维累加
 [ 0  1  3  6 10 15 21 28 36]
一维累加
 [  0   1   4  10  20  35  56  84 120]
二维按列累加
 [[ 0  1  2]
 [ 3  5  7]
 [ 9 12 15]]
二维按行累加
 [[ 0  1  3]
 [ 3  7 12]
 [ 6 13 21]]


In [8]:
# 从三维最外层内一层的每组开始累加
arr3d_ind.cumsum(axis=0)

array([[[  0,   1,   2,   3,   4],
        [  5,   6,   7,   8,   9],
        [ 10,  11,  12,  13,  14],
        [ 15,  16,  17,  18,  19]],

       [[ 20,  22,  24,  26,  28],
        [ 30,  32,  34,  36,  38],
        [ 40,  42,  44,  46,  48],
        [ 50,  52,  54,  56,  58]],

       [[ 60,  63,  66,  69,  72],
        [ 75,  78,  81,  84,  87],
        [ 90,  93,  96,  99, 102],
        [105, 108, 111, 114, 117]],

       [[120, 124, 128, 132, 136],
        [140, 144, 148, 152, 156],
        [160, 164, 168, 172, 176],
        [180, 184, 188, 192, 196]],

       [[200, 205, 210, 215, 220],
        [225, 230, 235, 240, 245],
        [250, 255, 260, 265, 270],
        [275, 280, 285, 290, 295]]], dtype=int32)

In [9]:
# 从三维最内层内一维开始累加
arr3d_ind.cumsum(axis=2)

array([[[  0,   1,   3,   6,  10],
        [  5,  11,  18,  26,  35],
        [ 10,  21,  33,  46,  60],
        [ 15,  31,  48,  66,  85]],

       [[ 20,  41,  63,  86, 110],
        [ 25,  51,  78, 106, 135],
        [ 30,  61,  93, 126, 160],
        [ 35,  71, 108, 146, 185]],

       [[ 40,  81, 123, 166, 210],
        [ 45,  91, 138, 186, 235],
        [ 50, 101, 153, 206, 260],
        [ 55, 111, 168, 226, 285]],

       [[ 60, 121, 183, 246, 310],
        [ 65, 131, 198, 266, 335],
        [ 70, 141, 213, 286, 360],
        [ 75, 151, 228, 306, 385]],

       [[ 80, 161, 243, 326, 410],
        [ 85, 171, 258, 346, 435],
        [ 90, 181, 273, 366, 460],
        [ 95, 191, 288, 386, 485]]], dtype=int32)

# 如何根据已经存在的数组创建新的数组

In [29]:
# 由于ndarray相当于不可变类型，索引直接赋值的部分也能直接操作原有数组
arr_un = np.arange(10)
arr_tmp = arr_un[1:5]
arr_tmp[arr_tmp%1==0] = 8
print(arr_un)
# 改变arr_tmp就改变了原有arr_un数组

[0 8 8 8 8 5 6 7 8 9]


In [32]:
arr_un = np.arange(10)
arr_new = arr_un[1:5].copy()
arr_tmp = arr_new[1:5]
arr_tmp[arr_tmp%1==0] = 8
print(arr_un)

[0 1 2 3 4 5 6 7 8 9]


# flatten() 和 ravel()的不同

扁平化函数中，使用flatten创建的array，数组修改不会影响到原有数组，而ravel创建的数组会影响原有数组

In [27]:
arr4 = np.arange(18).reshape(2,3,3)
print("原始数组",arr4)
x =  arr4.flatten()
x[1:2]=31
print("flatten赋值的数组没有改变原有数组\n",arr4)
y = arr4.ravel()
y[1:4]=31
print("ravel赋值的数组改变原有数组\n",arr4)

原始数组 [[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]]
flatten赋值的数组没有改变原有数组
 [[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]]
ravel赋值的数组改变原有数组
 [[[ 0 31 31]
  [31  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]]


# 创建基本序列

In [29]:
np.arange(10,-10,-1)

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0, -1, -2, -3, -4, -5, -6,
       -7, -8, -9])

In [31]:
# 等距数组
np.linspace(start=1, stop=50, num=10, dtype=int)

array([ 1,  6, 11, 17, 22, 28, 33, 39, 44, 50])

In [36]:
# 设置自然对数
np.logspace(start=1, stop=50, num=10, base=10) 

array([1.00000000e+01, 2.78255940e+06, 7.74263683e+11, 2.15443469e+17,
       5.99484250e+22, 1.66810054e+28, 4.64158883e+33, 1.29154967e+39,
       3.59381366e+44, 1.00000000e+50])

# 0数组和1数组

In [41]:
np.zeros([2,2,2])

array([[[0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.]]])

In [42]:
np.ones([2,2])

array([[1., 1.],
       [1., 1.]])

# 创建重复队列

In [89]:
z = np.linspace(1,10,num=10,dtype=int)
print("原始数组\n",z)
print("repeat将数组所有元素依次重复n次\n",z.repeat(2))
print("Tile将数组重复n次\n",np.tile(z,2))

原始数组
 [ 1  2  3  4  5  6  7  8  9 10]
repeat将数组所有元素依次重复n次
 [ 1  1  2  2  3  3  4  4  5  5  6  6  7  7  8  8  9  9 10 10]
Tile将数组重复n次
 [ 1  2  3  4  5  6  7  8  9 10  1  2  3  4  5  6  7  8  9 10]


# 生成随机数

In [74]:
# 生成0到1之间的二维随机数
print(np.random.rand(2,2))

[0.53615507 0.29799816]


In [59]:
# 生成正态分布，均值为0，标准差为1的二维随机数
print(np.random.randn(2,2))

[[-1.37236846 -2.15435945]
 [-0.63778334  0.20704982]]


In [70]:
# 生成0到10的随机整数
print(np.random.randint(0,10,size=[2,5]))


[[3 9 9 1 5]
 [2 9 8 5 8]]


In [78]:
# 生成一个随机数在0到1之间，和rand的区别在于参数输入方式
print(np.random.random([2,2])) 

[[0.85208743 0.07907654]
 [0.07137391 0.53862724]]


In [109]:
# 随机选择构建2x3数组
print("随机选择数:\n",z)
print("随机选择:\n",np.random.choice(z,size=[2,2]))
print("随机选择任意项:\n",np.random.choice(['a','b','e','f','z','s','d','h','j','k'],size=[2,2]))
# 设定p参数依次对应choice第一个参数值出现概率,sum(p)=1
#print("预设概率随机选择\n",np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10, p=[0.3, .1, 0.1, 0.4, 0.1]))  

随机选择数:
 [ 1  2  3  4  5  6  7  8  9 10]
随机选择:
 [[ 5  4]
 [10  2]]
随机选择任意项:
 [['z' 'k']
 ['s' 'j']]
预设概率随机选择
 ['o' 'a' 'u' 'o' 'a' 'a' 'u' 'a' 'o' 'i']


In [None]:
# jupyter不知道是不是有什么相同的变量占用了，用不出来
# Create the random state
rn = np.random.RandomState(100)

# Create random numbers between [0,1) of shape 2,2
print(rn.rand(2,2))

#> [[ 0.54  0.28]
#>  [ 0.42  0.84]]
# Set the random seed
np.random.seed(100)

# Create random numbers between [0,1) of shape 2,2
print(np.random.rand(2,2))

#> [[ 0.54  0.28]
#>  [ 0.42  0.84]]

# 获取每个数值唯一值和数量

In [129]:
z = np.random.randint(1,20,size=[2,2])
print(z)
uniqs,counts = np.unique(z,return_counts=True)
print("uniqs:",uniqs)
print("counts:",counts)

[[10  2]
 [12  2]]
uniqs: [ 2 10 12]
counts: [2 1 1]
