# 数组的添加、删除和去重
## 数组的添加

In [1]:
# 1. numpy.append 函数在数组的末尾添加值。追加操作会分配整个数组，并把原来的数组复制到新数组中。
# 此外，输入数组的维度必须匹配否则将生成ValueError。
'''
参数说明：
arr： 输入数组
values：要向arr 添加的值，需要和arr 形状相同（除了要添加的轴）
axis：默认为None。当axis 无定义时，是横向加成，返回总是为一维数组！当axis 有定义的
时候，分别为0 和1 的时候。当
axis 有定义的时候，分别为0 和1 的时候（列数要相同）。当axis 为1 时，数组是加在右边
（行数要相同）。
'''
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6]])
print('第一个数组：')
print(a)
print('\n')
print(' 向数组添加元素：')
print(np.append(a, [7, 8, 9]))
print('\n')
print('沿轴0 添加元素：')
print(np.append(a, [[7, 8, 9]], axis=0))
print('\n')
print('沿轴1 添加元素：')
print(np.append(a, [[5, 5, 5], [7, 8, 9]], axis=1))

第一个数组：
[[1 2 3]
 [4 5 6]]


 向数组添加元素：
[1 2 3 4 5 6 7 8 9]


沿轴0 添加元素：
[[1 2 3]
 [4 5 6]
 [7 8 9]]


沿轴1 添加元素：
[[1 2 3 5 5 5]
 [4 5 6 7 8 9]]


In [2]:
# 2. numpy.insert
# 函数在给定索引之前，沿给定轴在输入数组中插入值。# 如果值的类型转换为要插入，则它与输入数组不同。
# 插入没有原地的，函数会返回一个新数组。此外，如果未提供轴，则输入数组会被展开。
a = np.array([[1, 2], [3, 4], [5, 6]])
print('第一个数组：')
print(a)
print('\n')
print('未传递Axis 参数。在插入之前输入数组会被展开。')
print(np.insert(a, 3, [11, 12]))
print('\n')
print('传递了Axis 参数。会广播值数组来配输入数组。')
print('沿轴0 广播：')
print(np.insert(a, 1, [11], axis=0))
print('\n')
print('沿轴1 广播：')
print(np.insert(a, 1, 11, axis=1))

第一个数组：
[[1 2]
 [3 4]
 [5 6]]


未传递Axis 参数。在插入之前输入数组会被展开。
[ 1  2  3 11 12  4  5  6]


传递了Axis 参数。会广播值数组来配输入数组。
沿轴0 广播：
[[ 1  2]
 [11 11]
 [ 3  4]
 [ 5  6]]


沿轴1 广播：
[[ 1 11  2]
 [ 3 11  4]
 [ 5 11  6]]


## 数组中的删除

In [3]:
#numpy.delete 函数返回从输入数组中删除指定子数组的新数组。与insert() 函数的情况一样，
# 如果未提供轴参数， 则输入数组将展开。
'''
参数说明： arr： 输入数组
obj：可以被切片，整数或者整数数组，表明要从输入数组删除的子数组axis：
沿着它删除给定子数组的轴，如果未提供，则输入数组会被展开'''
import numpy as np
a = np.arange(12).reshape(3,4)
print('第一个数组：')
print(a)
print('\n')
print('未传递Axis 参数。在删除之前输入数组会被展开。')
print(np.delete(a,5))
print('\n')
print('删除每一行中的第二列：')
print(np.delete(a,1,axis = 1))
print('\n')

第一个数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


未传递Axis 参数。在删除之前输入数组会被展开。
[ 0  1  2  3  4  6  7  8  9 10 11]


删除每一行中的第二列：
[[ 0  2  3]
 [ 4  6  7]
 [ 8 10 11]]




## 数组去重

In [4]:
# numpy.unique 函数用于去除数组中的重复元素。
'''
arr：输入数组，如果不是一维数组则会展开
return_index：如果为true，返回新列表元素在旧列表中的位置（下标），并以列表形式储
return_inverse：如果为true，返回旧列表元素在新列表中的位置（下标），并以列表形式储
return_counts：如果为true，返回去重数组中的元素在原数组中的出现次数
'''
import numpy as np
a = np.array([5,2,6,2,7,5,6,8,2,9])
print ('第一个数组：')
print (a)
print ('\n')
print ('第一个数组的去重值：')
u = np.unique(a)
print (u)
print ('\n')
print ('去重数组的索引数组：')
u,indices = np.unique(a, return_index = True)
print (indices)
print ('\n')
print ('我们可以看到每个和原数组下标对应的数值：')
print (a)
print ('去重数组的下标：')
u,indices = np.unique(a,return_inverse = True)
print (u)
print (indices)
print ('\n')
print ('返回去重元素的重复数量：')
u,indices = np.unique(a,return_counts = True)
print (u)
print (indices)

第一个数组：
[5 2 6 2 7 5 6 8 2 9]


第一个数组的去重值：
[2 5 6 7 8 9]


去重数组的索引数组：
[1 0 2 4 7 9]


我们可以看到每个和原数组下标对应的数值：
[5 2 6 2 7 5 6 8 2 9]
去重数组的下标：
[2 5 6 7 8 9]
[1 0 2 0 3 1 2 4 0 5]


返回去重元素的重复数量：
[2 5 6 7 8 9]
[3 2 2 1 1 1]


# 使用最大，最小，平均值等各种计算

In [None]:
import numpy as np
score = np.array([[80,88],[82,81],[75,81]])
# 1. 获取所有数据最大值
result = np.max(score)
print(result)
# 2. 获取某一个轴上的数据最大值
result = np.max(score,axis=0)
print(result)
# 3. 获取最小值
result = np.min(score)
print(result)
# 4. 获取某一个轴上的数据最小值
result = np.min(score,axis=0)
print(result)
# 5. 数据的比较
result = np.maximum( [-2, -1, 0, 1, 2], 0 ) # 第一个参数中的每一个数与第二个参数比较返回大的
print(result)
result = np.minimum( [-2, -1, 0, 1, 2], 0 ) # 第一个参数中的每一个数与第二个参数比较返回小的
print(result)
result = np.maximum( [-2, -1, 0, 1, 2], [1, 2, 3, 4, 5] )
print(result)
# 接受的两个参数，也可以大小一致;第二个参数只是一个单独的值时，其实是用到了维度的广播机制；
# 6. 求平均值
result = np.mean(score) # 获取所有数据的平均值
print(result)
result = np.mean(score,axis=0) # 获取某一行或者某一列的平均值
print(result)
# 7. 求前缀和
arr = np.array([[1,2,3], [4,5,6]])
print(arr)
print(arr.cumsum(0))
'''
[1, 2, 3]------> |1 |2 |3 |
[4, 5, 6]------> |5=1+4 |7=2+5 |9=3+6|
'''
print(arr.cumsum(1))
'''
[1, 2, 3]------> |1 |2+1 |3+2+1 |
[4, 5, 6]------> |4 |4+5 |4+5+6 |
'''
# 8. argmin 求最小值索引
result = np.argmin(score,axis=0)
res=np.min(score,axis=0) #这样我们就可以知道最小的81 是第二排的，是从前往后遍历的
print(result,res)
# 9. 求每一列的标准差（这里是总体标准差）
# 标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；
# 一个较小的标准差，代表这些数据较接近平均值反应出数据的波动稳定情况，越大表示波动越大，越不稳定。
result = np.std(score,axis=0)
print(result)
# 10. 极值
result = np.ptp(score,axis=None)#就是最大值和最小值的差
print(result)
# 拓展：方差var, 协方差cov, 计算平均值average, 计算中位数median

# 完成数组的连接，堆叠

In [5]:
# 有的时候我们需要将两个数据加起来一起研究分析，我们就可以将其进行拼接然后分析
import numpy as np
# 1. 根据轴连接的数组序列
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])
# 要求a,b 两个数组的维度相同
# print ('沿轴0 连接两个数组：')
print (np.concatenate((a,b),axis= 0))
print ('\n')
print ('沿轴1 连接两个数组：')
print (np.concatenate((a,b),axis = 1))
# 2. 根据轴进行堆叠
print ('沿轴0 连接两个数组：')
print (np.stack((a,b),axis= 0))
print ('\n')
print ('沿轴1 连接两个数组：')
print (np.stack((a,b),axis = 1))
# 3. 矩阵垂直拼接
v1 = [[0,1,2,3,4,5],
[6,7,8,9,10,11]]
v2 = [[12,13,14,15,16,17],
[18,19,20,21,22,23]]
result = np.vstack((v1,v2))
print(result)
# 4. 矩阵水平拼接
v1 = [[0,1,2,3,4,5],
[6,7,8,9,10,11]]
v2 = [[12,13,14,15,16,17],
[18,19,20,21,22,23]]
result = np.hstack((v1,v2))
print(result)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


沿轴1 连接两个数组：
[[1 2 5 6]
 [3 4 7 8]]
沿轴0 连接两个数组：
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


沿轴1 连接两个数组：
[[[1 2]
  [5 6]]

 [[3 4]
  [7 8]]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[ 0  1  2  3  4  5 12 13 14 15 16 17]
 [ 6  7  8  9 10 11 18 19 20 21 22 23]]


In [6]:
# 1. 将一个数组分割为多个子数组
'''
参数说明：
ary：被分割的数组
indices_or_sections：是一个整数，就用该数平均切分，如果是一个数组，为沿轴切分的位置
（左开右闭）
axis：沿着哪个维度进行切向，默认为0，横向切分。为1 时，纵向切分
'''
import numpy as np
arr = np.arange(9).reshape(3,3)
print ('将数组分为三个大小相等的子数组：')
b = np.split(arr,3)
print (b)
# 2.numpy.hsplit 函数用于水平分割数组，通过指定要返回的相同形状的数组数量来拆分原数组。
harr = np.floor(10*np.random.random((2, 6)))
print ('原array：')
print(harr)
print ('拆分后：')
print(np.hsplit(harr, 3))
# 3.numpy.vsplit 沿着垂直轴分割
a = np.arange(16).reshape(4,4)
print ('第一个数组：')
print (a)
print ('\n')
print ('竖直分割：')
b = np.vsplit(a,2)
print (b)

将数组分为三个大小相等的子数组：
[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]
原array：
[[1. 8. 2. 5. 0. 4.]
 [5. 8. 4. 8. 2. 0.]]
拆分后：
[array([[1., 8.],
       [5., 8.]]), array([[2., 5.],
       [4., 8.]]), array([[0., 4.],
       [2., 0.]])]
第一个数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


竖直分割：
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]


# nan和inf的使用

In [7]:
import numpy as np
# 创建一个nan 和inf #
a = np.nan
b = np.inf
print(a,type(a))
print(b,type(b))
# --判断数组中为nan 的个数
t = np.arange(24,dtype=float).reshape(4,6)
# 将三行四列的数改成nan
t[3,4] = np.nan
# 可以使用np.count_nonzero() 来判断非零的个数
print(np.count_nonzero(t))
# 并且np.nan != np.nan 结果是TRUE
# 所以我们可以使用这两个结合使用判断nan 的个数
print(np.count_nonzero(t != t))
# 将nan 替换为0
t[np.isnan(t)] = 0
print(t)
# ----------练习： 处理数组中nan
t = np.arange(24).reshape(4,6).astype('float')
#
# 将数组中的一部分替换nan
t[1,3:] = np.nan
print(t)
print('-------------------')
# 遍历每一列，然后判断每一列是否有nan
for i in range(t.shape[1]):
	#获取当前列数据
	temp_col = t[:,i]
	# 判断当前列的数据中是否含有nan
	nan_num = np.count_nonzero(temp_col != temp_col)
	# 条件成立说明含有nan
	if nan_num != 0:
		# 将这一列不为nan 的数据拿出来
		temp_col_not_nan = temp_col[temp_col == temp_col]
		# 将nan 替换成这一列的平均值
		temp_col[np.isnan( temp_col )] = np.mean( temp_col_not_nan )
print(t)

nan <class 'float'>
inf <class 'float'>
23
1
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21.  0. 23.]]
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8. nan nan nan]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]]
-------------------
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8. 13. 14. 15.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]]


# np二维数组转置

In [8]:
#对换数组的维度
import numpy as np
a = np.arange(12).reshape(3,4)
print ('原数组：')
print (a )
print ('\n')
print ('对换数组：')
print (np.transpose(a))
# 与transpose 一致
a = np.arange(12).reshape(3,4)
print ('原数组：')
print (a)
print ('\n')
print ('转置数组：')
print (a.T)
# 函数用于交换数组的两个轴
t1 = np.arange(24).reshape(4,6)
re = t1.swapaxes(1,0)
print (' 原数组：')
print (t1)
print ('\n')
print ('调用swapaxes 函数后的数组：')
print (re)

原数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


对换数组：
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
原数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


转置数组：
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
 原数组：
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


调用swapaxes 函数后的数组：
[[ 0  6 12 18]
 [ 1  7 13 19]
 [ 2  8 14 20]
 [ 3  9 15 21]
 [ 4 10 16 22]
 [ 5 11 17 23]]
