# 数组的操作

In [1]:
import numpy as np

## 修改数组的形状

ndarray.reshape(shape, order)

+ 返回一个具有相同数据域，但shape不一样的**视图**
+ 行、列不进行互换

In [2]:
array1 = np.random.randint(2, 4, size=(3, 4))
array1

array([[2, 3, 3, 3],
       [3, 3, 2, 3],
       [3, 3, 3, 2]])

In [3]:
array1.reshape((1, 12))  # 基于原有的数组修改形状, 里面的数据数量要能对应上

array([[2, 3, 3, 3, 3, 3, 2, 3, 3, 3, 3, 2]])

In [4]:
# array1.reshape((2, 5))  # 修改形状, 里面的数据数量如果对应不上就报错

In [5]:
array2 = array1.reshape((1, 12))

In [6]:
array1 is array2  # 如果修改了数组的维度, 返回的是一个新的对象

False

* resize 
    - 基于数组的对象做修改形状

In [7]:
array1

array([[2, 3, 3, 3],
       [3, 3, 2, 3],
       [3, 3, 3, 2]])

In [8]:
array3 = array1.resize(2, 6)
print(array3)

None


In [9]:
array1

array([[2, 3, 3, 3, 3, 3],
       [2, 3, 3, 3, 3, 2]])

## 降低数组的维度

两个方法都是将多维数组转换为一维数组，但是有以下不同：

1. `flatten`是将数组转换为一维数组后，然后将这个拷贝返回回去，所以后续对这个返回值进行修改不会影响之前的数组。
2. `ravel`是将数组转换为一维数组后，将这个视图（可以理解为引用）返回回去，所以后续对这个返回值进行修改会影响之前的数组。
   比如以下代码：

In [10]:
x = np.array([ [1, 2], [3, 4] ])
x

array([[1, 2],
       [3, 4]])

In [11]:
"""
flatten  降低数组维度(高维 --> 一维), 会返回一个新的对象
"""
x2 = x.flatten()

print('x  --> flatten:', x2)

x2[0] = 100
print('修改x2的结果: ', x2)

print(x)

x  --> flatten: [1 2 3 4]
修改x2的结果:  [100   2   3   4]
[[1 2]
 [3 4]]


In [12]:
"""
ravel  降低数组维度(高维 --> 一维), 是基于原对象做修改
"""
x2 = x.ravel()

print('x  --> ravel:', x2)

x2[0] = 100
print('修改x2的结果: ', x2)

print(x)

x  --> ravel: [1 2 3 4]
修改x2的结果:  [100   2   3   4]
[[100   2]
 [  3   4]]


## 行列转置

- 数组的转置
- 将数组的行、列进行互换

In [13]:
x = np.array([ [1, 2], [3, 4] ])
x

array([[1, 2],
       [3, 4]])

In [14]:
x.T

array([[1, 3],
       [2, 4]])

In [15]:
np.array(
    [ # 一维
        [1, 2, 3, 4, 5],  # 二维
        [1, 2, 3, 4, 5],  # 二维
    ]
).T

array([[1, 1],
       [2, 2],
       [3, 3],
       [4, 4],
       [5, 5]])

## 数组的常用操作

In [16]:
np_arr = np.array(
    [ # 一维
        [ # 二维
            [80, 89, 86, 67, 79], # 三维
            [78, 97, 89, 67, 81],
            [90, 94, 78, 67, 74],
            [91, 91, 90, 67, 69],
            [76, 87, 75, 67, 86],
            [70, 79, 84, 67, 84],
            [94, 92, 93, 67, 64],
            [86, 85, 83, 67, 80]
        ],
        
        [ # 二维
            [80, 89, 11, 67, 79], # 三维
            [78, 97, 22, 67, 81],
            [90, 94, 33, 67, 74],
            [91, 91, 44, 67, 69],
            [76, 87, 55, 67, 86],
            [70, 79, 66, 67, 84],
            [94, 92, 77, 67, 64],
            [86, 85, 88, 67, 80]
        ],
    ]
)

In [18]:
np_arr[1][4][2]  # 单个数据的取值和列表索引取值是一样的

55

In [19]:
np_arr[1][1:7][:][1:3]  # Python的原生列表不支持跨纬度切片

array([[90, 94, 33, 67, 74],
       [91, 91, 44, 67, 69]])

### 数组对象的切片(重点)

- [一维, 二维, 三维]: 从1维开始切, 依次是2维, 3维, 4维 .......
- 先行后列

In [21]:
np_arr[1][1:7][:][1:3]  # 数组的切片和列表的切片有区别

array([[90, 94, 33, 67, 74],
       [91, 91, 44, 67, 69]])

In [24]:
"""
    1:  --> 表示切一维
    1:7 --> 表示切二维
    1:3 --> 表示切三维
"""
np_arr[1:, 1:7, 1:3]

array([[[97, 22],
        [94, 33],
        [91, 44],
        [87, 55],
        [79, 66],
        [92, 77]]])

In [25]:
np_arr[:, 1:7, 1:3]

array([[[97, 89],
        [94, 78],
        [91, 90],
        [87, 75],
        [79, 84],
        [92, 93]],

       [[97, 22],
        [94, 33],
        [91, 44],
        [87, 55],
        [79, 66],
        [92, 77]]])

- 取值
    - 可以用列表的索引取值
    - 也可以用在一个 [] 内多维度取值

In [27]:
print(np_arr[0][4][2])  # 用列表的方式取值
print(np_arr[0, 4, 2])  # 基于数组对象取值

75
75


* 单独取出数组中的某列

In [28]:
"""
     可以指定具体的索引取某一列
         返回的是一个二维数组
"""
np_arr[1:, :, 2]

array([[11, 22, 33, 44, 55, 66, 77, 88]])

In [29]:
"""
     按照切片的方式, 指定范围
         如果切某列, 返回数据的维度和本身数据的维度是一样的
"""
np_arr[1:, :, 2:3]

array([[[11],
        [22],
        [33],
        [44],
        [55],
        [66],
        [77],
        [88]]])

In [30]:
np_arr[1:, :, 2:2]

array([], shape=(1, 8, 0), dtype=int32)

### 切割(了解)

In [31]:
a1 = np.arange(16).reshape(4, 4)
a1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [33]:
"""
水平(按列)分割
hsplit  将数组水平(按列)分割
horizontal  水平
"""

sub_1, sub_2 = np.hsplit(a1, 2)

In [34]:
sub_1

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [35]:
sub_2

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [37]:
np.hsplit(a1, (1, 2))  # # 需要分割多次就传一个列表, 列表里面传分割的列索引

[array([[ 0],
        [ 4],
        [ 8],
        [12]]),
 array([[ 1],
        [ 5],
        [ 9],
        [13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

In [40]:
a2 = np.arange(15).reshape((3, 5))
a2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [46]:
"""
垂直(按行)分割
vsplit  将数组水平(按列)分割
vertical  垂直
"""

np.vsplit(a1, [1, 2])

[array([[0, 1, 2, 3]]),
 array([[4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

### 数组的拼接(了解)

In [47]:
"""准备数据"""
a1 = np.arange(0, 10).reshape(2, 5)
a2 = np.arange(10, 20).reshape(2, 5)
print('a1:\n', a1)
print('a2:\n', a2)

a1:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
a2:
 [[10 11 12 13 14]
 [15 16 17 18 19]]


In [48]:
"""垂直拼接(竖向拼接)"""
np.vstack([a1, a2])

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [49]:
"""左右拼接(横向拼接)"""
np.hstack([a1, a2])

array([[ 0,  1,  2,  3,  4, 10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19]])

In [55]:
np.array( 
    [
        [0, 1, 2, 3, 4, 10],
        [5, 6, 7, 8, 9]
    ]
)

  np.array(


array([list([0, 1, 2, 3, 4, 10]), list([5, 6, 7, 8, 9])], dtype=object)

## 数组的广播机制(重点)

In [57]:
"""原生列表的计算"""
arr = [1, 2, 3]

# print(arr + 1)  # # 原生列表维度不同， 不支持运算
print(arr + [1])  # 维度相同, 在原有列表后面添加

[1, 2, 3, 1]


In [61]:
np_arr1 = np.array(arr)
print('np_arr1,shape:\t', np_arr1.shape)

print('np_arr1 + 1: \n', np_arr1 + 1)
print('np_arr1 ** 2\n', np_arr1 ** 2)

np_arr1,shape:	 (3,)
np_arr1 + 1: 
 [2 3 4]
np_arr1 + 1: 
 [1 4 9]


In [66]:
np_arr2 = np.array([0, 1, 2, 3])

np_arr3 = np.array([[1], [2], [3]])

np_arr4 = np.array([1, 2, 3])

np_arr2 + np_arr3

# np_arr2 + np_arr4

# 基于数组的广播机制, 如果两个数组能广播, 就能计算

array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6]])

In [76]:
arr1 = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
arr2 = np.array([[5, 6, 1, 2, 3, 1]])

print(arr1 + arr2)

arr1.shape

[[ 6  8  4  4  4  5]
 [10 12  2  4  6  2]]


(2, 6)

In [74]:
arr2.shape

(3, 6)

## 通用函数(重点)

In [78]:

arr = np.array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, np.nan])  # 表示空值, 相当于None
arr

array([-5., -4., -3., -2., -1.,  0.,  1.,  2.,  3.,  4.,  5., nan])

In [81]:
"""一元函数"""
print(abs(arr))
np.abs(arr)  # 推荐用numpy的计算方法
np.square(arr)

[ 5.  4.  3.  2.  1.  0.  1.  2.  3.  4.  5. nan]


array([25., 16.,  9.,  4.,  1.,  0.,  1.,  4.,  9., 16., 25., nan])

In [82]:
# nan  --> not a number  # 是一种数据病毒
# np.isnan  判断数组中的缺失值,, 返回布尔结果
np.isnan(arr)

array([False, False, False, False, False, False, False, False, False,
       False, False,  True])

In [86]:
"""二元函数"""
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([6, 7, 8, 9, 10])

np.add(arr1, arr2)
np.subtract(arr1, arr2)  # 第一个数组减去第二个数数组
np.multiply(arr1 , arr2)
np.divide(arr1, arr2)

array([0.16666667, 0.28571429, 0.375     , 0.44444444, 0.5       ])

In [92]:
"""逻辑运算"""  # & 表示and  ~ 取反  | 或
arr1 = np.array([1, 2, 3, 4, 5])
print( arr1 > 2 )
print( (arr1 > 2) & (arr1 < 4) )
# print( (arr1 > 2) and (arr1 < 4) )  # 在numpy中不支持Python逻辑运算符号
print( ~((arr1 > 2) & (arr1 < 4)) )

[False False  True  True  True]
[False False  True False False]
[ True  True False  True  True]


In [95]:
"""聚合函数"""
np.sum(arr1)
arr1.prod()
arr1.max()

5

## array的轴(重点)

In [96]:
arr = np.array([[1, 1, 1, 1, 1, 1],
                [5, 6, 1, 2, 3, 1],
                [5, 6, 1, 2, 3, 1],
                [5, 6, 1, 2, 3, 1]])

arr

array([[1, 1, 1, 1, 1, 1],
       [5, 6, 1, 2, 3, 1],
       [5, 6, 1, 2, 3, 1],
       [5, 6, 1, 2, 3, 1]])

In [97]:
# 默认把每一个数据都参数运算
arr.sum()

60

In [98]:
# axis=0  按行计算, 得到的值(求列)
arr.sum(axis=0)

"""
后续大部分方法 axis=0 , 是按列计算(操作)
"""

array([16, 19,  4,  7, 10,  4])

In [99]:
# axis=1  按列计算, 得到的值(求行)
arr.sum(axis=1)

array([ 6, 18, 18, 18])

## 花哨索引(重点)

In [103]:
arr1 = np.array([1, 2, 3, 4, 5])

result = np.logical_and(arr1 >= 2, arr1 < 5)
result

array([False,  True,  True,  True, False])

In [104]:
# 把布尔结果, 用于筛选数据取值, 叫做花哨索引
arr1[result]

array([2, 3, 4])

In [105]:
arr1[~result]  # ~ 取反

array([1, 5])

## numpy文件操作

In [108]:
np.loadtxt('a.csv', dtype=int, delimiter=',')

array([[5, 3, 2, 8],
       [9, 3, 8, 4],
       [4, 7, 1, 1],
       [8, 9, 1, 5],
       [2, 3, 1, 9]])

In [112]:
data = np.loadtxt('a.csv', dtype=float, delimiter=',', skiprows=2)  # skiprows 忽略指定数字的行数读取
data

array([[4., 7., 1., 1.],
       [8., 9., 1., 5.],
       [2., 3., 1., 9.]])

In [111]:
np.savetxt('a-save.csv', data, delimiter=',')