# 11.2 科学计算工具Numpy

### 11.2.1 Numpy 安装

In [1]:
!pip install numpy



### 11.2.2 Numpy 的核心数据结构：ndarray

In [2]:
import random
import numpy as np

# 创建一个包含一千万个随机浮点数的 Python 列表
python_list = [random.random() for _ in range(10000000)]

# 使用 Python 内置 sum 函数对列表求和，并记录运行时间
%time python_sum = sum(python_list)

# 将 Python 列表转换为 NumPy 数组
numpy_array = np.array(python_list)

# 使用 NumPy 的 sum 函数对数组求和，并记录运行时间
%time numpy_sum = np.sum(numpy_array)

CPU times: user 58.5 ms, sys: 80.7 ms, total: 139 ms
Wall time: 163 ms
CPU times: user 5.03 ms, sys: 3 ms, total: 8.03 ms
Wall time: 8.04 ms


### 11.2.3 Numpy 数组的基本操作

#### （1）创建数组

- **从列表或元组创建**

In [3]:
# 从列表创建
array_from_list = np.array([1, 2, 3, 4])

# 从元组创建
array_from_tuple = np.array((5, 6, 7, 8))

print(array_from_list)
print(array_from_tuple)

[1 2 3 4]
[5 6 7 8]


In [4]:
# 创建数组并指定数据类型为 float
array_with_dtype = np.array([1, 2, 3], dtype=float)
print(array_with_dtype)

[1. 2. 3.]


In [5]:
# 将一维数组扩展为二维
high_dim_array = np.array([1, 2, 3], ndmin=2)
print(high_dim_array)

[[1 2 3]]


In [6]:
# 默认按行存储
c_order_array = np.array([[1, 2], [3, 4]], order='C')
# 按列存储
f_order_array = np.array([[1, 2], [3, 4]], order='F')

print(c_order_array)
print(f_order_array)

[[1 2]
 [3 4]]
[[1 2]
 [3 4]]


In [8]:
A = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]])
# 按行（C 风格）展平
print("C-style (row-major) flattening:", A.flatten(order='C'))
# 按列（Fortran 风格）展平
print("F-style (column-major) flattening:", A.flatten(order='F'))

C-style (row-major) flattening: [1 2 3 4 5 6 7 8 9]
F-style (column-major) flattening: [1 4 7 2 5 8 3 6 9]


In [9]:
# 嵌套列表创建二维数组
two_dim_array = np.array([[1, 2, 3], [4, 5, 6]])
print(two_dim_array)

[[1 2 3]
 [4 5 6]]


In [10]:
# 创建数组的副本
original_array = np.array([1, 2, 3])
copied_array = np.array(original_array, copy=True)
print(copied_array)

[1 2 3]


- **从数值范围创建**

In [11]:
# 创建从 0 到 10，步长为 2 的数组
arr = np.arange(0, 10, 2)
print(arr)  # 输出: [0 2 4 6 8]

# 生成从 0 到 1（不包括 1），步长为 0.2 的浮点数数组
arr = np.arange(0, 1, 0.2)
print(arr)  # 输出: [0.  0.2  0.4  0.6  0.8]

[0 2 4 6 8]
[0.  0.2 0.4 0.6 0.8]


- **通过函数来创建**

In [12]:
import numpy as np
arr = np.zeros((2, 3))  # 创建一个2行3列的数组，全为0
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]]


In [13]:
arr = np.ones((3, 2))  # 创建一个3行2列的数组，全为1
print(arr)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [14]:
arr = np.eye(4)  # 创建一个4x4的单位矩阵
print(arr)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [15]:
arr = np.linspace(0, 10, 5)  # 在0到10之间生成5个均匀分布的数
print(arr)

[ 0.   2.5  5.   7.5 10. ]


In [16]:
arr = np.random.random((2, 3))  # 生成一个2行3列的随机数组
print(arr)

[[0.93759233 0.42710204 0.02262167]
 [0.38020618 0.09007902 0.11365728]]


#### （2）切片和索引

In [17]:
# 创建一个二维数组
array = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
# 示例1：提取第1行
row = array[0, :]  # 结果为 [1, 2, 3]
print('提取第1行:',row)

# 示例2：提取第2列
column = array[:, 1]  # 结果为 [2, 5, 8]
print('提取第2列:',column)

# 示例3：提取子数组
sub_array = array[1:, 1:]  # 结果为 [[5, 6], [8, 9]]
print('提取子数组:\n',sub_array)

# 示例4：使用步长提取每隔一行的元素
step_array = array[::2, ::2]  # 结果为 [[1, 3], [7, 9]]
print('使用步长提取每隔一行的元素:\n',step_array)

提取第1行: [1 2 3]
提取第2列: [2 5 8]
提取子数组:
 [[5 6]
 [8 9]]
使用步长提取每隔一行的元素:
 [[1 3]
 [7 9]]


In [18]:
# 创建一个二维数组
arr = np.array([[0, 1, 2, 3],
                [4, 5, 6, 7],
                [8, 9, 10, 11],
                [12, 13, 14, 15]])

# 使用 slice() 函数对切片范围的行和列进行定义
row_slice = slice(1, 3)  # 定义提取第 1 行到第 2 行（不包括第3行）
col_slice = slice(0, 3, 2)  # 定义提取第 0 列到第 2 列（步长为2）

# 提取子数组
sub_array = arr[row_slice, col_slice]
print(sub_array) 

[[ 4  6]
 [ 8 10]]


In [19]:
# 也可以直接嵌套 slice() 函数进行切片
print(arr[slice(0, 4, 2), slice(1, 4)]) 

[[ 1  2  3]
 [ 9 10 11]]


In [20]:
x_arr = np.array([[0, 1, 2],
                  [3, 4, 5],
                  [6, 7, 8],
                  [9, 10, 11]])  

rows = np.array([[0,0],[3,3]])
cols = np.array([[0,2],[0,2]])

y_arr = x_arr[rows,cols]  

print('数组的四个角元素是：')
print(y_arr)

数组的四个角元素是：
[[ 0  2]
 [ 9 11]]


In [21]:
arr = np.arange(7)
booling_arr = np.array([True,False,False,True,True,False,False])

print(arr)
print(arr[booling_arr])

[0 1 2 3 4 5 6]
[0 3 4]


In [22]:
arr = np.arange(7) # 长度为 7
bool_index = np.array([True, False, True, True, False, True])  # 长度为 6

try:
    print(arr[bool_index])
except:
    print('boolean index did not match the array!')

boolean index did not match the array!


In [23]:
arr = np.arange(16).reshape((4,4))           #布尔运算索引
print(arr)
print("-------------------------")
names = np.array(['Ben','Tom','Ben','Jeremy'])
print(names == 'Ben')
print("-------------------------")
print(arr[names == 'Ben'])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
-------------------------
[ True False  True False]
-------------------------
[[ 0  1  2  3]
 [ 8  9 10 11]]


In [24]:
random_array = np.random.randint(-10, 11, size=(3, 4)) 
print(random_array,"\n----------------")
random_array[random_array <= 0] = 0     #数组中小于或者等于0的数字归零
print(random_array)

[[ 1 -4  9 -3]
 [-1 -3 -3 -5]
 [ 3  6 -3 -5]] 
----------------
[[1 0 9 0]
 [0 0 0 0]
 [3 6 0 0]]


In [25]:
arr = np.array([[10, 11, 12, 13],
                [20, 21, 22, 23],
                [30, 31, 32, 33],
                [40, 41, 42, 43]])

# 使用整数数组进行花式索引
rows = [0, -1, 2]
cols = [1, 2, -3]
result = arr[rows, cols]
print("通过花式索引提取的元素：", result)

通过花式索引提取的元素： [11 42 31]


### 11.2.4 数组操作函数

#### （1）修改数组形状

In [27]:
arr = np.array([1, 2, 3, 4, 5, 6])
reshaped = np.reshape(arr, (2, 3))
print(reshaped)

[[1 2 3]
 [4 5 6]]


#### （2）迭代数组

In [28]:
arr = np.array([[1, 2], [3, 4]])
for x in np.nditer(arr):
    print(x, end=' ')  # 输出 1 2 3 4

1 2 3 4 

In [31]:
arr = np.array([[1, 2], [3, 4]])
flattened = arr.flatten(order = 'F')  # 按列展平
print(flattened) 

[1 3 2 4]


#### （3）转置数组

In [32]:
arr = np.array([[1, 2, 3], 
                [4, 5, 6]])
transposed_arr = arr.T
print(transposed_arr)

[[1 4]
 [2 5]
 [3 6]]


In [33]:
ori_arr = np.arange(24).reshape(2, 3, 4)
print("原数组的形状:", ori_arr.shape)
print(ori_arr)

原数组的形状: (2, 3, 4)
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [34]:
trans_arr =  ori_arr.transpose(2, 0, 1)
print("转置后的数组形状:", trans_arr.shape)
print(trans_arr)

转置后的数组形状: (4, 2, 3)
[[[ 0  4  8]
  [12 16 20]]

 [[ 1  5  9]
  [13 17 21]]

 [[ 2  6 10]
  [14 18 22]]

 [[ 3  7 11]
  [15 19 23]]]


In [35]:
data = np.arange(24).reshape(2,3,4)
print('-----original data-----')
print(data)

-----original data-----
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [36]:
print('-----transpose result-----')
print(data.transpose(1,0,2))

-----transpose result-----
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]


In [37]:
print('-----swapaxes result------')
print(data.swapaxes(0,1)) 

-----swapaxes result------
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]


#### （4）修改数组维度

In [38]:
arr = np.array([1, 2, 3])
print("原数组形状:", arr.shape)

# 在第0个轴插入一个维度
expanded_arr = np.expand_dims(arr, axis=0)
print("插入维度后的形状 (axis=0):", expanded_arr.shape)

# 在第1个轴插入一个维度
expanded_arr2 = np.expand_dims(arr, axis=1)
print("插入维度后的形状 (axis=1):", expanded_arr2.shape)

原数组形状: (3,)
插入维度后的形状 (axis=0): (1, 3)
插入维度后的形状 (axis=1): (3, 1)


In [39]:
arr = np.array([[[1], [2], [3]]])
print("原数组形状:", arr.shape)

# 移除所有长度为 1 的维度
squeezed_arr = np.squeeze(arr)
print("压缩后形状:", squeezed_arr.shape)

# 仅移除特定轴
squeezed_arr2 = np.squeeze(arr, axis=0)
print("移除 axis=0 后形状:", squeezed_arr2.shape)

原数组形状: (1, 3, 1)
压缩后形状: (3,)
移除 axis=0 后形状: (3, 1)


#### （5）连接数组

In [42]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# concatenate
concat = np.concatenate((arr1, arr2), axis=0)  # 沿行方向（axis=0）连接
print("Concatenate:\n", concat)

Concatenate:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [43]:
# stack
stack = np.stack((arr1, arr2), axis=0)  # 新增一个维度
print("Stack:\n", stack)

Stack:
 [[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [44]:
# hstack
hstack = np.hstack((arr1, arr2))  # 水平堆叠
print("HStack:\n", hstack)

HStack:
 [[1 2 5 6]
 [3 4 7 8]]


In [45]:
# vstack
vstack = np.vstack((arr1, arr2))  # 垂直堆叠
print("VStack:\n", vstack)

VStack:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [46]:
# dstack
dstack = np.dstack((arr1, arr2))  # 沿深度堆叠
print("DStack:\n", dstack)

DStack:
 [[[1 5]
  [2 6]]

 [[3 7]
  [4 8]]]


#### （6）分割数组

In [47]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
result = np.split(arr, [3, 5])

for sub_arr in result:
    print(sub_arr)

[1 2 3]
[4 5]
[6 7 8 9]


In [48]:
arr = np.array([[1, 2, 3], 
                [4, 5, 6], 
                [7, 8, 9]])
result = np.hsplit(arr, 3)

for sub_arr in result:
    print(sub_arr)

[[1]
 [4]
 [7]]
[[2]
 [5]
 [8]]
[[3]
 [6]
 [9]]


In [49]:
arr = np.array([[1, 2, 3], 
                [4, 5, 6], 
                [7, 8, 9]])
result = np.vsplit(arr, 3)

for sub_arr in result:
    print(sub_arr)

[[1 2 3]]
[[4 5 6]]
[[7 8 9]]


In [50]:
arr = np.array([[[1, 2], [3, 4]],[[5, 6], [7, 8]]])
result = np.dsplit(arr, 2)

for sub_arr in result:
    print(sub_arr)

[[[1]
  [3]]

 [[5]
  [7]]]
[[[2]
  [4]]

 [[6]
  [8]]]


#### （7）添加与删除数组元素

In [51]:
arr = np.array([1, 2, 3, 4])
resized_arr = np.resize(arr, (3, 3))
print(resized_arr)

[[1 2 3]
 [4 1 2]
 [3 4 1]]


In [52]:
arr = np.array([[1, 2], 
                [3, 4]])

print('展平数组后再追加:', np.append(arr, [[5, 6]]))
print('指定按行添加:')
print(np.append(arr, [[5, 6]], axis=0))

展平数组后再追加: [1 2 3 4 5 6]
指定按行添加:
[[1 2]
 [3 4]
 [5 6]]


In [53]:
arr = np.array([[1, 2], [3, 4]])

print('传递 axis = 0 (按行插入):')
print(np.insert(arr, 1, [5, 6], axis=0))
print('未传递 axis 参数：', np.insert(arr, 1, [5, 6]))

传递 axis = 0 (按行插入):
[[1 2]
 [5 6]
 [3 4]]
未传递 axis 参数： [1 5 6 2 3 4]


In [54]:
arr = np.arange(8).reshape(2, 4)

print('第一个数组：')
print(arr)
print('未传递 axis 参数：')
print(np.delete(arr,5))
print('按列删除(axis=1)：')
print(np.delete(arr, 1, axis=1))

第一个数组：
[[0 1 2 3]
 [4 5 6 7]]
未传递 axis 参数：
[0 1 2 3 4 6 7]
按列删除(axis=1)：
[[0 2 3]
 [4 6 7]]


In [55]:
arr = np.array([1, 3, 2, 4, 1, 4, 5, 4, 5])
unique_arr = np.unique(arr)
print('对原数组去重后的数组：', unique_arr)  


对原数组去重后的数组： [1 2 3 4 5]


In [56]:
unique_arr = np.unique(arr, return_index=True)
print('对原数组去重后的数组：', unique_arr[0])
print('在原数组中出现的位置：', unique_arr[1]) 

对原数组去重后的数组： [1 2 3 4 5]
在原数组中出现的位置： [0 2 1 3 6]


In [57]:
unique_arr = np.unique(arr, return_counts=True)
print('对原数组去重后的数组：', unique_arr[0])
print('在原数组中出现的次数：', unique_arr[1]) 

对原数组去重后的数组： [1 2 3 4 5]
在原数组中出现的次数： [2 1 1 3 2]


#### （8）广播数组

In [58]:
a = np.array([[0, 0, 0],
              [10, 10, 10],
              [20, 20, 20],
              [30, 30, 30]])
b = np.array([1,2,3])

print(a + b)

[[ 1  2  3]
 [11 12 13]
 [21 22 23]
 [31 32 33]]


### 11.2.5 数组计算函数

#### （1）算术函数

In [59]:
# 定义两个数组
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("加法:", np.add(a, b))        # 加法 
print("减法:", np.subtract(a, b))   # 减法 
print("乘法:", np.multiply(a, b))   # 乘法
print("除法:", np.divide(a, b))     # 除法 
print("指数:", np.power(a, 2))      # 幂运算 
print("取模:", np.mod(b, a))        # 模运算 

加法: [ 6  8 10 12]
减法: [-4 -4 -4 -4]
乘法: [ 5 12 21 32]
除法: [0.2        0.33333333 0.42857143 0.5       ]
指数: [ 1  4  9 16]
取模: [0 0 1 0]


#### （2）数学函数

In [60]:
a = np.array([0, 45, 60, 90])

# 三角函数, 先将角度转换为弧度
print("sin值:", np.sin(np.radians(a)))       # 计算正弦值
print("cos值:", np.cos(np.radians(a)))       # 计算余弦值
print("tan值:", np.tan(np.radians(a)))       # 计算正切值

sin值: [0.         0.70710678 0.8660254  1.        ]
cos值: [1.00000000e+00 7.07106781e-01 5.00000000e-01 6.12323400e-17]
tan值: [0.00000000e+00 1.00000000e+00 1.73205081e+00 1.63312394e+16]


In [61]:
# 指数和对数函数
b = np.array([1, 2, 3, 4])

print("指数函数:", np.exp(b))                # 计算 e^x
print("自然对数:", np.log(b))                # 计算自然对数
print("常用对数:", np.log10(b))              # 计算以10为底的对数

指数函数: [ 2.71828183  7.3890561  20.08553692 54.59815003]
自然对数: [0.         0.69314718 1.09861229 1.38629436]
常用对数: [0.         0.30103    0.47712125 0.60205999]


#### （3）统计函数

In [62]:
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 基本统计量
print("最小值:", np.min(data))               # 整个数组的最小值
print("最大值（按列）:", np.max(data, axis=0))  # 每列的最大值
print("平均值:", np.mean(data))              # 平均值
print("中位数:", np.median(data))            # 中位数
print("标准差:", np.std(data))               # 标准差

# 求和与累积
print("总和:", np.sum(data))                 # 所有元素的总和
print("累积和:", np.cumsum(data))            # 累积求和

最小值: 1
最大值（按列）: [7 8 9]
平均值: 5.0
中位数: 5.0
标准差: 2.581988897471611
总和: 45
累积和: [ 1  3  6 10 15 21 28 36 45]


### 11.2.6 Numpy 其他函数

#### （1）字节交换函数

In [63]:
# 创建一个包含整数的numpy数组
arr = np.array([1, 256, 6666], dtype='>i2')  # 以大端字节序创建数组
print("原数组：", arr)

# 交换字节顺序
arr_swapped = arr.byteswap()  # 使用byteswap进行字节交换
print("字节交换后的数组：", arr_swapped)

# 显示内存中的存储
print("原数组的内存：", arr.tobytes())
print("交换字节顺序后的内存：", arr_swapped.tobytes())

原数组： [   1  256 6666]
字节交换后的数组： [ 256    1 2586]
原数组的内存： b'\x00\x01\x01\x00\x1a\n'
交换字节顺序后的内存： b'\x01\x00\x00\x01\n\x1a'


#### （2）线性代数函数

In [67]:
# 计算两个一维数组的点积（内积）
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(f'{a}与{b}点积:',np.dot(a, b))

[1 2 3]与[4 5 6]点积: 32


In [68]:
#计算两个二维数组的矩阵乘法
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(f'矩阵乘法:\n',np.dot(A, B))

矩阵乘法:
 [[19 22]
 [43 50]]


In [69]:
# 计算矩阵与向量的乘积
M = np.array([[1, 2], [3, 4]])
v = np.array([5, 6])
print(f'矩阵与向量的乘积:',np.dot(M, v))

矩阵与向量的乘积: [17 39]


#### （3）排序函数

In [70]:
import numpy as np

x = np.array([[12, 0, 48],
              [4, 18, 14],
              [3, 1, 99]])

print("按列排序：")
print(np.sort(x,axis=0))
print("按行排序：")
print(np.sort(x,axis=1))

按列排序：
[[ 3  0 14]
 [ 4  1 48]
 [12 18 99]]
按行排序：
[[ 0 12 48]
 [ 4 14 18]
 [ 1  3 99]]


In [71]:
dt = np.dtype([('name',  'S10'),('age',  int)]) 
a = np.array([("Mike",21),("Nancy",25),("Bob",17),("Jane",27)], 
              dtype = dt)
print("按 name 排序：")
print(np.sort(a, order =  'name'))
print("按 age 排序：")
print(np.sort(a, order =  'age'))

按 name 排序：
[(b'Bob', 17) (b'Jane', 27) (b'Mike', 21) (b'Nancy', 25)]
按 age 排序：
[(b'Bob', 17) (b'Mike', 21) (b'Nancy', 25) (b'Jane', 27)]


#### （4）搜索函数

In [72]:
arr = np.array([10, 15, 20, 25, 30])

# 找出所有大于20的元素索引
indices = np.where(arr > 20)
print("满足条件的索引:", indices)  # 输出: (array([3, 4]),)
print("对应的元素:", arr[indices])

满足条件的索引: (array([3, 4]),)
对应的元素: [25 30]


In [73]:
arr = np.array([10, 15, 20, 25, 30])

# 如果元素大于20，取1，否则取0
result = np.where(arr > 20, 1, 0)
print("生成的新数组:", result)  # 输出: [0 0 0 1 1]

生成的新数组: [0 0 0 1 1]


In [74]:
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6], 
                   [7, 8, 9]])

# 查找所有大于5的元素的索引
indices = np.where(matrix > 5)
print("满足条件的索引:", indices)
print("对应的元素:", matrix[indices])

满足条件的索引: (array([1, 2, 2, 2]), array([2, 0, 1, 2]))
对应的元素: [6 7 8 9]


In [75]:
arr = np.array([1, 2, 3, 4, 5])

# 将数组中所有小于3的元素替换为0
result = np.where(arr < 3, 0, arr)
print("替换后的数组:", result)  # 输出: [0 0 3 4 5]

替换后的数组: [0 0 3 4 5]


In [76]:
arr = np.array([10, 15, 20, 25, 30])

# 筛选出大于15且小于30的元素
result = np.where((arr > 15) & (arr < 30))
print("满足条件的索引:", result)  # 输出: (array([2, 3]),)
print("对应的元素:", arr[result])  # 输出: [20 25]

满足条件的索引: (array([2, 3]),)
对应的元素: [20 25]


## 11.3 数据分析工具 Pandas

### 11.3.1 Pandas 安装

In [77]:
import pandas as pd
print(pd.__version__)

1.5.3


### 11.3.2 Pandas数据类型

#### （1）Series类型

In [78]:
import pandas as pd

data_arr = [10, 20, 30, 40]
series = pd.Series(data_arr) # 如果不指定标签索引，则默认从 0 开始
print(series)

0    10
1    20
2    30
3    40
dtype: int64


In [79]:
data = np.random.randn(4)     # 创建一个随机 Ndarray 数组
index = ['a', 'b','c','d']

series = pd.Series(data, index=index) # 创建一个带标签的 Series
print(series)

a   -1.118023
b    0.883750
c   -0.776292
d   -1.385687
dtype: float64


In [80]:
data = {'a': 10, 'b': 20, 'c': 30, 'd': 40}

series = pd.Series(data)   # 使用字典创建 Series
print(series)

a    10
b    20
c    30
d    40
dtype: int64


In [81]:
S1 = pd.Series([10, 20, 30])
S2 = pd.Series([1, 2, 3])

print("加法运算:", (S1 + S2).to_list())  # Series加法
print("减法运算:", (S1 - S2).to_list())  # Series减法
print("乘法运算:", (S1 * S2).to_list())  # Series乘法
print("除法运算:", (S1 / S2).to_list())  # Series除法
print("幂运算:", (S1 ** 2).to_list())    # Series幂运算
print("与标量加运算:",(S2 + 5).to_list())  # Series与标量运算

加法运算: [11, 22, 33]
减法运算: [9, 18, 27]
乘法运算: [10, 40, 90]
除法运算: [10.0, 10.0, 10.0]
幂运算: [100, 400, 900]
与标量加运算: [6, 7, 8]


#### （2）DataFrame 类型

In [82]:
import pandas as pd
import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])  # 指定列标签
print(df)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [83]:
dates = pd.date_range('today', periods=4) # 定义时间序列作为 index
num_arr = np.random.randn(4, 3)           # 传入 numpy 随机数组
columns = ['col1', 'col2', 'col3']        # 将列表 columns 作为列名
df = pd.DataFrame(num_arr, index=dates, columns=columns)
print(df)

                                col1      col2      col3
2024-12-29 22:02:30.104764 -0.897751  0.844232 -0.605508
2024-12-30 22:02:30.104764  1.277449 -0.310579 -0.476337
2024-12-31 22:02:30.104764 -1.221887 -2.076912 -3.076754
2025-01-01 22:02:30.104764  0.572037  0.921626  1.391716


In [84]:
# 通过字典创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


### 11.3.3 DataFrame 的基本操作

#### （1）查看和探索数据

In [86]:
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'Salary': [50000, 60000, 75000, 80000]}
df = pd.DataFrame(data)

print(df.head(2))     # 查看数据前2行

    Name  Age  Salary
0  Alice   25   50000
1    Bob   30   60000


In [87]:
print(df.describe())  # 数值列的统计信息

             Age        Salary
count   4.000000      4.000000
mean   32.500000  66250.000000
std     6.454972  13768.926368
min    25.000000  50000.000000
25%    28.750000  57500.000000
50%    32.500000  67500.000000
75%    36.250000  76250.000000
max    40.000000  80000.000000


#### （2）选择和提取数据

In [88]:
# 提取行列标签
print("提取 Name 和 Salary 列：")
print(df.loc[:, ['Name', 'Salary']])

提取 Name 和 Salary 列：
      Name  Salary
0    Alice   50000
1      Bob   60000
2  Charlie   75000
3    David   80000


In [89]:
# 提取 Age 大于30的行
print("\n提取 Age > 30 的行：")
print(df.loc[df['Age'] > 30])


提取 Age > 30 的行：
      Name  Age  Salary
2  Charlie   35   75000
3    David   40   80000


#### （3）修改和清洗数据

In [90]:
# 创建含缺失值的 DataFrame
data_with_na = {'Name': ['Alice', 'Bob', None, 'David'],
                'Age': [25, None, 35, 40]}
df_with_na = pd.DataFrame(data_with_na)

# 填充缺失值
df_with_na['Age'] = df_with_na['Age'].fillna(30)  # 填充缺失年龄为 30
df_with_na['Name'] = df_with_na['Name'].fillna('Unknown')  # 填充缺失姓名为 'Unknown'

# 修改列名
df_with_na.rename(columns={'Name': 'Full Name'}, inplace=True)

print(df_with_na)

  Full Name   Age
0     Alice  25.0
1       Bob  30.0
2   Unknown  35.0
3     David  40.0


#### （4）排序和重排索引

In [91]:
# 按 Salary 列排序
sorted_df = df.sort_values(by='Salary', ascending=False)

print("按 Salary 降序排序：")
print(sorted_df)

按 Salary 降序排序：
      Name  Age  Salary
3    David   40   80000
2  Charlie   35   75000
1      Bob   30   60000
0    Alice   25   50000


In [92]:
# 重置索引
sorted_df.reset_index(drop=True, inplace=True)

print("重置索引后的 DataFrame：")
print(sorted_df)

重置索引后的 DataFrame：
      Name  Age  Salary
0    David   40   80000
1  Charlie   35   75000
2      Bob   30   60000
3    Alice   25   50000


#### （5）分组操作

In [93]:
# 创建包含多组数据的 DataFrame
group_data = {'Department': ['HR', 'IT', 'HR', 'IT'],
              'Employee': ['Alice', 'Bob', 'Charlie', 'David'],
              'Salary': [50000, 60000, 55000, 80000]}
group_df = pd.DataFrame(group_data)

# 按部门分组计算平均工资
grouped = group_df.groupby('Department')['Salary'].mean()
print("按部门分组的平均工资：")
print(grouped)

按部门分组的平均工资：
Department
HR    52500.0
IT    70000.0
Name: Salary, dtype: float64


#### （6）合并、连接与拆分数据

In [94]:
# 创建两个 DataFrame
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Name': ['Alice', 'Bob', 'Charlie']})

df2 = pd.DataFrame({'ID': [2, 3, 4],
                    'Salary': [60000, 75000, 50000]})

# 根据 ID 合并两个 DataFrame
merged_df = pd.merge(df1, df2, on='ID', how='inner')  # 内连接
print("合并后的 DataFrame：")
print(merged_df)

合并后的 DataFrame：
   ID     Name  Salary
0   2      Bob   60000
1   3  Charlie   75000


### 11.3.5 Pandas IO操作

In [97]:
import pandas as pd
df = pd.read_excel("example.xls")  # 从 data.csv 文件中读取数据
print(df.head())   # 默认读取前 5 行的数据

    NAME  AGE  GENDER  TELEPHONE
0  Alice   20    MALE     569513
1    Bob   21  FEMALE     235613
2  Carol   22    MALE     546864
3  Davis   23  FEMALE     841521


## 11.4 上机实践

1. Numpy 的基本操作实践：创建一个 $3×3$ 的 NumPy 数组，并完成以下任务：
     - 求出数组的最大值、最小值和均值。
     - 对数组进行转置。
     - 生成一个与数组形状相同的全0数组。
     - 生成一个与数组形状相同的单位矩阵。


In [98]:
import numpy as np

# 创建一个3x3的NumPy数组
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# 求出最大值、最小值和均值
print("最大值：", np.max(x))
print("最小值：", np.min(x))
print("均值：", np.mean(x))

# 转置数组
print("转置后的数组：\n", np.transpose(x))

# 生成一个全0数组
zeros_array = np.zeros_like(x)
print("全0数组：\n", zeros_array)

# 生成一个单位矩阵
identity_matrix = np.eye(3)
print("单位矩阵：\n", identity_matrix)

最大值： 9
最小值： 1
均值： 5.0
转置后的数组：
 [[1 4 7]
 [2 5 8]
 [3 6 9]]
全0数组：
 [[0 0 0]
 [0 0 0]
 [0 0 0]]
单位矩阵：
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


2. Numpy 的操作函数实践：编写一个程序，实现以下操作：
     - 创建两个不同形状的NumPy数组，利用广播机制进行加法运算。
     - 使用`np.concatenate()`连接两个一维数组。
     - 使用`np.vstack()`和`np.hstack()`分别沿竖直方向和水平方向连接两个数组。


In [99]:
import numpy as np

# 创建两个不同形状的NumPy数组
a = np.array([1, 2, 3])
b = np.array([[4, 5, 6], [7, 8, 9]])

# 利用广播机制进行加法运算
print("广播加法结果：\n", a + b[0])

# 使用np.concatenate连接两个一维数组
c = np.array([10, 11, 12])
d = np.array([13, 14, 15])
concatenated = np.concatenate((c, d))
print("连接后的数组：", concatenated)

# 使用np.vstack和np.hstack分别连接数组
vstacked = np.vstack((c, d))
hstacked = np.hstack((c, d))

print("竖直方向连接：\n", vstacked)
print("水平方向连接：", hstacked)

广播加法结果：
 [5 7 9]
连接后的数组： [10 11 12 13 14 15]
竖直方向连接：
 [[10 11 12]
 [13 14 15]]
水平方向连接： [10 11 12 13 14 15]


3. Numpy 的计算函数实践：创建两个NumPy数组 $a$ 和 $b$，并完成以下任务：
     - 计算数组 $a$ 与 $b$ 的逐元素加法、减法、乘法、除法。
     - 对数组 $a$ 和 $b$ 分别计算它们的平方根。
     - 求 $a$ 和 $b$ 的点积。
     - 计算数组 $a$ 的对数。


In [100]:
import numpy as np

# 创建两个NumPy数组
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 逐元素加法、减法、乘法、除法
print("逐元素加法：", np.add(a, b))
print("逐元素减法：", np.subtract(a, b))
print("逐元素乘法：", np.multiply(a, b))
print("逐元素除法：", np.divide(a, b))

# 求点积
dot_product = np.dot(a, b)
print("点积：", dot_product)

# 计算平方根和对数
print("a的平方根：", np.sqrt(a))
print("b的对数：", np.log(b))

逐元素加法： [5 7 9]
逐元素减法： [-3 -3 -3]
逐元素乘法： [ 4 10 18]
逐元素除法： [0.25 0.4  0.5 ]
点积： 32
a的平方根： [1.         1.41421356 1.73205081]
b的对数： [1.38629436 1.60943791 1.79175947]


4. Pandas Series 的操作实践：创建一个Pandas Series对象，并完成以下任务：
     - 创建一个包含 $5$ 个元素的 Series，并为每个元素指定索引。
     - 对 Series 进行加法、减法和乘法操作，使用标量和其他 Series 进行运算。
     - 对 Series 中的元素进行条件筛选，找出大于某个值的元素。
     - 修改 Series 中的元素。


In [101]:
import pandas as pd

# 创建Series对象
s1 = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
s2 = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])

# Series的加法运算
print("加法结果：\n", s1 + s2)

# 进行条件筛选
filtered = s1[s1 > 20]
print("大于20的元素：\n", filtered)

# 修改Series中的元素
s1["a"] = 100
print("修改后的Series：\n", s1)

加法结果：
 a    11
b    22
c    33
d    44
dtype: int64
大于20的元素：
 c    30
d    40
dtype: int64
修改后的Series：
 a    100
b     20
c     30
d     40
dtype: int64


5. Pandas DataFrame 的操作实践：创建一个Pandas DataFrame对象，并完成以下任务：
     - 创建一个 $5×3$ 的 DataFrame，包含学生姓名、年龄和成绩。
     - 修改 DataFrame 中的某一列（例如修改成绩列）。
     - 筛选出成绩大于 $80$ 的学生数据。
     - 对 DataFrame 进行按列和按行的求和、均值等统计操作。

In [102]:
import pandas as pd

# 创建DataFrame
data = {
    "姓名": ["Alice", "Bob", "Charlie"],
    "年龄": [25, 30, 35],
    "成绩": [85, 90, 88]
}
df = pd.DataFrame(data)

# 修改成绩列
df["成绩"] = [95, 92, 89]
print("修改后的DataFrame：\n", df)

# 筛选成绩大于90的学生
filtered_df = df[df["成绩"] > 90]
print("成绩大于90的学生：\n", filtered_df)

# 按列进行求和
column_sum = df.sum()
print("按列求和：\n", column_sum)

# 选择数值类型的列进行均值计算
numeric_df = df.select_dtypes(include=['number'])

# 按行计算均值
row_mean = numeric_df.mean(axis=1)
print("按行计算均值：\n", row_mean)

修改后的DataFrame：
         姓名  年龄  成绩
0    Alice  25  95
1      Bob  30  92
2  Charlie  35  89
成绩大于90的学生：
       姓名  年龄  成绩
0  Alice  25  95
1    Bob  30  92
按列求和：
 姓名    AliceBobCharlie
年龄                 90
成绩                276
dtype: object
按行计算均值：
 0    60.0
1    61.0
2    62.0
dtype: float64


6.  Pandas 的数据统计分析实践：创建一个包含员工姓名、部门和薪资的 DataFrame，并完成以下任务：
     - 按部门对员工的薪资进行分组，计算每个部门的平均薪资。
     - 找出薪资大于 $5000$ 的员工。
     - 计算全体员工的薪资总和、均值、标准差等统计信息。
     - 按照薪资从高到低对 DataFrame 进行排序。

In [103]:
import pandas as pd

# 创建DataFrame
data = {
    "姓名": ["Alice", "Bob", "Charlie", "David"],
    "部门": ["HR", "IT", "HR", "IT"],
    "薪资": [5000, 6000, 5500, 7000]
}
df = pd.DataFrame(data)

# 按部门分组，计算每个部门的平均薪资
grouped = df.groupby("部门")["薪资"].mean()
print("按部门分组的平均薪资：\n", grouped)

# 筛选薪资大于6000的员工
high_salary = df[df["薪资"] > 6000]
print("薪资大于6000的员工：\n", high_salary)

# 计算薪资的总和、均值、标准差
salary_stats = df["薪资"].agg(["sum", "mean", "std"])
print("薪资的总和、均值、标准差：\n", salary_stats)

# 按薪资从高到低排序
sorted_df = df.sort_values(by="薪资", ascending=False)
print("按薪资排序：\n", sorted_df)

按部门分组的平均薪资：
 部门
HR    5250.0
IT    6500.0
Name: 薪资, dtype: float64
薪资大于6000的员工：
       姓名  部门    薪资
3  David  IT  7000
薪资的总和、均值、标准差：
 sum     23500.000000
mean     5875.000000
std       853.912564
Name: 薪资, dtype: float64
按薪资排序：
         姓名  部门    薪资
3    David  IT  7000
1      Bob  IT  6000
2  Charlie  HR  5500
0    Alice  HR  5000
