## Scipy

### 01.Scipy简介

https://scipy.org/

#### 1.Scipy 简介

简单来说，Scipy 主要用于处理稀疏矩阵<br>
也就是"大部分位置是0，只有少量位置有数字的特殊矩阵"<br>
➤ 举个生活例子：<br>
想象一个全校1000名学生的点名表，如果只有5个学生迟到，其他995个都准时，那么用稀疏矩阵记录就是：<br>
● 只记"张三(3班)：迟到"  <br>
● 李四(7班)：迟到"<br>
...（只记录5条）  <br>
● 其他995个没写的就是"准时"（相当于0）<br>
➤ 为什么有用？<br>
1. 省内存：1000x1000的普通矩阵要存100万个数字，稀疏矩阵只存5个<br>
2. 算得快：计算时跳过所有0的位置<br>
3. SciPy的专长：scipy.sparse模块专门高效处理这种矩阵<br>
➤ 常见使用场景：<br>
● 自然语言处理（词袋模型）<br>
● 推荐系统（用户-物品评分矩阵）<br>
● 网络分析（网页链接关系）<br>
● 科学计算（微分方程离散化）<br>

Python中创建示例：

In [None]:
from scipy import sparse
# 普通矩阵
dense = [[0,0,7], [0,3,0], [1,0,0]] 
# 转为稀疏矩阵（只存非0值）
sparse_matrix = sparse.csr_matrix(dense)
print(sparse_matrix)

输出会显示：<br>
(位置0,2) 值7<br>
(位置1,1) 值3<br>
(位置2,0) 值1<br>
（其他未显示的都是0）<br>

##### 2.Pandas vs NumPy vs SciPy选型决策流程图

![image.png](attachment:image.png)

##### 2.1.SciPy核心定位     

![image.png](attachment:image.png)   

##### 3.安装

In [None]:
pip install scipy

| 特点             | pandas                                                                 | scipy                                                                   | numpy                                                                 |
|------------------|-----------------------------------------------------------------------|-------------------------------------------------------------------------|----------------------------------------------------------------------|
| 主要用途         | 处理表格数据，适合做数据分析                                          | 高级科学计算（数值优化、统计等）                                        | 做数学运算，尤其是数组相关                                           |
| 数据结构         | 基于 numpy 的"表格"型数据                                             | 基于 NumPy 的多种科学计算模块                                           | "数组"型，类似数字列表                                               |
| 处理数据类型     | 可以处理不同类型的数据（数字、文字、日期等）                          | 专注于科学计算（矩阵运算、统计）                                        | 主要处理数字数据                                                     |
| 索引功能         | 支持标签                                                              | 不支持标签                                                              | 不支持标签                                                           |
| 缺失值处理       | 支持                                                                  | 不支持                                                                  | 不支持                                                               |
| 功能             | 数据清洗、统计、分组、合并等                                          | 优化、插值、线性代数、信号处理等                                        | 加减乘除、数组运算                                                   |
| 速度             | 功能更多，处理的事物复杂                                              | 与 NumPy 类似                                                           | 更快，专注于高效的数值计算                                           |
| 适用场景         | 数据分析、数据清洗、表格数据处理                                      | 复杂科学问题的建模和解决                                                | 数学运算、大规模的数值计算                                           |
| 时间日期处理     | 支持处理时间数据（时间序列等）                                        | 不支持时间序列                                                          | 不支持处理时间和日期数据                                             |

### 02.数据导入导出

#### 1.总结

| 操作类别           | 方法                              | 功能                                      | 说明                                                                 |
|--------------------|----------------------------------|------------------------------------------|---------------------------------------------------------------------|
| 读取 MATLAB 文件   | `scipy.io.loadmat(filepath)`     | 从 `.mat` 文件中加载数据                 | MATLAB 文件数据读取，返回一个字典，适合与 Python 数据结构交互       |
| 写入 MATLAB 文件   | `scipy.io.savemat(filepath, data_dict)` | 将数据保存为 `.mat` 文件                | 将 Python 字典格式数据写入 MATLAB 文件                              |
| 读取 WAV 文件      | `scipy.io.wavfile.read(filepath)` | 从 WAV 音频文件中加载数据               | 返回采样率和音频数据                                               |
| 写入 WAV 文件      | `scipy.io.wavfile.write(filepath, rate, data)` | 将音频数据保存为 WAV 文件       | 可以用于保存音频数据到本地                                         |
| 读取/写入二进制    | `scipy.io.FortranFile` 或 `scipy.io.npyio` | 读取或写入二进制文件，支持 Fortran 二进制格式或 NumPy 数据格式 | 提供灵活的二进制读写接口，适用于科学计算场景                     |
| 读取 NetCDF 文件   | `scipy.io.netcdf_file`          | 读取或写入 NetCDF 数据文件               | NetCDF 是常用于存储科学数据的格式，SciPy 提供基本的读写功能        |

#### 2.数据读取

一般使用 pandas 读取数据，scipy 主要用于分析

导入` .mat `文件

In [None]:
from scipy import io

# 读取 MATLAB .mat 文件
data = io.loadmat('data.mat')

# 查看数据内容
print(data.keys())

导出 `.mat `文件

In [None]:
# 将数据保存为 MATLAB .mat 文件
io.savemat('output_data.mat', {'variable_name': array})

导入` .wav `文件

In [None]:
from scipy.io import wavfile

# 读取 WAV 文件
sample_rate, data = wavfile.read('audio.wav')

print(f"采样率: {sample_rate} Hz")
print(f"数据形状: {data.shape}")

导出 `.wav `文件

In [None]:
# 写入 WAV 文件
wavfile.write('output_audio.wav', sample_rate, data)

### 03.数据筛选

#### 1.Scipy 归纳表

| 操作类别           | 方法                                      | 功能                                      | 说明                                                                 |
|--------------------|------------------------------------------|------------------------------------------|---------------------------------------------------------------------|
| 创建数组/矩阵      | `numpy.array(data)`                     | 创建基本数组或矩阵                       | Scipy 构建于 NumPy 之上，数组是核心数据结构                         |
| 生成稀疏矩阵       | `scipy.sparse.csr_matrix(data)`         | 创建压缩稀疏行（CSR）矩阵                | 用于存储稀疏数据，节省内存                                          |
|                    | `scipy.sparse.csc_matrix(data)`         | 创建压缩稀疏列（CSC）矩阵                | 常用于稀疏矩阵的高效列操作                                          |
| 筛选稀疏矩阵数据   | `matrix.nonzero()`                      | 筛选非零值的行和列索引                   | 用于稀疏矩阵的有效值筛选                                            |
| 矩阵操作           | `scipy.linalg`模块                      | 提供矩阵分解、逆矩阵、特征值等操作       | 提供丰富的线性代数操作                                              |
| 插值与拟合         | `scipy.interpolate.interp1d`            | 创建一维插值对象，用于数据插值           | 常用于补全缺失数据或在数据间插值                                    |
|                    | `scipy.optimize.curve_fit`              | 对数据进行曲线拟合                       | 可用于拟合函数并获取最优参数值                                      |
| 重命名变量/字段    | 自定义字典操作（非直接支持）             | 可以通过字典映射的方式对变量或字段重命名 | Scipy 不直接支持重命名，通常在导入/导出时手动调整                   |
| 增删矩阵数据       | `scipy.sparse.vstack/hstack`            | 增加稀疏矩阵的行或列                     | 用于稀疏矩阵合并操作，适用于构造更大矩阵                            |
|                    | `scipy.sparse.csr_matrix.eliminate_zeros()` | 删除稀疏矩阵中的零值                 | 减少稀疏矩阵的存储开销                                              |
| 查找矩阵信息       | `matrix.shape`                          | 查询矩阵的形状                           | 返回矩阵的行数和列数                                                |
|                    | `scipy.linalg.det(matrix)`               | 计算矩阵的行列式                         | 判断矩阵是否可逆                                                    |
| 统计数据           | `scipy.stats.describe(data)`            | 描述性统计分析                           | 提供数据的均值、方差、偏度、峰度等基本统计信息                      |
|                    | `scipy.stats.ttest_ind(a, b)`           | 独立样本 t 检验                          | 检查两组数据之间是否有显著差异                                      |

#### 2.创建数组/矩阵

In [None]:
import numpy as np
import scipy.sparse as sp

# 创建基本数组
arr = np.array([[1, 2, 0], [0, 0, 3], [4, 0, 5]])
print("NumPy 数组:")
print(arr)

# 创建CSR稀疏矩阵
csr_matrix = sp.csr_matrix(arr)
print("\nCSR稀疏矩阵:")
print(csr_matrix)

# 创建CSC稀疏矩阵
csc_matrix = sp.csc_matrix(arr)
print("\nCSC稀疏矩阵:")
print(csc_matrix)

##### 2.1.筛选稀疏矩阵数据

In [None]:
# 获取非零元素的行列索引
rows, cols = csr_matrix.nonzero()
print("\n非零元素的行列索引:")
print("行:", rows)
print("列:", cols)

##### 2.2.矩阵操作

In [None]:
from scipy import linalg

# 矩阵分解
lu, piv = linalg.lu_factor(arr)
print("\nLU分解结果:")
print(lu)

# 计算行列式
det = linalg.det(arr)
print("\n矩阵行列式:", det)

#### 3.插值与拟合

In [None]:
from scipy import interpolate, optimize
import matplotlib.pyplot as plt

# 插值示例
x = np.linspace(0, 10, 10)
y = np.sin(x)
f = interpolate.interp1d(x, y, kind='cubic')
xnew = np.linspace(0, 10, 50)
ynew = f(xnew)

plt.plot(x, y, 'o', xnew, ynew, '-')
plt.title("一维插值示例")
plt.show()

# 曲线拟合
def func(x, a, b, c):
    return a * np.exp(-b * x) + c

xdata = np.linspace(0, 4, 50)
ydata = func(xdata, 2.5, 1.3, 0.5) + 0.2 * np.random.normal(size=len(xdata))

popt, pcov = optimize.curve_fit(func, xdata, ydata)
print("\n拟合参数:", popt)

#### 4.增删矩阵数据

In [None]:
# 增加矩阵行
new_row = sp.csr_matrix([[0, 1, 0]])
csr_matrix = sp.vstack([csr_matrix, new_row])
print("\n增加行后的矩阵:")
print(csr_matrix.toarray())

# 删除零元素
csr_matrix.eliminate_zeros()
print("\n删除零元素后的矩阵:")
print(csr_matrix.toarray())

#### 5.查找矩阵信息

In [None]:
print("\n矩阵形状:", csr_matrix.shape)
print("非零元素数量:", csr_matrix.count_nonzero())

##### 5.1.统计数据

In [None]:
from scipy import stats

data = np.random.normal(size=100)
print("\n描述性统计:")
print(stats.describe(data))

# t检验
a = np.random.normal(0, 1, 100)
b = np.random.normal(0.5, 1, 100)
t_stat, p_val = stats.ttest_ind(a, b)
print("\nt检验结果: t统计量 =", t_stat, "p值 =", p_val)

##### 5.2.重命名变量/字段

In [None]:
# Scipy不直接支持重命名，通常在数据预处理阶段完成
data_dict = {'old_name': [1, 2, 3]}
df = pd.DataFrame(data_dict).rename(columns={'old_name': 'new_name'})
print("\n重命名后的DataFrame:")
print(df)

### 6.SciPy 数据筛选方法详解

##### 6.1.稀疏矩阵数据筛选

In [None]:
import numpy as np
from scipy import sparse

# 创建稀疏矩阵
data = np.array([[0, 1, 0], [2, 0, 3], [0, 0, 4]])
csr_mat = sparse.csr_matrix(data)

# 筛选非零元素
print("非零元素值:", csr_mat.data)
print("非零元素行索引:", csr_mat.indices)
print("非零元素列指针:", csr_mat.indptr)

# 筛选特定行
print("\n第1行非零元素:", csr_mat.getrow(1).toarray())

# 筛选特定列
print("第2列非零元素:", csr_mat.getcol(2).toarray())

##### 6.2.基于条件的稀疏矩阵筛选

In [None]:
# 创建大型稀疏矩阵
np.random.seed(42)
large_data = sparse.random(100, 100, density=0.1, format='csr')

# 筛选大于阈值的元素
threshold = 0.5
filtered = large_data.multiply(large_data > threshold)
print("\n大于0.5的元素数量:", filtered.count_nonzero())

# 筛选特定行范围
rows_filtered = large_data[50:60, :]
print("50-60行非零元素数:", rows_filtered.count_nonzero())

##### 6.3.使用scipy.ndimage进行图像数据筛选

In [None]:
from scipy import ndimage

# 创建示例图像数据
image = np.zeros((10, 10))
image[3:7, 3:7] = 1  # 创建一个方块
image = ndimage.gaussian_filter(image, sigma=1)  # 添加高斯模糊

# 筛选特定阈值区域
labeled, num_features = ndimage.label(image > 0.5)
print("\n筛选出的区域数量:", num_features)
print("标记矩阵:\n", labeled)

##### 6.4.使用scipy.signal进行信号数据筛选

In [None]:
from scipy import signal

# 创建含噪声的信号
t = np.linspace(0, 1, 1000)
x = np.sin(2*np.pi*10*t) + 0.5*np.random.randn(1000)

# 设计带通滤波器筛选10Hz信号
b, a = signal.butter(4, [8, 12], 'bandpass', fs=1000)
filtered_x = signal.filtfilt(b, a, x)

# 绘制结果
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 4))
plt.plot(t, x, label='原始信号')
plt.plot(t, filtered_x, label='滤波后信号')
plt.legend()
plt.title('带通滤波筛选10Hz信号')
plt.show()

##### 6.5.使用scipy.stats进行统计筛选

In [None]:
from scipy import stats

# 创建示例数据
data = np.random.normal(loc=5, scale=2, size=1000)

# 筛选异常值（3σ原则）
z_scores = np.abs(stats.zscore(data))
filtered_data = data[z_scores < 3]

print("\n原始数据点:", len(data))
print("筛选后数据点:", len(filtered_data))
print("异常值数量:", len(data) - len(filtered_data))

##### 6.6.高级稀疏矩阵筛选操作

In [None]:
# 创建两个稀疏矩阵
mat1 = sparse.random(100, 100, density=0.1, format='csr')
mat2 = sparse.random(100, 100, density=0.1, format='csr')

# 筛选两个矩阵共有的非零位置
common_elements = mat1.multiply(mat2)
print("\n共有非零元素数量:", common_elements.count_nonzero())

# 筛选特定模式的元素
pattern = sparse.csr_matrix((100, 100))
pattern[30:40, 30:40] = 1
patterned = mat1.multiply(pattern)
print("模式区域内非零元素:", patterned.count_nonzero())

##### 6.7.使用scipy.optimize进行最优筛选

In [None]:
from scipy import optimize

# 定义目标函数
def objective(x):
    return (x[0]-5)**2 + (x[1]-3)**2 + (x[2]-7)**2

# 定义约束条件筛选可行解
constraints = [
    {'type': 'ineq', 'fun': lambda x: x[0]},  # x >= 0
    {'type': 'ineq', 'fun': lambda x: x[1]},  # y >= 0
    {'type': 'ineq', 'fun': lambda x: 10 - x.sum()}  # x+y+z <= 10
]

# 筛选最优解
result = optimize.minimize(objective, [0, 0, 0], constraints=constraints)
print("\n最优解:", result.x)
print("是否成功:", result.success)

### 04. 数据清洗

##### 1.Scipy归纳表

| 操作类别         | 方法                                      | 功能                                      | 说明                                                                 |
|------------------|------------------------------------------|------------------------------------------|---------------------------------------------------------------------|
| **缺失值处理**   | `scipy.interpolate.interp1d`             | 使用插值方法填充缺失值                   | 支持线性、最近邻等多种插值方法                                      |
|                  | `scipy.stats.trim_mean(data, proportion)` | 去掉数据中一定比例的极端值              | 用于消除异常值的影响                                                |
| **异常值检测**   | `scipy.stats.zscore(data)`               | 计算 Z 分数，用于异常值检测             | 标准化数据，绝对值大于一定阈值的点为异常                            |
|                  | `scipy.stats.mstats.winsorize(data)`     | 对异常值进行 Winsorize 处理              | 将异常值拉到数据的指定范围内                                        |
| **数据归一化**   | `scipy.stats.zscore(data)`               | 数据标准化                               | 数据标准化后均值为 0，标准差为 1                                     |
| **重复值处理**   | 手动处理（非直接支持）                   | 需结合 NumPy 的布尔索引手动操作          | Scipy 无直接支持，通常对稀疏矩阵或数组手动操作                      |
| **稀疏矩阵清洗** | `scipy.sparse.csr_matrix.eliminate_zeros()` | 删除稀疏矩阵中的零值                 | 减少稀疏矩阵的存储开销                                              |
|                  | `scipy.sparse.csr_matrix.sum_duplicates()` | 合并重复的稀疏矩阵条目                | 确保稀疏矩阵中的唯一性                                              |
| **数据转换**     | `scipy.special.log1p(data)`              | 对数据进行对数变换                       | 用于数值缩放，避免零或负数问题                                      |
|                  | `scipy.special.expit(data)`              | 对数据进行 Sigmoid 转换                  | 常用于将数据缩放到 (0, 1) 范围内                                    |
| **统计与分布清洗** | `scipy.stats.normaltest(data)`          | 检验数据是否符合正态分布                | 可用于数据清洗前的分布检查                                          |
|                  | `scipy.stats.boxcox(data)`              | 进行 Box-Cox 变换                        | 用于数据正态化，要求输入数据为正                                    |
| **时间序列插值** | `scipy.interpolate.interp1d`             | 对时间序列数据插值                      | 需提供时间轴和数值轴，适用于缺失时间点数据的补全                    |

#### 2.SciPy数据筛选的三大主战场

##### 2.1.稀疏矩阵筛选 

In [None]:
from scipy import sparse
# 创建稀疏矩阵（99.9%元素为0）
web_links = sparse.random(1000000, 1000000, density=0.000001, format='csr')
# 筛选第123列非零元素（链向网站123的所有页面）
linked_pages = web_links.getcol(123).nonzero()[0]

  ○ 只处理非零元素（跳过所有0值）  <br>
  ○ 例：从100万×100万的网页链接矩阵中找出链向某网站的所有页面

##### 2.2.信号/图像筛选 

In [None]:
from scipy import signal
# 带通滤波器设计
b, a = signal.butter(4, [8, 12], 'bandpass', fs=1000)
# 应用滤波器筛选目标频段
alpha_wave = signal.filtfilt(b, a, eeg_data)

  ○ 基于数学变换的滤波操作  <br>
  ○ 例：从含噪声的EEG脑电信号中提取α波段(8-12Hz)

##### 2.3.科学数据清洗

In [None]:
from scipy import stats
z_scores = np.abs(stats.zscore(experiment_data))
clean_data = experiment_data[z_scores < 3]

  ○ 基于统计规律的异常值筛选  <br>
  ○ 例：筛选实验数据中3σ以外的异常点

##### 2.4.与Pandas筛选的关键区别

| 特性         | SciPy筛选                          | Pandas筛选                          |
|--------------|------------------------------------|-------------------------------------|
| 主要对象     | 稀疏矩阵/信号/科学数据             | 结构化表格数据                     |
| 核心方法     | 数学变换/统计方法                  | 布尔索引/字符串匹配                |
| 效率优化     | 自动跳过0值/频域处理               | 依赖索引优化                       |
| 典型应用     | 物理仿真/信号处理                  | 商业数据分析                       |

#### 3.性能优化技巧

##### 3.1.稀疏矩阵筛选黄金法则 

In [None]:
# 错误做法：先转稠密再筛选（内存爆炸！）
dense_data = sparse_matrix.toarray()[rows, cols]

# 正确做法：直接稀疏筛选
selected = sparse_matrix[rows, cols]  # 保持稀疏特性

##### 3.2.信号筛选的时频权衡

In [None]:
# 时域筛选（简单但耗资源）
time_filtered = signal[1000:2000]

# 频域筛选（复杂但高效）
freq_domain = np.fft.fft(signal)
freq_domain[abs(freqs) > 12] = 0  # 切除高频噪声
clean_signal = np.fft.ifft(freq_domain)

##### 4.实战案例：基因序列筛选

In [None]:
from scipy import sparse, stats

# 模拟基因表达数据（99.99%为零值）
gene_data = sparse.random(20000, 30000, density=0.0001, format='csc')

# 筛选显著表达的基因（表达量前5%）
threshold = np.percentile(gene_data.data, 95)
significant_genes = gene_data.multiply(gene_data > threshold)

# 筛选与目标基因相关性强的基因
target_gene = gene_data[:, 12345].toarray().flatten()
correlations = [stats.pearsonr(target_gene, gene_data[:,i].toarray().flatten())[0] 
               for i in range(gene_data.shape[1])]
top_related = np.argsort(correlations)[-10:]

### 05.数据操作

#### 1.Scipy 数据操作归纳表

| 操作类别       | 方法                                      | 功能                                      | 说明                                                                 |
|----------------|------------------------------------------|------------------------------------------|---------------------------------------------------------------------|
| **数组创建**   | `scipy.array` (继承自 NumPy)            | 创建多维数组                             | NumPy 基础功能，Scipy 构建于 NumPy 之上                             |
|                | `scipy.sparse.csr_matrix`               | 创建稀疏矩阵                             | 用于存储稀疏数据，减少存储空间                                      |
| **数组切片与索引** | NumPy 的数组切片和索引方法             | 对数组进行切片或布尔索引                 | Scipy 与 NumPy 的索引方法一致                                      |
| **数据统计**   | `scipy.stats.describe(data)`            | 返回数据的描述性统计信息                 | 包括均值、方差、偏度、峰度等                                        |
|                | `scipy.stats.ttest_*(...)`              | 提供各种 t 检验方法                      | 包括单样本、独立样本和配对样本 t 检验                               |
|                | `scipy.stats.pearsonr/spearmanr`        | 计算相关系数（Pearson/Spearman）         | 用于变量间的线性或秩序相关性分析                                    |
| **数据变换**   | `scipy.special.log1p(data)`             | 对数据进行对数变换                       | 防止直接取对数的溢出问题                                            |
|                | `scipy.special.expit(data)`             | 将数据转换为 Sigmoid 形式                | 适用于概率模型中将数据映射到 (0, 1) 的范围                          |
|                | `scipy.stats.boxcox(data)`              | 进行 Box-Cox 变换                        | 用于正态化数据分布，要求输入数据为正                                |
| **矩阵操作**   | `scipy.linalg.inv(matrix)`              | 计算矩阵的逆                             | 常用于线性方程组的求解                                              |
|                | `scipy.linalg.det(matrix)`              | 计算矩阵的行列式                         | 判断矩阵是否可逆                                                    |
|                | `scipy.linalg.eig(matrix)`              | 计算矩阵的特征值和特征向量               | 常用于主成分分析（PCA）和降维                                       |
|                | `scipy.sparse.linalg` 模块              | 提供稀疏矩阵的线性代数操作               | 包括稀疏矩阵求解、分解等                                            |
| **插值与拟合** | `scipy.interpolate.interp1d`            | 一维数据插值                             | 用于补全缺失数据或拟合离散数据                                      |
|                | `scipy.optimize.curve_fit`              | 数据拟合，找到参数使函数逼近数据         | 应用于非线性回归分析                                                |
| **优化与求解** | `scipy.optimize.minimize`               | 优化函数最小值                           | 提供多种算法，如 BFGS、Nelder-Mead 等                               |
|                | `scipy.optimize.root`                   | 求解方程的根                             | 可处理单变量或多变量方程                                            |
| **稀疏矩阵操作** | `scipy.sparse.csr_matrix` 和 `csc_matrix` | 稀疏矩阵的基本构造                      | 用于高效存储和计算稀疏数据                                          |
|                | `scipy.sparse.vstack/hstack`            | 稀疏矩阵的垂直/水平合并                  | 用于构造大规模稀疏矩阵                                              |
|                | `scipy.sparse.csr_matrix.eliminate_zeros()` | 删除稀疏矩阵的零值                   | 减少存储开销                                                        |

##### 1.1.数组创建方法

In [None]:
import numpy as np
from scipy import sparse

# 创建普通数组
arr = np.array([[1, 2, 3], [4, 5, 6]])
print("NumPy数组:\n", arr)

# 创建CSR格式稀疏矩阵
sparse_mat = sparse.csr_matrix(arr)
print("\nCSR稀疏矩阵:\n", sparse_mat)

##### 1.2.数组切片与索引

In [None]:
# 普通数组切片
print("数组第1行:\n", arr[0,:])
print("数组第2列:\n", arr[:,1])

# 布尔索引
bool_idx = arr > 3
print("\n大于3的元素:\n", arr[bool_idx])

##### 1.3.数据统计方法

In [None]:
from scipy import stats

data = np.random.normal(size=100)
print("描述性统计:\n", stats.describe(data))

# 独立样本t检验
group1 = np.random.normal(0, 1, 50)
group2 = np.random.normal(0.5, 1, 50)
t_stat, p_val = stats.ttest_ind(group1, group2)
print("\nt检验结果:\n t统计量:", t_stat, "p值:", p_val)

##### 1.4.数据变换操作

In [None]:
from scipy import special

# 对数变换
log_trans = special.log1p(np.array([0, 1, 10]))
print("log1p变换:\n", log_trans)

# Sigmoid变换
sigmoid = special.expit(np.array([-10, 0, 10]))
print("\nSigmoid变换:\n", sigmoid)

##### 1.5.矩阵操作方法

In [None]:
from scipy import linalg

mat = np.array([[1, 2], [3, 4]])
print("矩阵行列式:", linalg.det(mat))

# 特征分解
eigvals, eigvecs = linalg.eig(mat)
print("\n特征值:\n", eigvals)
print("特征向量:\n", eigvecs)

##### 1.6.插值与拟合

In [None]:
from scipy import interpolate, optimize

# 一维插值
x = np.linspace(0, 10, 10)
y = np.sin(x)
f = interpolate.interp1d(x, y, kind='cubic')
print("插值结果(5.5):", f(5.5))

# 曲线拟合
def func(x, a, b):
    return a * np.exp(-b * x)
xdata = np.linspace(0, 4, 50)
ydata = func(xdata, 2.5, 1.3) + 0.2 * np.random.normal(size=len(xdata))
popt, pcov = optimize.curve_fit(func, xdata, ydata)
print("\n拟合参数:", popt)

##### 1.7.稀疏矩阵操作

In [None]:
# 稀疏矩阵合并
mat1 = sparse.csr_matrix(np.eye(3))
mat2 = sparse.csr_matrix(np.ones((3, 2)))
combined = sparse.hstack([mat1, mat2])
print("水平合并结果:\n", combined.toarray())

# 删除零元素
mat = sparse.csr_matrix([[0, 1], [0, 0]])
mat.eliminate_zeros()
print("\n删除零元素后:\n", mat.toarray())

##### 1.8.优化与求解

In [None]:
# 函数最小化
def rosen(x):
    return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-x[:-1])**2.0)
x0 = np.array([1.3, 0.7, 0.8, 1.9, 1.2])
res = optimize.minimize(rosen, x0, method='nelder-mead')
print("优化结果:\n", res.x)

# 方程求根
sol = optimize.root(lambda x: x + np.cos(x), 0)
print("\n方程根:", sol.x)

#### 2.Scipy 数据计算操作归纳表

| 操作类别           | 方法                                      | 功能                                      | 说明                                                                 |
|--------------------|------------------------------------------|------------------------------------------|---------------------------------------------------------------------|
| **基础数学运算**   | `scipy.add`, `scipy.subtract`, `scipy.multiply`, `scipy.divide` | 执行加减乘除等基本运算                 | 继承自 NumPy，支持广播机制                                          |
| **累积运算**       | `scipy.cumsum(data)`                    | 计算数据的累积和                       | 累积计算用于统计变化趋势                                            |
|                    | `scipy.cumprod(data)`                   | 计算数据的累积乘积                     | 用于指数增长模型等计算                                              |
| **高级函数计算**   | `scipy.special.*`                       | 提供高级数学函数                       | 包括 log1p（对数计算）、expit（Sigmoid）等                          |
| **线性代数计算**   | `scipy.linalg.inv(matrix)`              | 计算矩阵的逆                           | 用于线性方程组的求解                                                |
|                    | `scipy.linalg.det(matrix)`              | 计算矩阵的行列式                       | 判断矩阵是否可逆                                                    |
|                    | `scipy.linalg.eig(matrix)`              | 计算矩阵的特征值和特征向量             | 常用于主成分分析（PCA）                                             |
|                    | `scipy.linalg.svd(matrix)`              | 对矩阵进行奇异值分解（SVD）            | 用于降维或解决过拟合问题                                            |
| **优化与最优化计算** | `scipy.optimize.minimize(fun, x0)`     | 最小化目标函数                         | 支持多种优化算法，如 BFGS 和 Nelder-Mead                            |
|                    | `scipy.optimize.curve_fit(func, xdata, ydata)` | 非线性回归拟合                     | 用于拟合非线性模型并估计最佳参数                                    |
| **积分与微分**     | `scipy.integrate.quad(func, a, b)`     | 计算一元函数的定积分                   | 提供高精度的积分计算                                                |
|                    | `scipy.integrate.odeint(func, y0, t)`  | 求解常微分方程组                       | 常用于动态系统建模                                                  |
| **插值与拟合**     | `scipy.interpolate.interp1d(x, y)`     | 一维插值                               | 用于离散数据的补全                                                  |
|                    | `scipy.interpolate.griddata(points, values, xi)` | 多维插值                         | 适用于多维数据插值场景                                              |
| **统计计算**       | `scipy.stats.describe(data)`           | 描述性统计分析                         | 包括均值、方差、偏度、峰度等指标                                    |
|                    | `scipy.stats.ttest_ind(a, b)`          | 独立样本 t 检验                        | 检查两组数据之间是否有显著差异                                      |
|                    | `scipy.stats.pearsonr(x, y)`           | 计算 Pearson 相关系数                  | 用于线性相关分析                                                    |
|                    | `scipy.stats.spearmanr(x, y)`          | 计算 Spearman 等级相关系数             | 适用于非线性相关分析                                                |
| **稀疏矩阵计算**   | `scipy.sparse.linalg.spsolve(A, b)`    | 求解稀疏矩阵的线性方程组               | 提供高效的稀疏矩阵求解算法                                          |
|                    | `scipy.sparse.linalg.eigs(A)`          | 计算稀疏矩阵的特征值和特征向量         | 适用于大规模稀疏矩阵的特征分析                                      |
| **信号处理**       | `scipy.signal.convolve(a, v)`          | 计算信号的卷积                         | 信号和数据处理的重要工具                                            |
|                    | `scipy.signal.find_peaks(data)`        | 寻找信号中的峰值                       | 用于检测信号中的关键点                                              |

##### 2.1.基础数学运算

In [None]:
import numpy as np
from scipy import special

# 基本运算示例
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print("加法:", np.add(a, b))
print("乘法:", np.multiply(a, b))

# 特殊数学函数
print("log1p计算:", special.log1p(0.01))
print("Sigmoid变换:", special.expit([-1, 0, 1]))

##### 2.2.累积运算

In [None]:
# 累积计算示例
data = np.array([1, 2, 3, 4])
print("累积和:", np.cumsum(data))
print("累积积:", np.cumprod(data))

##### 2.3.线性代数计算

In [None]:
from scipy import linalg

# 矩阵运算示例
mat = np.array([[1, 2], [3, 4]])
print("矩阵行列式:", linalg.det(mat))
print("矩阵逆:\n", linalg.inv(mat))

# 特征分解
eigvals, eigvecs = linalg.eig(mat)
print("特征值:", eigvals)
print("特征向量:\n", eigvecs)

##### 2.4.优化与最优化计算

In [None]:
from scipy import optimize

# 函数最小化
def rosen(x):
    return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-x[:-1])**2.0)
x0 = np.array([1.3, 0.7, 0.8, 1.9, 1.2])
res = optimize.minimize(rosen, x0, method='nelder-mead')
print("优化结果:", res.x)

# 曲线拟合
def func(x, a, b):
    return a * np.exp(-b * x)
xdata = np.linspace(0, 4, 50)
ydata = func(xdata, 2.5, 1.3) + 0.2 * np.random.normal(size=len(xdata))
popt, pcov = optimize.curve_fit(func, xdata, ydata)
print("拟合参数:", popt)

##### 2.5.积分与微分

In [None]:
from scipy import integrate

# 积分计算
result, error = integrate.quad(lambda x: np.exp(-x**2), -np.inf, np.inf)
print("高斯积分结果:", result)

# 微分方程求解
def deriv(y, t):
    return -2 * y
y0 = 1
t = np.linspace(0, 10, 100)
y = integrate.odeint(deriv, y0, t)
print("微分方程解:", y[-1])

##### 2.6.统计计算

In [None]:
from scipy import stats

# 统计分析
data = np.random.normal(size=100)
print("描述统计:", stats.describe(data))

# 假设检验
a = np.random.normal(0, 1, 100)
b = np.random.normal(0.5, 1, 100)
t_stat, p_val = stats.ttest_ind(a, b)
print("t检验p值:", p_val)

# 相关分析
x = np.linspace(0, 10, 100)
y = x + np.random.normal(size=100)
corr, p = stats.pearsonr(x, y)
print("Pearson相关系数:", corr)

##### 2.7.稀疏矩阵计算

In [None]:
from scipy import sparse

# 稀疏矩阵运算
A = sparse.csr_matrix([[1, 0, 2], [0, 0, 3], [4, 5, 0]])
b = np.array([1, 2, 3])
x = sparse.linalg.spsolve(A, b)
print("稀疏矩阵解:", x)

# 稀疏特征值
eigvals = sparse.linalg.eigs(A, k=2)
print("稀疏矩阵特征值:", eigvals[0])

##### 2.8.信号处理

In [None]:
from scipy import signal

# 信号处理示例
t = np.linspace(0, 1, 1000)
x = np.sin(2*np.pi*10*t) + 0.5*np.random.randn(1000)
peaks, _ = signal.find_peaks(x, height=1)
print("检测到的峰值数量:", len(peaks))

# 滤波器设计
b, a = signal.butter(4, 0.1, 'low')
filtered = signal.filtfilt(b, a, x)
print("滤波后信号均值:", np.mean(filtered))