# SciPy的应用

## SciPy的简介



## 子模块

|子模块|描述|
|:----|:----|
|cluster|聚类算法|
|constants|物理数学常数|
|fftpack|快速傅里叶变换|
|integrate|积分和常微分方程求解|
|interpolate|插值|
|io|输入输出|
|linalg|线性代数|
|odr|正交距离回归|
|optimize|优化和求根|
|signal|信号处理|
|sparse|稀疏矩阵|
|spatial|空间数据结构和算法|
|special|特殊方程|
|stats|统计分布和函数|
|weave|调用C/C++|

使用scipy之前，基础模块需要导入：

## 多项式：polynomial

In [None]:
p = plt.plot(data[0], data[1], 'kx')
t = plt.title("janaf data for mechane")
a = plt.axis([0, 6000, 30, 120])
x = plt.xlabel("temperature (K)")
y = plt.ylabel(r"$C_p$ ($\frac{kJ}{kg K}$)")
# plt.show()
plt.close()

In [None]:
# 径向基函数
x = np.linspace(-3, 3, 100)


In [None]:
# 高斯函数
plt.plot(x, np.exp(-1 * x ** 2))
t = plt.title("Gaussian")
plt.savefig('Gaussian.png')
plt.show()


In [None]:
# 高维 RBF 插值
# 三维数据点：
x, y = np.mgrid[-np.pi / 2:np.pi / 2:5j, -np.pi / 2:np.pi / 2:5j]
z = np.cos(np.sqrt(x ** 2 + y ** 2))
fig = plt.figure(figsize=(12, 6))
ax = fig.gca(projection="3d")
ax.scatter(x, y, z)
fig.savefig("mplot3d.jpg")
plt.show()

## 统计模块：stats

Python 中常用的统计工具有 Numpy, Pandas, PyMC, StatsModels 等。
Scipy 中的子库 scipy.stats 中包含很多统计上的方法。


In [None]:
from numpy import *
from matplotlib import pyplot

In [None]:
# Numpy 自带简单的统计方法：
heights = array([1.46, 1.79, 2.01, 1.75, 1.56, 1.69, 1.88, 1.76, 1.88, 1.78])
print('mean,', heights.mean())
print('min,', heights.min())
print('max', heights.max())
print('stand deviation,', heights.std())

In [None]:

# 导入 Scipy 的统计模块：
import scipy.stats.stats as st

print('median, ', st.nanmedian(heights))  # 忽略nan值之后的中位数
print('mode, ', st.mode(heights))  # 众数及其出现次数
print('skewness, ', st.skew(heights))  # 偏度
print('kurtosis, ', st.kurtosis(heights))  # 峰度


In [None]:
# 概率分布
# 常见的连续概率分布有：
# 均匀分布
# 正态分布
# 学生t分布
# F分布
# Gamma分布
# ...

# 离散概率分布：
# 伯努利分布
# 几何分布
# ...
# 这些都可以在 scipy.stats 中找到。


# 正态分布
from scipy.stats import norm


它包含四类常用的函数：

- norm.cdf 返回对应的累计分布函数值
- norm.pdf 返回对应的概率密度函数值
- norm.rvs 产生指定参数的随机变量
- norm.fit 返回给定数据下，各参数的最大似然估计（MLE）值

 从正态分布产生500个随机点：


In [None]:


x_norm = norm.rvs(size=500)
type(x_norm)
# pyplot.ion() #开启interactive mode
# 直方图：
h = pyplot.hist(x_norm)
print('counts, ', h[0])
print('bin centers', h[1])
figure = pyplot.figure(1)  # 创建图表1
pyplot.show()

In [None]:

# 归一化直方图（用出现频率代替次数），将划分区间变为 20（默认 10）：
h = pyplot.hist(x_norm, normed=True, bins=20)
pyplot.show()
# 在这组数据下，正态分布参数的最大似然估计值为：
x_mean, x_std = norm.fit(x_norm)

print('mean, ', x_mean)
print('x_std, ', x_std)


In [None]:

# 将真实的概率密度函数与直方图进行比较：
h = pyplot.hist(x_norm, normed=True, bins=20)

x = linspace(-3, 3, 50)
p = pyplot.plot(x, norm.pdf(x), 'r-')
pyplot.show()

In [None]:


# 导入积分函数：
from scipy.integrate import trapz

x1 = linspace(-2, 2, 108)
p = trapz(norm.pdf(x1), x1)
print('{:.2%} of the values lie between -2 and 2'.format(p))

pyplot.fill_between(x1, norm.pdf(x1), color='red')
pyplot.plot(x, norm.pdf(x), 'k-')
pyplot.show()


In [None]:

# 可以通过 loc 和 scale 来调整这些参数，一种方法是调用相关函数时进行输入：
x = linspace(-3, 3, 50)
p = pyplot.plot(x, norm.pdf(x, loc=0, scale=1))
p = pyplot.plot(x, norm.pdf(x, loc=0.5, scale=2))
p = pyplot.plot(x, norm.pdf(x, loc=-0.5, scale=.5))
pyplot.show()


In [None]:

# 不同参数的对数正态分布：
from scipy.stats import lognorm

x = linspace(0.01, 3, 100)

pyplot.plot(x, lognorm.pdf(x, 1), label='s=1')
pyplot.plot(x, lognorm.pdf(x, 2), label='s=2')
pyplot.plot(x, lognorm.pdf(x, .1), label='s=0.1')

pyplot.legend()
pyplot.show()


In [None]:

# 离散分布
from scipy.stats import randint

# 离散均匀分布的概率质量函数（PMF）：
high = 10
low = -10

x = arange(low, high + 1, 0.5)
p = pyplot.stem(x, randint(low, high).pmf(x))  # 杆状图
pyplot.show()

In [None]:

# 假设检验
# 导入相关的函数：
#
# 1.正态分布
# 2.独立双样本 t 检验，配对样本 t 检验，单样本 t 检验
# 3.学生 t 分布

from scipy.stats import norm
from scipy.stats import ttest_ind

# 独立样本 t 检验
# 两组参数不同的正态分布：
n1 = norm(loc=0.3, scale=1.0)
n2 = norm(loc=0, scale=1.0)
# 从分布中产生两组随机样本：
n1_samples = n1.rvs(size=100)
n2_samples = n2.rvs(size=100)
# 将两组样本混合在一起：
samples = hstack((n1_samples, n2_samples))
# 最大似然参数估计：
loc, scale = norm.fit(samples)
n = norm(loc=loc, scale=scale)
# 比较：
x = linspace(-3, 3, 100)

In [None]:

pyplot.hist([samples, n1_samples, n2_samples], normed=True)
pyplot.plot(x, n.pdf(x), 'b-')
pyplot.plot(x, n1.pdf(x), 'g-')
pyplot.plot(x, n2.pdf(x), 'r-')
pyplot.show()


In [None]:

# 独立双样本 t 检验的目的在于判断两组样本之间是否有显著差异：
t_val, p = ttest_ind(n1_samples, n2_samples)

print('t = {}'.format(t_val))
print('p-value = {}'.format(p))
# t = 0.868384594123
# p-value = 0.386235148899
# p 值小，说明这两个样本有显著性差异。


## 曲线：curve

In [None]:


import matplotlib.pyplot as plt
# 曲线拟合
# 导入基础包：
import numpy as np
# 多项式拟合
from numpy import polyfit, poly1d

# 产生数据：
x = np.linspace(-5, 5, 100)
y = 4 * x + 1.5
noise_y = y + np.random.randn(y.shape[-1]) * 2.5

p = plt.plot(x, noise_y, 'rx')
p = plt.plot(x, y, 'b:')
plt.show()


In [None]:
# 进行线性拟合，polyfit 是多项式拟合函数，线性拟合即一阶多项式：
coeff = polyfit(x, noise_y, 1)
print(coeff)

# 一阶多项式 y=a1x+a0y=a1x+a0 拟合，返回两个系数 [a1,a0][a1,a0]。

# 画出拟合曲线：
p = plt.plot(x, noise_y, 'rx')
p = plt.plot(x, coeff[0] * x + coeff[1], 'k-')
p = plt.plot(x, y, 'b--')
plt.show()

In [None]:
# 多项式拟合余弦函数
# 余弦函数：
x = np.linspace(-np.pi, np.pi, 100)
y = np.cos(x)

# 用一阶到九阶多项式拟合，类似泰勒展开：
# 可以用 poly1d 生成一个以传入的 coeff 为参数的多项式函数：
y1 = poly1d(polyfit(x, y, 1))
y3 = poly1d(polyfit(x, y, 3))
y5 = poly1d(polyfit(x, y, 5))
y7 = poly1d(polyfit(x, y, 7))
y9 = poly1d(polyfit(x, y, 9))
x = np.linspace(-3 * np.pi, 3 * np.pi, 100)

p = plt.plot(x, np.cos(x), 'k')  # 黑色余弦
p = plt.plot(x, y1(x))
p = plt.plot(x, y3(x))
p = plt.plot(x, y5(x))
p = plt.plot(x, y7(x))
p = plt.plot(x, y9(x))

a = plt.axis([-3 * np.pi, 3 * np.pi, -1.25, 1.25])
plt.show()

In [None]:

# 黑色为原始的图形，可以看到，随着多项式拟合的阶数的增加，
# 曲线与拟合数据的吻合程度在逐渐增大。


# 最小二乘拟合
# 导入相关的模块：
from scipy.linalg import lstsq
from scipy.stats import linregress

x = np.linspace(0, 5, 100)
y = 0.5 * x + np.random.randn(x.shape[-1]) * 0.35

plt.plot(x, y, 'x')
plt.show()

In [None]:

# Scipy.linalg.lstsq 最小二乘解
# 可以使用 scipy.linalg.lstsq 求最小二乘解。
X = np.hstack((x[:, np.newaxis], np.ones((x.shape[-1], 1))))
print(X[1:5])
# 求解：
C, resid, rank, s = lstsq(X, y)
print(C, resid, rank, s)
# 画图：
p = plt.plot(x, y, 'rx')
p = plt.plot(x, C[0] * x + C[1], 'k--')
plt.show()


In [None]:
print("sum squared residual = {:.3f}".format(resid))
print("rank of the X matrix = {}".format(rank))
print("singular values of X = {}".format(s))


In [None]:

# Scipy.stats.linregress 线性回归
# 对于上面的问题，还可以使用线性回归进行求解：
slope, intercept, r_value, p_value, stderr = linregress(x, y)
p = plt.plot(x, y, 'rx')
p = plt.plot(x, slope * x + intercept, 'k--')
plt.show()
print("R-value = {:.3f}".format(r_value))
print("p-value (probability there is no correlation) = {:.3e}".format(p_value))
print("Root mean squared error of the fit = {:.3f}".format(np.sqrt(stderr)))

In [None]:
# 可以看到，两者求解的结果是一致的，但是出发的角度是不同的。

# 高级的拟合
# 先定义这个非线性函数：y=ae^(−bsin(fx+ϕ))
def function(x, a, b, f, phi):
    """a function of x with four parameters"""
    result = a * np.exp(-b * np.sin(f * x + phi))
    return result


# 画出原始曲线：
x = np.linspace(0, 2 * np.pi, 50)
actual_parameters = [3, 2, 1.25, np.pi / 4]
y = function(x, *actual_parameters)
p = plt.plot(x, y)
plt.show()

In [None]:
# 加入噪声：
from scipy.stats import norm

y_noisy = y + 0.8 * norm.rvs(size=len(x))
p = plt.plot(x, y, 'k-')
p = plt.plot(x, y_noisy, 'rx')
plt.show()

In [None]:
# 高级的做法：
from scipy.optimize import curve_fit

# 不需要定义误差函数，直接传入 function 作为参数：
p_est, err_est = curve_fit(function, x, y_noisy)
print(p_est)
p = plt.plot(x, y_noisy, "rx")
p = plt.plot(x, function(x, *p_est), "g--")
plt.show()

In [None]:
# 这里第一个返回的是函数的参数，第二个返回值为各个参数的协方差矩阵：
print(err_est)

# 协方差矩阵的对角线为各个参数的方差：
print("normalized relative errors for each parameter")
print("   a\t    b\t    f\t    phi")
print(np.sqrt(err_est.diagonal()) / p_est)