# 概率统计基础

本笔记本介绍概率统计的基本概念和Python实现，包括概率分布、统计推断、假设检验等。

## 1. 基础统计量

学习如何计算和描述数据的基本统计特征。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# 生成示例数据
np.random.seed(42)
data = np.random.normal(loc=100, scale=15, size=1000)

print("数据示例:", data[:10])
print("数据形状:", data.shape)

In [None]:
# 计算基本统计量
mean = np.mean(data)
median = np.median(data)
std = np.std(data, ddof=1)  # 样本标准差
variance = np.var(data, ddof=1)  # 样本方差

print(f"均值: {mean:.2f}")
print(f"中位数: {median:.2f}")
print(f"标准差: {std:.2f}")
print(f"方差: {variance:.2f}")

In [None]:
# 计算分位数
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1

print(f"第一四分位数 (Q1): {q1:.2f}")
print(f"第三四分位数 (Q3): {q3:.2f}")
print(f"四分位距 (IQR): {iqr:.2f}")

In [None]:
# 使用Pandas获取统计摘要
df = pd.DataFrame({'values': data})
print(df.describe())

## 2. 数据可视化

使用各种图表展示数据的分布特征。

In [None]:
# 直方图
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 直方图
axes[0, 0].hist(data, bins=30, edgecolor='black', alpha=0.7)
axes[0, 0].set_title('直方图')
axes[0, 0].set_xlabel('值')
axes[0, 0].set_ylabel('频数')
axes[0, 0].grid(True, alpha=0.3)

# 箱线图
axes[0, 1].boxplot(data, vert=True)
axes[0, 1].set_title('箱线图')
axes[0, 1].set_ylabel('值')
axes[0, 1].grid(True, alpha=0.3)

# 核密度估计图
axes[1, 0].hist(data, bins=30, density=True, alpha=0.5, label='直方图')
axes[1, 0].plot(np.sort(data), stats.gaussian_kde(data)(np.sort(data)), 
              'r-', linewidth=2, label='核密度估计')
axes[1, 0].set_title('核密度估计')
axes[1, 0].set_xlabel('值')
axes[1, 0].set_ylabel('密度')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Q-Q图
stats.probplot(data, dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('Q-Q图')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 3. 概率分布

学习常见的概率分布及其性质。

In [None]:
# 正态分布
mu = 0
sigma = 1

# 概率密度函数 (PDF)
x = np.linspace(-4, 4, 100)
pdf = stats.norm.pdf(x, mu, sigma)

# 累积分布函数 (CDF)
cdf = stats.norm.cdf(x, mu, sigma)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

ax1.plot(x, pdf, 'b-', linewidth=2, label='PDF')
ax1.fill_between(x, pdf, alpha=0.3)
ax1.set_title('正态分布概率密度函数')
ax1.set_xlabel('x')
ax1.set_ylabel('概率密度')
ax1.legend()
ax1.grid(True, alpha=0.3)

ax2.plot(x, cdf, 'r-', linewidth=2, label='CDF')
ax2.set_title('正态分布累积分布函数')
ax2.set_xlabel('x')
ax2.set_ylabel('累积概率')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# 计算概率
# P(X < 1.96) = 0.975
prob_1 = stats.norm.cdf(1.96, mu, sigma)
print(f"P(X < 1.96) = {prob_1:.4f}")

# P(-1.96 < X < 1.96) = 0.95
prob_2 = stats.norm.cdf(1.96, mu, sigma) - stats.norm.cdf(-1.96, mu, sigma)
print(f"P(-1.96 < X < 1.96) = {prob_2:.4f}")

# 找到分位数
quantile = stats.norm.ppf(0.975, mu, sigma)
print(f"97.5%分位数: {quantile:.4f}")

In [None]:
# 对比不同参数的正态分布
fig, ax = plt.subplots(figsize=(10, 6))

params = [(0, 1), (0, 2), (1, 1)]
colors = ['blue', 'red', 'green']
labels = ['μ=0, σ=1', 'μ=0, σ=2', 'μ=1, σ=1']

for (mu, sigma), color, label in zip(params, colors, labels):
    x = np.linspace(mu - 4*sigma, mu + 4*sigma, 100)
    pdf = stats.norm.pdf(x, mu, sigma)
    ax.plot(x, pdf, color=color, linewidth=2, label=label)

ax.set_title('不同参数的正态分布')
ax.set_xlabel('x')
ax.set_ylabel('概率密度')
ax.legend()
ax.grid(True, alpha=0.3)
plt.show()

In [None]:
# 其他常见分布
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 二项分布
n, p = 10, 0.5
k = np.arange(0, n+1)
binom_pmf = stats.binom.pmf(k, n, p)
axes[0, 0].bar(k, binom_pmf, alpha=0.7)
axes[0, 0].set_title(f'二项分布 B({n}, {p})')
axes[0, 0].set_xlabel('k')
axes[0, 0].set_ylabel('P(X=k)')
axes[0, 0].grid(True, alpha=0.3)

# 泊松分布
lam = 3
k = np.arange(0, 15)
poisson_pmf = stats.poisson.pmf(k, lam)
axes[0, 1].bar(k, poisson_pmf, alpha=0.7)
axes[0, 1].set_title(f'泊松分布 Poisson({lam})')
axes[0, 1].set_xlabel('k')
axes[0, 1].set_ylabel('P(X=k)')
axes[0, 1].grid(True, alpha=0.3)

# 指数分布
lam = 1
x = np.linspace(0, 5, 100)
exp_pdf = stats.expon.pdf(x, scale=1/lam)
axes[1, 0].plot(x, exp_pdf, 'r-', linewidth=2)
axes[1, 0].fill_between(x, exp_pdf, alpha=0.3)
axes[1, 0].set_title(f'指数分布 Exp({lam})')
axes[1, 0].set_xlabel('x')
axes[1, 0].set_ylabel('概率密度')
axes[1, 0].grid(True, alpha=0.3)

# t分布
df = 5
x = np.linspace(-4, 4, 100)
t_pdf = stats.t.pdf(x, df)
normal_pdf = stats.norm.pdf(x, 0, 1)
axes[1, 1].plot(x, t_pdf, 'b-', linewidth=2, label=f't分布(df={df})')
axes[1, 1].plot(x, normal_pdf, 'r--', linewidth=2, label='标准正态分布')
axes[1, 1].set_title('t分布 vs 正态分布')
axes[1, 1].set_xlabel('x')
axes[1, 1].set_ylabel('概率密度')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 4. 假设检验

学习如何进行统计假设检验。

In [None]:
# 单样本t检验
np.random.seed(42)
sample = np.random.normal(loc=102, scale=15, size=50)

# 检验样本均值是否等于100
null_hypothesis = 100
t_stat, p_value = stats.ttest_1samp(sample, null_hypothesis)

print(f"样本均值: {np.mean(sample):.2f}")
print(f"t统计量: {t_stat:.4f}")
print(f"p值: {p_value:.4f}")

alpha = 0.05
if p_value < alpha:
    print(f"拒绝原假设 (p < {alpha})")
else:
    print(f"不能拒绝原假设 (p >= {alpha})")

In [None]:
# 两独立样本t检验
np.random.seed(42)
group1 = np.random.normal(loc=100, scale=10, size=30)
group2 = np.random.normal(loc=105, scale=10, size=30)

t_stat, p_value = stats.ttest_ind(group1, group2)

print(f"组1均值: {np.mean(group1):.2f}")
print(f"组2均值: {np.mean(group2):.2f}")
print(f"t统计量: {t_stat:.4f}")
print(f"p值: {p_value:.4f}")

if p_value < 0.05:
    print("拒绝原假设：两组均值存在显著差异")
else:
    print("不能拒绝原假设：两组均值无显著差异")

In [None]:
# 卡方检验 (独立性检验)
# 创建列联表
observed = np.array([[50, 30], [20, 40]])

chi2, p_value, dof, expected = stats.chi2_contingency(observed)

print("观测频数:")
print(observed)
print("\n期望频数:")
print(expected)
print(f"\n卡方统计量: {chi2:.4f}")
print(f"p值: {p_value:.4f}")
print(f"自由度: {dof}")

## 5. 相关性分析

学习如何分析变量之间的相关关系。

In [None]:
# 生成相关数据
np.random.seed(42)
n = 100
x = np.random.randn(n)
y1 = 0.8 * x + np.random.randn(n) * 0.5  # 正相关
y2 = -0.6 * x + np.random.randn(n) * 0.5  # 负相关
y3 = np.random.randn(n)  # 无相关

# 计算相关系数
corr1 = np.corrcoef(x, y1)[0, 1]
corr2 = np.corrcoef(x, y2)[0, 1]
corr3 = np.corrcoef(x, y3)[0, 1]

print(f"x与y1的相关系数: {corr1:.4f}")
print(f"x与y2的相关系数: {corr2:.4f}")
print(f"x与y3的相关系数: {corr3:.4f}")

In [None]:
# 可视化相关性
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

axes[0].scatter(x, y1, alpha=0.6)
axes[0].set_title(f'正相关 (r={corr1:.2f})')
axes[0].set_xlabel('x')
axes[0].set_ylabel('y1')
axes[0].grid(True, alpha=0.3)

axes[1].scatter(x, y2, alpha=0.6)
axes[1].set_title(f'负相关 (r={corr2:.2f})')
axes[1].set_xlabel('x')
axes[1].set_ylabel('y2')
axes[1].grid(True, alpha=0.3)

axes[2].scatter(x, y3, alpha=0.6)
axes[2].set_title(f'无相关 (r={corr3:.2f})')
axes[2].set_xlabel('x')
axes[2].set_ylabel('y3')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# 相关系数矩阵
data_multi = np.column_stack([x, y1, y2, y3])
df_multi = pd.DataFrame(data_multi, columns=['x', 'y1', 'y2', 'y3'])

correlation_matrix = df_multi.corr()
print("相关系数矩阵:")
print(correlation_matrix)

# 热力图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('相关系数热力图')
plt.tight_layout()
plt.show()

## 6. 练习题

### 练习1
生成1000个服从正态分布N(50, 10)的随机数，计算其均值、标准差，并绘制直方图和Q-Q图。

In [None]:
# 你的代码


### 练习2
进行两独立样本t检验，比较两组数据的均值是否存在显著差异。

In [None]:
# 你的代码


### 练习3
生成三个变量，使它们之间的相关系数分别为0.8、-0.6和0.1，并绘制相关系数热力图。

In [None]:
# 你的代码
