### 假设检验 (Hypothesis Testing)简介
假设检验是一种统计方法，用于检验样本数据是否支持某个假设。常见的假设检验方法包括t检验、卡方检验和ANOVA分析。在这一部分，我们将介绍这些方法，并使用鸢尾花数据集进行示例分析。

### 1. t检验
t检验用于比较两个样本的均值，检验它们是否显著不同。

#### 独立样本t检验
假设我们想比较鸢尾花数据集中两个品种的萼片长度是否存在显著差异。

In [3]:
from scipy.stats import ttest_ind
import seaborn as sns
import pandas as pd

iris = sns.load_dataset('iris')

# 将数据按品种分组
setosa = iris[iris['species'] == 'setosa']['sepal_length']
versicolor = iris[iris['species'] == 'versicolor']['sepal_length']

# 独立样本t检验
t_stat, p_value = ttest_ind(setosa, versicolor)
print(f"t-statistic: {t_stat}, p-value: {p_value}")

t-statistic: -10.52098626754911, p-value: 8.985235037487079e-18


### 2. 卡方检验
卡方检验用于检验分类变量之间的独立性。

假设我们想检验鸢尾花数据集中不同品种的频率分布是否均匀。

In [4]:
from scipy.stats import chi2_contingency

# 频率分布表
contingency_table = pd.crosstab(index=iris['species'], columns='count')

# 卡方检验
chi2, p, dof, expected = chi2_contingency(contingency_table)
print(f"Chi-square: {chi2}, p-value: {p}")

Chi-square: 0.0, p-value: 1.0


### 3. ANOVA分析
ANOVA（方差分析）用于比较三个或更多样本的均值，检验它们是否显著不同。

假设我们想比较鸢尾花数据集中三个品种的萼片长度是否存在显著差异。

In [7]:
from scipy.stats import f_oneway

# 分组数据
setosa = iris[iris['species'] == 'setosa']['sepal_length']
versicolor = iris[iris['species'] == 'versicolor']['sepal_length']
virginica = iris[iris['species'] == 'virginica']['sepal_length']

# 方差分析
f_stat, p_value = f_oneway(setosa, versicolor, virginica)
print(f"F-statistic: {f_stat}, p-value: {p_value}")

F-statistic: 119.26450218450468, p-value: 1.6696691907693826e-31


### 示例分析
我们将对鸢尾花数据集进行假设检验，并回答以下问题：
1. setosa和versicolor品种的萼片长度是否存在显著差异？
2. 不同品种的频率分布是否均匀？
3. 三个品种的萼片长度是否存在显著差异？

In [8]:
# 示例数据集：鸢尾花数据
iris = sns.load_dataset('iris')

# 独立样本t检验
setosa = iris[iris['species'] == 'setosa']['sepal_length']
versicolor = iris[iris['species'] == 'versicolor']['sepal_length']
t_stat, p_value = ttest_ind(setosa, versicolor)
print(f"t-statistic: {t_stat}, p-value: {p_value}")

# 卡方检验
contingency_table = pd.crosstab(index=iris['species'], columns='count')
chi2, p, dof, expected = chi2_contingency(contingency_table)
print(f"Chi-square: {chi2}, p-value: {p}")

# 方差分析
setosa = iris[iris['species'] == 'setosa']['sepal_length']
versicolor = iris[iris['species'] == 'versicolor']['sepal_length']
virginica = iris[iris['species'] == 'virginica']['sepal_length']
f_stat, p_value = f_oneway(setosa, versicolor, virginica)
print(f"F-statistic: {f_stat}, p-value: {p_value}")

t-statistic: -10.52098626754911, p-value: 8.985235037487079e-18
Chi-square: 0.0, p-value: 1.0
F-statistic: 119.26450218450468, p-value: 1.6696691907693826e-31


### 问题讨论

1. **setosa和versicolor品种的萼片长度是否存在显著差异？**  
通过t检验结果的p-value，如果p-value小于0.05，我们可以认为setosa和versicolor的萼片长度存在显著差异。

2. **不同品种的频率分布是否均匀？**  
通过卡方检验结果的p-value，如果p-value小于0.05，我们可以认为不同品种的频率分布不均匀。

3. **三个品种的萼片长度是否存在显著差异？**  
通过ANOVA分析结果的p-value，如果p-value小于0.05，我们可以认为三个品种的萼片长度存在显著差异。