# 检查分布是否正态

## 导入

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import quiz_tests

# Set plotting options
%matplotlib inline
plt.rc('figure', figsize=(16, 9))

## 创建正态和非正态分布

In [None]:
# Sample A: Normal distribution
sample_a = stats.norm.rvs(loc=0.0, scale=1.0, size=(1000,))

# Sample B: Non-normal distribution
sample_b = stats.lognorm.rvs(s=0.5, loc=0.0, scale=1.0, size=(1000,))

## 盒须图和直方图

我们可以用肉眼检查分布看起来是否正态。盒须图可以检查分布是否以均值对称。直方图可以显示整体形状。QQ 图可以将我们的数据分布与正态分布进行比较（或者任何其他理论上“理想”的分布）。

In [None]:
# Sample A: Normal distribution
sample_a = stats.norm.rvs(loc=0.0, scale=1.0, size=(1000,))
fig, axes = plt.subplots(2, 1, figsize=(16, 9), sharex=True)
axes[0].boxplot(sample_a, vert=False)
axes[1].hist(sample_a, bins=50)
axes[0].set_title("Boxplot of a Normal Distribution");

In [None]:
# Sample B: Non-normal distribution
sample_b = stats.lognorm.rvs(s=0.5, loc=0.0, scale=1.0, size=(1000,))
fig, axes = plt.subplots(2, 1, figsize=(16, 9), sharex=True)
axes[0].boxplot(sample_b, vert=False)
axes[1].hist(sample_b, bins=50)
axes[0].set_title("Boxplot of a Lognormal Distribution");

In [None]:
# Q-Q plot of normally-distributed sample
plt.figure(figsize=(10, 10)); plt.axis('equal')
stats.probplot(sample_a, dist='norm', plot=plt);

In [None]:
# Q-Q plot of non-normally-distributed sample
plt.figure(figsize=(10, 10)); plt.axis('equal')
stats.probplot(sample_b, dist='norm', plot=plt);

## 检验正态性
### Shapiro-Wilk

Shapiro-Wilk 检验位于 scipy 库中。零假设认为数据分布是正态的。如果 p 值大于所选的 p 值，那么我们认为它是正态分布。否则我们认为不是正态分布。
https://docs.scipy.org/doc/scipy-0.19.0/reference/generated/scipy.stats.shapiro.html

In [None]:

def is_normal(sample, test=stats.shapiro, p_level=0.05, **kwargs):
    """Apply a normality test to check if sample is normally distributed."""
    t_stat, p_value = test(sample, **kwargs)
    print("Test statistic: {}, p-value: {}".format(t_stat, p_value))
    print("Is the distribution Likely Normal? {}".format(p_value > p_level))
    return p_value > p_level

# Using Shapiro-Wilk test (default)
print("Sample A:-"); is_normal(sample_a);
print("Sample B:-"); is_normal(sample_b);

## Kolmogorov-Smirnov

Kolmogorov-Smirnov 检验位于 scipy.stats 库中。K-S 检验会将数据分布与理论分布进行比较。我们将选择 'norm'（正态）分布作为理论分布，并且需要指定理论分布的均值和标准差。我们将用数据分布的均值和标准差设置理论正态分布的均值和标准差。

https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.kstest.html

# 小测验

使用 Kolmogorov-Smirnov 检验需要完成函数 `is_normal_ks`。

设置变量 normal_args 需要创建包含两个值的元组。示例元组：`("apple","banana")`
第一个值是样本的均值。第二个值是样本的标准差。

**提示：**提示：NumPy 具有函数 np.mean() 和 np.std()

In [None]:
def is_normal_ks(sample, test=stats.kstest, p_level=0.05, **kwargs):
    """
    sample: a sample distribution
    test: a function that tests for normality
    p_level: if the test returns a p-value > than p_level, assume normality
    
    return: True if distribution is normal, False otherwise
    """
    normal_args = 
    
    t_stat, p_value = test(sample, 'norm', normal_args, **kwargs)
    print("Test statistic: {}, p-value: {}".format(t_stat, p_value))
    print("Is the distribution Likely Normal? {}".format(p_value > p_level))
    return p_value > p_level

quiz_tests.test_is_normal_ks(is_normal_ks)

In [None]:
# Using Kolmogorov-Smirnov test
print("Sample A:-"); is_normal_ks(sample_a);
print("Sample B:-"); is_normal_ks(sample_b);

如果你遇到问题，请在[此处](test_normality_solution.ipynb)查看解答。