# 描述性统计分析
## 数理统计基础
数理统计，以概率论为基础，研究大量随机现象的统计规律性，数理统计分为如下两类：
* 描述统计
* 推断统计
数理统计在数据分析领域具有非常重要的地位。
## 描述性统计分析概述
### 概念
描述性统计，就是从总体数据中提取变量的主要信息（总值，均值等），从而从总体层面上。对数据进行统计性描述。在统计过程中，通常会配合绘制相关的统计图来进行辅助。

描述性统计所提取统计信息，我们称为**统计量**，主要包括以下几个方面：

* 频数与频率
    * 频数
    * 频率
* 集中趋势分析
    * 均值
    * 中位数
    * 众数
    * 分位数
* 离散程度
    * 极差
    * 方差
    * 标准差
* 分布形状
    * 偏度
    * 峰度

### 变量的类型
* 类别变量  （可能取值为若干个类别）
    * 无序类别变量
    * 有序类别变量
* 数值变量
    * 连续变量
    * 离散变量

## 统计量
### 频数与频率
数据的频数与频率统计试用于类别变量。
#### 频数
数据中类别变量每个不同取值出现的次数。
#### 频率
每个类型变量的频数与总次数的比值，通常用百分号（%）来表示。

In [4]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns # 数据可视化的库，底层使用的是matplotlib，绘制一些图形较美观
from sklearn.datasets import load_iris # 机器学习的库——sklearn
import warnings # 不显示没必要的警告信息

sns.set(style='darkgrid') #绘图默认格式
mpl.rcParams['font.family']='SimHei'#支持中文
mpl.rcParams['axes.unicode_minus']=False# 支持显示负号
warnings.filterwarnings('ignore')# 忽略警告

In [7]:
# 加载鸢尾花数据集
iris=load_iris()
display(iris) #
'''
data：花萼长度，花萼宽度，花瓣长度，花瓣宽度
target（花的类别）
target_name
'''
display(iris.data[:10],iris.target[:10])

display(iris.feature_names,iris.target_names)

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')