## 3.2 描述性统计分析

<p style="text-indent:2em">描述统计是一种借助图形可视化或数学方法，描绘或总结数据的基本情况，完成数据的整合与分析的方法,可从四个维度展开分析：数据的集中趋势、数据的离散程度和数据的分布形态、数据的相关性。

### 3.2.1 集中趋势分析

<p style="text-indent:2em">集中趋势代表了数据的共同性质和一般水平。众数、中位数、平均数和分位数是描述数据集中趋势的主要指标。
    
**1.平均数**  表示一组数据集中趋势的量数，又称均值。

**2.中位数**  提供了一系列数值的中心位置。

**3.分位数**  低四分位数和高四分位数对于研究数据分布是极为重要的。小于低四分位数和大于四分位数的数值通常是异常罕见的值，容易对分析结果产生负面影响。

**4.众数**  一般情况下，只有在数据量比较大且值的重复性较高的情况下，众数才有意义。

**5.Python实现集中趋势分析**
        
<p style="text-indent:2em">以58同城房源销售数据（一个包含了分类数据和数值型数据的数据集）为例，实现58同城房源销售数据中房源每平方米价格(price)这一数值数据的集中趋势分析。

**（1）加载58同城房源销售数据。**示例代码如下：

In [1]:
import pandas as pd
import numpy as np
df=pd.read_excel('./data/58.xlsx')
df

Unnamed: 0,price,housearea,houseoriented,shishu,housefloor,housetype
0,50000,100,南,2,3,公寓
1,73513,123,南北,3,4,连排别墅
2,23434,86,北,3,5,公寓
3,45623,45,北,2,8,独立屋
4,18573,65,南,2,7,连排别墅
5,23567,74,南,2,1,公寓
6,85764,89,北,3,9,独立屋
7,63547,56,北,2,8,连排别墅
8,85638,76,南,3,12,公寓
9,23452,75,南北,3,2,独立屋


**（2）调用Pandas库中的函数进行集中趋势分析，计算平均数、中位数、众数、分位数四个指标。**示例代码如下：

In [8]:
mean = df['price'].mean()            #平均数
median = df['price'].median()        #中位数
from scipy import stats
mode = stats.mode(df['price'],keepdims=False)    #众数
quantile = df['price'].quantile(np.array([0,0.25,0.50,0.75,1]))  #分位数
print('平均数：%d' %mean,'中位数：%d' %median)
print('众数：',mode)
print('分位数：\n',quantile)

平均数：53774 中位数：56773
众数： ModeResult(mode=23567, count=2)
分位数：
 0.00    18573.00
0.25    23538.25
0.50    56773.50
0.75    77843.75
1.00    85764.00
Name: price, dtype: float64


<p style="text-indent:2em">通过调用Pandas库等第三方模块，可以快速对较大的数据集进行集中趋势相关指标的计算。

### 3.2.2 Python实现离散程度分析

<p style="text-indent:2em">数据的离散程度反映了集中趋势的指标对该组数据的代表性程度。
    
**1.极差**  数据集中最大值与最小值的差，也称为全距。

**2.平均偏差**  数据集中所有数值与算数平均数的差值的绝对值的均值。平均偏差越大，表明各数据与算术平均数的差异程度越大，该算术平均数的代表性就越小。反之，该算数平均数的代表性越大。 

**3.方差和标准差**  方差/标准差与数据的离散程度成正比,是测算数值数据的程度最重要、最常用的指标。

**4.离散系数**  离散系数是数据的标准差与其相应的平均数的比值。

**5.异众比率**  总体中非众数频数与总体数的比值。

**6. 四分位差**  四分位差是高四分位数同低四分位数之差。

**7. Python实现离散程度分析**
        
<p style="text-indent:2em">本小节将基于房源价格(price)和房源面积(housearea)两组数值型数据、房源楼层(housefloor)一组分类数据进行离散程度分析。

**（1）计算房源价格的极差、平均偏差、方差、标准差、四分位差五个指标。**示例代码如下：

In [9]:
range = df['price'].max()-df['price'].min()                          #极差
mean_var = (df['price'] - df['price'].mean()).abs().mean()           #平均偏差
var = df['price'].var()                                              #方差
std = df['price'].std()                                              #标准差
quan_diff = df['price'].describe().loc['75%'] - df['price'].describe().loc['25%'] #四分位差
print("极差：%d" %range,"平均偏差：%d" %mean_var,"方差：%d" %var,"标准差：%d" %std,"四分位差：%d" %quan_diff)

极差：67191 平均偏差：24797 方差：728848380 标准差：26997 四分位差：54305


**（2）计算房源价格和房源面积的离散系数。**示例代码如下：

In [4]:

print('price:', df['price'].std()/df['price'].mean())  
print('housearea:', df['housearea'].std()/df['housearea'].mean())  


price: 0.5020463695493153
housearea: 0.27441269426450005


<p style="text-indent:2em">由输出结果可知，房屋面积的离散程度小于房屋价格。因此可以得出结论：房屋价格的数值并不稳定。

**（3）计算房源楼层的众数和异众比率。**示例代码如下：

In [10]:
from scipy import stats
mode = stats.mode(df['housefloor'],keepdims=False)
var_ratio = 1-mode[1]/len(df['housefloor'])   #异众比率
print("楼层的众数:",mode)
print("楼层的异众比率：",var_ratio)


楼层的众数: ModeResult(mode=7, count=3)
楼层的异众比率： 0.85


<p style="text-indent:2em">由输出结果可知，楼层的众数为7层，占所有房屋楼层样本的比例为0.15。

### 3.2.3 Python实现数据分布形态分析

<p style="text-indent:2em">数值型数据的分布形态主要分为数据的对称程度分布和数据的高低程度分布。数据的对称程度分布由偏度进行描述，数据的高低程度分布由峰度进行描述。通常，若样本数据的偏度与0接近，而峰度与3接近，就可以得出总体的分布接近于正态分布的结论。
    
**1.偏度**   偏度用于判断数据集的分布形态是否对称，是统计数据分布程度的度量，并反映了数据分布的偏斜方向。

**2.峰度**   峰度是描述数据集中所有数值分布曲线的高低和陡峭程度的指标。

**3.Python实现数据分布形态分析**
        
<p style="text-indent:2em">通过调用Pandas库中的skew()函数和kurt()函数， 基于房源价格(price)和房源面积(price)两组数值型数据，进行数据分布形态分析。示例代码如下：

In [11]:
skew = df.skew(numeric_only=True)
kurt = df.kurt(numeric_only=True)
print('偏度：\n',skew)
print('峰度：\n',kurt)

偏度：
 price        -0.123327
housearea     0.502521
shishu       -0.393309
housefloor    1.004219
dtype: float64
峰度：
 price        -1.881082
housearea     0.270255
shishu       -0.570425
housefloor    0.959914
dtype: float64


<p style="text-indent:2em">由输出结果可知，房源面积和房源层数都是右偏分布；房源面积的峰度大于房源价格的峰度。由此可以得出结论：房源面积数据的极端值比例较大。此外，58同源房源的数值型数据均不是正态分布。

### 3.2.4 相关分析

<p style="text-indent:2em">协方差和相关系数是用于衡量两组数据的相关性及其相关程度的指标。
**1.协方差**  两个变量的总体误差通过协方差反映。

**2.相关系数**  相关系数是基于协方差进行无量纲处理的结果。

**3. Python实现相关分析**

基于房源价格(price)和房源面积(price)两组数值型数据进行相关分析。示例代码如下：


In [13]:
cov = df.cov()
corr = df.corr()
print('协方差:\n',cov)
print('相关系数:\n',corr)

协方差:
                    price     housearea      shishu    housefloor
price       7.288484e+08 -25691.205263  112.189474  12836.405263
housearea  -2.569121e+04    414.028947    8.252632    -27.165789
shishu      1.121895e+02      8.252632    0.357895     -0.231579
housefloor  1.283641e+04    -27.165789   -0.231579     17.734211
相关系数:
                price  housearea    shishu  housefloor
price       1.000000  -0.046768  0.006946    0.112906
housearea  -0.046768   1.000000  0.677953   -0.317031
shishu      0.006946   0.677953  1.000000   -0.091921
housefloor  0.112906  -0.317031 -0.091921    1.000000


<p style="text-indent:2em">由输出结果可知，房屋面积和房屋室数呈正相关，与房屋价格相关性不高。