# 第三章 数据探索

数据探索是在具有较为良好的样本后，对样本数据进行解释性的分析工作，它是数据挖掘较为前期的部分。数据探索并不需要应用过多的模型算法，相反，它更偏重于定义数据的本质、描述数据的形态特征并解释数据的相关性。通过数据探索的结果，我们能够更好的开展后续的数据挖掘与数据建模工作。

通过检验数据集的质量，绘制图表，计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程

数据质量分析和数据特征分析

## 3.1 数据的质量分析

检查原始数据是否有脏数据

脏数据：不符合要求，以及不能直接进行相应分析的数据
<br>eg:缺失值
异常值
不一致的值
重复数据及含有特殊符号的数据

### 3.1.1 缺失值的分析

产生原因：有些信息无法获取，获取信息的代价太大  /       信息遗漏     /属性值不存在

对异常值做简单统计分析：统计缺失值的个数，统计每个变量的未缺失数，统计变量的缺失数及缺失率

In [1]:
import pandas as pd
catering_sale='data/catering_sale-master/data/catering_sale.xls'
data=pd.read_excel(catering_sale,index_col=u'日期')#返回值DataFrame or dict of DataFrames
print(data)
print(data.describe())

                销量
日期                
2015-03-01    51.0
2015-02-28  2618.2
2015-02-27  2608.4
2015-02-26  2651.9
2015-02-25  3442.1
...            ...
2014-08-06  2915.8
2014-08-05  2618.1
2014-08-04  2993.0
2014-08-03  3436.4
2014-08-02  2261.7

[201 rows x 1 columns]
                销量
count   200.000000
mean   2755.214700
std     751.029772
min      22.000000
25%    2451.975000
50%    2655.850000
75%    3026.125000
max    9106.440000


## 3.2 数据特征分析

对数据进行质量分析后，接下来就是对数据进行特征分析。一般可利用绘制图表，计算某种特征量等手段进行数据的特征分析

### 3.2.1 分布分析

<p>
    对于定量变量而言，选择“组数”和“组宽”是做频率分布分析时最主要的问题，一般按照以下步骤进行：
    <br>求极差
    <br>决定组距与组数
    <br>决定分点
    <br>列出频率分布表
    <br>绘制频率分布直方图
<p>
    遵循的主要原则如下:
    <br>各组之间必须是相互排斥的。
    <br>各组必须将所有的数据包含在内
    <br>各组的组宽最好相等
<p>
    <br> （1） 求极差
    <br>极差 = 最大值 - 最小值 = 3960 - 45 = 3915
    <br>（2）分组
    <br>这里根据业务数据的含义，可取组距为500.
    <br>组数 = 极差 / 组距 = 3915 / 500 = 7.83 => 8
    <br>（3）决定分点
    <br>（4）绘制频率分布直方图
    <p>根据分组区间得到如下表所示的频率分布表。其中，第1列将数据所在的范围分成若干组段，第1个组段要包括最小值，最后一个组段要包括最大值。习惯上各组设为左闭右开的半开区间，


### 3.2.2 对比分析

<p>
    对比分析是指把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，速度的快慢，以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中，选择合适的对比标准是十分关键的步骤，只有选择合适，才能做出客观的评价，选择不合适，评价可能得出错误的结论。
对比分析主要有以下两种形式：
    <p>（1）绝对数比较
        绝对数比较是利用绝对数进行对比，从而寻找差异的一种方法。
    <p>（2）相对数比较
        相对数比较是由两个有联系的指标对比计算的，用以反映客观现象之间数量联系程度的综合指标，其数值表现为相对数。由于研究目的和对比基础不同，相对数可以分为以下几种。
    <p>

        结构相对数：将同一总体内的部分数值与全部数值对比求得比重，用以说明事物的性质、结构或质量。如居民食品支出额占消费支出总额比重、产品合格率等。

        比例相对数：将同一总体内不同部分的数值进行对比，表明总体内各部分的比例关系。如人口性别比例、投资与消费比例等。

        比较相对数：将同一时期两个性质相同的指标数值进行对比，说明同类现象在不同条件下的数量对比关系。如不同地区商品价格对比，不同行业、不同企业间某项指标对比等。

        强度相对数：将两个性质不同但有一定联系的总量指标进行对比，用以说明现象的强度、密度和普通程度。如人均国内生产总值用“元/人”表示，人口密度用“人/平方公里”表示，也有用百分数或千分数表示的，如人口出生率用‰表示。
    
        计划完成程度相对数：是某一时期实际完成数与计划数的对比，用以说明计划完成程度。
    
        动态相对数：将同一现象在不同时期的指标数值进行对比，用以说明发展发向和变化的速度。如发展速度、增长速度。