## 数据质量评估方法
数据质量评估体系主要参考以下指标：

- 数据完整性
- 数据准确性
- 数据有效性
- 数据时效性
- 数据一致性

### 数据完整性检测
完整性，描述数据信息缺失的程度，是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是

- 对于数据信息记录缺失的检测，可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失。 
- 对于字段信息记录缺失的检测，选择需要进行完整性检查的字段,计算该字段中空值数据的占比，通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善，空值率越大说明字段信息缺失的越多。要注意的是选择**需要进行完整性检查的字段**的百分比

### 数据准确性检测
准确性，用于描述一个值与它所描述的客观事物的真实值之间的接近程度，通俗来说就是指**数据记录的信息是否存在异常或错误**。例如业务员在上报系统上填写客户信息时，手误输错了某一信息，造成了数据库里存在的信息与客观事实不一样。数据准确性的检测较为困难，一般情况下很难解决。在某些特定的情况下，例如性别，年龄，出生日期，籍贯等信息可以通过校验身份证号来检测，前提是确保身份证号码是正确的。
> 俗称异常值

### 数据有效性检测
有效性，描述数据遵循预定的语法规则的程度，是否符合其定义，**比如数据的类型、格式、取值范围等**。数据有效性检测的步骤是用户选择需要进行有效性检测的字段，针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类型是否符合其定义，例如可以通过求和来判断是否是数值型，通过时间操作来判断是否是时间类型。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。取值有效检测则通过计算最大最小值来判断数据是否在有效的取值范围之内。
> 即比如说常识人可以活0-110岁（我瞎说的），我们的数据集是讲骑自行车的，0-110岁的有效性就有待考证了。

### 数据时效性检测
时效性, 是指信息仅在一定时间段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔，若该间隔较久，就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟，则会导致统计结果和真实结果存在一定误差。

### 数据一致性检测
把待检测的表作为主表，首先用户确定一致性检测的主表字段，然后选择需要给定检测的从表和从表字段，设置好主表和从表之间的关联项,关联项可以是多个字段，但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段字段值是否一致。
> 多表联合的时候需要重点注意

## 相关分析
常见的方法：
- 单个图
- 图矩阵
- 相关系数
    - Pearson相关系数 r>0正相关， r < 0负相关，|r|=0不相关， |r|=1完全相关
    - Spaearman相关系数
    - Kendall相关系数
- 回归分析，判定系数r方
   描述回归方程对属性的解释程度。
    

# 行业应用

## 商务数据分析

#### 应用目的
- 了解现状
    - **流量来源分析**，主要分析
        - 有多少流量？从哪里来？  
    - **客户行为分析**，主要从如下角度进行思考：
        - 有多少客户，从哪里来？
        - 本月销量多少？利润多少？广告投入多少？
    - **行业数据分析**，主要从如下角度进行思考：
        - 同行状况如何？
- 分析原因
    - **转化率分析**
        - 流量少？流量不少但订单不多？
        - 推广效果不明显
        - 退货和退款率高？
    - **订单漏斗分析**
        - 老客户比例不高？
        - 产品看的人多，买的人少？

- 预测趋势
    - **销售统计和预测**
        - 预测下一个季度的销售额？
        - 预测下一个季度的客户流失量？
        - 下一个季度的推广投入费用？

### B2C电子商务网站
[知乎:电子商务网站如何做数据分析](https://www.zhihu.com/question/19570699)
整个分析的流程可以概括为：收集数据--量化分析--提出方案--优化改进几个大步骤。

### 收集数据
- 网站后台的数据：网站的注册用户数据（包括注册时间、用户性别、所属地域、来访次数、停留时间等等）、订单数据（包括下单时间、订单数量、商品品类、订单金额、订购频次等等）、反馈数据（客户评价、退货换货、客户投诉等）； 
- 搜索引擎的数据：网站在各个搜索引擎的收录量（site），网站在搜索引擎的更新频率，关键词在搜索引擎的竞价排名情况，网站取得的搜索引擎信任的权重（google有PR值，sogou有SR）等等； 
- 统计工具的数据：网站统计工具很多，基本都会提供访客来自哪些地域，访客来自哪些网站， 访客来自哪些搜索词，访客浏览了哪些页面等数据信息，并且会根据你的需要进行广告跟踪等；

### 量化分析
- 趋势分析(定比和环比 定比是以某一时期为基数，其他各期均与该期的基数进行比较；而环比是分别以上一时期为基数，下一时期与上一时期的基数进行比较；) 
- 对比分析
- 关联分析
- 因果分析

### 网站运营状况分析

- **独立用户访问量**,独立用户(UV,Unique Visiter)指通过互联网访问页面的自然人。
- **页面浏览量**(PV, Page View)
- **IP访问量**IP（Internet Protocol）独立IP是指访问过某站点的IP总数，以用户的IP地址作为统计依据。
- **积极访问者比率**，若网站设计针对正确的目标受众且使用方便，该指标会不断上升。
- **忠实访问者比率**，没个长时间访问者的平均访问页数。
- **客户转化率**，转化率指在一个统计周期内，完成转化行为的次数占推广信息总点击次数的比率，是网站是否能够盈利的核心。
- **客单价**，每一个顾客平均购买商品的金额，也即是平均交易金额
- **客户满意度**，客户期望值与客户体验的匹配程度，换言之，就是客户通过对一种产品可感知的效果与其期望值相比较后得出的指数
- **用户回访率**，衡量网站内容对访问者的吸引程度和网站的实用性。
- **投资回报率**，衡量营销费用的投资回报


### 小额贷款

#### 业务指标
- 用户指标包括
    - 违约率（M1、M2......M7）
    - 信用等级
    - 借款金额
    - 地域分布
    - 职业
    - 年龄
    - 借贷次数
    - 同行借贷次数
    - 借款收入比
- 产品指标
    - 获客
        - 日新增用户数（DNU）
        - 获客成本CAC
     - 激活
         - 日活跃用户数
         - 活跃率
         - 网页端（PV、UV）
     - 留存
         - 留存率(次日留存率，3日留存率，7日留存率，30日留存率等)
     - 变现
         - 贷款金额
         - 复借率
         - 生命周期价值
         - PUR
         - ARPPU
    - 自传播（推荐）指标
        - 转发率
        - K因子
        - 活动转化率
     
    - 日应用下载量
    - 产品组合
    - 用户流失率
    - 游戏化
    - 在线时间
    - 点击次数
- 渠道指标
    - 渠道来源
    - 渠道曝光量
    - 渠道转化率
    - 渠道成本等。
- 风险指标
    - 

### 新媒体用户分析
- 用户行为研究的层面：
    - 用户采纳与忠诚
    - 用户群体互动行为

#### 线上用户行为分析
- 用户基本分析
    - 新增用户数:第一次启动应用的账号
    - 活跃用户数:至少启动过一次用户的账号
    - 沉默用户数:仅在安装APP日启动过
    - 启动次数：该应用的使用频率

- 留存分析
    - 留存率:留存用户/当时新增用户数
- 漏斗分析：漏斗模型通过对**关键路径的转化率**分析尝试解释**流程设计是否合理**、**各步骤之间的优劣**以及**是否存在优化的空间**。
    - 转化率:完成当前实践的用户触发一个事件的人数比例
    - 流失率
#### 构造用户行为模型
- 人物角色：在**产品导入期阶段**，达到具化目标用户。
- 用户画像：存在于**成长周期和之后的生命周期阶段，**应用于广告系统、个性化推荐、营销活动和用户偏好设置。
    - 人口统计学特征
    - 使用行为特征
    - 用户信息偏好
    - 消费特征
    
#### 用户心理研究
态度的**双重态度模型理论**

- 外显态度测量
    - 观察法
    - 访谈法
    - 头脑风暴法
    - 焦点小组访谈法
    - 问卷调查法
    - 态度量表法
        - 单维度量表
            - 李克特量表
            - 格特曼量表
            - 瑟斯顿量表
        - 多维度量表
            - 语义分化量表
            - 社会距离分化量表
- 内隐度测量
    - 眼动测试 : 通过眼动测量仪记录用户浏览页面时视线移动过程以及对不同板块的关注度
    - 生理指标测量
        - 心电(ECG)
        - 脑电图(EEG)
        - 皮肤电活动(EDA)：
        - 肌电图(EMG)：
        - 呼吸作用测量
        - 瞳孔扩张
    - 功能性磁共振成像(FMRI)
        