# 数据分析基本思路
> 数据分析基本流程：数据获取-->探索分析-->数据预处理-->挖掘建模-->模型评估  
> 数据分析师的任务：描述-->解释-->预测-->控制  

## SEMMA 范式（SAS 公司提出）
1. **Sample**: 数据抽样，保证数据的效度和信度；  
    - **效度**是指数据的准确性，也指选择的数据和分析目标及业务目标是吻合的；  
    - **信度**是指数据的稳定性，要保证样本数据有代表性，且在一定周期内不能有过大的波动(否则模型不稳定)；  
2. **Explore**: 数据特征探索及预处理，e.g. 看数据的分布情况、对数据进行标准化等；  
3. **Modefy**: 明确问题、模型选择、方案调整；  
4. **Model**: 执行建模方案；  
5. **Assess**: 结果评估(准确性、稳定性、是否符合业务预期、效益如何)；  

## CRISP-DM 范式
1. **商业理解**：确定业务目标，评估现有资源，确定分析目标，制定解决方案；  
2. **数据理解**：数据采集，探索分析，数据质量验证；  
3. **数据准备**：筛选数据，数据清洗，整合数据，变量衍生；  
4. **建立模型**：模型选择，检验设计，模型建立，结果评估；  
5. **模型评估**：分析结果和业务目标匹配度确认，检查1-4步的执行过程，确定下一步行动；  
6. **结果部署**：规划部署方案、监控和维护方案，输出项目报告，项目复盘；  


## 数据报表
> **数据报表的上线流程**：需求登记 --> 方案规划 --> 需求排期 --> 数据ETL--> 代码编写 --> 数据验证 --> 报表上线  


### 分布转化
> **电商APP转化漏斗**：注册-->登录-->浏览商品-->加购物车-->支付-->售后  
> **用户运营理念**：在用户运营理念中有这样一个转化公式：路人-->用户-->粉丝-->员工，先把围观的感兴趣的路人转化为用户，轻度用户是产品的使用者，中度用户是产品的“追随者”，重度用户则会主动参与产品的功能反馈和改进建议，在这个转化过程中用户的参与度逐步提高。  


### 闭环迭代
#### 闭环流程
1. **事前方案规划**：确定目标，选定用户，制定方案，确定检验标准等；
2. **事中执行监控**：实时数据监控（是否达到预期），不同方案赛马，备用方案启用等；
3. **事后复盘总结**：对整个流程复盘，总结经验，CSS 归类（Continue做先前已验证的正确的事，Stop 做错误的事，Start 做新的正确的事）；

### PDCA 闭环迭代框架
- 计划(P)、实施(D)、检查(C)、总结(A)4个步骤，循环迭代，螺旋上升。
- 在使用流程化思维时，除了常见的正向思考，也要逆向思考。
<img style="float: center;" src=".\figures\PDCA.png" width="35%">
<center>Fig. PDCA闭环迭代示意图</center>


## 分类

### 分类方法
- **二分法**：非此即彼，e.g. 网站新客、老客，贷款审批结果分为通过申请、拒绝申请等；
- **并列分类**：多个分类(子集)构成一个全集，e.g. 用户地域可以按省份划分，按年龄可以将用户分为70后、80后、90后、00后等，女性用户群体可以分为时尚丽人、都市白领、家庭主妇等；
- **等级分类**：e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠，城市等级——一线、二线、三线、四线；
- **矩阵象限**：
    - 波士顿矩阵
    - RFM模型：消费时间间隔（Recency），消费频率（Frequency），消费金额（Monetary）
<img style="float: center;" src=".\figures\RFM.jpg" width="45%">
<center>Fig. RFM象限图</center>

### 分类规则
- 按主体分类
> e.g. 按社会关系模型，用户角色可以是父母、配偶、子女、朋友等；  
> e.g. 按照群体划分，可以分为一般情况和特殊情况、二八原则等；  
- 按属性分类：依据主体（比如用户）的属性进行类别划分。
> e.g. 用户画像时可以考虑以下属性：  
> 1. 社会属性：收入水平、学历、职业、婚姻情况等  
> 2. 位置属性：居住地、工作地、从手机端还是PC端登录等  
> 3. 生物属性：年龄、性别、种族等  
> 4. 心理属性：品牌偏好、购买行为、优惠偏好等  

## 对比

### 对比方法
#### 横向对比：和其他对象比较
- 和同类(竞品)比较
- 实验对比
- 和整体比较
> 辛普森悖论：即两个样本单独得到的结论和样本合并后得到的结论相反。  
> 幸存者偏差：即样本已经被容易忽略的因素筛选过。  

#### 纵向对比：和自己的历史数据比较
> 常见的纵向对比有同比和环比，对比的周期根据实际情况可以按日、周、月、季、年等。
> 对比的时候，除了比较相对量，也要看绝对量，以合理地评估数据差异的大小。  
> e.g. 0.5%的波动是大还是小，需要找参考点，如果历史波动最高也就0.1%，那么这个波动就很大。  
> e.g. 公众号关注人数昨日环比增长20%(看着还不错)，实际上才增加4个人，截止前天也就20个人。  

- **同比**
- **环比**
<img style="float: center;" src=".\figures\compare.png" width="45%">
<center>Fig. 一个常用的多组对比柱状图</center>

## 关联
> 看数据指标要点、线、面（体）结合，看整个大环境中的因素之间相互作用  

- **调节模型**
<img style="float: center;" src=".\figures\adjust.png" width="35%">
<center>Fig. 调节模型</center>

X是自变量，Y是因变量，M是调节变量  
寻找关联关系时，不仅仅要找出对Y有直接影响的X(一个或者多个)，还要找出影响X对Y作用的调节因素M。  

- **同时关联**：多个因素(X)同时发生作用一起促成了现象(Y)的发生。
> e.g. 电商网站销售的变化可能考虑的因素：  
> 用户：用户结构是否发生变化，是否有新的注册渠道，新渠道导流进来的用户质量如何；  
> 商品：品类结构是否有变化，e.g. 随着四季变化，服装类的种类也会发生变化；  
> 产品：多少用户使用旧版本或者新版本，产品某个环节有没有改版，产品的策略(商品推荐策略等)是否有变化；  
> 运营：前期的线上或者线下预热，商城的优惠力度，优惠涉及的人群等；  

- **延时关联**：现象的产生可能存在延迟效应，要考虑当前现象(环节)的前置的“因”和后置的“果”。
> e.g. 今天上线的营销方案可能在几天甚至几十天后才会有显著的效应，今天交易量上出现的波动也可能是因为一段时间前产品或者运营策略上有改动。

## 层级
> 培养结构化、系统化的思维  

- 自上而下（拆解）：分级钻取，问题细化，复杂问题拆分为简单的小问题
- 自下而上（组合）：拆解的逆过程，将小的指标组合成一个综合指标

## 优化
- **目标**：寻找解、寻找更优解
    - 分析的最终目标无非两种：寻找解决方案，寻找更好的解决方案。
- **评价**：稳准效
    - 第一步是保证数据的准确性和稳定性，第二步就是优化，提高准确性、提高效率和效益。  
- **优化的内涵**：
    - 缩差：缩小当前和目标的差距，直到达成并超越目标；
    - 效益最大化：在成本或者预算固定的前提下，使收益最大化。
    
### 缩小当前和目标的差距
> e.g. 全公司各部门各业务线的同事们都在追逐和超越KPI的路上；  
> e.g. 机器学习建模时，尝试多种方案，调试各种参数，使模型的精确度逐渐提高  

<img style="float: center;" src=".\figures\goal.png" width="45%">
<center>缩小当前和目标的差距</center>

### 成本固定，最大化收益
> 任何商业模式都是追逐利益的，首要目标是收益最大化，参考如下公式：  
> 利润 = 收入 - 投入成本 - 风险损失  
> 优化的过程就是寻找利润最大化的过程。  

> e.g. 对于信用贷款产品而言，如果把“最安全”放在首位，那么极端的方式就是不给任何人发放贷款，这样就不会出现坏账了。正确的信贷模型思维是将坏账控制在业务上可以接受的范围内，并使利息覆盖坏账，进而最大化收益。  

<img style="float: center;" src=".\figures\optim.png" width="35%">
<center>Fig. 效益最大化</center>

## Python 数据分析步骤
1. **提出问题**：即我们所想要知道的指标（平均消费额、客户的年龄分布、营业额变化趋势等等）
2. **导入数据**：把原始数据源导入Jupyter Notebook中（网络爬虫、数据读取等）
3. **数据清洗**：数据清洗是指发现并纠正数据文件中可识别的错误（检查数据一致性，处理无效值和缺失值等）
4. **构建模型**：高级的模型构建会使用机器学习的算法
5. **数据可视化**：matplotib库等