Skip to content

Latest commit

 

History

History

ch01

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

数据分析是一个大工程,覆盖面广。主要包括探索分析,特征处理

探索分析(单因子分析,多因子分析,复合分析)

单因子分析

理论铺垫

  • 集中趋势
    均值 中位数 分位数 众数
  • 离中趋势
    标准差 方差
  • 数据分布
    • 偏态
      正偏 负偏
    • 峰态
      正态分布峰态系数一般为3
    • 正态
      标准正态分布均值为0,方差为1
    • 三大分布
      卡方分布 t分布 f分布
  • 抽样理论
    抽样误差 抽样精度

具体方法

  • 异常值分析
    • 离散异常值
    • 连续异常值
    • 常识异常值
  • 对比分析
    • 绝对数与相对数
    • 时间,空间,理论维度比较
  • 结构分析
    • 各组成部分的分布与规律
  • 分布分析
    • 数据分布频率的显示分析

多因子分析

  • 假设检验与方差检验
  • 相关系数
    • 皮尔逊
    • 斯皮尔曼
  • 回归
    • 线性回归
  • PCA与奇异值分解

复合分析

  • 交叉分析
  • 分组与钻取
  • 相关分析
  • 因子分析
  • 聚类分析
  • 回归分析

小结

数据类型 可用方法
连续--连续 相关系数,假设检验
连续--离散(二值) 相关系数,连续二值化,最大熵增益切分
连续--离散(二值) 相关系数(定序)
离散(二值)--离散(二值) 相关系数,熵相关,F分值
离散--离散(非二值) 熵相关,Gini,相关系数(定序)

特征处理

  • 特征选择
  • 特征变换
    • 对指化
    • 离散化
    • 归一化,标准化
    • 数值化
    • 正规化
  • 特征降维
  • 特征衍生