# Chapter 1 数据挖掘基础

## 1.1 基本任务

- 分类与预测
- 聚类分析
- 关联规则
- 时序模式
- 偏差检测
- 智能推荐
P.S. 帮助企业提取数据中蕴含的商业价值，提高企业的竞争力

## 1.2 建模过程

- 定义挖掘目标
- 数据取样
- 数据探索
- 数据预处理
- 挖掘建模
- 模型评价

## 1.3 常用建模工具

- Python
- SAS Enterprise Miner
- IBM SPSS Modeler
- SQL Server
- Weka
- KNIME
- RapidMiner
- TipDM

# Chapter 2 Python数据分析简介

## 配置
- Python 3.9.9
- numpy 1.19.5
- pandas 1.4.0
- scipy 1.7.3
- statsmodels 0.13.1
- scikit-learn 1.0.2
- matplotlib 3.5.1
- keras 2.7.0
- tensorflow-deps 2.7.0
- tensorflow-macos 2.7.0
- tensorflow-metal 0.3.0

# Chapter 3 数据探索

## 3.1 数据质量分析

### 3.1.1 缺失值分析

#### 产生原因
- 无法获取或者难以获取
- 遗漏
- 不存在

#### 方法
- 统计数量、缺失率等
- 删除或者插补

### 3.1.2 异常值分析

#### 原因
- 错误数据
- 不合理数据

#### 方法
- 简单统计量分析
- 3 原则
- 箱型图分析

### 3.1.3一致性分析

## 3.2 数据特征分析
- 分布分析
- 对比分析
- 统计量分析
- 周期性分析
- 贡献度分析（帕累托分析）
- 相关性分析

## 导入需要的包

In [2]:
import sys

import matplotlib.pyplot as plt
import pandas as pd
import scipy as sc
import numpy as np
import matplotlib as mlp
import sklearn as sk
import statsmodels as sm
import tensorflow as tf

# Chapter 4 数据预处理

## 4.1 数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值、异常值等。

### 4.1.1 缺失值处理

#### 删除
#### 插补

- 拉格朗日插值法

In [None]:
inputfile=''
outputfile=''
data=pd.read_excel('inputfile')

def ployinterp_column(s,n,k=5):
    y=s[list(range(n-k,n))+list(range(n+1,n+1+k))]
    y=y[y.notnull()]
    return sc.interpolate.lagrange(y.index,list(y))(n)

for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull())[j]:
            data[i][j]=ployinterp_column(data[i],j)
data.to_excel(outputfile)

- 牛顿插值法

### 4.1.2 异常值处理
- 删除含有异常值的记录
- 视为缺失值
- 平均值修正
- 不处理

## 4.2 数据集成

### 4.2.1 实体识别
- 同名异义
- 异名同义
- 单位不统一

### 4.2.2 冗余属性识别
- 同一属性多次出现
- 同一属性命名不一致导致重复

### 4.2.3 数据变换
### 4.2.4 简单函数变换
### 4.2.5 规范化
- min-max norm
- 0-1 norm
- 小数规范化

### 4.2.6 连续属性离散化
- 等宽
- 等频
- 聚类

In [None]:
data=pd.read_excel(inputfile)

k=4
d1=pd.cut(data,k,labels=range(k))

w=[1.0*i/k for i in range(k+1)]
w=data.describe(percentiles=w)[4:4+k+1]
w[0]=w[0]*(1-1e-10)
d2=pd.cut(data,w,labels=range(k))

kmodel=sk.cluster.KMeans(n_clusters=k,n_init=4)
kmodel.fit(np.array(data).reshape((len(data),1)))
c=pd.DataFrame(kmodel.cluster_centers_)sort_values(0)
w=c.rolling(2).mean()
w=w.dropna(d2)
w=[0]+list(w[0])+[data.max()]
d3=pd.cut(data,w,labels=range(k))
def cluster_plot(d,k):
    plt.rcParams['font.sans-serif']=['SimHei']
    plt.rcParams['axes.unicode_minus']=False
    plt.figure(figsize=(8,3))
    for j in range(0,k):
        plt.plot(data[d==j],[j for i in d[d==j]],'o')

    plt.ylim(-0.5,k-0.5)
    return plt

cluster_plot(d1,k).show()
cluster_plot(d2,k).show()
cluster_plot(d3,k).show()

### 4.2.7 属性构造
### 4.2.8 小波变换

## 4.3 数据归约
### 4.3.1 属性归约
- 合并属性
- 逐步向前选择
- 逐步向后删除
- 决策树归纳
- 主成分分析
### 4.3.2 数值归约
- 直方图
- 聚类
- 抽样
- 参数回归

# Chapter 5 挖掘建模
## 5.1 分类与预测
- 回归分析
- 决策树
- 人工神经网络
- 贝叶斯网络
- 支持向量机

## 5.2 聚类分析
- K Means
- K Medoids
- Clarans
- Birch
- CURE
- Optics
- STING
- CLOUE
- WAVE Cluster

## 5.3 关联规则
- Apriori
- FP-Tree
- Eclat
- Gray

## 5.4 时序模式
- AR
- MA
- ARMA
- ARIMA
- ARCH
- GARCH
- LSTM

## 5.5 离群点检测