In [3]:
import pandas as pd
import numpy as np

<div class="jumbotron">
    <h1 class="display-1">数据与探索</h1>
    <hr class="my-4">
    <p>主讲：李岩</p>
    <p>管理学院</p>
    <p>liyan@cumtb.edu.cn</p>
</div>

## 数据（Data）

### 定义 

<dl class="row alert alert-info">
    <dt class="col-md-1">数据</dt>
    <dd class="col-md-11">对象（objects）与它们属性（attributes）的集合。</dd>
</dl>

<center><img src="./img/explore/data.svg" width=80%></center>

<dl class="row alert alert-danger">
    <dt class="col-md-1">属性</dt>
    <dd class="col-md-11">对象的特性（characteristic）或性质（property）。</dd>
</dl>

- 通常也被称作*变量（variable）*、*字段（field）*、*维度（dimension）*、*特征（feature）*

<dl class="row alert alert-info">
    <dt class="col-md-4">对象</dt>
    <dd class="col-md-8">属性的集合</dt>
</dl>

- 通常也被称为*记录（record）*、*点（point）*、*样本（sample）*、*实例（instance）*、*案例（case）*、*实体（entity）* 

### 属性的类型

- 属性的类型取决于该属性的数值具备下列哪些性质
    + **相异性**（distinctness）：$=$ 和 $\ne$
    + **序**（order）：$\lt$，$\le$，$\gt$ 和 $\ge$
    + **有意义的差**（meaningful differences）：$+$ 和 $-$
    + **有意义的比率**（meaningful ratios）：$\times$ 和 $/$

属性类型|特点|包含的性质|示例|适合的统计量
---|---|---|---|---
标称（nominal）|仅仅是名称|相异性|名字、班级、颜色|众数
序数（ordinal）|具有自然排序|相异性、序|年级、等级|众数、中位数
区间（interval）|没有绝对零点、等间隔|相异性、序、有意义的差|温度、日期、IQ|众数、中位数、均值、方差
比率（ratio）|有绝对零点|相异性、序、有意义的差、有意义的比率|距离、重量、收入|众数、中位数、均值、方差、几何均值

ID|工作状况|教育水平|居住年限|信用状况
---|---|---|---|---
1|就业|研究生|5|好
2|就业|高中|2|差
3|失业|本科生|1|差
4|就业|高中|10|好

- ID: 标称

- 工作状况：标称

- 教育水平：序数

- 居住年限：比率

- 信用状况：序数

# 数据获取

<center>
    <img src="./img/explore/dataAcquire.svg" width=80%>
</center>

## 从键盘、文本文件、office文件获取数据

### 从键盘获取数据

```python
input([prompt])
```
- `Python`内置函数，接收任意输入，将所有输入默认为字符串处理，并返回<span class="mark">**字符串类型**</span>
- `prompt`：提示信息，可以不设置

```python
a = input('请输入：')
type(a)
```

> 如何识别输入的数值？

- `int()`：转换为整型

- `float()`：转换为浮点型

### 从文本获取数据

<p class="alert alert-info">以<code>.txt</code>、<code>.csv</code>、<code>.json</code>为后缀名的文件</p>

#### 打开文本

```python
open(file, mode='r', encoding=None)
```
- `Python`内置函数，打开一个文件，并返回**<span class="mark">文件对象</span>**
- `file`：必需，文件路径（相对或者绝对路径）
- `mode`：可选，文件打开模式
- `encoding`：用哪种编码打开文本，一般使用'utf8'，打开中文有时令`encoding='gbk'`或`encoding='gb2312'`

模式|描述
:---:|:---
`r`|以只读方式打开文件，这是默认模式。
`w`|打开一个文件只用于写入。如果该文件已存在则打开文件，原有内容会被删除。如果该文件不存在，创建新文件。
`a`|打开一个文件用于追加。如果该文件已存在，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

#### 读取`txt`数据

```python
file.read([size])
```
- `file`是一个被打开的文本对象。
- `size`：从文件读取指定的字节数，如果未给定或为负则读取所有内容。

```python
file.readline()
```
- 读取整行，包括 "\n" 字符。
- 多行本文，只能读取第一行。

```python	
file.readlines()
```
- 读取所有行并返回列表，形如`[line1,line2,…,lineN]`

```python
file.close()
```
- 关闭文件。关闭后文件不能再进行读写操作。

<p class="h2 display-1">读取<code>BASKETS.txt</code></p>

```python
f = open('./data/explore/BASKETS.txt', mode='r')
```

```python
cnt = f.read()
```

```python
line = f.readline()
```

```python
lines = f.readlines()
for line in lines:
    print(line)
```

```python
f.close()
```

#### json (JavaScript Object Notation)

- 一种轻量级的数据格式，便于人的阅读和书写，也便于计算机的解析和生成。

- name/value pairs的集合，即`Python`中的字典（dictionary）类型。

<img src="./img/pandas/object.gif" width=60%>

- name是**<span class="mark">字符串</span>**，而value可以取的值的类型包括
<center><img src="./img/pandas/value.gif" width=80%></center>

```json
{
    "name": "John Smith",
    "studentID": "stu001",
    "age": 20,
    "class": "管理2019",
    "courses": ["管理学","经济学","数据分析"],
    "graduated": False
}
```

#### 读取`json`数据

```python
import json
json.load(fp)
```
- `fp`：用`open()`方法打开的包含`json`格式的文本对象
- 返回一个`Python`对象

```python
import json
f = open('./data/introduction/movie/movie_list_2015_v2.json', 'r')
jsn = json.load(f)
```

### 从数据库获取数据

- MySQL数据库

- 接口包：`PyMySQL`

- 安装方式
    + `Windows`：在`Jupyter Notebook`的代码单元格中输入`!pip install -U PyMySQL`
    + `Mac`：在`Jupyter Notebook`的代码单元格中输入`!pip3 install -U PyMySQL`

- 使用方式参考

[Python3 MySQL 数据库连接  https://www.runoob.com/python3/python3-mysql.html](https://www.runoob.com/python3/python3-mysql.html)

### 从互联网上获取数据

<dl class="row alert alert-info">
    <dt class="col-md-1">爬虫</dt>
    <dd class="col-md-auto">即网络爬虫，是一种按照一定的规则，自动的抓取互联网信息的程序或者脚本。</dd>
</dl>

<dl class="row alert alert-primary">
    <dt class="col-md-1">静态网页</dt>
    <dd class="col-md-auto">纯粹HTML格式的网页，文件扩展名是<code>.htm</code>、<code>.html</code>。没有后台数据库、不可交互的网页。</dd>
</dl>

<dl class="row alert alert-warning">
    <dt class="col-md-1">动态网页</dt>
    <dd class="col-md-auto">基本的HTML语法规范与高级程序设计语言、数据库编程等多种技术的融合，以期实现对网站内容和风格的高效、动态和交互式的管理。</dd>
</dl>

- `requests-HTML`包, [https://requests-html.kennethreitz.org/](https://requests-html.kennethreitz.org/)

- 通过`Jupyter Notebook`安装
    + `Windows`：`!pip install requests-html`
    + `Mac`：`!pip3 install requests-html`

#### 爬取网页

```python
from requests_html import HTMLSession
ss = HTMLSession()                   # 生成一个HTMLSession对象ss
ct = ss.get('http://quotes.toscrape.com/')   # 爬取网页内容，存储在变量ct中
```

#### 获取网页上的元素

```python
ct.html.absolute_links    # 获取网页页面上的所有链接，返回链接的列表
```

```python
for html in ct.html:
    print(html)        # 获取网页包含的分页网址
```

##### 查找网页上某个元素

- 查找[http://quotes.toscrape.com/](http://quotes.toscrape.com/)上的所有作者

<center>
    <div class="row">
        <div class="col-md-6">Chrome<img src="./img/explore/inspectEle.jpg" width=95%></div>
        <div class="col-md-6">FireFox<img src="./img/explore/inspectEleF.jpg" width=95%></div>
    </div>
</center>

<center><img src="./img/explore/selectEle.jpg" width=80%></center>

```python
authors = ct.html.find('.author',first=False) 
# first=False 找到页面上所有属于author类的元素，返回列表
# first=True 找到页面上第一个属于author类的元素

for author in authors:
    print(author.text)               # 用text显示每个元素包含的文本
```

# 数据预处理

<dl class="row alert alert-info">
    <dt class="col-md-3">数据预处理 (Data preprocessing)</dt>
    <dd class="col-md-auto">指在对数据进行数据挖掘以前，先对原始数据进行必要的清洗、集成、转换、离散和归约等一系列的处理工作，以达到分析挖掘方法进行知识获取研究所要求的规范和标准。</dd>
</dl>

- 数据清洗
- 数据集成
- 数据变化
- 数据规约

## 数据清洗

<dl class="row alert alert-info">
    <dt class="col-md-2">数据清洗 (Data cleansing)</dt>
    <dd class="col-md-auto">指的是填充缺失数据、消除噪声数据等操作，通过分析“脏数据”的产生原因和存在形式，利用现有的数据挖掘手段和方法将“脏数据”转化为满足数据质量要求或应用要求的数据。</dd>
</dl>

### 数据质量

<center><img src="./img/explore/dataQuality.svg" width=60%></center>

### 数据质量问题分类

<center><img src="./img/explore/dataQualityProp.svg" width=80%></center>

### 数据清洗处理

- 针对实例层数据清洗

<center><img src="./img/explore/dataClean.svg" width=80%></center>

##### 缺失数据处理

- 删除含有缺失值的记录或属性

- 统计量填补缺失值，例如均值、众数、极值等

##### 相似重复对象检验

<dl class="row alert alert-info">
    <dt class="col-md-4">重复记录</dt>
    <dd class="col-md-auto">多个记录代表同一实体的现象。</dd>
</dl>

<dl class="row alert alert-warning">
    <dt class="col-md-2">相似重复记录</dt>
    <dd class="col-md-auto">有些记录并非完全重复，其个别字段存在一定差别，但表示的却是同一对象。</dd>
</dl>

- 基于**字段**的重复检测
- 基于**记录**的重复检测

##### 异常数据处理 

<dl class="row alert alert-info">
    <dt class="col-md-2">异常数据</dt>
    <dd class="col-md-auto">指数据中不符合一般规律的数据对象，又称为孤立点。</dd>
</dl>

- 利用统计量检测，例如3倍标准差
- 基于距离检测
- 基于密度，离群点的局部密度显著低于大部分近邻点

> 异常数据可能是去掉的噪声，也可能是含有**重要信息**的数据单元。

##### 逻辑错误检测

<dl class="row alert alert-info">
    <dt class="col-md-2">逻辑错误</dt>
    <dd class="col-md-auto">指数据集中的属性值与实际值不符，或违背了业务规则或逻辑。</dd>
</dl>

- 利用专业知识指定约束规则，生成属性值的有效范围

##### 不一致数据

<dl class="row alert alert-warning">
    <dt class="col-md-2">不一致数据</dt>
    <dd class="col-md-auto">多数据源数据集成时，由于不同数据源对同一现实事物可能存在不一致的表示，从而产生不一致的数据。</dd>
</dl>

## 数据集成

<p class="alert alert-info">将多个数据源中的数据合并并存放到一个一致的数据存储（如数据仓库）中</p>

<p class="h2 display-1">数据集成中需要注意的问题：</p>

- 多个数据源的记录如何匹配
    + 例，一个数据库中的`customer_id`和另一个数据库中的`cust_number`指的是否同一实体?

- 如何处理属性的冗余
    + 例，一名员工的年薪属性可以从其工资表中计算得到。

- 多个数据源属性值冲突的检测与处理
    + 例，同一个属性在一个数据源中用**米**为单位，而在另一个数据源中用**英尺**为单位

## 数据变换

<p class="alert alert-danger">对数据进行规范化处理，构成一个适合数据挖掘的描述形式。</p>

<center><img src="./img/explore/dataTransform.svg" width=80%></center>

## 数据规约

<p class="alert alert-warning">减小数据集容量，但仍接近保持原数据的完整性。</p>

<center><img src="./img/explore/dataReduction.svg" width=80%></center>

### 记录数量的降低

- 数据立方体存储多维聚集信息
    + 按照属性的多个概念分层将数据聚集，用聚集后的数据展开分析
    + 例，对产品销售额按照城市、省、区域等聚集分析

<center><img src="./img/explore/dataCuboid.svg" width=70%></center>

<center><img src="./img/explore/dataAgg.svg" width=80%></center>

### 属性数值的数量降低

- 数值规约
    + 用替代的、较小的数据来减少数据量
    + 例，回归模型用回归参数代替原始数据
    + 例，构建直方图，利用属性数值的分布划分类型

- 概念分层
    + 将标称数据泛化到更抽象的概念层
    + 例，将班级抽象到专业

### 属性数量的减少

- 属性子集选择
    + 从众多属性中选出与分析挖掘任务相关的最小属性集合

<p class="h3 display-1 text-danger"><ins>顾客在线购买预测</ins></p>

顾客ID|页面1|页面2|页面3|...|页面1000|买书？
---|---|---|---|---|---|---
cus001|1|3|1|...|1|是
cus002|2|1|0|...|2|是
cus003|2|0|0|...|0|否
...|...|...|...|...|...|...

只需要保留与买书相关的页面、订单页面，其他页面是无关信息

- 维度规约
    + 将现有数据降低到更小的维度
    + 例，主成分分析方法，将大量相关属性转变成为少量不相关的变量（即主成分）

<p class="h3 display-1 text-danger"><ins>能否用少量指标表示公司的财务绩效？</ins></p>

公司|销售净利率|资产净利率|净资产收益率|销售毛利率
---|---|---|---|---
歌华有线|43.31|7.39|8.73|54.89
五粮液|17.11|12.13|17.29|44.25
用友软件|21.11|6.03|7.00|89.37
...|...|...|...|...

# Pandas

- 是从Panel Data而来的

- 一款开放源码的Python库，为Python编程语言提供了高性能，易于使用的数据结构和数据分析工具

[https://pandas.pydata.org/](https://pandas.pydata.org/)

从零开始学pandas  [http://wiki.jikexueyuan.com/project/start-learning-python/311.html](http://wiki.jikexueyuan.com/project/start-learning-python/311.html)

## 数据结构

- 加载`Pandas`的方式

```python
import pandas as pd
```

- Series
- DataFrame

### Series：一维的带标签（label）的数组

- 可以包含任何类型的数据，例如整型、字符串、浮点数、python对象等

- 标签的集合被称为索引（index）

|数据|9|3|8|
|---|---|---|---|
|索引|0|1|2|

-  s = pd.Series(data, index=index)
    + data可以是列表、字典、单个数值等

#### 由列表（list）生成

In [None]:
s = pd.Series([100, 'python', 'soochow', 'qiwsir'])

- 获得Series的数据值

In [None]:
s.values

- 获得Series的索引

In [None]:
s.index

- 自定义索引

In [None]:
s = pd.Series([100, 'python', 'soochow', 'qiwsir'], index=['mark', 'little', 'university', 'name'])

In [None]:
s[0]

In [None]:
s['mark']

#### 由字典（dict）生成

In [None]:
s = pd.Series({'python': 8000, 'C++': 4100, 'C#': 4000})

- 字典的键自动变为索引
- 同样可以自定义索引。如果自定义了索引，新索引会自动寻找原来的索引，如果一样，就取原来索引对应的数据值

In [None]:
s = pd.Series({'python': 8000, 'C++': 4100, 'C#': 4000}, index =['java', 'python', 'C++', 'C#'])

#### 由单一数值生成

- <span class="mark">必须提供index</span>，单一数值将会重复索引长度那么多次数

In [None]:
s = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

### DataFrame：二维的带标签的数据结构

- 类似于excel或者sql的数据表

<img src="./img/pandas/dataframe.png" width=60%>

- 横行标签被称为Index，竖列标签被称为columns

- DataFrame可以由多种类型的数据生成，包括列表、字典、Series、二维矩阵表、其他的DataFrame等

#### 由dicts of series生成

In [None]:
data = {
    'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
d1 = pd.DataFrame(data)

#### 由dicts of lists生成

In [None]:
data = {
    "name": ["yahoo","google","facebook"], 
    "marks": [200,400,800], 
    "price": [9, 3, 7]
}
d1= pd.DataFrame(data)

字典的“键”（"name"，"marks"，"price"）就是 DataFrame 的 columns 的值（名称），字典中每个“键”的“值”是一个列表，它们就是那一竖列中的具体填充数据。上面的定义中没有确定索引，所以，按照惯例（Series 中已经形成的惯例）就是从 0 开始的整数。

In [None]:
d2 = pd.DataFrame(data, columns=['name', 'price', 'marks', 'debt'], index=['a','b','c'])

#### 由dicts of dicts生成

In [None]:
newData = {
    "lang":{
        "firstline":"python",
        "secondline":"java"
    },
    "price":{
        "firstline":8000
    }
}
d3 = pd.DataFrame(newData)

In [None]:
newData = {
    ('a', 'b'): {
        ('A', 'B'): 1,
        ('A', 'C'): 2
    },
    ('a', 'a'): {
        ('A', 'C'): 3, 
        ('A', 'B'): 4
    },
    ('a', 'c'): {
        ('A', 'B'): 5, 
        ('A', 'C'): 6
    },
    ('b', 'a'): {
        ('A', 'C'): 7, 
        ('A', 'B'): 8
    },
    ('b', 'b'): {
        ('A', 'D'): 9, 
        ('A', 'B'): 10
    }
}
d3 = pd.DataFrame(newData) 

## 数据引用

### 列的选择、添加和删除

In [None]:
df = pd.DataFrame({'one': [1., 2., 3., 4.], 'two': [4., 3., 2., 1.]})

- 选择列

In [None]:
df['one']

- 添加列

In [None]:
df['three'] = df['one'] * df['one']

In [None]:
df['flag'] = df['one'] > 2

In [None]:
df['foo'] = 'bar'

- 删除列

In [None]:
del df['two']

In [None]:
three = df.pop('three')

### 索引与选择

|操作|表达|结果|
|---|---|---|
|选择列|df[col]|数组（series）|
|用标签选择行|df.loc[label]|数组（series）|
|用位置选择行|df.iloc[loc]|数组（series）|
|行切片|df[5:10]|数据框（dataframe）|

#### 用标签选择行 

- 单个标签，例如`'a'`，`1`，返回的是`Series`类型
- 标签列表，例如`['a','b','c']`，返回的是`DataFrame`类型
- 标签切片，例如`'a':'c'`
- 一组与数据行数相同的布尔值，例如`[True, False, True]`，可以用判断条件筛选行

In [None]:
locDf = pd.DataFrame([[1, 2], [4, 5], [7, 8]], index=['cobra', 'viper', 'sidewinder'], columns=['max_speed', 'shield'])
locDf.loc[locDf['shield']>6];

#### 用位置选择行 

- 单个整数，返回的是Series类型
- 整数列表，返回的是`DataFrame`类型
- 整数切片，例如`1:7`，`df.iloc[:]`表示选择所有行
- 一组与数据行数相同的布尔值

In [None]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4}, {'a': 100, 'b': 200, 'c': 300, 'd': 400}, {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
posDf = pd.DataFrame(mydict)
posDf.iloc[:,[True,False,False,False]];

# 数据清理

## 缺失值（missing value）

- 在Python中用`NaN`（Not a Number）表示缺失值

In [None]:
accept.head()

### 判断是否含有缺失值

- ```python
DataFrame.isna()
```

In [None]:
accept.isna()

### 删除数据对象或属性

- ```python
DataFrame.dropna(axis=0, how='any', inplace=False)
```
    + `axis`
        * 0：删除含有缺失值的行
        * 1：删除含有缺失值的列
    + `how`
        * `any`：只要包含缺失值，就删除相应的行或列
        * `all`：只有当某行（列）所有值都是缺失值的时候，才删除该行（列）
    + `inplace`
        * `True`：改变原数据
        * `False`：不改变原数据，返回删除缺失值的新数据

In [None]:
tmp = accept.dropna(axis=1)
tmp.head()
accept.head()

### 填充缺失值

- ```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None)
```
    + `value`：用于填充缺失值的**标量值**或**字典对象**
        * 标量值：所有缺失值均填相同的数值
        * 字典对象：按列填充不同的缺失值
    + `method`：填充方式
        * `pad`或`ffill`：前向替换，用缺失值的前一个有效值替换该缺失值
        * `backfill`或`bfill`：后向替换，用缺失值的后一个有效值替换该缺失值
    + `limit`：前向或者后向填充的最大连续缺失值的数量

In [None]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1], [np.nan, np.nan, np.nan, 5], [np.nan, 3, np.nan, 4]], columns=list('ABCD'))
print(df)
df.fillna(method='ffill',limit=1)
# df.fillna({'A':df['A'].mean(), 'B':df['B'].mean()})

### 用插值法估计缺失值

- ```python
DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward')
```
    + `method`
        * `linear`：线性插值，数值之间等间距
        * `polynomial`：多项式插值，要补充参数，该多项式的阶数`order=n`
        * `pad`：用现有值估计

In [None]:
df = pd.DataFrame([(0.0,  np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0), (np.nan, 4.0, -4.0, 16.0)], columns=list('abcd'))
print(df)
df['d'].interpolate(method='polynomial', order=2)

## 离群点（outliers）

- 拥有与数据集中大部分数据显著不同特征的数据对象

<img src="./img/pandas/outliers.png" width=20%>

- 一些离群点会干扰数据分析，是需要去除的

- 另外一些离群点则会是数据挖掘的分析对象
    + 信用证欺诈
    + 网络入侵

### - $3\sigma$方法

<img src="./img/pandas/normalDist.png" width=50%>

In [None]:
import pandas as pd
import numpy as np
accept = pd.read_csv('./data/pandas/accepts.csv')
accept.head()
rev = accept.loc[(accept['loan_amt']-accept['loan_amt'].mean())/accept['loan_amt'].std()>3,'loan_amt']
rev
# rev = np.sign(rev)*3

## 重复数据（duplicates）

### 识别重复数据

- ```python
DataFrame.duplicated(keep='first')
```
    + 返回布尔变量构成的序列，标明哪些行是重复的
    + `keep`
        * `first`：第一次出现的标记为`False`，其他重复的标记为`True`
        * `last`：最后一次出现的标记为`False`，其他重复的标记为`True`
        * `False`：重复的全部标记为`True`

In [None]:
df = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
print(df)
df.duplicated(keep=False)
df.drop_duplicates(keep='last')

### 删除重复数据

- ```python
DataFrame.drop_duplicates(keep='first', inplace=False)
```

### 是否所有的重复数据都需要删除？

- 重复记录，处理样本不均衡
    + 分组或分类问题中，有些组/类的样本少，需要采用**随机过采样**的方法复制样本

- 检验业务规则中存在的问题
    + 例如，网路购物的时候多次点击下单，如果出现重复的订单记录，可能说明下单系统存在问题

# 数据变换

## 通过函数或映射

- 通过函数将原始数据的属性值映射为一系列新值

- 简单函数变化，例如通过$\log_x$可以降低不同属性之间数据的波动

In [None]:
import math
print(math.log(5400))
print(math.log(10))

## 标准化

- 规范化（normalization）
    + 利用频率、均值、方差、范围等调整不同属性之间波动差异的过程
    + $\hat{x}=\frac{x-\bar{x}}{s_x}$，其中$\bar{x}$和$s_x$分别是均值和标准差，将原始数据**标准化**（standardization）为均值为$0$，标准差为$1$的数据

In [None]:
import pandas as pd
import numpy as np
accDf = pd.read_csv('./data/pandas/accepts.csv', header=0)
def standardize(x):
    return (x-accDf['purch_price'].mean())/accDf['purch_price'].std()

newPurch = accDf['purch_price'].apply(standardize)
print(newPurch)

## 离散化（discretization）

- 将连续属性变成分类属性
    + 分类算法经常使用离散变量

- 将连续或者分类属性变成二元属性 
    + 关联分析经常使用非对称的二元属性

### 分类属性二元化

- 假设有$m$个分类值，对应$[0, m-1]$中的整数

- 将分类属性二元化，就是将每个分类对应的整数用**二进制**表示

- 总共需要$n=\lceil\log_2^m\rceil$个二进制数表示所有的分类值

- 假设一个具有五个值的分类属性：`[awful, poor, OK, good, great]`，对应的整数值分别是`0, 1, 2, 3, 4`

分类值|整数值|$x_1$|$x_2$|$x_3$
---|---|---|---|---
awful|0|0|0|0
poor|1|0|0|1
OK|2|0|1|0
good|3|0|1|1
great|4|1|0|0

- 为每一个分类值引入一个二元属性，形成非对称的二元属性

分类值|整数值|$x_1$|$x_2$|$x_3$|$x_4$|$x_5$
---|---|---|---|---|---|---
awful|0|1|0|0|0|0
poor|1|0|1|0|0|0
OK|2|0|0|1|0|0|0
good|3|0|0|0|1|0
great|4|0|0|0|0|1

### 连续属性离散化

- 确定分成多少个区间

- 确定分割点（split point）的位置

#### 等宽（equal width）方法

- 将属性的值域划分成相同宽度的区间

- ```python
pandas.cut(x, bins, right=True, labels=None, retbins=False)
```
    + `x`：需要被离散化的**一维**数组数据
    + `bins`：等分的区间数量，`int`类型
    + `right`：区间是否包含右边界，默认包含。例如，$[1, 2, 3, 4]$划分成$(1, 2], (2, 3], (3, 4]$
    + `labels`：给每个区间添加自定义标签
    + `retbins`：返回划分的区间

In [None]:
# import numpy as np
# import pandas as pd
# d1 = 0.2*np.random.randn(100)+5
# d1y = np.random.random(100)
# d2 = 0.2*np.random.randn(50)+8
# d3 = 0.2*np.random.randn(50)+10
# d23 = np.hstack((d2,d3))
# d23y = np.random.random(100)
# d4 = 0.2*np.random.randn(100)+15
# d4y= np.random.random(100)
# d0=0
# d5=20
# d0z = np.array([d0, np.random.random(1), 0]).reshape(1,3)
# d1z = np.array([d1,d1y, np.ones(100)]).transpose()
# d2z = np.array([d23,d23y, np.ones(100)*2]).transpose()
# d4z = np.array([d4,d4y,np.ones(100)*3]).transpose()
# d5z = np.array([d5, np.random.random(1), 4]).reshape(1,3)
# d5z.shape
# d = np.vstack((d0z,d1z,d2z,d4z,d5z))
# pd.DataFrame(d).to_csv('./data/pandas/descritization.csv', index=False, header=['x', 'y', 'class'])

In [None]:
%matplotlib notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
d = pd.read_csv('./data/pandas/descritization.csv', header=0)
print(d.head())
plt.figure(figsize=(12,6))
plt.scatter(d.iloc[:,0], d.iloc[:, 1], c=np.hstack((4, np.zeros(100), np.ones(100)*20, np.ones(100)*40, 60)))
plt.plot(np.ones(100)*5, np.random.random(100), c='red')
plt.plot(np.ones(100)*10, np.random.random(100), c='red')
plt.plot(np.ones(100)*15, np.random.random(100), c='red')
plt
equalW = pd.cut(d.iloc[:,0], 4, retbins=True)
print(equalW)
equalW[0].value_counts()

#### 等频率（equal frequency）方法

- 将相同数量的对象放进每个区间

- ```python
pandas.qcut(x, q, labels=None, retbins=False)
```
    + 基于分位数的离散化函数
    + `q`：分位数的数量

In [None]:
equalF = pd.qcut(d.iloc[:,0], 4, retbins=True)
print(equalF[0].value_counts())
gbins = equalF[1]
plt.figure(figsize=(12,6))
plt.scatter(d.iloc[:,0], d.iloc[:, 1], c=np.hstack((4, np.zeros(100), np.ones(100)*20, np.ones(100)*40, 60)))
plt.plot(np.ones(100)*gbins[1], np.random.random(100), 'm--')
plt.plot(np.ones(100)*gbins[2], np.random.random(100), 'm--')
plt.plot(np.ones(100)*gbins[3], np.random.random(100), 'm--')
# plt.plot(np.ones(100)*5, np.random.random(100), c='red')
# plt.plot(np.ones(100)*10, np.random.random(100), c='red')
# plt.plot(np.ones(100)*15, np.random.random(100), c='red')
plt

# 数据规约

## 聚集（aggregation）

- 将两个或多个对象合并成单个对象

- 减少数据对象的数量

- 改变数据的分辨率
    + 城市聚集成地区、省份、国家
    + 日数据聚集成周数据、月数据、年数据

- 聚集可以平滑数据

### 分组运算

- 聚集本质上是对数据的分组运算

- 分组运算机制：拆分－应用－合并（split-apply-combine）

![](./img/pandas/groupby.png)

### `groupby`函数

- ```python
DataFrame.groupby(by=None, axis=0, sort=True)
```
    + `by`：分组的依据
        * `label`或者`list of labels`：列的名称
        * `dict`：字典的值是分组的依据
    + `sort`：排序分组的键，令`sort=False`可以提高分组的效率

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'data2' : np.random.randn(5)})
print(df)
gp = df.groupby(by='key2')
# pd.DataFrame(gp)
grouped = df.groupby(['key1', 'key2'])
# pd.DataFrame(grouped)

- 对分组对象应用`size()`函数，返回各个分组的大小

In [None]:
grouped.mean()

- 利用字典进行分组
    + 按列分组，`axis=1`

In [None]:
people = pd.DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'],  index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
print(people)
mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 'd': 'blue', 'e': 'red', 'f' : 'orange'}
people.groupby(mapping, axis=1).count()

- 对`groupby`对象进行迭代
    + 分组标志为迭代对象的标签
    + 组形成数据块

In [None]:
for (label1, label2), group in grouped:
    print(label1, label2)
    print(group)


## 聚合计算

- 对分组的数据进行计算

函数|说明
---|---
`count()`|分组中非`NaN`的数量
`sum()`|非`NaN`的和
`mean()`|非`NaN`的均值 
`median()`|非`NaN`的中位数
`std()`, `var()`|非`NaN`的标准差和方差
`min()`, `max()`|非`NaN`的最小值和最大值
`prod()`|非`NaN`的积
`first()`, `last()`|第一个或最后一个非`NaN`的值


### 聚合函数`agg`或`aggregate`

- ```python
DataFrame.agg(func, axis=0)
```
    + `func`：
        * 函数或函数名称
        * 函数列表或函数名称列表，计算结果会有相应的函数名称标明
        * 字典，格式为`label: 函数，函数名称，或它们的列表`，可以为不同的列应用不同的函数

In [None]:
print(df)
# df.groupby('key1').agg(['mean','std'])
df.groupby(['key1']).agg({'data1': ['mean'], 'data2': ['std']})

- 可以给`agg`传入自定义函数

In [None]:
def maxMinRatio(arr):
    return arr.max()/arr.min()
df.groupby('key1').agg(['mean', maxMinRatio])

### `apply`函数

- ```python
DataFrame.apply(func, axis=0)
```
    + `fun`：对每行或列应用的函数

In [None]:
applyDf = pd.DataFrame([[4, 9],] * 3, columns=['A', 'B'])
print(applyDf)
applyDf.apply('max', axis=1) 