# 数据清洗

In [None]:
import pandas as pd

## 缺失值

缺失值是指由于缺少信息而造成的数据的信息不完整。缺失值的出现是很正常的现象，有机械原因和人为原因。

缺失值的出现可能会对数据分析的结果产生致命的影响，影响数据的准确性和结果的可靠性。

In [None]:
df = pd.read_csv('data/sales.csv')
df

`isnull()`和`notnull()`可用于检测缺失值。

In [None]:
df.isnull()

In [None]:
df.notnull()

处理缺失值的方法包括：

1. 删除存在缺失值的行或列

2. 填充缺失值

### `dropna()`

`dropna()`用于过滤含有缺失值的行或列，返回一个新的数据集。

| 参数 | 说明 |
| --- | --- |
| axis | `0`表示行（默认），`1`表示列 |
| how | `any`表示含有缺失值就过滤（默认），`all`表示全是缺失值才过滤 |
| thresh | 保留至少含有多少个非缺失值的行或列 |
| subset | 指定特定的行或列进行过滤 |
| inplace | 是否原地修改 |

In [None]:
df

In [None]:
df.dropna(axis=0)

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(axis=0, how='all')

In [None]:
df.dropna(axis=0, thresh=5)

In [None]:
df.dropna(subset=['日期', '类别'])

【例】过滤`tickets.csv`中所有`车次`、`座位类型`或`票价`缺失的行

In [None]:
df = pd.read_csv("data/tickets.csv")
df

In [None]:
df.dropna(subset=['车次', '座位类型', '票价'])

### `fillna()`

`fillna()`用于填充缺失值，返回一个新的数据集。

| 参数 | 说明 |
| --- | --- |
| value | 填充值 |
| method | 填充方式，`ffill`表示用前一个非缺失值填充，`bfill`表示用下一个非缺失值填充 |
| axis | 填充方向，默认`0`表示列 |
| limit | 填充个数 |
| inplace | 是否原地修改 |

In [None]:
df = pd.read_csv('data/sales.csv')
df

In [None]:
df.fillna(value='###')

In [None]:
df.fillna(method='bfill')

In [None]:
df.fillna(axis=1, method='ffill')

【例】将`tickets.csv`中所有的缺失值都使用同一列中下一个非缺失值数据代替

In [None]:
df = pd.read_csv('data/tickets.csv')
df

In [None]:
df.fillna(method='bfill')

## 重复值

除了缺失数据的存在，数据经常还会存在重复数据，尤其是在数据量越大的情况下，重复的概率也越大。

### `duplicated()`

`duplicated()`用于检测重复数据，返回一个布尔序列。如果某个值存在重复，则返回`True`，否则返回`False`。

| 参数 | 说明 |
| --- | --- |
| subset | 指定列 |
| keep | 如何检测重复值 |

`keep`参数由三个可选值：

- `first`：将第一次出现的数据视为唯一，后面重复值标记为True（默认）
- `last`：将最后一次出现的数据视为唯一，前面重复值标记为True
- `False`：将所有重复值标记为`True`

In [None]:
df = pd.read_csv('data/sales.csv')
df

In [None]:
df.duplicated()

In [None]:
df.duplicated(subset=['类别'], keep='last')

【例】检测`tickets.csv`中所有全部相同的行，将所有重复行都标记为`True`

In [None]:
df = pd.read_csv('data/tickets.csv')
df

In [None]:
df.duplicated(keep=False)

### `drop_duplicates()`

`drop_duplicates()`用于删除重复数据，返回新的数据集。

| 参数 | 说明 |
| --- | --- |
| subset | 指定列 |
| keep | 如何检测重复值 |

`keep`参数由三个可选值：

- `first`：保留第一次出现的数据，删除后面重复值
- `last`：保留最后一次出现的数据，删除前面重复值
- `False`：删除所有重复值

In [None]:
df = pd.read_csv('data/sales.csv')
df

In [None]:
df.drop_duplicates()

In [None]:
df.drop_duplicates(subset=['类别'], keep='first')

【例】删除`tickets.csv`中重复数据，只保留首次出现的值

In [None]:
df = pd.read_csv('data/tickets.csv')
df

In [None]:
df.drop_duplicates(keep='first')