# 数据清洗和准备

## 处理缺失数据

### 定义

- 对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。
- Python内置的None值在对象数组中也可以作为NA

### 处理方法

![](读取表格型数据.jpg)

### 滤除缺失数据

- 对于一个Series，dropna返回一个仅含非空数据和索引值的Series

- 对于DataFrame对象，dropna默认丢弃任何含有缺失值的行 
  - 传入how='all'将只丢弃全为NA的那些行，传入axis=1对列丢弃 
  - 时间序列数据，用thresh参数指定需要删除的数据的缺失值数量






### 填充缺失数据

fillna方法是最主要的函数

- 通过一个常数调用fillna就会将缺失值替换为那个常数值
- 通过一个字典调用fillna，就可以实现对不同的列填充不同的值
- inplace=True可以对现有对象进行就地修改
- 对reindexing有效的那些插值方法也可用于fillna，如ffill'

![](fillna参数-1.jpg)

![](fillna参数-2.jpg)

## 数据转换

### 移除重复数据

- DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行（前面出现过的行），重复的数组会标为False
- drop_duplicates方法会丢弃含重复值的行
  - 这两个方法默认会判断全部列，可以传入列表指定列
  - 默认保留的是第一个出现的值组合。传入keep='last'则保留最后一个

### 利用函数或映射进行数据转换

Series的map方法可以接受一个函数或含有映射关系的字典型对象，实现元素级操作

map可用于修改对象的数据子集，而replace则提供了一种实现该功能的更简单、更灵活的方式。

- 如果你希望一次性替换多个值，可以传入一个由待替换值组成的列表以及一个替换值
- 要让每个值有不同的替换值，可以传递一个替换列表
- 传入的参数也可以是字典

>data.replace方法与data.str.replace不同，后者做的是字符串的元素级替换。

### 重命名轴索引

轴索引有一个map方法

In [4]:
import pandas as pd
import numpy as np

In [5]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
....: index=['Ohio', 'Colorado', 'New York'],
....: columns=['one', 'two', 'three', 'four'])

In [6]:
transform = lambda x: x[:4].upper()

In [7]:
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [8]:
data.index = data.index.map(transform)

In [9]:
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


如果想要创建数据集的转换版（而不是修改原始数据），比较实用的方法是rename
- 可以结合字典型对象实现对部分轴标签的更新
- 如果希望就地修改某个数据集，传入inplace=True即可

### 离散化和面元划分

为了便于分析，连续数据常常被离散化或拆分为“面元”（bin）

- cut函数

In [10]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [11]:
bins = [18, 25, 35, 60, 100]

In [13]:
cats = pd.cut(ages, bins)

In [14]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [15]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [16]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')

In [17]:
pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

- - 哪边是闭端可以通过right=False进行修改
- - 可以通过传递一个列表或数组到labels，设置自己的面元名称
- - 如果向cut传入的是面元的数量而不是确切的面元边界，则它会根据数据的最小值和最大值计算等长面元。

- qcut

根据样本分位数对数据进行面元划分
- 根据数据的分布情况，cut可能无法使各个面元中含有相同数量的数据点。
- qcut由于使用的是样本分位数，因此可以得到大小基本相等的面元

- 可以传递自定义的分位数（0到1之间的数值，包含端点）

### 检测和过滤异常值

过滤或变换异常值（outlier）在很大程度上就是运用数组运算。

In [18]:
data = pd.DataFrame(np.random.randn(1000, 4))

In [20]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.019696,-0.00527,0.026218,-0.01483
std,1.004469,1.007664,1.028161,0.993929
min,-3.28411,-3.137379,-2.943795,-3.450782
25%,-0.667039,-0.695419,-0.639119,-0.701898
50%,-0.019735,-0.048462,0.004382,0.002799
75%,0.671188,0.635058,0.704857,0.702643
max,2.994307,3.392129,3.267614,2.539841


In [21]:
col = data[2]

In [23]:
data[2].max()

3.2676139430482647

In [22]:
col[np.abs(col) > 3]

119    3.240818
744    3.267614
747    3.099406
814    3.211689
946    3.194361
Name: 2, dtype: float64

In [24]:
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
119,-0.429351,0.434231,3.240818,-1.484413
130,-0.097808,-3.137379,-2.395199,-0.205921
217,-3.139205,0.184152,0.233075,-0.993094
304,-3.28411,1.698525,-0.745158,-0.692635
385,-3.016929,0.789753,0.604621,-0.497514
744,0.998017,-0.968593,3.267614,0.114075
747,0.33402,0.510674,3.099406,0.844075
790,1.426303,3.392129,-0.611511,0.595917
814,-0.215905,1.475638,3.211689,-1.199166
862,-0.85514,3.110661,-0.29858,1.588713


In [25]:
data[(np.abs(data) > 3)] = np.sign(data) * 3

In [27]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.019256,-0.005635,0.025204,-0.014179
std,1.003111,1.00566,1.025112,0.991847
min,-3.0,-3.0,-2.943795,-3.0
25%,-0.667039,-0.695419,-0.639119,-0.701898
50%,-0.019735,-0.048462,0.004382,0.002799
75%,0.671188,0.635058,0.704857,0.702643
max,2.994307,3.0,3.0,2.539841


### 排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作（permuting，随机重排序）

1. - 通过需要排列的轴的长度调用permutation，可产生一个表示新顺序的整数数组
   - 然后就可以在基于iloc的索引操作或take函数中使用该数组进行替换

2. 如果不想用替换的方式选取随机子集，可以在Series和DataFrame上使用sample方法，指定采样行数目
    - 要通过替换的方式产生样本（允许重复选择），可以传递replace=True到sample

### 计算指标/哑变量

一种常用于统计建模或机器学习的转换方式是：将分类变量（categorical variable）转换为“哑变量”或“指标矩阵”
- 如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame（其值全为1和0）。
- pandas有一个get_dummies函数可以实现该功能

一个对统计应用有用的秘诀是：结合get_dummies和诸如cut之类的离散化函数

In [29]:
np.random.seed(12345)

In [30]:
values = np.random.rand(10)

In [31]:
bins = [0, 0.2, 0.4, .6, .8, 1]

In [32]:
pd.get_dummies(pd.cut(values, bins))

   (0.0, 0.2]  (0.2, 0.4]  (0.4, 0.6]  (0.6, 0.8]  (0.8, 1.0]
0           0           0           0           0           1
1           0           1           0           0           0
2           1           0           0           0           0
3           0           1           0           0           0
4           0           0           1           0           0
5           0           0           1           0           0
6           0           0           0           0           1
7           0           0           0           1           0
8           0           0           0           1           0
9           0           0           0           1           0

## 字符串操作

### 字符串对象方法

![](python内置字符串方法-1.jpg)

![](python内置字符串方法-2.jpg)

### 正则表达式

Python内置的re模块负责对字符串应用正则表达式

re模块的函数可以分为三个大类：模式匹配、替换以及拆分

![](re-method.jpg)

>如果打算对许多字符串应用同一条正则表达式，强烈建议通过re.compile创建regex对象。这样将可以节省大量的CPU时间。

### pandas的矢量化字符串函数

有两个办法可以实现矢量化的元素获取操作
- str.get
- 在str属性上使用索引

In [40]:
import re

In [33]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
.....: 'Rob': 'rob@gmail.com', 'Wes': np.nan}

In [37]:
data = pd.Series(data)

In [38]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

In [41]:
matches = data.str.match(pattern, flags=re.IGNORECASE)

In [42]:
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [46]:
matches.str[:]

Dave    NaN
Steve   NaN
Rob     NaN
Wes     NaN
dtype: float64

In [47]:
data.str[:]

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

![](pandas字符串方法.jpg)