# 数据清洗

数据清洗是查找、纠正数据集的NaN和异常点

数据清洗的方法取决于数据存储方式和分析的方向

数据清洗不是为了删除数据，而是在尽量不删除数据最大限度提高数据集准确性

## 数据清洗操作

Pandas 提供以下核心的数据清洗操作：
```
DataFrame.dropna(self[, axis, how, thresh, …])
DataFrame.fillna(self[, value, method, …])
DataFrame.replace(self[, to_replace, value, …])
DataFrame.interpolate(self[, method, axis, …])
```
主要完成以下工作：
```
缺失值的认定
缺失值数字
缺失日期时间
插入缺失值
缺失值计算
聚合分组中的缺失值
缺失值填充 .interpolate()
清除缺失值
替换泛型值
```

## 缺失值判定

### 缺失值类型

一般使用特殊类型 NaN 代表缺失值，可以用 Numpy 可定义它np.NaN/np.nan。在 Pandas 1.0 以后实验性地使用一个标量 pd.NA 来代表

如果想把正负无穷也为认是缺失值，可以通过以下全局配置来设定：

In [None]:
pandas.options.mode.use_inf_as_na = True

需要注意的是，Numpy 中 np.nan 和 np.nan 不相等，因此不能用 ==/!= 进行对比：

In [7]:
None==None

True

In [9]:
np.nan==np.nan

False

In [11]:
None==np.nan

False

判断 dataframe、series 数据是否为 空
```
**dataframe**
df.notna()
df.isna()
df.isnull()
**serise**
df['team'].notna()
df['team'].isna()
df['team'].isnull()
```

创建数据

In [4]:
df=(pd.DataFrame(np.random.randn(5, 3),
              index=['a', 'c', 'e', 'f', 'h'], 
              columns=['one', 'two', 'three'])
.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
)
df

Unnamed: 0,one,two,three
a,0.150429,-0.510476,-0.90374
b,,,
c,0.293057,0.057782,-0.29713
d,,,
e,1.733106,0.389178,0.318092
f,-0.257835,1.601407,0.615031
g,,,
h,1.508012,-0.644326,-1.003819


In [14]:
# 进行筛选
df[df.one.notna()]

Unnamed: 0,one,two,three
a,0.150429,-0.510476,-0.90374
c,0.293057,0.057782,-0.29713
e,1.733106,0.389178,0.318092
f,-0.257835,1.601407,0.615031
h,1.508012,-0.644326,-1.003819


In [26]:
# 每列有多少个缺失值
df.isnull().sum()
# 每行有多少个缺失值
df.isnull().sum(1)
# 总共共有多少个缺失值
df.isna().sum().sum()
# 有缺失值的行
df.loc[df.isna().any(1)]
# 有缺失值的列
df.loc[:,df.isna().any()]
# 没有缺失值的行
df.loc[~(df.isna().any(1))]
# 没有缺失值的列
df.loc[:,~(df.isna().any())]

# 返回第一个非NA/空值的索引
# valid 有效的
df.first_valid_index() # 0
# 返回最后一个非NA/空值的索引
df.last_valid_index() # 99

'h'

## Pandas数据清洗

### 缺失值认定

### 缺失值操作

### 数据替换

### 重复值及删除数据

### NumPy格式转换

## Pandas 文本处理

### 数据类型

### 字符的操作

### 文本高级处理

## Pandas分类数据

### 分类数据

### 分类操作