In [2]:
import pandas as pd
import numpy as np

## 原始数据

In [3]:
# 一般使用特殊类型 NaN 代表缺失值，
# 可以用 Numpy 可定义它np.NaN/np.nan。
# 在 Pandas 1.0 以后实验性地使用一个标量 pd.NA 来代表

df = pd.DataFrame({'Unnamed:0': [0,1,2,3,4,5,6],
                  'Date': ['04/04/2021','april 17th,2021','2021-08-21','05/02/2021','05/12/2021','2021-10-11',np.nan],
                  'Name': ['doe,john','Doe,Jane','smith,Adam','Tuck,matt','James,Ben',np.nan,np.nan],
                  'Payment': ['$100,50','$78.50','$65','$120',np.nan,'$100',np.nan],
                  'Note': ['Unhappy!','?Satidfied','Neutral','Unhappy-','Neutral0','Neutral',np.nan],
                  'Remark':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan]},
#                  index = [0,1,2,3,4,5]
                 )

In [119]:
df

Unnamed: 0,Unnamed:0,Date,Name,Payment,Note,Remark
0,0,04/04/2021,"doe,john","$100,50",Unhappy!,
1,1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied,
2,2,2021-08-21,"smith,Adam",$65,Neutral,
3,3,05/02/2021,"Tuck,matt",$120,Unhappy-,
4,4,05/12/2021,"James,Ben",,Neutral0,
5,5,2021-10-11,,$100,Neutral,
6,6,,,,,


In [None]:
# 让我们看看可以做些什么来使这个数据集变得干净。

# 第一列是多余的，应该删除；
# Remark全为NAN,全部删除
# 索引6为NAN,全部删除
# Date 没有标准；
# Name 写成姓氏、名字，并有大写和小写字母；
# Payment 代表一个数量，但它们显示为字符串，需要处理；
# 在 Note 中，有一些非字母数字应该被删除;

## 删除多余数据

### 肯定会完全删除的数据

In [None]:
# 冗余的列
# 全为NAN的列
# 全为NAN的行

#### 删除冗余列

In [4]:
# 删除列是使用 drop 函数的简单操作。
# 除了写列名外，我们还需要指定轴参数的值，因为 drop 函数用于删除行和列。 
# 最后，我们可以使用 inplace 参数来保存更改。

# 指定列名直接删除
df.drop('Unnamed:0', axis=1, inplace=True)  
df

Unnamed: 0,Date,Name,Payment,Note,Remark
0,04/04/2021,"doe,john","$100,50",Unhappy!,
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied,
2,2021-08-21,"smith,Adam",$65,Neutral,
3,05/02/2021,"Tuck,matt",$120,Unhappy-,
4,05/12/2021,"James,Ben",,Neutral0,
5,2021-10-11,,$100,Neutral,
6,,,,,


#### 删除列全为空的数据

In [121]:
# dropna删除列全为空的
df.dropna(axis=1,how='all', inplace=True)

#### 删除行全为空的数据

In [122]:
# dropna删除行全为空的
df.dropna(how = 'all',inplace=True)

In [123]:
df

Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",,Neutral0
5,2021-10-11,,$100,Neutral


 ### 对于行或者列中存在NAN的数据

In [130]:
df = pd.DataFrame({'Unnamed:0': [0,1,2,3,4,5,6],
                  'Date': ['04/04/2021','april 17th,2021','2021-08-21','05/02/2021','05/12/2021','2021-10-11',np.nan],
                  'Name': ['doe,john','Doe,Jane','smith,Adam','Tuck,matt','James,Ben',np.nan,np.nan],
                  'Payment': ['$100,50','$78.50','$65','$120',np.nan,'$100',np.nan],
                  'Note': ['Unhappy!','?Satidfied','Neutral','Unhappy-','Neutral0','Neutral',np.nan],
                  'Remark':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan]},
#                  index = [0,1,2,3,4,5]
                 )
df.drop('Unnamed:0', axis=1, inplace=True)  
df.dropna(axis=1,how='all', inplace=True)
df.dropna(axis=0,how='all',inplace=True)
df


Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",,Neutral0
5,2021-10-11,,$100,Neutral


#### 判断是否为空值

In [90]:
# 判断是否为空值
df['Name'].notna()   # 不是空值,显示True
df['Name'].isna()  # 是空值,显示True


Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",$92,Neutral0


#### 筛选出不为空的值

In [103]:
df[df['Name'].notna()] # 筛选出Name不为空的数据
df[df['Name'].isna()]  # 筛选出Name为空的数据

Unnamed: 0,Unnamed:0,Date,Name,Payment,Note,Remark
5,5,2021-10-11,,$100,Neutral,
6,6,,,,,


#### 删除包含NAN的行列

In [None]:
# 删除行列可以通过以下方式: 
df.dropna() # 一行中有一个空NaN就删除
df.dropna(axis='columns') # 只保留全有值的列
df.dropna(how='all') # 行或列全没值才删除
df.dropna(thresh=2) # 至少有两个空值时才删除
df.dropna(inplace=True) # 删除并生效替换

##### 删除所有存在NAN的行

In [None]:
df.dropna()

##### 删除指定列为空的行

In [127]:
# 删除Name中包含NAN的行
df.dropna(axis=0,subset=["Name"], inplace= True)
df

Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",,Neutral0


#### NAN填充

In [131]:
# fillna(x) 可以将缺失值填充指定的值。
df

Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",,Neutral0
5,2021-10-11,,$100,Neutral


##### 填充固定值

In [133]:
# 填充(4, Payment为例)

df.fillna(0)# 填充为0

df.fillna('$90') # 填充指定字符

df['Payment'].fillna('$90') # 指定字段(列),填充指定字符

# df.fillna(xxx, inplace=Ture) # 填充内容生效

df.fillna(0, limit=1)  # 只替换第一个

# 不同列替换不同的值
values = {'Name': 'James,matt', 'Payment': '$90'}
df.fillna(value=values)

Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",$90,Neutral0
5,2021-10-11,"James,matt",$100,Neutral


##### 填充已有的值

In [None]:
# pad / ffill：向前填充
# bfill / backfill：向后填充

In [None]:
# bfill / backfill,使用上一个有效值填充,作用一样
df.fillna(method='backfill')
df.fillna(method='bfill')

df.fillna(method='bfill').head(1).iloc[0] # 填充第一个非空值


# pad / ffill, 把当前值广播到后边的缺失值,作用一样
df.fillna(method='pad')
df.fillna(method='ffill')

##### 填充计算值

In [None]:
# 填充列的平均值
df.fillna(df.mean())

# 对指定列填充平均值
df.fillna(df.mean()['B':'C'])
df.fillna(df.mean()['B':'C'])

# 填充列的平均值，另外一个方法
df.where(pd.notna(df), df.mean(), axis='columns')


## 统一格式

### 统一时间格式

In [None]:
# 我们有多种选择将日期值转换为适当的格式。一种更简单的方法是使用 astype 函数来更改列的数据类型。 
# 它能够处理范围广泛的值并将它们转换为整洁、标准的日期格式。

In [5]:
df['Date'] = df['Date'].astype('datetime64[ns]')

In [6]:
df

Unnamed: 0,Date,Name,Payment,Note,Remark
0,2021-04-04,"doe,john","$100,50",Unhappy!,
1,2021-04-17,"Doe,Jane",$78.50,?Satidfied,
2,2021-08-21,"smith,Adam",$65,Neutral,
3,2021-05-02,"Tuck,matt",$120,Unhappy-,
4,2021-05-12,"James,Ben",,Neutral0,
5,2021-10-11,,$100,Neutral,
6,NaT,,,,


In [47]:
# 2
df = pd.DataFrame(['2019-12-09', '2019-12-02'], columns=["date"])
df 

# 转换为时间
df["date"] = pd.to_datetime(df["date"])
# 获取年月日
df["year-month-day"] = df["date"].apply(lambda x: x.strftime("%Y%m%d"))
df["year-month-day"]

0    20191209
1    20191202
Name: year-month-day, dtype: object

### 统一姓名格式

In [None]:
# 首先我们应该用所有大写或小写字母来表示它们。
# 另一种选择是将它们大写（即只有首字母是大写的）；
# 切换姓氏和名字的顺序；

In [7]:
# 将名字和姓氏分开
# df['Name'].str.split(',',expand = True)

df['Name'].str.split(expand = True)

Unnamed: 0,0
0,"doe,john"
1,"Doe,Jane"
2,"smith,Adam"
3,"Tuck,matt"
4,"James,Ben"
5,
6,


In [8]:
# 取第二列与第一列结合起来，中间有一个空格。
# 最后一步是使用 lower 函数将字母转换为小写。

df['Name'] = (df['Name'].str.split(expand = True)[1] 
             + 
             ' '
             + 
             df['Name'].str.split(expand = True)[0]).str.lower()


KeyError: 1

In [None]:
df

## 数据类型的转换

In [None]:
# 支付Payment的数据类型是不能用于数值分析的。
# 在将其转换为数字数据类型(即整数或浮点数)之前，我们需要删除美元符号并将第一行中的逗号替换为点。

# 关于数值,建议统一为float数据格式,便于计算
df['Payment'] = df['Payment'].str[1:].str.replace(',','.').astype('float')

In [None]:
df

##  删除冗余字符

In [None]:
# Note 列中的一些字符也需要删除。在处理大型数据集时，可能很难手动替换它们。
# 我们可以做的是删除非字母数字字符（例如？、！、-、. 等）。在这种情况下也可以使用 replace 函数，因为它接受正则表达式。

In [9]:
# 如果我们只想要字母字符：
df['Note'].str.replace('[^a-zA-Z]', ' ')  # ^a-zA-Z 表示非大小写字母

  df['Note'].str.replace('[^a-zA-Z]', ' ')  # ^a-zA-Z 表示非大小写字母


0      Unhappy 
1     Satidfied
2       Neutral
3      Unhappy 
4      Neutral 
5       Neutral
6           NaN
Name: Note, dtype: object

In [10]:
# 如果我们想要字母和数字,我们需要在我们的正则表达式中添加数字：
df['Note'].str.replace('[^a-zA-Z0-9]', ' ')  # ^a-zA-Z 表示非大小写字母

  df['Note'].str.replace('[^a-zA-Z0-9]', ' ')  # ^a-zA-Z 表示非大小写字母


0      Unhappy 
1     Satidfied
2       Neutral
3      Unhappy 
4      Neutral0
5       Neutral
6           NaN
Name: Note, dtype: object

In [11]:
# 将结果统一为小写字母
df['Note'] = df['Note'].str.replace('[^a-zA-Z]',' ').str.lower()

  df['Note'] = df['Note'].str.replace('[^a-zA-Z]',' ').str.lower()


In [12]:
df

Unnamed: 0,Date,Name,Payment,Note,Remark
0,2021-04-04,"doe,john","$100,50",unhappy,
1,2021-04-17,"Doe,Jane",$78.50,satidfied,
2,2021-08-21,"smith,Adam",$65,neutral,
3,2021-05-02,"Tuck,matt",$120,unhappy,
4,2021-05-12,"James,Ben",,neutral,
5,2021-10-11,,$100,neutral,
6,NaT,,,,


## 补充: 数值的替换(适用于空和非空)

In [135]:
# Pandas 中数据替换的方法，包含数值、文本、缺失值等替换，经常用于数据清洗整理，枚举转换，数据修正等情况。
# Series 中的 replace() 和 DataFrame 中的 replace() 提供了一种高效而灵活的方法。

In [136]:
df = pd.DataFrame({'Unnamed:0': [0,1,2,3,4,5,6],
                  'Date': ['04/04/2021','april 17th,2021','2021-08-21','05/02/2021','05/12/2021','2021-10-11',np.nan],
                  'Name': ['doe,john','Doe,Jane','smith,Adam','Tuck,matt','James,Ben',np.nan,np.nan],
                  'Payment': ['$100,50','$78.50','$65','$120',np.nan,'$100',np.nan],
                  'Note': ['Unhappy!','?Satidfied','Neutral','Unhappy-','Neutral0','Neutral',np.nan],
                  'Remark':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan]},
#                  index = [0,1,2,3,4,5]
                 )
df.drop('Unnamed:0', axis=1, inplace=True)  
df.dropna(axis=1,how='all', inplace=True)
df.dropna(axis=0,how='all',inplace=True)
df

Unnamed: 0,Date,Name,Payment,Note
0,04/04/2021,"doe,john","$100,50",Unhappy!
1,"april 17th,2021","Doe,Jane",$78.50,?Satidfied
2,2021-08-21,"smith,Adam",$65,Neutral
3,05/02/2021,"Tuck,matt",$120,Unhappy-
4,05/12/2021,"James,Ben",,Neutral0
5,2021-10-11,,$100,Neutral


### 指定值替换

In [140]:
df = pd.DataFrame({'a':[0, 1, 2, 3, 4, 5],
                  'b':[0, 1, 2, 3, 4, 5]})
df

Unnamed: 0,a,b
0,0,0
1,1,1
2,2,2
3,3,3
4,4,4
5,5,5


In [None]:
# 将指定列的空值替换成指定值
df.replace({'Payment': {np.nan: 100}}) # columns中,NAN替换为100
df.replace({'columns': {10:100}}) # columns中,10替换为100

In [141]:
# 以下是在 Series 中将 0 替换为 5：
ser = pd.Series([0., 1., 2., 3., 4.])
ser.replace(0, 5)

# 也可以批量替换：
ser.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])# 一一对应进行替换
ser.replace({0: 10, 1: 100})# 用字典映射对应替换值

df.replace({'a': 0, 'b': 5}, 100)# 将 a 列的 0 b 列中的 5 替换为 100
df.replace({'a': {0: 100, 4: 400}})#  指定列里的替换规划

Unnamed: 0,a,b
0,100,0
1,1,1
2,2,2
3,3,3
4,400,4
5,5,5


### 向前向后填充

In [None]:
# pad / ffill：向前填充
# bfill / backfill：向后填充

# 将 1，2，3 替换为它们前一个值
ser.replace([1, 2, 3], method='pad') # ffill 是它同义词
# 将 1，2，3 替换为它们后一个值
ser.replace([1, 2, 3], method='bfill') # backfill 是它同义词

### 正则表达式填充

In [None]:
# 如果遇到字符比较复杂的内容，就是使用正则（默认没有开启）进行匹配：

df.replace(to_replace='bat', value='new') # 把 bat 替换为 new
df.replace(to_replace=r'^ba.$', value='new', regex=True)# 利用正则将 ba 开头的替换为 new
df.replace({'A': r'^ba.$'}, {'A': 'new'}, regex=True)# 如果多列规则不一的情况下可以按以下格式对应传入
df.replace(regex=[r'^ba.$', 'foo'], value='new')# 多个规则替换为同一个值
df.replace(regex={r'^ba.$': 'new', 'foo': 'xyz'})# 直接多个正则及对应的替换内容

### 缺失值相关替换

In [144]:
d = {'a': list(range(4)),
     'b': list('ab..'),
     'c': ['a', 'b', np.nan, 'd']
    }
# type(d)  # dirc
df = pd.DataFrame(d)
df

Unnamed: 0,a,b,c
0,0,a,a
1,1,b,b
2,2,.,
3,3,.,d


In [None]:
df.replace('.', np.nan)# 将.替换为 nan
df.replace('.', np.nan)
# 使用正则，将空格等替换为 nan
df.replace(r'\s*\.\s*', np.nan, regex=True)
# 对应替换，a 换 b, 点换 nan
df.replace(['a', '.'], ['b', np.nan])
# 点换 dot, a 换 astuff(第一位+)
df.replace([r'\.', r'(a)'], ['dot', r'\1stuff'], regex=True)
# b 中的点要替换，替换为 b 替换规则为 nan，可以多列
df.replace({'b': '.'}, {'b': np.nan})
# 使用正则
df.replace({'b': r'\s*\.\s*'}, {'b': np.nan}, regex=True)
# b列的 b 值换为空
df.replace({'b': {'b': r''}}, regex=True)
# b 列的点空格等换 nan
df.replace(regex={'b': {r'\s*\.\s*': np.nan}})
# b列点等+ty
df.replace({'b': r'\s*(\.)\s*'},
           {'b': r'\1ty'},
           regex=True)
# 多个正则规则
df.replace([r'\s*\.\s*', r'a|b'], np.nan, regex=True)
# 用参数名传参
df.replace(regex=[r'\s*\.\s*', r'a|b'], value=np.nan)