# 数据清理要素

In [1]:
#数据准备
import pandas as pd
from pandas import DataFrame

df = DataFrame({
    'name':['Mickey Mouse','Donald Duck','Mini Mouse','Scrooge McDuck','Pink Panther',None,'Huey McDuck','Huey McDuck'],
    'age':[56,34,16,None,54,None,52,52],
    'weight':['70kgs','154.89lbs',None,'78kgs','198.658lbs',None,'189lbs','189lbs'],
    'A':[72,None,None,78,None,None,None,None],
    'B':[69,None,None,79,None,None,None,None],
    'C':[71,None,None,72,None,None,None,None],
    'D':[None,85,65,None,69,None,68,68],
    'E':[None,84,69,None,None,None,75,75],
    'F':[None,76,72,None,75,None,72,72]
})

print(df)

             name   age      weight     A     B     C     D     E     F
0    Mickey Mouse  56.0       70kgs  72.0  69.0  71.0   NaN   NaN   NaN
1     Donald Duck  34.0   154.89lbs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0        None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck   NaN       78kgs  78.0  79.0  72.0   NaN   NaN   NaN
4    Pink Panther  54.0  198.658lbs   NaN   NaN   NaN  69.0   NaN  75.0
5            None   NaN        None   NaN   NaN   NaN   NaN   NaN   NaN
6     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0
7     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0


# 1.完整性:单条数据是否存在空值，统计的字段是否完善

In [2]:
# 空行
df.dropna(how='all',inplace=True)
print(df)

             name   age      weight     A     B     C     D     E     F
0    Mickey Mouse  56.0       70kgs  72.0  69.0  71.0   NaN   NaN   NaN
1     Donald Duck  34.0   154.89lbs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0        None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck   NaN       78kgs  78.0  79.0  72.0   NaN   NaN   NaN
4    Pink Panther  54.0  198.658lbs   NaN   NaN   NaN  69.0   NaN  75.0
6     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0
7     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0


In [3]:
# 重复行
df = df.drop_duplicates()
print(df)

             name   age      weight     A     B     C     D     E     F
0    Mickey Mouse  56.0       70kgs  72.0  69.0  71.0   NaN   NaN   NaN
1     Donald Duck  34.0   154.89lbs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0        None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck   NaN       78kgs  78.0  79.0  72.0   NaN   NaN   NaN
4    Pink Panther  54.0  198.658lbs   NaN   NaN   NaN  69.0   NaN  75.0
6     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0


In [4]:
# 缺失值
# 1. 填充平均值
df['age'].fillna(df['age'].mean(),inplace = True)
print(df)

             name   age      weight     A     B     C     D     E     F
0    Mickey Mouse  56.0       70kgs  72.0  69.0  71.0   NaN   NaN   NaN
1     Donald Duck  34.0   154.89lbs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0        None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck  42.4       78kgs  78.0  79.0  72.0   NaN   NaN   NaN
4    Pink Panther  54.0  198.658lbs   NaN   NaN   NaN  69.0   NaN  75.0
6     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0


In [5]:
# 2. 填充高频值
age_maxf = df['D'].value_counts().index[0]
df['D'].fillna(age_maxf,inplace=True)
print(df)

             name   age      weight     A     B     C     D     E     F
0    Mickey Mouse  56.0       70kgs  72.0  69.0  71.0  68.0   NaN   NaN
1     Donald Duck  34.0   154.89lbs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0        None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck  42.4       78kgs  78.0  79.0  72.0  68.0   NaN   NaN
4    Pink Panther  54.0  198.658lbs   NaN   NaN   NaN  69.0   NaN  75.0
6     Huey McDuck  52.0      189lbs   NaN   NaN   NaN  68.0  75.0  72.0


# 2.全面性

In [6]:
# 单位统一
# 获取weight数列中单位为lbs的数据
rows_with_lbs = df['weight'].str.contains('lbs').fillna(False)
print(df[rows_with_lbs])

# 将lbs转换为kgs, 2.2lbs=1kgs
for i,lbs_row in df[rows_with_lbs].iterrows():
    # 截取从头开始到倒数第三个字符之前，即去掉lbs
    weight = int(float(lbs_row['weight'][:-3])/2.2)
    df.at[i,'weight'] = '{}kgs'.format(weight)
    
print(df)

           name   age      weight   A   B   C     D     E     F
1   Donald Duck  34.0   154.89lbs NaN NaN NaN  85.0  84.0  76.0
4  Pink Panther  54.0  198.658lbs NaN NaN NaN  69.0   NaN  75.0
6   Huey McDuck  52.0      189lbs NaN NaN NaN  68.0  75.0  72.0
             name   age weight     A     B     C     D     E     F
0    Mickey Mouse  56.0  70kgs  72.0  69.0  71.0  68.0   NaN   NaN
1     Donald Duck  34.0  70kgs   NaN   NaN   NaN  85.0  84.0  76.0
2      Mini Mouse  16.0   None   NaN   NaN   NaN  65.0  69.0  72.0
3  Scrooge McDuck  42.4  78kgs  78.0  79.0  72.0  68.0   NaN   NaN
4    Pink Panther  54.0  90kgs   NaN   NaN   NaN  69.0   NaN  75.0
6     Huey McDuck  52.0  85kgs   NaN   NaN   NaN  68.0  75.0  72.0


# 3.合理性

* 删除非 ASCII 字符
* df['first_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True)
* df['last_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True)

# 4.唯一性

In [7]:
# 一列有多个参数
# 切分名字
df[['first_name','last_name']] = df['name'].str.split(expand=True)
df.drop('name',axis=1,inplace=True)
print(df)

    age weight     A     B     C     D     E     F first_name last_name
0  56.0  70kgs  72.0  69.0  71.0  68.0   NaN   NaN     Mickey     Mouse
1  34.0  70kgs   NaN   NaN   NaN  85.0  84.0  76.0     Donald      Duck
2  16.0   None   NaN   NaN   NaN  65.0  69.0  72.0       Mini     Mouse
3  42.4  78kgs  78.0  79.0  72.0  68.0   NaN   NaN    Scrooge    McDuck
4  54.0  90kgs   NaN   NaN   NaN  69.0   NaN  75.0       Pink   Panther
6  52.0  85kgs   NaN   NaN   NaN  68.0  75.0  72.0       Huey    McDuck
