# 数据清理

In [1]:
import pandas as pd

## 一、修改索引和列名

In [2]:
#倒入需要清理的数据，并把第一列作为索引
df_personal_info = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example1.csv", index_col=0)
df_personal_info

Unnamed: 0,客户_姓名,客户 性别,age,邮箱
1,李十,女,58,yVaQXekW@example.com
2_,冯三,男,27,LctXbrEM@example.com
3,吴十,男,32,UyTYBzUZ@example.com
4,王十,女,58,KCixgciF@example.com
_5,钱十,女,27,nqRBXOtA@example.com
6*,赵八,女,51,GyKwILAL@example.com


### 1.修改索引与列名

In [3]:
#重命名索引和列名（逐个修改）——rename
df_personal_info = df_personal_info.rename(index={"2_":"2", "_5":"5", "6*":"6"})
df_personal_info = df_personal_info.rename(columns={"客户_姓名":"客户姓名", "客户 性别":"客户性别", "age":"客户年龄", "邮箱":"客户邮箱"})
df_personal_info

Unnamed: 0,客户姓名,客户性别,客户年龄,客户邮箱
1,李十,女,58,yVaQXekW@example.com
2,冯三,男,27,LctXbrEM@example.com
3,吴十,男,32,UyTYBzUZ@example.com
4,王十,女,58,KCixgciF@example.com
5,钱十,女,27,nqRBXOtA@example.com
6,赵八,女,51,GyKwILAL@example.com


### 2.批量修改索引与列名

In [4]:
#传入需要修改的数据
df_Sales = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example2.csv")
df_Sales

Unnamed: 0,Date,Amount,Salesperson,Location
0,2022-01-01,1000,Alice,New York
1,2022-01-02,1500,Bob,San Francisco
2,2022-01-03,800,Charlie,New York
3,2022-01-04,1200,David,San Francisco


#### （1）将列名全部改为大写

In [5]:
#将列名全部改为大写
df_Sales = df_Sales.rename(columns=str.upper)
df_Sales

Unnamed: 0,DATE,AMOUNT,SALESPERSON,LOCATION
0,2022-01-01,1000,Alice,New York
1,2022-01-02,1500,Bob,San Francisco
2,2022-01-03,800,Charlie,New York
3,2022-01-04,1200,David,San Francisco


#### （2）将某列作为索引

In [6]:
#将某列作为索引——set_index
df_Sales = df_Sales.set_index("SALESPERSON")
df_Sales

Unnamed: 0_level_0,DATE,AMOUNT,LOCATION
SALESPERSON,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alice,2022-01-01,1000,New York
Bob,2022-01-02,1500,San Francisco
Charlie,2022-01-03,800,New York
David,2022-01-04,1200,San Francisco


In [7]:
#重设索引并将原索引返还为一列——reset_index
df_Sales = df_Sales.reset_index()
df_Sales

Unnamed: 0,SALESPERSON,DATE,AMOUNT,LOCATION
0,Alice,2022-01-01,1000,New York
1,Bob,2022-01-02,1500,San Francisco
2,Charlie,2022-01-03,800,New York
3,David,2022-01-04,1200,San Francisco


### 3.对索引进行排序

In [8]:
#传入需要修改的数据
df_clients = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example3.csv", index_col=0)
df_clients

Unnamed: 0,客户姓名,客户性别,客户年龄,客户邮箱
a,李十,女,58,yVaQXekW@example.com
c,冯三,男,27,LctXbrEM@example.com
b,吴十,男,32,UyTYBzUZ@example.com
e,王十,女,58,KCixgciF@example.com
d,钱十,女,27,nqRBXOtA@example.com
f,赵八,女,51,GyKwILAL@example.com


In [9]:
#对索引和列名进行重新排序——sort_index
df_clients.sort_index()

Unnamed: 0,客户姓名,客户性别,客户年龄,客户邮箱
a,李十,女,58,yVaQXekW@example.com
b,吴十,男,32,UyTYBzUZ@example.com
c,冯三,男,27,LctXbrEM@example.com
d,钱十,女,27,nqRBXOtA@example.com
e,王十,女,58,KCixgciF@example.com
f,赵八,女,51,GyKwILAL@example.com


In [10]:
#补充：以某一列的值进行排序——sort_values
df_clients.sort_values("客户年龄")

Unnamed: 0,客户姓名,客户性别,客户年龄,客户邮箱
c,冯三,男,27,LctXbrEM@example.com
d,钱十,女,27,nqRBXOtA@example.com
b,吴十,男,32,UyTYBzUZ@example.com
f,赵八,女,51,GyKwILAL@example.com
a,李十,女,58,yVaQXekW@example.com
e,王十,女,58,KCixgciF@example.com


## 二、清理结构

### 1.对数据进行转置

In [11]:
#传入需要修改的数据
df_info_1 = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example4.csv", index_col=0)
df_info_1

Unnamed: 0,0,1,2
姓名,张三,李四,王五
年龄,30,25,28
地址,北京,上海,广州


In [12]:
#对数据进行转置
df_info_1.T

Unnamed: 0,姓名,年龄,地址
0,张三,30,北京
1,李四,25,上海
2,王五,28,广州


### 2.对列进行拆分

In [13]:
#传入需要修改的数据
df_city = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example5.csv")
df_city

Unnamed: 0,城市,人口密度
0,城市A,28.53万人/0.87平方公里
1,城市B,37.83万人/2.19平方公里
2,城市C,15.3万人/1.57平方公里


In [14]:
#对列中的数据拆分成列表
df_city["人口密度"].str.split("/")

0    [28.53万人, 0.87平方公里]
1    [37.83万人, 2.19平方公里]
2     [15.3万人, 1.57平方公里]
Name: 人口密度, dtype: object

In [15]:
#对列中的数据拆分成单独的Series
df_city["人口密度"].str.split("/", expand=True)

Unnamed: 0,0,1
0,28.53万人,0.87平方公里
1,37.83万人,2.19平方公里
2,15.3万人,1.57平方公里


In [16]:
#把拆分的列添加进原来的dataframe
df_city[["人口", "面积"]] = df_city["人口密度"].str.split("/", expand=True)
df_city

Unnamed: 0,城市,人口密度,人口,面积
0,城市A,28.53万人/0.87平方公里,28.53万人,0.87平方公里
1,城市B,37.83万人/2.19平方公里,37.83万人,2.19平方公里
2,城市C,15.3万人/1.57平方公里,15.3万人,1.57平方公里


In [17]:
#把被拆分的列删除
df_city.drop("人口密度", axis=1)

Unnamed: 0,城市,人口,面积
0,城市A,28.53万人,0.87平方公里
1,城市B,37.83万人,2.19平方公里
2,城市C,15.3万人,1.57平方公里


### 3.对行进行拆分

In [18]:
#传入需要修改的数据
df_courses = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example7.csv")
df_courses

Unnamed: 0,学生姓名,学号,课程列表
0,张三,1,"['数学', '物理']"
1,李四,2,"['英语', '化学', '历史']"
2,王五,3,"['语文', '数学', '英语', '政治']"
3,赵六,4,"['物理', '生物']"


In [19]:
#对行进行拆分——explode
df_courses.explode("课程列表")

Unnamed: 0,学生姓名,学号,课程列表
0,张三,1,"['数学', '物理']"
1,李四,2,"['英语', '化学', '历史']"
2,王五,3,"['语文', '数学', '英语', '政治']"
3,赵六,4,"['物理', '生物']"


### 4.将宽数据转换为长数据

In [20]:
#传入需要修改的数据
df_national_ages = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example6.csv")
df_national_ages

Unnamed: 0,国家代码,年份,男性年龄组（0-4岁）,男性年龄组（5-14岁）,男性年龄组（15-24岁）,女性年龄组（0-4岁）,女性年龄组（5-14岁）,女性年龄组（15-24岁）
0,CN,2019,100,200,500,80,150,400
1,US,2019,50,150,300,40,100,200
2,JP,2019,30,120,250,20,80,150
3,IN,2019,80,180,400,60,120,300


In [21]:
#将宽数据转换成长数据——melt
pd.melt(df_national_ages, id_vars=["国家代码", "年份"], var_name="年龄组", value_name="肺结核病例数")

Unnamed: 0,国家代码,年份,年龄组,肺结核病例数
0,CN,2019,男性年龄组（0-4岁）,100
1,US,2019,男性年龄组（0-4岁）,50
2,JP,2019,男性年龄组（0-4岁）,30
3,IN,2019,男性年龄组（0-4岁）,80
4,CN,2019,男性年龄组（5-14岁）,200
5,US,2019,男性年龄组（5-14岁）,150
6,JP,2019,男性年龄组（5-14岁）,120
7,IN,2019,男性年龄组（5-14岁）,180
8,CN,2019,男性年龄组（15-24岁）,500
9,US,2019,男性年龄组（15-24岁）,300


补充：melt方法  

pd.melt(dataframe_name, id_vars=["column1", "column2"], var_name="name_of_transfer_column", value_name="name_of_values")

其中dataframe_name为需要转换的dataframe  

column1、column2为需要保存的列  

name_of_transfer_column为将列转换成数值之后的列命名  

name_of_values为对数值形成的新列的命名


### 5.对行或列进行删除

In [22]:
#传入需要修改的数据
df_grades = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example8.csv")
df_grades

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
2,小王,86,81,89
3,小张,79,89,95
4,小赵,96,91,91
5,小周,81,89,92


In [23]:
#替换数据（制造重复数据）
s1 = {"姓名":"小王", "考试1":86, "考试2":81, "考试3":89}
df_grades.iloc[5] = s1
df_grades

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
2,小王,86,81,89
3,小张,79,89,95
4,小赵,96,91,91
5,小王,86,81,89


In [24]:
#删除重复数据
df_grades.drop(5)

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
2,小王,86,81,89
3,小张,79,89,95
4,小赵,96,91,91


In [25]:
#删除数据
df_grades.drop(["考试2", "考试3"], axis=1)

Unnamed: 0,姓名,考试1
0,小陈,85
1,小李,91
2,小王,86
3,小张,79
4,小赵,96
5,小王,86


## 三、清理内容

### 1.对缺失值的处理

#### （1）对缺失值进行填充

In [28]:
#传入需要修改的数据
df_sale_info = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example9.csv", index_col=0)
df_sale_info

Unnamed: 0,日期,销售额,销售人员,地址
1,2005/1/1,1000,李华,苏州
2,2005/1/2,1500,王磊,郑州
3,,800,刘娜,南京
4,,1200,张洋,西安


In [29]:
#对缺失的数据进行填充
df_sale_info.loc[3:4, "日期"] = "2005/1/3"
df_sale_info

Unnamed: 0,日期,销售额,销售人员,地址
1,2005/1/1,1000,李华,苏州
2,2005/1/2,1500,王磊,郑州
3,2005/1/3,800,刘娜,南京
4,2005/1/3,1200,张洋,西安


#### （2）自动找到缺失值进行填充

In [30]:
#传入需要修改的数据
df_number = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example10.csv")
df_number

Unnamed: 0,A,B,C
0,3.0,5.0,8.0
1,2.0,,9.0
2,,7.0,10.0
3,4.0,,11.0


In [31]:
#自动找到并填充某列缺失值为特定数值——fillna
df_number["B"] = df_number["B"].fillna(0)
df_number

Unnamed: 0,A,B,C
0,3.0,5.0,8.0
1,2.0,0.0,9.0
2,,7.0,10.0
3,4.0,0.0,11.0


In [32]:
#将某列缺失值填充为平均值
df_number["A"] = df_number["A"].fillna(df_number["A"].mean())
df_number

Unnamed: 0,A,B,C
0,3.0,5.0,8.0
1,2.0,0.0,9.0
2,3.0,7.0,10.0
3,4.0,0.0,11.0


In [33]:
#运用字典一次性填充各列的值
df_number = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example10.csv")
df_number = df_number.fillna({"A":1, "B":2})
df_number

Unnamed: 0,A,B,C
0,3.0,5.0,8.0
1,2.0,2.0,9.0
2,1.0,7.0,10.0
3,4.0,2.0,11.0


#### （3）对缺失值进行删除

In [34]:
#传入需要修改的数据
df_member = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example11.csv")
df_member

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
1,Alice,30.0,,F
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


In [35]:
#删除空缺的行
df_member.dropna(axis=0)

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


In [36]:
#删除特定列的值空缺的行
df_member.dropna(subset=["工资"], inplace=True)
df_member

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


注：想要改变原始dataframe，可以通过inplace

### 2.对重复数据进行删除

In [37]:
#删除重复数据的行——drop_duplicates
df_member.drop_duplicates()

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
5,Amy,40.0,40000.0,F


注：drop_duplicates会把所有行中，第二次出现的所有变量完全一致的行删除

In [38]:
#删除某一特定列中出现重复数据的行
df_member.drop_duplicates(subset=["年龄", "性别"])

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


In [39]:
#从末行开始删除重复数据的行——drop_duplicates
df_member.drop_duplicates(keep = "last")

Unnamed: 0,姓名,年龄,工资,性别
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


注：只有subset中选入的两个列（年龄和性别）的变量完全相同时才会被删除

### 3.对不一致数据进行替换

In [40]:
#传入需要修改的数据
df_students = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example12.csv")
df_students

Unnamed: 0,姓名,家乡,学校
0,小明,江苏,北京大学
1,小红,湖南,复旦大学
2,小华,广东,pku
3,小芳,海南,北大
4,小李,四川,武汉大学


In [41]:
#对不一致数据进行替换
df_students.replace(["北大", "pku"], "北京大学", inplace = True)
df_students

Unnamed: 0,姓名,家乡,学校
0,小明,江苏,北京大学
1,小红,湖南,复旦大学
2,小华,广东,北京大学
3,小芳,海南,北京大学
4,小李,四川,武汉大学


注：replace（被替换元素，替换元素）

### 4.对值的类型进行转换

In [42]:
#导入数据
df_member = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example11.csv")
df_member

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
1,Alice,30.0,,F
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


In [43]:
#查看dataframe各行列信息
df_member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      6 non-null      object 
 1   年龄      5 non-null      float64
 2   工资      5 non-null      float64
 3   性别      6 non-null      object 
dtypes: float64(2), object(2)
memory usage: 320.0+ bytes


In [44]:
#删除空缺值
df_member.dropna(subset=["工资"], inplace=True)
df_member

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F
4,John,25.0,50000.0,M
5,Amy,40.0,40000.0,F


In [46]:
#转变某行数据类型——astype
df_member["工资"] = df_member["工资"].astype(int)

In [47]:
df_member.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      5 non-null      object 
 1   年龄      4 non-null      float64
 2   工资      5 non-null      int64  
 3   性别      5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 200.0+ bytes


补充：pandas中特有的数据类型——category（类别）

例如：男/女；金牌/银牌/铜牌；一年级/二年级/.../六年级等

这类可以划分类别的数据pandas建议将其变为category数据类型，便于后续分析


## 四、保存清洗后的数据

In [48]:
#传入需要修改的数据
df_sectors = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example13.csv")
df_sectors

Unnamed: 0,姓名,部门,工资,级别
0,小张,业务部,12000.0,1
1,小李,业务部,13500.0,2
2,小刘,财务部,,1
3,小陈,人力部,12500.0,3
4,小黄,研发部,14000.0,二
5,小李,业务部,13500.0,2


In [49]:
#对数据进行清洗（填充数据、删除重复数据、替换不一致数据）
df_sectors.drop_duplicates(inplace=True)
df_sectors.loc[2, "工资"] = 12000
df_sectors = df_sectors.replace("二", 2)
df_sectors

Unnamed: 0,姓名,部门,工资,级别
0,小张,业务部,12000.0,1
1,小李,业务部,13500.0,2
2,小刘,财务部,12000.0,1
3,小陈,人力部,12500.0,3
4,小黄,研发部,14000.0,2


In [50]:
#对清洗后的dataframe保存为csv格式
df_sectors.to_csv("example13_clean.csv", index=False)

注：保存会放到原始路径中，如果之前不存在该命名的文件，会创建一个新的文件；如果之前存在该命名的文件，则会覆盖原文件。

如果保存文件中不加上index=False，保存的文件会把索引一起保存起来。

In [51]:
#查看清洗后的数据
df_sectors1 = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Clean/example13_clean.csv")
df_sectors1

Unnamed: 0,姓名,部门,工资,级别
0,小张,业务部,12000.0,1
1,小李,业务部,13500.0,2
2,小刘,财务部,12000.0,1
3,小陈,人力部,12500.0,3
4,小黄,研发部,14000.0,2
