In [5]:
import pandas as pd
import numpy as np

**复习任务：将所有以“任务X”开头的单元格补全**

## 对整列缺失值进行填充

In [6]:
# 创建示例 DataFrame
df1 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df1 = df1.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})
df1['国家'] = np.nan

In [7]:
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,
2,2005-01-02,1500,王磊,郑州,
3,2005-01-03,800,刘娜,南京,
4,2005-01-03,1200,张洋,西安,


In [8]:
# 任务1：
# 把df1“国家”列的缺失值全部替换成“中国”，并输出d1，验证改变生效
df1['国家'] = '中国'
df1



Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,中国
2,2005-01-02,1500,王磊,郑州,中国
3,2005-01-03,800,刘娜,南京,中国
4,2005-01-03,1200,张洋,西安,中国


## 对某个缺失值进行填充

In [9]:
# 创建示例 DataFrame
df2 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, np.nan, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df2 = df2.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})

In [10]:
df2

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


In [11]:
# 任务2：
# 把df2里唯一的缺失值填充为800，并输出d2，验证改变生效
df2.loc['003', '销售额'] = 800
df2



Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,800.0,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


## 对部分缺失值进行填充

In [12]:
# 创建示例 DataFrame
df3 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', np.nan, np.nan],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df3 = df3.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})

In [13]:
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,,800,刘娜,南京
4,,1200,张洋,西安


In [14]:
# 任务3：
# 把df3里缺失的日期都填充为“2005-01-03”，并输出d3，验证改变生效
df3.loc['003':'004', '日期'] = '2005-01-03'
df3



Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,2005-01-03,800,刘娜,南京
4,2005-01-03,1200,张洋,西安


## 自动找到缺失值进行填充

In [15]:
# 创建示例 DataFrame
df4 = pd.DataFrame({'A': [1, 2, np.nan, 4],
                    'B': [5, np.nan, 7, np.nan],
                    'C': [8, 9, 10, 11]})
df4

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,,9
2,,7.0,10
3,4.0,,11


In [16]:
# 任务4：
# 输出把df4的“B”列里的空缺值，全部用0填充后的Series结果
df4['B'].fillna(0)



0    5.0
1    0.0
2    7.0
3    0.0
Name: B, dtype: float64

In [17]:
# 任务5：
# 输出把df4的“B”列里的空缺值，全部用“B”列平均值填充后的Series结果
df4['B'].fillna(df4['B'].mean())



0    5.0
1    6.0
2    7.0
3    6.0
Name: B, dtype: float64

In [18]:
# 任务6：
# 输出把df4里的空缺值，全部用0填充后的结果（不改变df4本身）
df4.fillna(0)



Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,0.0,9
2,0.0,7.0,10
3,4.0,0.0,11


In [19]:
# 任务7：
# 输出把df4里的“A”列空缺值用0填充、“B”列空缺值用10填充、“C”列空缺值用20填充后的结果（不改变df4本身）
df4.fillna({'A': 0, 'B': 10, 'C': 20})



Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,10.0,9
2,0.0,7.0,10
3,4.0,10.0,11


In [21]:
# 任务8：
# 把df4里的空缺值，全部用0填充（需要改变df4本身）
df4.fillna(0, inplace=True)
df4


Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,0.0,9
2,0.0,7.0,10
3,4.0,0.0,11


## 删除存在缺失值的行/列

In [22]:
# 创建示例 DataFrame
df5 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Mary'],
    '年龄': [25, 30, np.nan, 40],
    '工资': [50000, np.nan, 70000, 60000],
    '性别': ['M', 'F', 'M', 'F']
})
df5

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
1,Alice,30.0,,F
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


In [23]:
# 任务9：
# 输出把df5里带空缺值的行删除后的结果（不改变df5本身）
df5.dropna()



Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
3,Mary,40.0,60000.0,F


In [27]:
# 任务10：
# 输出把df5里“工资”变量空缺的行删除后的结果（不改变df5本身）
df5.dropna(subset=['工资'])



Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


In [28]:
# 任务11：
# 输出把df5里带空缺值的列删除后的结果（不改变df5本身）
df5.dropna(axis=1)



Unnamed: 0,姓名,性别
0,John,M
1,Alice,F
2,Bob,M
3,Mary,F


In [29]:
# 任务12：
# 输出把df5索引为1、2的行范围里，带空缺值的列删除后的结果（不改变df5本身）
df5.dropna(axis=1, subset=[1, 2])



Unnamed: 0,姓名,性别
0,John,M
1,Alice,F
2,Bob,M
3,Mary,F


## 删除重复数据

In [30]:
df6 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Alice', 'John'],
    '年龄': [25, 30, 35, 30, 40],
    '性别': ['M', 'F', 'M', 'F', 'M']
})
df6

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
3,Alice,30,F
4,John,40,M


In [31]:
# 任务13：
# 输出把df6里重复的行删除后的结果（不改变df6本身）
df6.drop_duplicates()



Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
4,John,40,M


In [32]:
# 任务14：
# 输出把df6“姓名”列里重复的值删除后的Series结果
df6['姓名'].drop_duplicates()



0     John
1    Alice
2      Bob
Name: 姓名, dtype: object

In [33]:
# 任务15：
# 输出把df6里“姓名”和“性别”变量同时重复的行删除后的结果（不改变df6本身）
df6.drop_duplicates(subset=["姓名", "性别"])



Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M


In [34]:
# 任务16：
# 输出把df6里“姓名”和“性别”变量同时重复的行删除后的结果，并且删除重复时保留最后出现的行（不改变df6本身）
df6.drop_duplicates(subset=["姓名", "性别"], keep="last")




Unnamed: 0,姓名,年龄,性别
2,Bob,35,M
3,Alice,30,F
4,John,40,M


In [36]:
# 任务17
# 把df6里重复的行删除（改变df6本身）
df6.drop_duplicates(inplace=True)
df6


Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
4,John,40,M


## 对值进行替换

In [37]:
data = {'姓名': ['小明', '小红', '小张', '小李'],
        '家乡': ['北京', '上海', '广州', '深圳'],
        '学校': ['北京大学', '清华大学', '华南理工', '清华']}
df7 = pd.DataFrame(data)
df7

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华


In [38]:
# 任务18
# 输出把df7“学校”列里的“清华”替换成“清华大学”后的结果Series
df7["学校"].replace("清华", "清华大学")



0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [40]:
# 任务19
# 输出把df7里所有“清华”替换成“清华大学”后的结果（不改变df7本身）
df7.replace("清华", "清华大学")



Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华大学


In [41]:
# 任务20
# 输出把df7里所有“清华”、"五道口职业技术学院"、"Tsinghua University"替换成“清华大学”后的结果（不改变df7本身）
df7["学校"].replace(["清华", "五道口职业技术学院", "Tsinghua University"], "清华大学")



0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [42]:
# 任务21
# 输出对df7进行以下值替换后的结果（不改变df7本身）
# '华南理工' -> '华南理工大学'
# '清华' -> '清华大学'
# '北大' -> '北京大学'
# '中大' -> '中山大学'
replace_dict = {
    '华南理工': '华南理工大学',
    '清华': '清华大学',
    '北大': '北京大学',
    '中大': '中山大学',
}
df7.replace(replace_dict)



Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工大学
3,小李,深圳,清华大学


## 对值的类型进行转换

In [43]:
s1 = pd.Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [45]:
# 任务22
# 输出把s1里的元素转换为浮点数类型后的结果（不改变s1本身）
s1.astype('float')



0    1.0
1    2.0
2    3.0
dtype: float64

In [48]:
# 任务23
# 输出把s1里的元素转换为字符串类型后的结果（不改变s1本身）
s1.astype(str)



0    1
1    2
2    3
dtype: object

In [49]:
s2 = pd.Series(["红色", "红色", "橙色", "蓝色"])
s2

0    红色
1    红色
2    橙色
3    蓝色
dtype: object

In [50]:
# 任务24
# 输出把s2里的元素转换为category类型后的结果（不改变s1本身）
s2.astype('category')



0    红色
1    红色
2    橙色
3    蓝色
dtype: category
Categories (3, object): ['橙色', '红色', '蓝色']