In [1]:
import pandas as pd
import numpy as np

## 对整列缺失值进行填充

In [2]:
# 创建示例 DataFrame
df1 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df1 = df1.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})
df1['国家'] = np.nan

In [3]:
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,
2,2005-01-02,1500,王磊,郑州,
3,2005-01-03,800,刘娜,南京,
4,2005-01-03,1200,张洋,西安,


In [4]:
df1["国家"] = "中国"
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,中国
2,2005-01-02,1500,王磊,郑州,中国
3,2005-01-03,800,刘娜,南京,中国
4,2005-01-03,1200,张洋,西安,中国


## 对某个缺失值进行填充

In [5]:
# 创建示例 DataFrame
df2 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, np.nan, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df2 = df2.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})

In [6]:
df2

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


In [7]:
df2.loc["003", "销售额"] = 800
df2

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,800.0,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


## 对部分缺失值进行填充

In [8]:
# 创建示例 DataFrame
df3 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', np.nan, np.nan],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df3 = df3.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})

In [9]:
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,,800,刘娜,南京
4,,1200,张洋,西安


In [10]:
df3.loc["003":"004", "日期"] = "2005-01-03"
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,2005-01-03,800,刘娜,南京
4,2005-01-03,1200,张洋,西安


## 自动找到缺失值进行填充

In [11]:
# 创建示例 DataFrame
df4 = pd.DataFrame({'A': [1, 2, np.nan, 4],
                   'B': [5, np.nan, 7, np.nan],
                   'C': [8, 9, 10, 11]})
df4

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,,9
2,,7.0,10
3,4.0,,11


In [13]:
df4["B"].fillna(0)

0    5.0
1    0.0
2    7.0
3    0.0
Name: B, dtype: float64

In [14]:
df4["B"].fillna(df4["B"].mean())

0    5.0
1    6.0
2    7.0
3    6.0
Name: B, dtype: float64

In [15]:
df4.fillna(0)

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,0.0,9
2,0.0,7.0,10
3,4.0,0.0,11


In [16]:
df4.fillna({'A': 0, 'B': 10, 'C': 20})

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,10.0,9
2,0.0,7.0,10
3,4.0,10.0,11


In [17]:
df4.fillna(0, inplace=True)
df4

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,0.0,9
2,0.0,7.0,10
3,4.0,0.0,11


## 删除存在缺失值的行/列

In [18]:
# 创建示例 DataFrame
df5 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Mary'],
    '年龄': [25, 30, np.nan, 40],
    '工资': [50000, np.nan, 70000, 60000],
    '性别': ['M', 'F', 'M', 'F']
})
df5

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
1,Alice,30.0,,F
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


In [19]:
df5.dropna()

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
3,Mary,40.0,60000.0,F


In [20]:
df5.dropna(subset=["工资"])

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


In [21]:
df5.dropna(axis=1)

Unnamed: 0,姓名,性别
0,John,M
1,Alice,F
2,Bob,M
3,Mary,F


In [22]:
df5.dropna(axis=1, subset=[1, 2])

Unnamed: 0,姓名,性别
0,John,M
1,Alice,F
2,Bob,M
3,Mary,F


## 删除重复数据

In [23]:
df6 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Alice', 'John'],
    '年龄': [25, 30, 35, 30, 40],
    '性别': ['M', 'F', 'M', 'F', 'M']
})
df6

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
3,Alice,30,F
4,John,40,M


In [24]:
df6["姓名"].drop_duplicates()

0     John
1    Alice
2      Bob
Name: 姓名, dtype: object

In [25]:
df6.drop_duplicates()

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
4,John,40,M


In [26]:
df6.drop_duplicates(subset=['姓名', '性别'])

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M


In [27]:
df6.drop_duplicates(subset=['姓名', '性别'], keep='last')

Unnamed: 0,姓名,年龄,性别
2,Bob,35,M
3,Alice,30,F
4,John,40,M


In [28]:
df6.drop_duplicates(inplace=True)
df6

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
4,John,40,M


## 对值进行替换

In [29]:
data = {'姓名': ['小明', '小红', '小张', '小李'],
        '家乡': ['北京', '上海', '广州', '深圳'],
        '学校': ['北京大学', '清华大学', '华南理工', '清华']}
df7 = pd.DataFrame(data)
df7

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华


In [30]:
df7["学校"].replace("清华", "清华大学")

0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [31]:
df7.replace("清华", "清华大学")

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华大学


In [32]:
df7["学校"].replace(["清华", "五道口职业技术学院", "Tsinghua University"], "清华大学")

0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [33]:
df7.replace(["清华", "五道口职业技术学院", "Tsinghua University"], "清华大学")

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华大学


In [34]:
replace_dict = {'华南理工': '华南理工大学',
                '清华': '清华大学',
                '北大': '北京大学',
                '中大': '中山大学'}
df7.replace(replace_dict)

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工大学
3,小李,深圳,清华大学


## 对值的类型进行转换

In [35]:
s1 = pd.Series([1, 2, 3])
s1.astype("float")

0    1.0
1    2.0
2    3.0
dtype: float64

In [36]:
type("3")

str

In [37]:
type(3)

int

In [38]:
type(3.0)

float

In [39]:
type([1, 2])

list

In [40]:
type(True)

bool

In [41]:
s1

0    1
1    2
2    3
dtype: int64

In [42]:
s1.astype(str)

0    1
1    2
2    3
dtype: object

In [43]:
s2 = pd.Series(["红色", "红色", "橙色", "蓝色"])
s2.astype("category")

0    红色
1    红色
2    橙色
3    蓝色
dtype: category
Categories (3, object): ['橙色', '红色', '蓝色']