pandas 的 DataFrame.drop_duplicates 函数用于移除 DataFrame 中的重复行。这个函数特别有用于清理数据，保证数据的唯一性。在处理包含大量重复数据的数据集时，这个函数能帮助提升数据分析的准确性和效率。

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

**功能**
drop_duplicates 用于删除 DataFrame 中的重复行。

**参数**
subset: column label 或 sequence of labels, 可选。用来指定一个或多个列进行重复项比较。默认为使用所有列。
keep: {'first', 'last', False}, 默认为 'first'。确定在发现重复项时保留哪一项。'first' 保留第一次出现的重复项，'last' 保留最后一次，而 False 则会删除所有重复项。
inplace: bool, 默认为 False。如果为 True，则在原地修改 DataFrame，不返回任何值。
ignore_index: bool, 默认为 False。如果为 True，则在删除重复项后，重置索引。

In [4]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.array([
    [1,2,3],
    [3,4,5],
    [1,2,3],
    [6,2,4]
]), columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
2,1,2,3
3,6,2,4


删除重复的行

In [2]:
df.drop_duplicates()

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
3,6,2,3


指定比较的列，只要这些列重复就删除

In [3]:
df.drop_duplicates(subset=['B'])

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5


In [5]:
df.drop_duplicates(subset=['B','C'])

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
3,6,2,4


keep参数，可以用False指定只要有重复的就全部删除（一个也不留），也可以用‘First’和‘Last’指定保留重复的第一个还是最后一个

In [6]:
df.drop_duplicates(keep=False)

Unnamed: 0,A,B,C
1,3,4,5
3,6,2,4


In [7]:
df.drop_duplicates(keep='first')

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
3,6,2,4


In [8]:
df.drop_duplicates(keep='last')

Unnamed: 0,A,B,C
1,3,4,5
2,1,2,3
3,6,2,4


ignore_index设置为True表示要重新更新索引

In [9]:
df.drop_duplicates(ignore_index=True)

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
2,6,2,4
