pandas 的 DataFrame.duplicated 函数用于标识重复的行。它返回一个布尔型 Series，表示每行是否为重复行（除了第一次出现外）。与 drop_duplicates 函数相辅相成，duplicated 允许你检查数据中的重复项而不直接删除它们，这在数据清理和分析过程中非常有用，特别是当你想要理解数据中重复项的性质时。

DataFrame.duplicated(subset=None, keep='first')

**功能**
标识 DataFrame 中的重复行。

**参数**
subset: column label 或 sequence of labels, 可选。用于定义哪些列用于识别重复。默认情况下，使用所有列。
keep: {'first', 'last', False}, 默认为 'first'。这个参数决定了哪些重复项被标记为 True。'first' 会标记除了第一次出现之外的所有重复为 True，'last' 会标记除了最后一次出现之外的重复为 True，而 False 会标记所有重复项为 True。

In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.array([
    [1,2,3],
    [3,4,5],
    [1,2,3],
    [6,2,4]
]), columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,3,4,5
2,1,2,3
3,6,2,4


In [None]:
duplicated返回的是一个Series， 用True，False表示是否与其他行重复。
注意如果keep=True（缺省值），那么第一个出现的不算重复，显示为False。
因为True相当于1，False相当0，所以可以用sum求和，得到重复的行的数量。

In [2]:
df.duplicated()

0    False
1    False
2     True
3    False
dtype: bool

In [3]:
df.duplicated(keep=False)

0     True
1    False
2     True
3    False
dtype: bool

In [4]:
df.duplicated().sum()

1