## 数据去重

在分析和处理数据时，可能会遇到重复的行或数据，这会影响后续的分析结果。Pandas 提供了方便的方法来检测和去除这些重复项。

### 1. 检查重复数据
使用 DataFrame.duplicated() 方法可以检查 DataFrame 中是否存在重复的行。

In [9]:
import pandas as pd

# 创建一个示例 DataFrame
data = {
    '姓名': ['Alice', 'Bob', 'Alice', 'Charlie'],
    '年龄': [25, 35, 25, 35],
    '城市': ['北京', '上海', '北京', '广州']
}

df = pd.DataFrame(data)
print(df)

print("-" * 30)
# 检查重复行
duplicates = df.duplicated()
print(duplicates)

        姓名  年龄  城市
0    Alice  25  北京
1      Bob  35  上海
2    Alice  25  北京
3  Charlie  35  广州
------------------------------
0    False
1    False
2     True
3    False
dtype: bool


### 2. 删除重复数据

通过 DataFrame.drop_duplicates() 方法可以删除重复的行。默认情况下，该方法会保留第一次出现的记录。

In [7]:
# 删除重复的行
df_no_duplicates = df.drop_duplicates()

print(df_no_duplicates)

        姓名  年龄  城市
0    Alice  25  北京
1      Bob  30  上海
3  Charlie  35  广州


### 3. 指定列进行去重

你可以选择基于特定的列去重，而不是全行去重。这可以通过 subset 参数来实现。

In [11]:
# 基于 '姓名' 列去重
df_unique_names = df.drop_duplicates(subset='年龄')

print(df_unique_names)

      姓名  年龄  城市
0  Alice  25  北京
1    Bob  35  上海


### 4. 保留最后一条记录

drop_duplicates() 方法还允许你选择保留最后一次出现的记录，通过设置 keep 参数为 'last'。

In [12]:
# 保留最后一次出现的记录
df_keep_last = df.drop_duplicates(keep='last')

print(df_keep_last)

        姓名  年龄  城市
1      Bob  35  上海
2    Alice  25  北京
3  Charlie  35  广州
