In [14]:
import pandas as pd
import numpy as np

data = {
    'user' : ['zszxz','zszxz','rose'],
    'price' : [100, 200, -300],
    'hobby' : ['reading','reading','hiking']
}
frame  = pd.DataFrame(data)
print(frame)

    user  price    hobby
0  zszxz    100  reading
1  zszxz    200  reading
2   rose   -300   hiking


### 一、定位重复值

In [6]:
frame.duplicated()

0    False
1    False
2    False
dtype: bool

In [13]:
frame[frame.duplicated(subset=['user'])]

Unnamed: 0,user,price,hobby
1,zszxz,200,reading


In [14]:
frame[frame.duplicated(subset=['user'], keep=False)]

Unnamed: 0,user,price,hobby
0,zszxz,100,reading
1,zszxz,200,reading


In [15]:
frame[frame.duplicated(subset=['user','hobby'], keep='last')]

Unnamed: 0,user,price,hobby
0,zszxz,100,reading


### 二、删除重复值

删除重复值会用到`drop_duplicates`函数。

和`duplicated()`函数参数类似，主要有3个参数：
- `subset`：同`duplicated()`，设置去重的字段
- `keep`: 这里稍有不同，`duplicated()`中是将除设置值以外重复值都返回`True`，而这里是保留的意思。同样可以设置`first`、`last`、`False`

   - `first`：保留第一次出现的重复行，删除其他重复行
   - `last`：保留最后一次出现的重复行，删除其他重复行
   - `False`：删除所有重复行
- `inplace`：布尔值，默认为`False`，是否直接在原数据上删除重复项或删除重复项后返回副本。

In [16]:
# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(inplace=True)
print(frame)

    user  price    hobby
0  zszxz    100  reading
1  zszxz    200  reading
2   rose   -300   hiking


In [17]:
# 按user字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user'],inplace=True)
print(frame)

    user  price    hobby
0  zszxz    100  reading
2   rose   -300   hiking


上面按`user`字段删除重复行，保留第一个重复行，因此第二行被删除了。但这里大家注意下，**执行删除重复行操作后，表的索引也会被删掉。**


如需要重置可以加上`reset_index()`，设置`drop=True`，用索引替代被打乱的索引。

In [28]:
frame.drop_duplicates(subset=['user'],inplace=True)
frame.reset_index(drop=True)

Unnamed: 0,user,price,hobby
0,zszxz,100,reading
1,rose,-300,hiking


In [31]:
# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user','hobby'],keep='last',inplace=True)
print(frame)

    user  price    hobby
1  zszxz    200  reading
2   rose   -300   hiking


In [33]:
# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user','hobby'],keep=False,inplace=True)
print(frame)

   user  price   hobby
2  rose   -300  hiking


In [23]:
# 先进行排序
frame.sort_values(by=['user','price'],ascending=True).reset_index(drop=True)

Unnamed: 0,user,price,hobby
0,rose,-300,hiking
1,zszxz,100,reading
2,zszxz,200,reading
