# Removendo linhas duplicadas no Pandas



In [1]:
import pandas as pd
import numpy as np

In [2]:
# read a dataset of movie reviwers into a Dataframe

colunas = ['user_id', 'age', 'gender','occupation', 'zip_code']
usuarios = pd.read_table("Duplicadas.txt", sep='|', header=None, names=colunas)
usuarios.head(10)

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,1,24,M,technician,85711
4,4,24,M,technician,43537
5,5,33,F,other,15213
6,5,33,F,other,15213
7,1,24,M,rechnician,85711


In [3]:
# Verificando linhas e colunas

usuarios.shape

(8, 5)

In [4]:
# Procurando por CEPS duplicados

usuarios.zip_code.duplicated().head(10)

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
Name: zip_code, dtype: bool

In [5]:
# Como aprendemos, uma serie boolena pode ser convertida em 0 e 1 automaticamente ao utilizarmos métodos de agregação

usuarios.zip_code.duplicated().sum()

3

In [6]:
# verificando se uma linha inteira é duplicada

usuarios.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7    False
dtype: bool

In [7]:
# Contando as linhas duplicadas

usuarios.duplicated().sum()

2

In [8]:
# mantendo a primeira linha

usuarios.loc[usuarios.duplicated(keep='first'), :]

Unnamed: 0,user_id,age,gender,occupation,zip_code
3,1,24,M,technician,85711
6,5,33,F,other,15213


In [9]:
usuarios.loc[usuarios.duplicated(keep='last'), :]

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
5,5,33,F,other,15213


In [10]:
# Todas as linhas duplicadas

usuarios.loc[usuarios.duplicated(keep=False), :]

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
3,1,24,M,technician,85711
5,5,33,F,other,15213
6,5,33,F,other,15213


In [11]:
# Apagando as linhas duplicadas (inplace= False por default) Shape do Dataset que ficou

usuarios.drop_duplicates(keep='first').shape

(6, 5)

In [12]:
usuarios.drop_duplicates(keep='last').shape

(6, 5)

In [14]:
usuarios.drop_duplicates(keep=False).shape

(4, 5)

# Utilizando o maior arquivo

In [15]:
# read a datasetof movie review into a Dataframe

colunas = ['user_id','age','gender','occupation','zip_code']
usuarios = pd.read_table('espectadores.txt', sep='|', header=None, names=colunas, index_col='user_id')
usuarios.head()

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
4,24,M,technician,43537
5,33,F,other,15213


In [16]:
# Verificando linhas e colunas

usuarios.shape

(943, 4)

# Encontrando linha duplicadas com duplicated()

In [18]:
# Procurando ceps duplicados

usuarios.zip_code.duplicated().head(20)

user_id
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
Name: zip_code, dtype: bool

In [19]:
# Como aprendemos, uma serie boolenana pode ser convertida em 0 e 1 automaticamente ao utilizarmos métodos de agregação.

usuarios.zip_code.duplicated().sum()

148

In [20]:
# Verificando se uma LINHA INTEIRA é duplicada]

usuarios.duplicated().tail()

user_id
939    False
940    False
941    False
942    False
943    False
dtype: bool

In [21]:
# Contando linhas duplas

usuarios.duplicated().sum()

7

### Regras para o método duplicated()

 - keep='first' (default): Marca as linhas duplicadas como TRUE, Menos a primeira ocorrência.
 - keep='last': Marcas as linhas duplicadas como FALSE, MENOS a última ocorrência.
 - keep=False: Marca todas as duplicadas como TRUE.

In [22]:
# Mantendo a primeira linha

usuarios.loc[usuarios.duplicated(keep='first'), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
496,21,F,student,55414
572,51,M,educator,20003
621,17,M,student,60402
684,28,M,student,55414
733,44,F,other,60630
805,27,F,other,20009
890,32,M,student,97301


In [23]:
# Mantendo a ultima linha

usuarios.loc[usuarios.duplicated(keep='last'), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
67,17,M,student,60402
85,51,M,educator,20003
198,21,F,student,55414
350,32,M,student,97301
428,28,M,student,55414
437,27,F,other,20009
460,44,F,other,60630


In [24]:
# Todas as linhas duplicadas

usuarios.loc[usuarios.duplicated(keep=False), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
67,17,M,student,60402
85,51,M,educator,20003
198,21,F,student,55414
350,32,M,student,97301
428,28,M,student,55414
437,27,F,other,20009
460,44,F,other,60630
496,21,F,student,55414
572,51,M,educator,20003
621,17,M,student,60402


# Apagando as linhas duplicadas com drop_duplicated()

In [26]:
# Apagando as linhas duplicadas (inplace=False por padrão)

usuarios.drop_duplicates(keep='first').shape

(936, 4)

In [28]:
usuarios.drop_duplicates(keep='last').shape

(936, 4)

In [29]:
usuarios.drop_duplicates(keep=False).shape

(929, 4)

# Podemos considerar apenas algumas colunas para identificar duplicadas?

In [30]:
# Nesse caso, queremos considerar uma linha duplicada somente se a idade e cep forem iguais

usuarios.duplicated(subset=['age','zip_code']).sum()

16

In [31]:
usuarios.drop_duplicates(subset=['age','zip_code']).shape

(927, 4)