# Removendo Linhas Duplicadas no Pandas


In [4]:
import numpy as np
import pandas as pd

In [5]:
# read a dataset of movie reviewers into a dataframe

colunas = ['user_id', 'age', 'gender', 'occupation', 'zip_code']
usuarios = pd.read_table('C:\\. ProjetosDataScience\\Datasets\\duplicadas.txt', sep='|', header=None, names=colunas)
# usuarios = pd.read_table('C:\\. ProjetosDataScience\\Datasets\\duplicadas.txt', sep='|', header=None, names=colunas, index_col='user_id')

usuarios.head(10)

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,1,24,M,technician,85711
4,4,24,M,technician,43537
5,5,33,F,other,15213
6,5,33,F,other,15213
7,1,24,M,technician,85711
8,6,53,F,other,43537


In [6]:
# Verificando linhas e colunas

usuarios.shape

(9, 5)

In [7]:
# Procurando por CEPs duplicados

usuarios.zip_code.duplicated().head(20)

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
8     True
Name: zip_code, dtype: bool

In [8]:
# Como aprendemos, uma série boleana pode ser convertida em 0 e 1 automaticamente ao utilizarmos métodos de agregação

usuarios.zip_code.duplicated().sum()

4

In [9]:
# Verificar se uma linha inteira é duplicada (basta tirar a coluna)

usuarios.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
8    False
dtype: bool

In [10]:
# Contando as linhas duplicadas

usuarios.duplicated().sum() # A linha inteira não está duplicada

3

In [11]:
# Mantendo a primeira linha e retirando as duplicadas. Comando keep='first'.

usuarios.loc[usuarios.duplicated(keep='first'), :]

# essas são as linhas que foram removidas

Unnamed: 0,user_id,age,gender,occupation,zip_code
3,1,24,M,technician,85711
6,5,33,F,other,15213
7,1,24,M,technician,85711


In [12]:
# Mantendo a última linha. Comando keep='last'.

usuarios.loc[usuarios.duplicated(keep='last'), :]

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
3,1,24,M,technician,85711
5,5,33,F,other,15213


In [13]:
# Excluindo todas as linhas duplicadas

usuarios.loc[usuarios.duplicated(keep=False), :]

# O resultado é tudo o que foi excluído

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
3,1,24,M,technician,85711
5,5,33,F,other,15213
6,5,33,F,other,15213
7,1,24,M,technician,85711


In [14]:
# Apagando as linhas duplicadas (implace=False por default [ele não faz alteração no dataset original]) - Shape do dataset que FICOU 

usuarios.drop_duplicates(keep='first').shape

(6, 5)

In [15]:
usuarios.drop_duplicates(keep='last').shape

(6, 5)

In [16]:
usuarios.drop_duplicates(keep=False).shape

(4, 5)

# Utilizando o maior arquivo

In [17]:
# read a dataset of movie reviewers into a dataframe

colunas = ['user_id', 'age', 'gender', 'occupation', 'zip_code']
usuarios = pd.read_table('C:\\. ProjetosDataScience\\Datasets\\duplicadas.txt', sep='|', header=None, names=colunas, index_col='user_id')

usuarios.head(10)

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
1,24,M,technician,85711
4,24,M,technician,43537
5,33,F,other,15213
5,33,F,other,15213
1,24,M,technician,85711
6,53,F,other,43537


In [18]:
usuarios.shape

(9, 4)

# Encontrando linhas duplicadas com duplicated

# Obs.: ARQUIVO ESPECTADORES.TXT FALTANDO

In [19]:
# Procurando por CEPs duplicados 

usuarios.zip_code.duplicated().head(50)

user_id
1    False
2    False
3    False
1     True
4    False
5    False
5     True
1     True
6     True
Name: zip_code, dtype: bool

In [20]:
# Uma série boleana pode ser convertida em 0 e 1 automaticamente ao utilizarmos métodos de agregação 
# Dê sempre prioridade em usar o 'SUM' para contar se há dublicados

usuarios.zip_code.duplicated().sum()

4

In [21]:
# Verificando se UMA LINHA INTEIRA é duplicada. Vindo por baixo

usuarios.duplicated().tail()

user_id
4    False
5    False
5     True
1     True
6    False
dtype: bool

In [22]:
# Linhas duplicadas por inteiro

usuarios.duplicated().sum()

3

# Regras para o método DUPLICATED
   # keep='first' (default): Marca as linhas duplicadas como True, MENOS a primeira ocorencia.
   # keep='last': Marca as linhas duplicadas como False, MENOS a última ocorencia.
   # keep='False': Marca todas as linhas duplicadas como True.

In [23]:
usuarios.loc[usuarios.duplicated(keep='first'), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
5,33,F,other,15213
1,24,M,technician,85711


In [24]:
usuarios.loc[usuarios.duplicated(keep='last'), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
1,24,M,technician,85711
5,33,F,other,15213


In [25]:
usuarios.loc[usuarios.duplicated(keep=False), :]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
1,24,M,technician,85711
5,33,F,other,15213
5,33,F,other,15213
1,24,M,technician,85711


# Apagando linhas duplicadas com drop_duplicate()

In [26]:
# Apagando as linhas duplicadas (implace=False por default)
usuarios.drop_duplicates(keep='first').shape

(6, 4)

In [27]:
usuarios.drop_duplicates(keep='last').shape

(6, 4)

In [29]:
usuarios.drop_duplicates(keep=False).shape

(4, 4)

# Podemos considerar apenas algumas colunas para identificar duplicadas

In [35]:
# Nesse caso queremos considerar uma linha duplicada se a idade e cep forem iguais

usuarios.duplicated(subset=['age', 'zip_code']).sum()

3

In [37]:
usuarios.drop_duplicates(subset=['age','zip_code']).shape

(6, 4)