# Removendo linhas duplicadas (removing duplicated)
Por Jander Guimarães
LinkedIn: https://www.linkedin.com/in/janderfg/
Github: https://github.com/janderfg

Uma das etapas muito usada no pré-processamento é a remoção de linhas duplicadas.

O Pandas permite trabalhar muito bem com isso através das funções "duplicated" e "drop.duplicates" onde é possível ainda definir diversos parâmetros.

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Criando um dataset de exemplo
df = pd.DataFrame({'Produto': ['Macarrão', 'Arroz', 'Feijão', 'Carne', 'Pão', \
                            'Óleo', 'Farinha', 'Arroz', 'Carne', 'Sabão em Pó'],
                   'Mogi-Mirim': [12000, 8000, 10450, 4589, 10450, 6500, 3235, 8000, 987, 14518],
                   'Campinas': [784, 3459, 8453, 392, 934, 8500, 3835, 3459, 518, 1498],
                   'São Paulo': [823, 6518, 870, 8918, 209, 7100, 7138, 6518, 163, 9183]})

In [3]:
# Visualizando as primeiras linhas/observações
df

Unnamed: 0,Produto,Mogi-Mirim,Campinas,São Paulo
0,Macarrão,12000,784,823
1,Arroz,8000,3459,6518
2,Feijão,10450,8453,870
3,Carne,4589,392,8918
4,Pão,10450,934,209
5,Óleo,6500,8500,7100
6,Farinha,3235,3835,7138
7,Arroz,8000,3459,6518
8,Carne,987,518,163
9,Sabão em Pó,14518,1498,9183


In [4]:
# Visualizando as linhas duplicadas
# Através do parâmetro "keep" é possível definir se deseja visualizar apenas a primera duplicada, última ou todas por exemplo
df[df.duplicated(keep=False)]

Unnamed: 0,Produto,Mogi-Mirim,Campinas,São Paulo
1,Arroz,8000,3459,6518
7,Arroz,8000,3459,6518


In [5]:
# Removendo as linhas duplicadas e resetando os índices
# Através do parâmetro "keep" é possível definir se deseja remover a primera duplicada, última ou todas por exemplo.
df.drop_duplicates(ignore_index=True, inplace=True)

In [6]:
# Visualizando os dados após a remoção das linhas duplicadas
df

Unnamed: 0,Produto,Mogi-Mirim,Campinas,São Paulo
0,Macarrão,12000,784,823
1,Arroz,8000,3459,6518
2,Feijão,10450,8453,870
3,Carne,4589,392,8918
4,Pão,10450,934,209
5,Óleo,6500,8500,7100
6,Farinha,3235,3835,7138
7,Carne,987,518,163
8,Sabão em Pó,14518,1498,9183


In [7]:
# Checando por duplicadas por nome da coluna.
# É possível definir 1 ou mais colunas com valores duplicados
df[df.duplicated(keep=False, subset='Produto')]

Unnamed: 0,Produto,Mogi-Mirim,Campinas,São Paulo
3,Carne,4589,392,8918
7,Carne,987,518,163
