<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Lidando com Dados Duplicados

Duplicidade de entradas pode ser um grande problema. Além de ocuparem mais espaço, e necessitar de mais poder computacional para serem processados, a duplicidade de informação não nos dá mais informação. Na verdade, é mais comum levar à desinformação, e podendo custar muito caro a depender de onde ela está inserida.

<center><img width="45%" src="https://image.freepik.com/free-vector/photocopy-concept-illustration_114360-1169.jpg"></center>

Mais uma vez usando o Pandas, vamos aprender a lidar com dados duplicados, desde sua identificação até sua correção, a fim de obtermos o melhor dos nossos dados.


In [3]:
# importando o pandas
import pandas as pd

df = pd.read_excel('https://www.dropbox.com/s/v0x8mbaygdqubli/contas_a_pagar.xlsx?dl=1')

In [4]:
# verificando dataset
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456800000.0
1,imposto y,467.69,123456800000.0
2,imposto z,25.15,555444300000.0
3,agua,951.31,568754500000.0
4,luz,1548.25,546982500000.0
5,internet,798.99,364821500000.0
6,segurança,1439.54,546982500000.0
7,segurança,1439.54,546982500000.0
8,luz,147.45,546982500000.0


Para identificar entradas duplicadas vamos usar o método `duplicated` do Pandas.

Por padrão, ele retorna a primeira entrada como False, e a primeira vez que ela é repetida como True.

Ao rodar no código inteiro, ele percebe que apenas duas entradas são exatamente iguais. Para nos dar um pouco mais de trabalho, esse conjunto de dados possui:

* Linhas completamente repetidas
* Códigos repetidos
* Nomes repetidos

Duas entradas 100% iguais como é o caso aqui, sempre será um problema. Mas nem sempre linhas com algum valor repetido serão problema. Por exemplo, duas compras feitas pelo mesmo cliente e registradas em uma planilha terão várias informações repetidas, mas são, efetivamente, duas transações diferentes.

In [5]:
# verificando as linhas duplicadas
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8    False
dtype: bool

Para verificar duplicatas em uma determinada coluna, vamos passar essa coluna entre aspas, simples ou duplas, dentro dos parênteses do método duplicated.



```
df.duplicated(subset='coluna')
```



In [6]:
# verificando os código duplicatos na coluna código do pagamento
df.duplicated(subset='codigo_pagamento')

0    False
1     True
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool

Agora que identificamos as entradas duplicadas, basta usar o método `drop_duplicates` para excluir as entradas duplicadas.

É importante lembrar de utilizar o parâmetro `inplace=True` para fazer com que a mudança seja feita nos dados de forma definitava.

In [8]:
# eliminando linhas duplicadas sem inplace=True ou df = df
df.drop_duplicates()
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456800000.0
1,imposto y,467.69,123456800000.0
2,imposto z,25.15,555444300000.0
3,agua,951.31,568754500000.0
4,luz,1548.25,546982500000.0
5,internet,798.99,364821500000.0
6,segurança,1439.54,546982500000.0
7,segurança,1439.54,546982500000.0
8,luz,147.45,546982500000.0


In [9]:
# excluindo duplicatas com inplace=True ou df = df
df.drop_duplicates(inplace=True)

# verificando o resultado do dataset
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456800000.0
1,imposto y,467.69,123456800000.0
2,imposto z,25.15,555444300000.0
3,agua,951.31,568754500000.0
4,luz,1548.25,546982500000.0
5,internet,798.99,364821500000.0
6,segurança,1439.54,546982500000.0
8,luz,147.45,546982500000.0


Aqui, excluímos apenas linhas que eram completamente iguais. Entretanto, aqui estamos falando de pagamentos, onde houve erro na inserção do cógigo. Isso resultaria em pagamento duplicado, o que significaria prejuízo para a empresa.

Podemos usar o parâmetro `subset` para selecionar a coluna onde as duplicatas serão excluídas.

In [10]:
# excluindo códigos duplicados da coluna codigo_pagamento
df.drop_duplicates(subset='codigo_pagamento', inplace=True)

# verificando o resultado do dataset
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456800000.0
2,imposto z,25.15,555444300000.0
3,agua,951.31,568754500000.0
4,luz,1548.25,546982500000.0
5,internet,798.99,364821500000.0
6,segurança,1439.54,546982500000.0


Para garantir que não temos nenhum código duplicado, vamos utilizar o `value_counts` na coluna.

In [14]:
# verificando entradas únicas da coluna codigo_pagamento
df['codigo_pagamento'].value_counts()

1.234568e+11    1
5.554443e+11    1
5.687545e+11    1
5.469825e+11    1
3.648215e+11    1
5.469825e+11    1
Name: codigo_pagamento, dtype: int64

Nesse caso fictício, os valores duplicados representam quase **40%** do valor real que deveria ser pago, o que teria implicado em sério custo para a empresa.

Tudo resolvido com poucas linhas de código e um princípio básico do approach aos dados.