<a href="https://colab.research.google.com/github/marciadartup/Portif-lio/blob/master/M%C3%B3dulo_04__Lidando_com_Dados_Duplicados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



---

# Lidando com Dados Duplicados

Duplicidade de entradas pode ser um grande problema. Além de ocuparem mais espaço, e necessitar de mais poder computacional para serem processados, a duplicidade de informação não nos dá mais informação. Na verdade, é mais comum levar à desinformação, e podendo custar muito caro a depdender de onde ela está inserida.

<center><img width="45%" src="https://image.freepik.com/free-vector/photocopy-concept-illustration_114360-1169.jpg"></center>

Mais uma vez usando o Pandas, vamos aprender a lidar com dados duplicados, desde sua identificação até sua correção, a fim de obtermos o melhor dos nossos dados.


In [1]:
# importando o pandas
import pandas as pd

df = pd.read_excel('https://www.dropbox.com/s/v0x8mbaygdqubli/contas_a_pagar.xlsx?dl=1')

In [2]:
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456789012
1,imposto y,467.69,123456789012
2,imposto z,25.15,555444332221
3,agua,951.31,568754456745
4,luz,1548.25,546982454523
5,internet,798.99,364821542215
6,segurança,1439.54,546982454123
7,segurança,1439.54,546982454123
8,luz,147.45,546982454523


Para identificar entradas duplicadas vamos usar o método `duplicated` do Pandas.

Por padrão, ele retorna a primeira entrada como False, e a primeira vez que ela é repetida como True.

Ao rodar no código inteiro, ele percebe que apenas duas entradas são exatamente iguais. Para nos dar um pouco mais de trabalho, esse conjunto de dados possui:

* Linhas completamente repetidas
* Códigos repetidos
* Nomes repetidos

Duas entradas 100% iguais como é o caso aqui, sempre será um problema. Mas nem sempre linhas com algum valor repetido serão problema. Por exemplo, duas compras feitas pelo mesmo cliente e registradas em uma planilha terão várias informações repetidas, mas são, efetivamente, duas transações diferentes.

In [3]:
# verificando linhas duplicadas
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8    False
dtype: bool

Para verificar duplicatas em uma determinada coluna, vamos passar essa coluna entre aspas, simples ou duplas, dentro dos parênteses do método duplicated.



```
df.duplicated(subset='coluna')
```



In [9]:
# verificando duplicatas no código do pagamento
df.duplicated(subset='codigo_pagamento')

0    False
1     True
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool

Agora que identificamos as entradas duplicadas, basta usar o método `drop_duplicates` para excluir as entradas duplicadas.

É importante lembrar de utilizar o parâmetro `inplace=True` para fazer com que a mudança seja feita nos dados.

In [10]:
df.drop_duplicates()

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456789012
1,imposto y,467.69,123456789012
2,imposto z,25.15,555444332221
3,agua,951.31,568754456745
4,luz,1548.25,546982454523
5,internet,798.99,364821542215
6,segurança,1439.54,546982454123
8,luz,147.45,546982454523


In [11]:
# excluindo duplicatas
df.drop_duplicates()

# verificando o resultado
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456789012
1,imposto y,467.69,123456789012
2,imposto z,25.15,555444332221
3,agua,951.31,568754456745
4,luz,1548.25,546982454523
5,internet,798.99,364821542215
6,segurança,1439.54,546982454123
7,segurança,1439.54,546982454123
8,luz,147.45,546982454523


Aqui, excluímos apenas linhas que eram completamente iguais. Entretanto, aqui estamos falando de pagamentos, onde houve erro na inserção do cógigo. Isso resultaria em pagamento duplicado, o que significaria prejuízo para a empresa.

Podemos usar o parâmetro `subset` para selecionar a coluna onde as duplicatas serão excluídas.

In [12]:
# excluindo códigos duplicados
df.drop_duplicates(subset='codigo_pagamento', inplace=True)

# verificando o resultado
df

Unnamed: 0,pagamento,valor,codigo_pagamento
0,imposto x,458.86,123456789012
2,imposto z,25.15,555444332221
3,agua,951.31,568754456745
4,luz,1548.25,546982454523
5,internet,798.99,364821542215
6,segurança,1439.54,546982454123


Para garantir que não temos nenhum código duplicado, vamos utilizar o `value_counts` na coluna.

In [13]:
# verificando entradas únicas
df['codigo_pagamento'].value_counts()

364821542215    1
555444332221    1
546982454523    1
568754456745    1
123456789012    1
546982454123    1
Name: codigo_pagamento, dtype: int64