# Tratando dados duplicados com Python - Pandas

Normalmente nas análises de bancos de dados, temos que algumas linhas são duplicadas, ou seja, com o mesmo valor, fazendo com que a análise seja menos precisa e eficaz. Para tratar dessas linhas duplicadas, utilizaremos a biblioteca Pandas que se trata de uma biblioteca feita em python e que possibilita o tratamento e a análise de grandes quantidades de dados.

   - Instalando a Biblioteca Pandas:
        - Com o python instalado no computador, temos o gerenciador de dependências incluso - o pip;
        - Basta abrir o cmd/powerShell e digitar # pip install pandas

Criando a base de dados:
    Para exemplificar o tratamento das linhas duplicadas, vamos criar uma tabela de um newslatter.

In [2]:
import pandas as pd # Importando a biblioteca pandas e a apelidando de pd

dataBase = pd.DataFrame(columns=["Nome", "Email", "Telefone"], index=[0])

# O método DataFrame() irá criar a tabela
# O parâmetro columns define as colunas
# O parâmetro index=[0] faz com que as linhas comecem a serem contadas a partir do índice 0

Agora, vamos gerar e alimentar a tabela com alguns dados.

In [14]:
import random as rm # Importando a biblioteca random(nativa do python) e a apelidando de rm

# Criando uma lista de nomes
nomes = ["Felipe", "João", "Pedro", "Júlio", "Matheus", "Guilherme", "José", "Victor", "Breno", "Miguel"]

# Declarando uma lista de email
emails = []

# Adicionando "@hotmail.com" em todos os nomes para a lista email
for nome in nomes:
    emails.append(nome + "@hotmail.com")
# O método append() adiciona um valor na lista

# Declarando uma lista de telefone
telefones = []

# Pegando a quantidade de itens da lista nomes
indice = len(nomes)
# O método len() conta os itens de qualquer lista -> Quando usada em uma string, retorna o número de caracteres da string

# Criando e Adicionando valores à lista telefones
for value in range(indice):
    telefones.append("(" + str(rm.randint(11, 18)) + ") 9" + str(rm.randint(1000, 9999)) + "-" + str(rm.randint(1000, 9999)))
# O método str() faz que tudo que esteja dentro da função seja tratado com texto
# O método random.randint() seleciona de maneira aleatória números entre os dois parâmetros passados

# Adicionando os dados na dataBase
for value in range(indice):
    dataBase.loc[value] = [nomes[value]] + [emails[value]] + [telefones[value]]
# O método loc[] faz com que seja selecionado a linhas de acordo com o índice

display(dataBase)

Unnamed: 0,Nome,Email,Telefone
0,Felipe,Felipe@hotmail.com,(16) 91879-8868
1,João,João@hotmail.com,(17) 93486-9708
2,Pedro,Pedro@hotmail.com,(13) 92744-7779
3,Júlio,Júlio@hotmail.com,(16) 91598-1447
4,Matheus,Matheus@hotmail.com,(11) 99055-7086
5,Guilherme,Guilherme@hotmail.com,(18) 94324-4629
6,José,José@hotmail.com,(15) 97993-5787
7,Victor,Victor@hotmail.com,(11) 99936-3818
8,Breno,Breno@hotmail.com,(15) 96344-7522
9,Miguel,Miguel@hotmail.com,(14) 99465-7743


Agora temos uma tabela com dados diferentes e aleatórios. Vamos adicionar algumas linhas com o email duplicado para vermos como fazemos o tratamento dessas linhas iguais.

In [19]:
dataBase.loc[10] = ["Rodrigo"] + [email[2]] + ["(18) 99622-0090"]
dataBase.loc[11] = ["Alberto"] + [email[2]] + ["(19) 99765-4434"]
dataBase.loc[12] = ["Gilberto"] + [email[2]] + ["(12) 99462-4331"]
dataBase.loc[13] = ["Gilberto"] + [email[2]] + ["(12) 99462-4331"]

display(dataBase)

Unnamed: 0,Nome,Email,Telefone
0,Felipe,Felipe@hotmail.com,(16) 91879-8868
1,João,João@hotmail.com,(17) 93486-9708
2,Pedro,Pedro@hotmail.com,(13) 92744-7779
3,Júlio,Júlio@hotmail.com,(16) 91598-1447
4,Matheus,Matheus@hotmail.com,(11) 99055-7086
5,Guilherme,Guilherme@hotmail.com,(18) 94324-4629
6,José,José@hotmail.com,(15) 97993-5787
7,Victor,Victor@hotmail.com,(11) 99936-3818
8,Breno,Breno@hotmail.com,(15) 96344-7522
9,Miguel,Miguel@hotmail.com,(14) 99465-7743


Agora temos 3 linhas com o mesmo email e uma linha duplicada (12 e 13), pensando em um contexto de newslatter, não é interessante trabalhar com dados repetidos. Sendo assim, vamos fazer com que as linhas duplicadas sejam excluídas.

In [23]:
# Selecionamos nossa dataBase e excluimos linhas duplicadas
dataBase.drop_duplicates()
# O método drop_duplicates() faz com que linhas duplicadas sejam excluídas

display(dataBase)

Unnamed: 0,Nome,Email,Telefone
0,Felipe,Felipe@hotmail.com,(16) 91879-8868
1,João,João@hotmail.com,(17) 93486-9708
2,Pedro,Pedro@hotmail.com,(13) 92744-7779
3,Júlio,Júlio@hotmail.com,(16) 91598-1447
4,Matheus,Matheus@hotmail.com,(11) 99055-7086
5,Guilherme,Guilherme@hotmail.com,(18) 94324-4629
6,José,José@hotmail.com,(15) 97993-5787
7,Victor,Victor@hotmail.com,(11) 99936-3818
8,Breno,Breno@hotmail.com,(15) 96344-7522
9,Miguel,Miguel@hotmail.com,(14) 99465-7743


Vemos que a linhas 13 foi apagada pelo fato de ser idêntica com a linhas 12, mas e as linhas que tem o mesmo email? Para apagar as linhas que tem o mesmo email, trabalhamos com o mesmo pricípio, só adicionar o referêncial da coluna no código! 

In [33]:
dataBase = dataBase.drop_duplicates(['Email'])
display(dataBase)

Unnamed: 0,Nome,Email,Telefone
0,Felipe,Felipe@hotmail.com,(16) 91879-8868
1,João,João@hotmail.com,(17) 93486-9708
2,Pedro,Pedro@hotmail.com,(13) 92744-7779
3,Júlio,Júlio@hotmail.com,(16) 91598-1447
4,Matheus,Matheus@hotmail.com,(11) 99055-7086
5,Guilherme,Guilherme@hotmail.com,(18) 94324-4629
6,José,José@hotmail.com,(15) 97993-5787
7,Victor,Victor@hotmail.com,(11) 99936-3818
8,Breno,Breno@hotmail.com,(15) 96344-7522
9,Miguel,Miguel@hotmail.com,(14) 99465-7743
