# Aula 4.10 Duplicatas

**📦 O que são duplicatas?**

Duplicatas são registros que aparecem mais de uma vez em uma base de dados.

> Exemplos comuns:
* Linhas exatamente iguais
* Linhas com as mesmas chaves, mas variação em alguma coluna

**🔍 Problemas causados por duplicatas:**

* Contagens e somas infladas
* Resultados distorcidos em agrupamentos e dashboards
* Modelos de machine learning enviesados

**🧠 Por que duplicatas acontecem?**

* Integração de fontes diferentes
* Falha ao importar dados (ex: planilhas empilhadas)
* Erros de digitação ou preenchimento manual
* Testes repetidos que não foram limpos

## 🧪 Criando uma base com problemas simulados

In [28]:

import pandas as pd

df = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Ana', 'Carlos', 'Diana', 'Diana', 'Carlos', 'Ana'],
    'genero': ['F', 'M', 'F', 'M', 'Feminino', 'feminino', 'masc', 'feminino'],
    'cidade': ['SP', 'sp', 'SÃO PAULO', 'Rio de Janeiro', 'RJ', 'rj', 'rio de janeiro', 'SP'],
    'plano': ['básico', 'premium', 'intermediário', 'básico', 'premium', 'Premium', 'intermediário', 'básico'],
    'idade': [25, 30, 25, 40, 28, 28, 40, 26]
})
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,básico,25
1,Bruno,M,sp,premium,30
2,Ana,F,SÃO PAULO,intermediário,25
3,Carlos,M,Rio de Janeiro,básico,40
4,Diana,Feminino,RJ,premium,28
5,Diana,feminino,rj,Premium,28
6,Carlos,masc,rio de janeiro,intermediário,40
7,Ana,feminino,SP,básico,26


## 🔍 Detectando duplicatas

In [21]:

# Detectando duplicatas completas
df['nome'].duplicated().sum()


np.int64(4)

### ✅ Solução: Removendo duplicatas com base em nome + idade

In [24]:
df_drop = df.drop_duplicates(subset=(['nome','idade']), keep='last')

In [25]:
df_drop

Unnamed: 0,nome,genero,cidade,plano,idade
1,Bruno,M,sp,premium,30
2,Ana,F,SÃO PAULO,intermediário,25
5,Diana,feminino,rj,Premium,28
6,Carlos,masc,rio de janeiro,intermediário,40
7,Ana,feminino,SP,básico,26


In [None]:
# Mantém o primeiro registro (padrão)
df.drop_duplicates(keep='first')

# Mantém o último registro
df.drop_duplicates(keep='last')



> 🎯 Dica: Use subset=['coluna'] para verificar duplicatas com base em apenas uma ou algumas colunas:





## ✏️ Corrigindo variações com `.replace()`

In [29]:

df['genero'] = df['genero'].replace({
    'Feminino': 'F', 'feminino': 'F', 'f': 'F',
    'masc': 'M'
})

df['cidade'] = df['cidade'].replace({
    'sp': 'SP', 'SÃO PAULO': 'SP',
    'rj': 'RJ', 'rio de janeiro': 'RJ', 'Rio de Janeiro': 'RJ'
})
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,básico,25
1,Bruno,M,SP,premium,30
2,Ana,F,SP,intermediário,25
3,Carlos,M,RJ,básico,40
4,Diana,F,RJ,premium,28
5,Diana,F,RJ,Premium,28
6,Carlos,M,RJ,intermediário,40
7,Ana,F,SP,básico,26


## 🧼 Padronizando texto com `.str.upper()` e `.str.strip()`

In [30]:

df['cidade'] = df['cidade'].str.upper().str.strip()
df['genero'] = df['genero'].str.upper().str.strip()
df['plano'] = df['plano'].str.lower().str.strip()
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,básico,25
1,Bruno,M,SP,premium,30
2,Ana,F,SP,intermediário,25
3,Carlos,M,RJ,básico,40
4,Diana,F,RJ,premium,28
5,Diana,F,RJ,premium,28
6,Carlos,M,RJ,intermediário,40
7,Ana,F,SP,básico,26


## 🕵️ Casos ambíguos e como lidar

* Mesmos nomes, mas cidades diferentes = Avaliar com o time de negócio se são a mesma pessoa
* Mesmos nomes, mesma cidade, idades diferentes = Usar coluna de ID única, ou manter ambos até confirmação
* Duplicatas por erro de importação = Dropar todas as cópias idênticas