# Aula 4.10 Duplicatas

**üì¶ O que s√£o duplicatas?**

Duplicatas s√£o registros que aparecem mais de uma vez em uma base de dados.

> Exemplos comuns:
* Linhas exatamente iguais
* Linhas com as mesmas chaves, mas varia√ß√£o em alguma coluna

**üîç Problemas causados por duplicatas:**

* Contagens e somas infladas
* Resultados distorcidos em agrupamentos e dashboards
* Modelos de machine learning enviesados

**üß† Por que duplicatas acontecem?**

* Integra√ß√£o de fontes diferentes
* Falha ao importar dados (ex: planilhas empilhadas)
* Erros de digita√ß√£o ou preenchimento manual
* Testes repetidos que n√£o foram limpos

## üß™ Criando uma base com problemas simulados

In [28]:

import pandas as pd

df = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Ana', 'Carlos', 'Diana', 'Diana', 'Carlos', 'Ana'],
    'genero': ['F', 'M', 'F', 'M', 'Feminino', 'feminino', 'masc', 'feminino'],
    'cidade': ['SP', 'sp', 'S√ÉO PAULO', 'Rio de Janeiro', 'RJ', 'rj', 'rio de janeiro', 'SP'],
    'plano': ['b√°sico', 'premium', 'intermedi√°rio', 'b√°sico', 'premium', 'Premium', 'intermedi√°rio', 'b√°sico'],
    'idade': [25, 30, 25, 40, 28, 28, 40, 26]
})
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,b√°sico,25
1,Bruno,M,sp,premium,30
2,Ana,F,S√ÉO PAULO,intermedi√°rio,25
3,Carlos,M,Rio de Janeiro,b√°sico,40
4,Diana,Feminino,RJ,premium,28
5,Diana,feminino,rj,Premium,28
6,Carlos,masc,rio de janeiro,intermedi√°rio,40
7,Ana,feminino,SP,b√°sico,26


## üîç Detectando duplicatas

In [21]:

# Detectando duplicatas completas
df['nome'].duplicated().sum()


np.int64(4)

### ‚úÖ Solu√ß√£o: Removendo duplicatas com base em nome + idade

In [24]:
df_drop = df.drop_duplicates(subset=(['nome','idade']), keep='last')

In [25]:
df_drop

Unnamed: 0,nome,genero,cidade,plano,idade
1,Bruno,M,sp,premium,30
2,Ana,F,S√ÉO PAULO,intermedi√°rio,25
5,Diana,feminino,rj,Premium,28
6,Carlos,masc,rio de janeiro,intermedi√°rio,40
7,Ana,feminino,SP,b√°sico,26


In [None]:
# Mant√©m o primeiro registro (padr√£o)
df.drop_duplicates(keep='first')

# Mant√©m o √∫ltimo registro
df.drop_duplicates(keep='last')



> üéØ Dica: Use subset=['coluna'] para verificar duplicatas com base em apenas uma ou algumas colunas:





## ‚úèÔ∏è Corrigindo varia√ß√µes com `.replace()`

In [29]:

df['genero'] = df['genero'].replace({
    'Feminino': 'F', 'feminino': 'F', 'f': 'F',
    'masc': 'M'
})

df['cidade'] = df['cidade'].replace({
    'sp': 'SP', 'S√ÉO PAULO': 'SP',
    'rj': 'RJ', 'rio de janeiro': 'RJ', 'Rio de Janeiro': 'RJ'
})
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,b√°sico,25
1,Bruno,M,SP,premium,30
2,Ana,F,SP,intermedi√°rio,25
3,Carlos,M,RJ,b√°sico,40
4,Diana,F,RJ,premium,28
5,Diana,F,RJ,Premium,28
6,Carlos,M,RJ,intermedi√°rio,40
7,Ana,F,SP,b√°sico,26


## üßº Padronizando texto com `.str.upper()` e `.str.strip()`

In [30]:

df['cidade'] = df['cidade'].str.upper().str.strip()
df['genero'] = df['genero'].str.upper().str.strip()
df['plano'] = df['plano'].str.lower().str.strip()
df


Unnamed: 0,nome,genero,cidade,plano,idade
0,Ana,F,SP,b√°sico,25
1,Bruno,M,SP,premium,30
2,Ana,F,SP,intermedi√°rio,25
3,Carlos,M,RJ,b√°sico,40
4,Diana,F,RJ,premium,28
5,Diana,F,RJ,premium,28
6,Carlos,M,RJ,intermedi√°rio,40
7,Ana,F,SP,b√°sico,26


## üïµÔ∏è Casos amb√≠guos e como lidar

* Mesmos nomes, mas cidades diferentes = Avaliar com o time de neg√≥cio se s√£o a mesma pessoa
* Mesmos nomes, mesma cidade, idades diferentes = Usar coluna de ID √∫nica, ou manter ambos at√© confirma√ß√£o
* Duplicatas por erro de importa√ß√£o = Dropar todas as c√≥pias id√™nticas