# Pipeline de Limpeza de Dados

## Importandos as Bibliotecas e os Dados

In [160]:
# Bibliotecas

import pandas as pd
import unicodedata
import re

In [161]:
# Dados

df = pd.read_csv("dados.csv")
df1 = df.copy()

## Vizualizando o Dataframe

In [162]:
df1.head()

Unnamed: 0,ID Cliente,NOME COMPLETO!,E-mail@Principal,idade,Data de Nascimento#,Telefone/Celular,CEP (Código),Endereço & Cidade,Estado-UF,Salário (R$),Status_da_Conta,Score de Crédito%,Produto Favorito*,Data da Última Compra,Valor Total Gasto,Categoria-Cliente,Unnamed: 16,Obs: Comentários,Ativo? (S/N),Regional/Zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [163]:
df1.dtypes

  ID Cliente               int64
NOME COMPLETO!            object
E-mail@Principal          object
 idade                    object
Data de Nascimento#       object
Telefone/Celular          object
CEP (Código)              object
Endereço & Cidade         object
Estado-UF                 object
Salário (R$)              object
Status_da_Conta           object
Score de Crédito%         object
Produto Favorito*         object
Data da Última Compra     object
Valor Total Gasto         object
Categoria-Cliente         object
Unnamed: 16              float64
Obs: Comentários          object
Ativo? (S/N)              object
Regional/Zona             object
dtype: object

In [164]:
df1.shape

(52500, 20)

In [165]:
df1.describe

<bound method NDFrame.describe of          ID Cliente      NOME COMPLETO!                E-mail@Principal  \
0                   1         Ana Silva             ana.silva@yahoo.com   
1                   2       Carla Souza                             NaN   
2                   3         Ana Costa           ana.costa@hotmail.com   
3                   4    Mariana Santos       mariana.santos@bol.com.br   
4                   5       MARIA silva       maria.silva@hotmail.com     
...               ...               ...                             ...   
52495           26846    PAULO ferreira    paulo.ferreira@outlook.com     
52496           45552    Patricia Silva     patricia.silva@uol.com.br     
52497           25412        João Alves           joão.alves@uol.com.br   
52498           44726       Lucia Gomes           lucia.gomes@gmail.com   
52499           30012  Carlos Rodrigues    carlos.rodrigues@outlook.com   

       idade  Data de Nascimento# Telefone/Celular CEP (Código)  

In [166]:
df1.isnull().sum()

  ID Cliente                 0
NOME COMPLETO!               0
E-mail@Principal          7888
 idade                    2164
Data de Nascimento#       2575
Telefone/Celular          2097
CEP (Código)              2163
Endereço & Cidade         5220
Estado-UF                 1402
Salário (R$)              2073
Status_da_Conta           1046
Score de Crédito%         3039
Produto Favorito*         6230
Data da Última Compra     3346
Valor Total Gasto         2105
Categoria-Cliente         1162
Unnamed: 16              52500
Obs: Comentários         40034
Ativo? (S/N)              1096
Regional/Zona             2677
dtype: int64

## Padronizando os Dados

- remover espaços
- normalizar acentos
- transformar para minúsculas
- padronizar datas
- converter tipos
- normalizar categorias

### Padronização dos Nomes das Colunas

In [167]:
# função de padronização das colunas
def padronizar_colunas(colunas):
    novas_colunas = []
    for col in colunas:
        # remove acentos
        col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        # deixa tudo em minúsculas
        col = col.lower()
        # remove caracteres especiais
        col = re.sub(r'[^a-z0-9_]', '_', col)
        # remove underscores duplicados
        col = re.sub(r'_+', '_', col)
        # remove underscore no começo ou fim
        col = col.strip('_')
        novas_colunas.append(col)
    return novas_colunas

df1.columns = padronizar_colunas(df1.columns)

In [168]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,e_mail_principal,idade,data_de_nascimento,telefone_celular,cep_codigo,endereco_cidade,estado_uf,salario_r,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo_s_n,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [169]:
# Renomeando colunas específicas

df1 = df1.rename(columns={
    "e_mail_principal": "email",
    "cep_codigo": "cep",
    "endereco_cidade": "endereco",
    "salario_r": "salario",
    "ativo_s_n": "ativo"
})


In [170]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


### Padronização de Colunas Diversas

In [171]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [172]:
cols = ['endereco', 'status_da_conta', 'produto_favorito', 'categoria_cliente', 'ativo', 'regional_zona']

for col in cols:
    df1[col] = (
        df1[col]
        .str.normalize('NFKD')
        .str.encode('ascii', errors='ignore')
        .str.decode('utf-8')
        .str.lower()
        .str.strip()
        .str.replace(r'\s+', ' ', regex=True)
    )


In [173]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


### Padronização Específica por Coluna

#### Padronização da Coluna "nome_completo"

In [174]:
df1["nome_completo"].tail(60)

52440            Lucia Silva
52441       Juliana Ferreira
52442       Fernando Ribeiro
52443         Fernando Souza
52444           Carlos Gomes
52445          Ricardo Souza
52446       Fernanda Pereira
52447              Ana Souza
52448           Maria Santos
52449           Carlos Gomes
52450           Carlos Silva
52451            Lucia Alves
52452        Patricia Santos
52453        Maria Rodrigues
52454            André Costa
52455        Ricardo Ribeiro
52456      Sr. Ricardo Alves
52457         Marcos Pereira
52458       FERNANDO ribeiro
52459         Cristina Costa
52460        Rafael Oliveira
52461         João Rodrigues
52462        Fernando Santos
52463       Patricia Ribeiro
52464        Claudia Ribeiro
52465          Mariana Silva
52466         Mariana Santos
52467      Pedro Rodrigues  
52468        Juliana Ribeiro
52469             João Gomes
52470        Mariana Silva  
52471        Mariana Pereira
52472             João Souza
52473          Mariana Alves
52474         

In [175]:
df1['nome_completo'] = df1['nome_completo'].str.title()

In [176]:
df1['nome_completo'] = df1['nome_completo'].str.replace(
    r'^(sr\.?|sra\.?|srta\.?|dr\.?|dra\.?|prof\.?|profa\.?)\s*',
    '',
    regex=True,
    flags=re.IGNORECASE
)


In [177]:
df1["nome_completo"].tail(60)

52440            Lucia Silva
52441       Juliana Ferreira
52442       Fernando Ribeiro
52443         Fernando Souza
52444           Carlos Gomes
52445          Ricardo Souza
52446       Fernanda Pereira
52447              Ana Souza
52448           Maria Santos
52449           Carlos Gomes
52450           Carlos Silva
52451            Lucia Alves
52452        Patricia Santos
52453        Maria Rodrigues
52454            André Costa
52455        Ricardo Ribeiro
52456          Ricardo Alves
52457         Marcos Pereira
52458       Fernando Ribeiro
52459         Cristina Costa
52460        Rafael Oliveira
52461         João Rodrigues
52462        Fernando Santos
52463       Patricia Ribeiro
52464        Claudia Ribeiro
52465          Mariana Silva
52466         Mariana Santos
52467      Pedro Rodrigues  
52468        Juliana Ribeiro
52469             João Gomes
52470        Mariana Silva  
52471        Mariana Pereira
52472             João Souza
52473          Mariana Alves
52474         

In [178]:
# Criando a coluna "nome_limpo" (para deduplicação)

df1['nome_limpo'] = (
    df1['nome_completo']
    .str.normalize('NFKD')
    .str.encode('ascii', errors='ignore')
    .str.decode('utf-8')
    .str.lower()
    .str.strip()
    .str.replace(r'\s+', ' ', regex=True)
)

colunas = list(df1.columns)

# Alterando a posição da coluna nome_limpo

idx = colunas.index('nome_completo')
colunas.remove('nome_limpo')
colunas.insert(idx + 1, 'nome_limpo')
df1 = df1[colunas]



In [179]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,...,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,carla souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,...,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,...,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,...,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,...,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


#### Padronização da Coluna "email_principal"

**O que pode ser feito com segurança**

- Remover espaços extras
- Converter para minúsculas
- Remover quebras de linha
- Tratar casos óbvios de sujeira (“;”, vírgulas, espaços no meio)
- Validar formato básico (opcional)

**O que não deve ser feito**

- Não remover pontos antes do @ (ex.: joao.silva@gmail.com ≠ joaosilva@gmail.com)
- Não remover sinais como “+” (ex.: joao+teste@gmail.com é válido)
- Não tentar “corrigir” domínios manualmente
- Não aplicar normalização de acentos (e‑mail não deve ter acentos, mas se tiver, é melhor sinalizar do que alterar)

In [203]:
df1.tail()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
49995,49996,Rafael Santos,rafael santos,,30,15/02/1990,telefone inválido,78324691,"rua central, 789 - belem",SP,14123,suspenso,898,smartwatch,18/05/2024,126.07,ouro,s,leste
49996,49997,Pedro Santos,pedro santos,pedro.santos@gmail.com,59,Não informado,47361093876,61398-627,"rua da paz, 723 - rio de janeiro",CE,Não informado,bloqueado,810,monitor,Há muito tempo,5941.79,bronze,s,centro
49997,49998,Lucia Souza,lucia souza,lucia.souza@yahoo.com,78,,31517961626,46183-217,"rua das flores, 201 - campinas",PR,12129,suspenso,881,tv,30/03/2024,7793.98,ouro,s,
49998,49999,Juliana Silva,juliana silva,juliana.silva@yahoo.com,22,05/25/1980,31 69245-0582,21695-629,"rua central, 58 - rio de janeiro",PR,7103,inativo,770,tablet,2024-08-11,8087.66,diamante,n,norte
49999,50000,Lucia Santos,lucia santos,lucia.santos@hotmail.com,40,11/16/1994,11 74109-0152,82029416,"rua central, 70 - sao paulo",,11028,suspenso,688,camera,07-24-2024,1250.5,bronze,s,sul


In [200]:
df1['email'] = (
    df1['email']
    .astype(str)
    .str.strip()
    .str.lower()
    .str.replace(r'\s+', '', regex=True)
    .str.replace(r'[;,]+', '', regex=True)
)

In [205]:
import numpy as np

def limpar_e_validar_email(e):
    e = str(e).strip().lower()
    e = e.replace(" ", "")  # remove espaços internos

    # valores claramente inválidos
    if e in ["", "nao_informado", "não_informado", "nao informado", "none", "null"]:
        return np.nan

    # sem arroba
    if '@' not in e:
        return np.nan

    usuario, dominio = e.split('@', 1)

    # usuario vazio → caso @dominio.com
    if usuario == "":
        return np.nan

    # dominio sem ponto
    if '.' not in dominio:
        return np.nan

    return e

df1['email'] = df1['email'].apply(limpar_e_validar_email)


In [206]:
df1.tail(60)

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
49940,49941,Patricia Ribeiro,patricia ribeiro,patricia.ribeiro@uol.com.br,78,05/27/1978,31 14879-4524,84944140,"rua principal, 66 - brasilia",RS,13095,bloqueado,815,mouse - produto,21/02/2024,4115.29,diamante,n,
49941,49942,Claudia Costa,claudia costa,claudia.costa@gmail.com,74,06/17/1954,,13256-366,nao_informado,GO,11411,suspenso,764,tablet,11-21-2024,Baixo,prata,n,sul
49942,49943,Marcos Ribeiro,marcos ribeiro,marcos.ribeiro@uol.com.br,57,06/05/1979,(21) 44755-7037,,"rua da paz, 4 - fortaleza",SP,7243,bloqueado,764,fone de ouvido,2024-11-28,1053.62,diamante,n,norte
49943,49944,Marcos Santos,marcos santos,,23,04/22/1990,47 88629-7786,05841884,"rua das flores, 493 - belem",BA,2126,suspenso,741,fone de ouvido,2024-01-03,4644.86,ouro,s,norte
49944,49945,André Ribeiro,andre ribeiro,andré.ribeiro@outlook.com,33,,31828684512,17147-828,nao_informado,CE,7957,bloqueado,707,camera,21/08/2024,881.26,prata,n,sul
49945,49946,Bruno Oliveira,bruno oliveira,bruno.oliveira@outlook.com,49,07/13/1996,47 39954-4969,00000-000,"rua das flores, 999 - guarulhos",SP,6266,inativo,352,monitor,11/12/2024,9858.28,platina,s,norte
49946,49947,Carla Ribeiro,carla ribeiro,carla.ribeiro@bol.com.br,47,1985-12-25,(11) 99999-9999,28239564,nao_informado,SP,13557,inativo,640,tv,,509.28,diamante,s,sul
49947,49948,Carla Ferreira,carla ferreira,carla.ferreira@yahoo.com,52,03-07-88,85931019272,56183054,"rua central, 375 - brasilia",São Paulo,6068,inativo,326,smartwatch,02-13-2024,8365.17,platina,n,sul
49948,49949,Maria Costa,maria costa,maria.costa@hotmail.com,25,06/21/1999,11 9 9999-9999,41684-874,"rua da paz, 824 - recife",SP,3500.00,inativo,463,mouse,17/11/2024,3147.6,ouro,s,norte
49949,49950,Rafael Gomes,rafael gomes,rafael.gomes@gmail.com,78,12/16/1989,21 20474-9597,12.345-678,"rua principal, 787 - goiania",RS,12570,ativo,688,teclado,04/11/2024,,bronze,true,sul


## Limpando os Dados

- remover duplicatas
- tratar valores faltantes
- corrigir inconsistências
- tratar outliers
- validar regras de negócio

### Tratamento de Valores Ausentes

#### Deletando Colunas Vazias

In [184]:
df1 = df1.drop(columns=["unnamed_16"])

In [185]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,ativo,norte
1,2,Carla Souza,carla souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,n,centro


#### Valores Ausentes

In [186]:
df1.isna().sum()

id_cliente                   0
nome_completo                0
nome_limpo                   0
email                     9110
idade                     2164
data_de_nascimento        2575
telefone_celular          2097
cep                       2163
endereco                  5220
estado_uf                 1402
salario                   2073
status_da_conta           1046
score_de_credito          3039
produto_favorito          6230
data_da_ultima_compra     3346
valor_total_gasto         2105
categoria_cliente         1162
obs_comentarios          40034
ativo                     1096
regional_zona             2677
dtype: int64

In [187]:
len(df1)

52500

In [188]:
# Deletando a coluna de observações

df1 = df1.drop(columns=["obs_comentarios"])

In [190]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,nao_informado,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,ativo,norte
1,2,Carla Souza,carla souza,nao_informado,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,n,centro


#### Duplicatas

In [191]:
df1.duplicated().sum()

np.int64(2500)

In [192]:
df1.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
52495     True
52496     True
52497     True
52498     True
52499     True
Length: 52500, dtype: bool

In [193]:
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
50000,31362,Maria Gomes,maria gomes,maria...gomes@uol.com.br,24,10/24/1999,(21) 61369-1296,28607746,"rua das flores, 401 - belo horizonte",RJ,5506,ativo,849,mouse,Nunca comprou,3640.34,platina,inativo,norte
50001,16722,Rafael Santos,rafael santos,rafael.santos@bol.com.br,76,11/06/1985,11 62613-2573,85267384,"rua central, 546 - belo horizonte",RJ,6995,inativo,,teclado,03/10/2024,3231.28,prata,n,centro-oeste
50002,36789,Claudia Oliveira,claudia oliveira,claudia.oliveira@hotmail.com,42,01/22/1956,11 49487-5313,88836534,"rua das flores, 172 - sao paulo",,8966,suspenso,429,smartphone,2024-12-07,2322.92,prata,n,norte
50003,22819,Pedro Souza,pedro souza,pedro.souza@bol.com.br,35,12/08/1960,11999999999,87846-239,"rua central, 80 - belem",BA,14658,suspenso,,monitor,,743.35,prata,n,sul
50004,24795,Maria Souza,maria souza,maria.souza@yahoo.com,70,09/24/1958,85642656137,04704-402,"rua central, 557 - porto alegre",MG,11155,bloqueado,561,monitor,05/12/2024,3910.55,platina,,norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52495,26846,Paulo Ferreira,paulo ferreira,paulo.ferreira@outlook.com,38,09/21/1996,(11) 02698-1177,55227309,"rua das flores, 941 - rio de janeiro",SP,14486,suspenso,550,tv,13/07/2024,2090.78,bronze,n,sul
52496,45552,Patricia Silva,patricia silva,patricia.silva@uol.com.br,53,11/09/1968,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,3500.50,inativo,836,notebook,2024/01/15,R$2500,bronze,s,centro
52497,25412,João Alves,joao alves,joão.alves@uol.com.br,18,06/09/1968,123,60427184,"rua da paz, 51 - brasilia",PE,6930,bloqueado,866,teclado,10-28-2024,718.06,bronze,n,norte
52498,44726,Lucia Gomes,lucia gomes,lucia.gomes@gmail.com,75,15/02/1990,11587515945,71609249,"rua da paz, 2 - porto alegre",SP,9779,ativo,Baixo,camera,12-30-2024,1218.89,ouro,s,norte


In [194]:
df1 = df1.drop_duplicates()

In [195]:
# Conferindo se as duplicatas foram removidas
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona


In [196]:
df1.duplicated().sum()

np.int64(0)

## Enriquecer/Transformar os Dados

- criar novas colunas
- fazer joins
- preparar para modelagem

### Coluna de Nomes Limpos Para Processamento de Dados