# Pipeline de Limpeza de Dados

## Importandos as Bibliotecas e os Dados

In [203]:
# Bibliotecas

import pandas as pd
import unicodedata
import re

In [204]:
# Dados

df = pd.read_csv("dados.csv")
df1 = df.copy()

## Vizualizando o Dataframe

In [205]:
df1.head()

Unnamed: 0,ID Cliente,NOME COMPLETO!,E-mail@Principal,idade,Data de Nascimento#,Telefone/Celular,CEP (Código),Endereço & Cidade,Estado-UF,Salário (R$),Status_da_Conta,Score de Crédito%,Produto Favorito*,Data da Última Compra,Valor Total Gasto,Categoria-Cliente,Unnamed: 16,Obs: Comentários,Ativo? (S/N),Regional/Zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [206]:
df1.dtypes

  ID Cliente               int64
NOME COMPLETO!            object
E-mail@Principal          object
 idade                    object
Data de Nascimento#       object
Telefone/Celular          object
CEP (Código)              object
Endereço & Cidade         object
Estado-UF                 object
Salário (R$)              object
Status_da_Conta           object
Score de Crédito%         object
Produto Favorito*         object
Data da Última Compra     object
Valor Total Gasto         object
Categoria-Cliente         object
Unnamed: 16              float64
Obs: Comentários          object
Ativo? (S/N)              object
Regional/Zona             object
dtype: object

In [207]:
df1.shape

(52500, 20)

In [208]:
df1.describe

<bound method NDFrame.describe of          ID Cliente      NOME COMPLETO!                E-mail@Principal  \
0                   1         Ana Silva             ana.silva@yahoo.com   
1                   2       Carla Souza                             NaN   
2                   3         Ana Costa           ana.costa@hotmail.com   
3                   4    Mariana Santos       mariana.santos@bol.com.br   
4                   5       MARIA silva       maria.silva@hotmail.com     
...               ...               ...                             ...   
52495           26846    PAULO ferreira    paulo.ferreira@outlook.com     
52496           45552    Patricia Silva     patricia.silva@uol.com.br     
52497           25412        João Alves           joão.alves@uol.com.br   
52498           44726       Lucia Gomes           lucia.gomes@gmail.com   
52499           30012  Carlos Rodrigues    carlos.rodrigues@outlook.com   

       idade  Data de Nascimento# Telefone/Celular CEP (Código)  

In [209]:
df1.isnull().sum()

  ID Cliente                 0
NOME COMPLETO!               0
E-mail@Principal          7888
 idade                    2164
Data de Nascimento#       2575
Telefone/Celular          2097
CEP (Código)              2163
Endereço & Cidade         5220
Estado-UF                 1402
Salário (R$)              2073
Status_da_Conta           1046
Score de Crédito%         3039
Produto Favorito*         6230
Data da Última Compra     3346
Valor Total Gasto         2105
Categoria-Cliente         1162
Unnamed: 16              52500
Obs: Comentários         40034
Ativo? (S/N)              1096
Regional/Zona             2677
dtype: int64

## Padronizando os Dados

- remover espaços
- normalizar acentos
- transformar para minúsculas
- padronizar datas
- converter tipos
- normalizar categorias

### Padronização dos Nomes das Colunas

In [210]:
# função de padronização das colunas
def padronizar_colunas(colunas):
    novas_colunas = []
    for col in colunas:
        # remove acentos
        col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        # deixa tudo em minúsculas
        col = col.lower()
        # remove caracteres especiais
        col = re.sub(r'[^a-z0-9_]', '_', col)
        # remove underscores duplicados
        col = re.sub(r'_+', '_', col)
        # remove underscore no começo ou fim
        col = col.strip('_')
        novas_colunas.append(col)
    return novas_colunas

df1.columns = padronizar_colunas(df1.columns)

In [211]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,e_mail_principal,idade,data_de_nascimento,telefone_celular,cep_codigo,endereco_cidade,estado_uf,salario_r,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo_s_n,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [212]:
# Renomeando colunas específicas

df1 = df1.rename(columns={
    "e_mail_principal": "email",
    "cep_codigo": "cep",
    "endereco_cidade": "endereco",
    "salario_r": "salario",
    "ativo_s_n": "ativo"
})


In [213]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


### Padronização de Colunas Diversas

In [214]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [215]:
cols = ['endereco', 'status_da_conta', 'produto_favorito', 'categoria_cliente', 'ativo', 'regional_zona']

for col in cols:
    df1[col] = (
        df1[col]
        .str.normalize('NFKD')
        .str.encode('ascii', errors='ignore')
        .str.decode('utf-8')
        .str.lower()
        .str.strip()
        .str.replace(r'\s+', ' ', regex=True)
    )


In [216]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


### Padronização Específica por Coluna

#### Padronização da Coluna "nome_completo"

In [217]:
df1["nome_completo"].tail()

52495      PAULO ferreira
52496      Patricia Silva
52497          João Alves
52498         Lucia Gomes
52499    Carlos Rodrigues
Name: nome_completo, dtype: object

In [218]:
df1['nome_completo'] = df1['nome_completo'].str.title()

In [219]:
df1['nome_completo'] = df1['nome_completo'].str.replace(
    r'^(sr\.?|sra\.?|srta\.?|dr\.?|dra\.?|prof\.?|profa\.?)\s*',
    '',
    regex=True,
    flags=re.IGNORECASE
)


In [220]:
df1["nome_completo"].tail()

52495      Paulo Ferreira
52496      Patricia Silva
52497          João Alves
52498         Lucia Gomes
52499    Carlos Rodrigues
Name: nome_completo, dtype: object

In [221]:
# Criando a coluna "nome_limpo" (para deduplicação)

df1['nome_limpo'] = (
    df1['nome_completo']
    .str.normalize('NFKD')
    .str.encode('ascii', errors='ignore')
    .str.decode('utf-8')
    .str.lower()
    .str.strip()
    .str.replace(r'\s+', ' ', regex=True)
)

colunas = list(df1.columns)

# Alterando a posição da coluna nome_limpo

idx = colunas.index('nome_completo')
colunas.remove('nome_limpo')
colunas.insert(idx + 1, 'nome_limpo')
df1 = df1[colunas]



In [222]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,...,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,carla souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,...,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,...,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,...,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,...,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


#### Padronização da Coluna "email"

**O que pode ser feito com segurança**

- Remover espaços extras
- Converter para minúsculas
- Remover quebras de linha
- Tratar casos óbvios de sujeira (“;”, vírgulas, espaços no meio)
- Validar formato básico (opcional)

**O que não deve ser feito**

- Não remover pontos antes do @ (ex.: joao.silva@gmail.com ≠ joaosilva@gmail.com)
- Não remover sinais como “+” (ex.: joao+teste@gmail.com é válido)
- Não tentar “corrigir” domínios manualmente
- Não aplicar normalização de acentos (e‑mail não deve ter acentos, mas se tiver, é melhor sinalizar do que alterar)

In [223]:
df1.tail()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
52495,26846,Paulo Ferreira,paulo ferreira,paulo.ferreira@outlook.com,38,09/21/1996,(11) 02698-1177,55227309,"rua das flores, 941 - rio de janeiro",SP,...,suspenso,550,tv,13/07/2024,2090.78,bronze,,CLIENTE EXIGENTE,n,sul
52496,45552,Patricia Silva,patricia silva,patricia.silva@uol.com.br,53,11/09/1968,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,...,inativo,836,notebook,2024/01/15,R$2500,bronze,,Registro duplicado,s,centro
52497,25412,João Alves,joao alves,joão.alves@uol.com.br,18,06/09/1968,123,60427184,"rua da paz, 51 - brasilia",PE,...,bloqueado,866,teclado,10-28-2024,718.06,bronze,,Registro duplicado,n,norte
52498,44726,Lucia Gomes,lucia gomes,lucia.gomes@gmail.com,75,15/02/1990,11587515945,71609249,"rua da paz, 2 - porto alegre",SP,...,ativo,Baixo,camera,12-30-2024,1218.89,ouro,,Registro duplicado,s,norte
52499,30012,Carlos Rodrigues,carlos rodrigues,carlos.rodrigues@outlook.com,35,01/16/1970,11 58549-1317,02218-308,"rua das flores, 372 - manaus",RS,...,bloqueado,381,mouse,09/09/2024,3468.76,platina,,,n,sul


In [224]:
df1['email'] = (
    df1['email']
    .astype(str)
    .str.strip()
    .str.lower()
    .str.replace(r'\s+', '', regex=True)
    .str.replace(r'[;,]+', '', regex=True)
)

In [225]:
import numpy as np

def limpar_e_validar_email(e):
    e = str(e).strip().lower()
    e = e.replace(" ", "")  # remove espaços internos

    # valores claramente inválidos
    if e in ["", "nao_informado", "não_informado", "nao informado", "none", "null"]:
        return np.nan

    # sem arroba
    if '@' not in e:
        return np.nan

    usuario, dominio = e.split('@', 1)

    # usuario vazio → caso @dominio.com
    if usuario == "":
        return np.nan

    # dominio sem ponto
    if '.' not in dominio:
        return np.nan

    return e

df1['email'] = df1['email'].apply(limpar_e_validar_email)


In [226]:
df1.tail()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
52495,26846,Paulo Ferreira,paulo ferreira,paulo.ferreira@outlook.com,38,09/21/1996,(11) 02698-1177,55227309,"rua das flores, 941 - rio de janeiro",SP,...,suspenso,550,tv,13/07/2024,2090.78,bronze,,CLIENTE EXIGENTE,n,sul
52496,45552,Patricia Silva,patricia silva,patricia.silva@uol.com.br,53,11/09/1968,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,...,inativo,836,notebook,2024/01/15,R$2500,bronze,,Registro duplicado,s,centro
52497,25412,João Alves,joao alves,joão.alves@uol.com.br,18,06/09/1968,123,60427184,"rua da paz, 51 - brasilia",PE,...,bloqueado,866,teclado,10-28-2024,718.06,bronze,,Registro duplicado,n,norte
52498,44726,Lucia Gomes,lucia gomes,lucia.gomes@gmail.com,75,15/02/1990,11587515945,71609249,"rua da paz, 2 - porto alegre",SP,...,ativo,Baixo,camera,12-30-2024,1218.89,ouro,,Registro duplicado,s,norte
52499,30012,Carlos Rodrigues,carlos rodrigues,carlos.rodrigues@outlook.com,35,01/16/1970,11 58549-1317,02218-308,"rua das flores, 372 - manaus",RS,...,bloqueado,381,mouse,09/09/2024,3468.76,platina,,,n,sul


#### Padronização da Coluna "idade"

In [227]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,...,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,carla souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,...,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,...,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,...,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,...,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


In [228]:
df1.dtypes

id_cliente                 int64
nome_completo             object
nome_limpo                object
email                     object
idade                     object
data_de_nascimento        object
telefone_celular          object
cep                       object
endereco                  object
estado_uf                 object
salario                   object
status_da_conta           object
score_de_credito          object
produto_favorito          object
data_da_ultima_compra     object
valor_total_gasto         object
categoria_cliente         object
unnamed_16               float64
obs_comentarios           object
ativo                     object
regional_zona             object
dtype: object

In [230]:
df1['idade'] = pd.to_numeric(df1['idade'], errors='coerce').astype('float64')
pd.set_option('display.float_format', '{:.0f}'.format)
df1.loc[(df1['idade'] < 0) | (df1['idade'] > 100), 'idade'] = np.nan


In [231]:
df1.sample(60)

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,...,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
40215,40216,Pedro Gomes,pedro gomes,pedro.gomes@bol.com.br,60.0,05/20/1970,31891227553,92807708,"rua central, 952 - rio de janeiro",,...,bloqueado,483,smartwatch,13/07/2024,3128.68,diamante,,Sem observações,n,centro
961,962,Claudia Ribeiro,claudia ribeiro,claudia.ribeiro@bol.com.br,,12/05/1955,(11) 64943-0002,34554-338,"rua central, 599 - guarulhos",CE,...,inativo,601,fone de ouvido,09-08-2024,9495.7,ouro,,Sem observações,s,
291,292,Marcos Ferreira,marcos ferreira,marcos.ferreira@outlook.com,59.0,06/24/1950,21 93276-1197,14399-871,"rua da paz, 593 - brasilia",SP,...,ativo,370,teclado,20/04/2024,4146.6,platina,,,true,leste
3671,3672,André Alves,andre alves,andré.alves@outlook.com,55.0,04/22/1967,21 01509-4130,34082334,"rua central, 406 - fortaleza",PR,...,bloqueado,737,teclado,2024-12-06,8469.41,ouro,,,s,norte
8114,8115,Ricardo Costa,ricardo costa,,41.0,06/15/1978,47629299229,36528012,"rua das flores, 230 - porto alegre",SP,...,bloqueado,841,notebook,2024-08-07,3778.72,prata,,,n,sul
15125,15126,Rafael Santos,rafael santos,rafael.santos@yahoo.com,68.0,05/25/1968,(47) 32473-4680,08303289,,SP,...,ativo,737,teclado,02/03/2024,6956.07,prata,,,s,
17341,17342,Pedro Rodrigues,pedro rodrigues,pedro.rodrigues@outlook.com,77.0,Não informado,21 76672-6972,22525775,"rua principal, 627 - brasilia",SP,...,inativo,302,notebook,13/04/2024,5465.3,prata,,Bom pagador,s,sul
12362,12363,Bruno Oliveira,bruno oliveira,acentuação@email.com,54.0,09/03/1987,11999999999,123456,"rua das flores, 618 - rio de janeiro",RJ,...,bloqueado,850 pontos,camera,06-08-2024,4333.67,platina,,,s,
30199,30200,Rafael Rodrigues,rafael rodrigues,rafael.rodrigues@hotmail.com,59.0,,85566669926,10249068,"rua central, 386 - curitiba",SP,...,bloqueado,694,tablet,02/08/2024,9311.37,bronze,,,n,
3080,3081,Bruno Gomes,bruno gomes,bruno.gomes@gmail.com,73.0,Janeiro 1992,11 40502-5317,87788-338,"rua da paz, 797 - fortaleza",PR,...,ativo,327,,2024-01-02,8754.98,ouro,,Observação importante,s,oeste


In [232]:
df1.dtypes

id_cliente                 int64
nome_completo             object
nome_limpo                object
email                     object
idade                    float64
data_de_nascimento        object
telefone_celular          object
cep                       object
endereco                  object
estado_uf                 object
salario                   object
status_da_conta           object
score_de_credito          object
produto_favorito          object
data_da_ultima_compra     object
valor_total_gasto         object
categoria_cliente         object
unnamed_16               float64
obs_comentarios           object
ativo                     object
regional_zona             object
dtype: object

## Limpando os Dados

- remover duplicatas
- tratar valores faltantes
- corrigir inconsistências
- tratar outliers
- validar regras de negócio

### Tratamento de Valores Ausentes

#### Deletando Colunas Vazias

In [None]:
df1 = df1.drop(columns=["unnamed_16"])

In [None]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56.0,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,ativo,norte
1,2,Carla Souza,carla souza,,69.0,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46.0,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32.0,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60.0,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,n,centro


#### Valores Ausentes

In [None]:
df1.isna().sum()

id_cliente                   0
nome_completo                0
nome_limpo                   0
email                     9732
idade                     6386
data_de_nascimento        2575
telefone_celular          2097
cep                       2163
endereco                  5220
estado_uf                 1402
salario                   2073
status_da_conta           1046
score_de_credito          3039
produto_favorito          6230
data_da_ultima_compra     3346
valor_total_gasto         2105
categoria_cliente         1162
obs_comentarios          40034
ativo                     1096
regional_zona             2677
dtype: int64

In [None]:
len(df1)

52500

In [None]:
# Deletando a coluna de observações

df1 = df1.drop(columns=["obs_comentarios"])

In [None]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56.0,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,ativo,norte
1,2,Carla Souza,carla souza,,69.0,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,s,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46.0,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,n,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32.0,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,n,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60.0,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,n,centro


#### Duplicatas

In [None]:
df1.duplicated().sum()

np.int64(2500)

In [None]:
df1.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
52495     True
52496     True
52497     True
52498     True
52499     True
Length: 52500, dtype: bool

In [None]:
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
50000,31362,Maria Gomes,maria gomes,maria...gomes@uol.com.br,24.0,10/24/1999,(21) 61369-1296,28607746,"rua das flores, 401 - belo horizonte",RJ,5506,ativo,849,mouse,Nunca comprou,3640.34,platina,inativo,norte
50001,16722,Rafael Santos,rafael santos,rafael.santos@bol.com.br,76.0,11/06/1985,11 62613-2573,85267384,"rua central, 546 - belo horizonte",RJ,6995,inativo,,teclado,03/10/2024,3231.28,prata,n,centro-oeste
50002,36789,Claudia Oliveira,claudia oliveira,claudia.oliveira@hotmail.com,42.0,01/22/1956,11 49487-5313,88836534,"rua das flores, 172 - sao paulo",,8966,suspenso,429,smartphone,2024-12-07,2322.92,prata,n,norte
50003,22819,Pedro Souza,pedro souza,pedro.souza@bol.com.br,35.0,12/08/1960,11999999999,87846-239,"rua central, 80 - belem",BA,14658,suspenso,,monitor,,743.35,prata,n,sul
50004,24795,Maria Souza,maria souza,maria.souza@yahoo.com,70.0,09/24/1958,85642656137,04704-402,"rua central, 557 - porto alegre",MG,11155,bloqueado,561,monitor,05/12/2024,3910.55,platina,,norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52495,26846,Paulo Ferreira,paulo ferreira,paulo.ferreira@outlook.com,38.0,09/21/1996,(11) 02698-1177,55227309,"rua das flores, 941 - rio de janeiro",SP,14486,suspenso,550,tv,13/07/2024,2090.78,bronze,n,sul
52496,45552,Patricia Silva,patricia silva,patricia.silva@uol.com.br,53.0,11/09/1968,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,3500.50,inativo,836,notebook,2024/01/15,R$2500,bronze,s,centro
52497,25412,João Alves,joao alves,joão.alves@uol.com.br,18.0,06/09/1968,123,60427184,"rua da paz, 51 - brasilia",PE,6930,bloqueado,866,teclado,10-28-2024,718.06,bronze,n,norte
52498,44726,Lucia Gomes,lucia gomes,lucia.gomes@gmail.com,75.0,15/02/1990,11587515945,71609249,"rua da paz, 2 - porto alegre",SP,9779,ativo,Baixo,camera,12-30-2024,1218.89,ouro,s,norte


In [None]:
df1 = df1.drop_duplicates()

In [None]:
# Conferindo se as duplicatas foram removidas
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona


In [None]:
df1.duplicated().sum()

np.int64(0)

## Enriquecer/Transformar os Dados

- criar novas colunas
- fazer joins
- preparar para modelagem

### Coluna de Nomes Limpos Para Processamento de Dados