# Pipeline de Limpeza de Dados

## Importandos as Bibliotecas e os Dados

In [54]:
# Bibliotecas

import pandas as pd
import unicodedata
import re

In [55]:
# Dados

df = pd.read_csv("dados.csv")
df1 = df.copy()

## Vizualizando o Dataframe

In [56]:
df1.head()

Unnamed: 0,ID Cliente,NOME COMPLETO!,E-mail@Principal,idade,Data de Nascimento#,Telefone/Celular,CEP (Código),Endereço & Cidade,Estado-UF,Salário (R$),Status_da_Conta,Score de Crédito%,Produto Favorito*,Data da Última Compra,Valor Total Gasto,Categoria-Cliente,Unnamed: 16,Obs: Comentários,Ativo? (S/N),Regional/Zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [57]:
df1.dtypes

  ID Cliente               int64
NOME COMPLETO!            object
E-mail@Principal          object
 idade                    object
Data de Nascimento#       object
Telefone/Celular          object
CEP (Código)              object
Endereço & Cidade         object
Estado-UF                 object
Salário (R$)              object
Status_da_Conta           object
Score de Crédito%         object
Produto Favorito*         object
Data da Última Compra     object
Valor Total Gasto         object
Categoria-Cliente         object
Unnamed: 16              float64
Obs: Comentários          object
Ativo? (S/N)              object
Regional/Zona             object
dtype: object

In [58]:
df1.shape

(52500, 20)

In [59]:
df1.describe

<bound method NDFrame.describe of          ID Cliente      NOME COMPLETO!                E-mail@Principal  \
0                   1         Ana Silva             ana.silva@yahoo.com   
1                   2       Carla Souza                             NaN   
2                   3         Ana Costa           ana.costa@hotmail.com   
3                   4    Mariana Santos       mariana.santos@bol.com.br   
4                   5       MARIA silva       maria.silva@hotmail.com     
...               ...               ...                             ...   
52495           26846    PAULO ferreira    paulo.ferreira@outlook.com     
52496           45552    Patricia Silva     patricia.silva@uol.com.br     
52497           25412        João Alves           joão.alves@uol.com.br   
52498           44726       Lucia Gomes           lucia.gomes@gmail.com   
52499           30012  Carlos Rodrigues    carlos.rodrigues@outlook.com   

       idade  Data de Nascimento# Telefone/Celular CEP (Código)  

In [60]:
df1.isnull().sum()

  ID Cliente                 0
NOME COMPLETO!               0
E-mail@Principal          7888
 idade                    2164
Data de Nascimento#       2575
Telefone/Celular          2097
CEP (Código)              2163
Endereço & Cidade         5220
Estado-UF                 1402
Salário (R$)              2073
Status_da_Conta           1046
Score de Crédito%         3039
Produto Favorito*         6230
Data da Última Compra     3346
Valor Total Gasto         2105
Categoria-Cliente         1162
Unnamed: 16              52500
Obs: Comentários         40034
Ativo? (S/N)              1096
Regional/Zona             2677
dtype: int64

## Padronizando os Dados

- remover espaços
- normalizar acentos
- transformar para minúsculas
- padronizar datas
- converter tipos
- normalizar categorias

### Padronização dos Nomes das Colunas

In [61]:
# função de padronização das colunas
def padronizar_colunas(colunas):
    novas_colunas = []
    for col in colunas:
        # remove acentos
        col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        # deixa tudo em minúsculas
        col = col.lower()
        # remove caracteres especiais
        col = re.sub(r'[^a-z0-9_]', '_', col)
        # remove underscores duplicados
        col = re.sub(r'_+', '_', col)
        # remove underscore no começo ou fim
        col = col.strip('_')
        novas_colunas.append(col)
    return novas_colunas

df1.columns = padronizar_colunas(df1.columns)

In [62]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,e_mail_principal,idade,data_de_nascimento,telefone_celular,cep_codigo,endereco_cidade,estado_uf,salario_r,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo_s_n,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [63]:
# Renomeando colunas específicas

df1 = df1.rename(columns={
    "e_mail_principal": "email_principal",
    "cep_codigo": "cep",
    "endereco_cidade": "endereco",
    "salario_r": "salario",
    "ativo_s_n": "ativo"
})


In [64]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


### Padronização de Colunas Diversas

In [65]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [66]:
cols = ['endereco', 'status_da_conta', 'produto_favorito', 'categoria_cliente', 'ativo', 'regional_zona']

for col in cols:
    df1[col] = (
        df1[col]
        .str.normalize('NFKD')
        .str.encode('ascii', errors='ignore')
        .str.decode('utf-8')
        .str.lower()
        .str.strip()
        .str.replace(r'\s+', ' ', regex=True)
    )


In [67]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


### Padronização Específica por Coluna

#### Padronização da Coluna "nome_completo"

In [82]:
df1["nome_completo"].tail(60)

49940      Patricia Ribeiro
49941         Claudia Costa
49942        Marcos Ribeiro
49943         Marcos Santos
49944         André Ribeiro
49945        Bruno Oliveira
49946         Carla Ribeiro
49947        Carla Ferreira
49948           Maria Costa
49949          Rafael Gomes
49950       Carla Rodrigues
49951      Juliana de Alves
49952         Ricardo Alves
49953           Bruno Silva
49954           Maria Souza
49955         Mariana Alves
49956             Ana Gomes
49957           Maria Costa
49958       Pedro Rodrigues
49959         Mariana Souza
49960            Lucia Lima
49961      Sr. Paulo Santos
49962          Carlos Alves
49963          Rafael Souza
49964           Bruno Gomes
49965      Claudia Ferreira
49966            André Lima
49967          Rafael Souza
49968      Fernando Pereira
49969            Pedro Lima
49970          Ana Santos  
49971           Ana Ribeiro
49972       Paulo Rodrigues
49973       Paulo Rodrigues
49974         Ricardo Gomes
49975           Luci

## Limpando os Dados

- remover duplicatas
- tratar valores faltantes
- corrigir inconsistências
- tratar outliers
- validar regras de negócio

### Tratamento de Valores Ausentes

#### Deletando Colunas Vazias

In [69]:
df1 = df1.drop(columns=["unnamed_16"])

In [70]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,n,centro


#### Valores Ausentes

In [71]:
df1.isna().sum()

id_cliente                   0
nome_completo                0
email_principal           7888
idade                     2164
data_de_nascimento        2575
telefone_celular          2097
cep                       2163
endereco                  5220
estado_uf                 1402
salario                   2073
status_da_conta           1046
score_de_credito          3039
produto_favorito          6230
data_da_ultima_compra     3346
valor_total_gasto         2105
categoria_cliente         1162
obs_comentarios          40034
ativo                     1096
regional_zona             2677
dtype: int64

In [72]:
len(df1)

52500

In [73]:
# Deletando a coluna de observações

df1 = df1.drop(columns=["obs_comentarios"])

In [74]:
# Preenchendo com valor padrão (não informado)

df1["email_principal"] = df1["email_principal"].fillna("nao_informado")
df1["endereco"] = df1["endereco"].fillna("nao_informado")
df1["produto_favorito"] = df1["produto_favorito"].fillna("nao_informado")


In [75]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,nao_informado,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,ativo,norte
1,2,Carla Souza,nao_informado,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,n,centro


#### Duplicatas

In [76]:
df1.duplicated().sum()

np.int64(2500)

In [77]:
df1.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
52495     True
52496     True
52497     True
52498     True
52499     True
Length: 52500, dtype: bool

In [78]:
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
50000,31362,Maria Gomes,maria...gomes@uol.com.br,24,10/24/1999,(21) 61369-1296,28607746,"rua das flores, 401 - belo horizonte",RJ,5506,ativo,849,mouse,Nunca comprou,3640.34,platina,inativo,norte
50001,16722,Rafael Santos,rafael.santos@bol.com.br,76,11/06/1985,11 62613-2573,85267384,"rua central, 546 - belo horizonte",RJ,6995,inativo,,teclado,03/10/2024,3231.28,prata,n,centro-oeste
50002,36789,Claudia Oliveira,claudia.oliveira@hotmail.com,42,01/22/1956,11 49487-5313,88836534,"rua das flores, 172 - sao paulo",,8966,suspenso,429,smartphone,2024-12-07,2322.92,prata,n,norte
50003,22819,Pedro Souza,pedro.souza@bol.com.br,35,12/08/1960,11999999999,87846-239,"rua central, 80 - belem",BA,14658,suspenso,,monitor,,743.35,prata,n,sul
50004,24795,Maria Souza,maria.souza@yahoo.com,70,09/24/1958,85642656137,04704-402,"rua central, 557 - porto alegre",MG,11155,bloqueado,561,monitor,05/12/2024,3910.55,platina,,norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52495,26846,PAULO ferreira,paulo.ferreira@outlook.com,38,09/21/1996,(11) 02698-1177,55227309,"rua das flores, 941 - rio de janeiro",SP,14486,suspenso,550,tv,13/07/2024,2090.78,bronze,n,sul
52496,45552,Patricia Silva,patricia.silva@uol.com.br,53,11/09/1968,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,3500.50,inativo,836,notebook,2024/01/15,R$2500,bronze,s,centro
52497,25412,João Alves,joão.alves@uol.com.br,18,06/09/1968,123,60427184,"rua da paz, 51 - brasilia",PE,6930,bloqueado,866,teclado,10-28-2024,718.06,bronze,n,norte
52498,44726,Lucia Gomes,lucia.gomes@gmail.com,75,15/02/1990,11587515945,71609249,"rua da paz, 2 - porto alegre",SP,9779,ativo,Baixo,camera,12-30-2024,1218.89,ouro,s,norte


In [79]:
df1 = df1.drop_duplicates()

In [80]:
# Conferindo se as duplicatas foram removidas
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona


In [81]:
df1.duplicated().sum()

np.int64(0)

## Enriquecer/Transformar os Dados

- criar novas colunas
- fazer joins
- preparar para modelagem