# Pipeline de Limpeza de Dados

## Importandos as Bibliotecas e os Dados

In [49]:
# Bibliotecas

import pandas as pd
import unicodedata
import re

In [50]:
# Dados

df = pd.read_csv("dados.csv")
df1 = df.copy()

## Vizualizando o Dataframe

In [51]:
df1.head()

Unnamed: 0,ID Cliente,NOME COMPLETO!,E-mail@Principal,idade,Data de Nascimento#,Telefone/Celular,CEP (Código),Endereço & Cidade,Estado-UF,Salário (R$),Status_da_Conta,Score de Crédito%,Produto Favorito*,Data da Última Compra,Valor Total Gasto,Categoria-Cliente,Unnamed: 16,Obs: Comentários,Ativo? (S/N),Regional/Zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [52]:
df1.dtypes

  ID Cliente               int64
NOME COMPLETO!            object
E-mail@Principal          object
 idade                    object
Data de Nascimento#       object
Telefone/Celular          object
CEP (Código)              object
Endereço & Cidade         object
Estado-UF                 object
Salário (R$)              object
Status_da_Conta           object
Score de Crédito%         object
Produto Favorito*         object
Data da Última Compra     object
Valor Total Gasto         object
Categoria-Cliente         object
Unnamed: 16              float64
Obs: Comentários          object
Ativo? (S/N)              object
Regional/Zona             object
dtype: object

In [53]:
df1.shape

(52500, 20)

In [54]:
df1.describe

<bound method NDFrame.describe of          ID Cliente      NOME COMPLETO!                E-mail@Principal  \
0                   1         Ana Silva             ana.silva@yahoo.com   
1                   2       Carla Souza                             NaN   
2                   3         Ana Costa           ana.costa@hotmail.com   
3                   4    Mariana Santos       mariana.santos@bol.com.br   
4                   5       MARIA silva       maria.silva@hotmail.com     
...               ...               ...                             ...   
52495           26846    PAULO ferreira    paulo.ferreira@outlook.com     
52496           45552    Patricia Silva     patricia.silva@uol.com.br     
52497           25412        João Alves           joão.alves@uol.com.br   
52498           44726       Lucia Gomes           lucia.gomes@gmail.com   
52499           30012  Carlos Rodrigues    carlos.rodrigues@outlook.com   

       idade  Data de Nascimento# Telefone/Celular CEP (Código)  

In [55]:
df1.isnull().sum()

  ID Cliente                 0
NOME COMPLETO!               0
E-mail@Principal          7888
 idade                    2164
Data de Nascimento#       2575
Telefone/Celular          2097
CEP (Código)              2163
Endereço & Cidade         5220
Estado-UF                 1402
Salário (R$)              2073
Status_da_Conta           1046
Score de Crédito%         3039
Produto Favorito*         6230
Data da Última Compra     3346
Valor Total Gasto         2105
Categoria-Cliente         1162
Unnamed: 16              52500
Obs: Comentários         40034
Ativo? (S/N)              1096
Regional/Zona             2677
dtype: int64

## Limpando os Dados

### Padronização dos Nomes das Colunas

In [56]:
# função de padronização das colunas
def padronizar_colunas(colunas):
    novas_colunas = []
    for col in colunas:
        # remove acentos
        col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        # deixa tudo em minúsculas
        col = col.lower()
        # remove caracteres especiais
        col = re.sub(r'[^a-z0-9_]', '_', col)
        # remove underscores duplicados
        col = re.sub(r'_+', '_', col)
        # remove underscore no começo ou fim
        col = col.strip('_')
        novas_colunas.append(col)
    return novas_colunas

df1.columns = padronizar_colunas(df1.columns)

In [57]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,e_mail_principal,idade,data_de_nascimento,telefone_celular,cep_codigo,endereco_cidade,estado_uf,salario_r,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo_s_n,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [58]:
# Renomeando colunas específicas

df1 = df1.rename(columns={
    "e_mail_principal": "email_principal",
    "cep_codigo": "cep",
    "endereco_cidade": "endereco",
    "salario_r": "salario",
    "ativo_s_n": "ativo"
})


In [59]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


### Tratamento de Valores Ausentes

#### Deletando Colunas Vazias

In [60]:
df1 = df1.drop(columns=["unnamed_16"])

In [61]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,N,Centro


#### Valores Ausentes

In [63]:
df1.isna().sum()

id_cliente                   0
nome_completo                0
email_principal           7888
idade                     2164
data_de_nascimento        2575
telefone_celular          2097
cep                       2163
endereco                  5220
estado_uf                 1402
salario                   2073
status_da_conta           1046
score_de_credito          3039
produto_favorito          6230
data_da_ultima_compra     3346
valor_total_gasto         2105
categoria_cliente         1162
obs_comentarios          40034
ativo                     1096
regional_zona             2677
dtype: int64

In [64]:
len(df1)

52500

In [None]:
# Deletando a coluna de observações

df1 = df1.drop(columns=["obs_comentarios"])

In [67]:
# Preenchendo com valor padrão (não informado)

df1["email_principal"] = df1["email_principal"].fillna("nao_informado")
df1["endereco"] = df1["endereco"].fillna("nao_informado")
df1["produto_favorito"] = df1["produto_favorito"].fillna("nao_informado")


In [68]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email_principal,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,nao_informado,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,Ativo,norte
1,2,Carla Souza,nao_informado,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,N,Centro


#### Duplicatas