# Pipeline de Limpeza de Dados

## Importandos as Bibliotecas e os Dados

In [796]:
# Bibliotecas

import pandas as pd
import unicodedata
import re
import numpy as np

In [797]:
# Dados

df = pd.read_csv("dados.csv")
df1 = df.copy()

## Vizualizando o Dataframe

In [798]:
df1.head()

Unnamed: 0,ID Cliente,NOME COMPLETO!,E-mail@Principal,idade,Data de Nascimento#,Telefone/Celular,CEP (Código),Endereço & Cidade,Estado-UF,Salário (R$),Status_da_Conta,Score de Crédito%,Produto Favorito*,Data da Última Compra,Valor Total Gasto,Categoria-Cliente,Unnamed: 16,Obs: Comentários,Ativo? (S/N),Regional/Zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [799]:
df1.dtypes

  ID Cliente               int64
NOME COMPLETO!            object
E-mail@Principal          object
 idade                    object
Data de Nascimento#       object
Telefone/Celular          object
CEP (Código)              object
Endereço & Cidade         object
Estado-UF                 object
Salário (R$)              object
Status_da_Conta           object
Score de Crédito%         object
Produto Favorito*         object
Data da Última Compra     object
Valor Total Gasto         object
Categoria-Cliente         object
Unnamed: 16              float64
Obs: Comentários          object
Ativo? (S/N)              object
Regional/Zona             object
dtype: object

In [800]:
df1.shape

(52500, 20)

In [801]:
df1.describe

<bound method NDFrame.describe of          ID Cliente      NOME COMPLETO!                E-mail@Principal  \
0                   1         Ana Silva             ana.silva@yahoo.com   
1                   2       Carla Souza                             NaN   
2                   3         Ana Costa           ana.costa@hotmail.com   
3                   4    Mariana Santos       mariana.santos@bol.com.br   
4                   5       MARIA silva       maria.silva@hotmail.com     
...               ...               ...                             ...   
52495           26846    PAULO ferreira    paulo.ferreira@outlook.com     
52496           45552    Patricia Silva     patricia.silva@uol.com.br     
52497           25412        João Alves           joão.alves@uol.com.br   
52498           44726       Lucia Gomes           lucia.gomes@gmail.com   
52499           30012  Carlos Rodrigues    carlos.rodrigues@outlook.com   

       idade  Data de Nascimento# Telefone/Celular CEP (Código)  

In [802]:
df1.isnull().sum()

  ID Cliente                 0
NOME COMPLETO!               0
E-mail@Principal          7888
 idade                    2164
Data de Nascimento#       2575
Telefone/Celular          2097
CEP (Código)              2163
Endereço & Cidade         5220
Estado-UF                 1402
Salário (R$)              2073
Status_da_Conta           1046
Score de Crédito%         3039
Produto Favorito*         6230
Data da Última Compra     3346
Valor Total Gasto         2105
Categoria-Cliente         1162
Unnamed: 16              52500
Obs: Comentários         40034
Ativo? (S/N)              1096
Regional/Zona             2677
dtype: int64

## Padronizando os Dados

- remover espaços
- normalizar acentos
- transformar para minúsculas
- padronizar datas
- converter tipos
- normalizar categorias

### Padronização dos Nomes das Colunas

In [803]:
# função de padronização das colunas
def padronizar_colunas(colunas):
    novas_colunas = []
    for col in colunas:
        col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        col = col.lower()
        col = re.sub(r'[^a-z0-9_]', '_', col)
        col = re.sub(r'_+', '_', col)
        col = col.strip('_')
        novas_colunas.append(col)
    return novas_colunas

df1.columns = padronizar_colunas(df1.columns)

In [804]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,e_mail_principal,idade,data_de_nascimento,telefone_celular,cep_codigo,endereco_cidade,estado_uf,salario_r,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo_s_n,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [805]:
# Renomeando colunas específicas

df1 = df1.rename(columns={
    "e_mail_principal": "email",
    "cep_codigo": "cep",
    "endereco_cidade": "endereco",
    "salario_r": "salario",
    "ativo_s_n": "ativo"
})


In [806]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


### Padronização de Colunas Diversas

In [807]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,Suspenso,852,Monitor,30/09/2024,4495.03,Ouro,,,Ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"Rua Principal, 935 - Guarulhos",PA,Não informado,Ativo,517,Monitor,2024-09-13,6751.27,Diamante,,,S,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"Rua Central, 633 - Fortaleza",RJ,12030,A,428,TECLADO,03-13-2024,6900.93,Ouro,,,N,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"Rua Principal, 630 - Brasília",RS,12038,Inativo,662,Notebook,04-06-2024,3743.36,Platina,,,N,Centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"Rua da Paz, 673 - Fortaleza",BA,14659,Bloqueado,375,CAMERA,01-27-2024,9077.3,Ouro,,,N,Centro


In [808]:
cols = ['endereco', 'status_da_conta', 'produto_favorito', 'categoria_cliente', 'ativo', 'regional_zona']

for col in cols:
    df1[col] = (
        df1[col]
        .str.normalize('NFKD')
        .str.encode('ascii', errors='ignore')
        .str.decode('utf-8')
        .str.lower()
        .str.strip()
        .str.replace(r'\s+', ' ', regex=True)
    )


In [809]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,unnamed_16,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana.silva@yahoo.com,56,Janeiro 1992,(85) 16400-0408,04397312,,CE,Salário confidencial,suspenso,852,monitor,30/09/2024,4495.03,ouro,,,ativo,norte
1,2,Carla Souza,,69,10/18/1950,31 87481-2231,123456,"rua principal, 935 - guarulhos",PA,Não informado,ativo,517,monitor,2024-09-13,6751.27,diamante,,,s,centro-oeste
2,3,Ana Costa,ana.costa@hotmail.com,46,,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030,a,428,teclado,03-13-2024,6900.93,ouro,,,n,centro-oeste
3,4,Mariana Santos,mariana.santos@bol.com.br,32,06/08/1976,(11) 42963-8044,80681606,"rua principal, 630 - brasilia",RS,12038,inativo,662,notebook,04-06-2024,3743.36,platina,,,n,centro
4,5,MARIA silva,maria.silva@hotmail.com,60,03/19/2001,11 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659,bloqueado,375,camera,01-27-2024,9077.3,ouro,,,n,centro


### Padronização Específica por Coluna

#### Padronização da Coluna "nome_completo"

In [810]:
df1["nome_completo"].tail()

52495      PAULO ferreira
52496      Patricia Silva
52497          João Alves
52498         Lucia Gomes
52499    Carlos Rodrigues
Name: nome_completo, dtype: object

In [811]:
df1['nome_completo'] = df1['nome_completo'].str.title()

In [812]:
df1['nome_completo'] = df1['nome_completo'].str.replace(
    r'^(sr\.?|sra\.?|srta\.?|dr\.?|dra\.?|prof\.?|profa\.?)\s*',
    '',
    regex=True,
    flags=re.IGNORECASE
)


In [813]:
df1["nome_completo"].tail()

52495      Paulo Ferreira
52496      Patricia Silva
52497          João Alves
52498         Lucia Gomes
52499    Carlos Rodrigues
Name: nome_completo, dtype: object

In [814]:
# Criando a coluna "nome_limpo"

df1['nome_limpo'] = (
    df1['nome_completo']
    .str.normalize('NFKD')
    .str.encode('ascii', errors='ignore')
    .str.decode('utf-8')
    .str.lower()
    .str.strip()
    .str.replace(r'\s+', ' ', regex=True)
)

colunas = list(df1.columns)

# Alterando a posição da coluna nome_limpo

idx = colunas.index('nome_completo')
colunas.remove('nome_limpo')
colunas.insert(idx + 1, 'nome_limpo')
df1 = df1[colunas]



In [815]:
df1["nome_completo"].head()

0         Ana Silva
1       Carla Souza
2         Ana Costa
3    Mariana Santos
4       Maria Silva
Name: nome_completo, dtype: object

#### Padronização da Coluna "email"

**O que pode ser feito com segurança**

- Remover espaços extras
- Converter para minúsculas
- Remover quebras de linha
- Tratar casos óbvios de sujeira (“;”, vírgulas, espaços no meio)
- Validar formato básico (opcional)

**O que não deve ser feito**

- Não remover pontos antes do @ (ex.: joao.silva@gmail.com ≠ joaosilva@gmail.com)
- Não remover sinais como “+” (ex.: joao+teste@gmail.com é válido)
- Não tentar “corrigir” domínios manualmente
- Não aplicar normalização de acentos (e‑mail não deve ter acentos, mas se tiver, é melhor sinalizar do que alterar)

In [816]:
df1["email"].tail()

52495      paulo.ferreira@outlook.com  
52496       patricia.silva@uol.com.br  
52497             joão.alves@uol.com.br
52498             lucia.gomes@gmail.com
52499      carlos.rodrigues@outlook.com
Name: email, dtype: object

In [817]:
df1['email'] = (
    df1['email']
    .astype(str)
    .str.strip()
    .str.lower()
    .str.replace(r'\s+', '', regex=True)
    .str.replace(r'[;,]+', '', regex=True)
)

In [818]:
def limpar_e_validar_email(e):
    e = str(e).strip().lower()
    e = e.replace(" ", "")

    # Valores "nulos"
    if e in ["", "nao_informado", "não_informado", "nao informado", "none", "null"]:
        return np.nan

    # Sem arroba
    if '@' not in e:
        return np.nan

    usuario, dominio = e.split('@', 1)

    # Sem usuario antes do @
    if usuario == "":
        return np.nan

    # Dominio sem ponto
    if '.' not in dominio:
        return np.nan

    return e

In [819]:
df1['email'] = df1['email'].apply(limpar_e_validar_email).astype('string')

In [820]:
df1["email"].tail()

52495      paulo.ferreira@outlook.com
52496       patricia.silva@uol.com.br
52497           joão.alves@uol.com.br
52498           lucia.gomes@gmail.com
52499    carlos.rodrigues@outlook.com
Name: email, dtype: string

In [821]:
df1["email"].dtype

string[python]

#### Padronização da Coluna "idade"

In [822]:
df1["idade"].tail()

52495    38
52496    53
52497    18
52498    75
52499    35
Name: idade, dtype: object

In [823]:
df1["idade"].dtype

dtype('O')

In [824]:
df1["idade"].unique()

array(['56', '69', '46', '32', '60', '25', '78', 'Não informado', '38',
       '75', '36', '40', '28', '41', '70', '53', '57', nan, '20', '39',
       '19', '61', '47', '55', '-5', '77', '50', '29', '42', 'idoso',
       '66', '44', '76', '150', '59', '45', '33', '79', '64', '68', '72',
       '74', '54', '24', '26', '35', '21', '31', '67', '43', '37',
       '25 anos', '52', '34', '23', '71', '51', '27', '48', '65', '62',
       '58', '18', '22', '30', '49', 'menor de idade', '73', '63'],
      dtype=object)

In [825]:
def limpar_idade(valor):
    if pd.isna(valor):
        return np.nan
    valor = str(valor).strip()
    if valor.lower() in ["", "nan", "não informado", "nao informado", "none", "null"]:
        return np.nan
    valor = re.sub(r'[^0-9]', '', valor)
    if valor == "":
        return np.nan
    idade = int(valor)
    if idade < 0 or idade > 100:
        return np.nan
    return idade

In [826]:
df1['idade'] = df1['idade'].apply(limpar_idade).astype('Int64')

In [827]:
df1["idade"].unique()

<IntegerArray>
[  56,   69,   46,   32,   60,   25,   78, <NA>,   38,   75,   36,   40,   28,
   41,   70,   53,   57,   20,   39,   19,   61,   47,   55,    5,   77,   50,
   29,   42,   66,   44,   76,   59,   45,   33,   79,   64,   68,   72,   74,
   54,   24,   26,   35,   21,   31,   67,   43,   37,   52,   34,   23,   71,
   51,   27,   48,   65,   62,   58,   18,   22,   30,   49,   73,   63]
Length: 64, dtype: Int64

In [828]:
df1["idade"].head()

0    56
1    69
2    46
3    32
4    60
Name: idade, dtype: Int64

In [829]:
df1["idade"].dtype

Int64Dtype()

#### Padronização das Colunas "data_de_nascimento" e "data_da_ultima_compra"

In [830]:
df1["data_de_nascimento"].head()

0    Janeiro 1992
1      10/18/1950
2             NaN
3      06/08/1976
4      03/19/2001
Name: data_de_nascimento, dtype: object

In [831]:
df1["data_da_ultima_compra"].head()

0    30/09/2024
1    2024-09-13
2    03-13-2024
3    04-06-2024
4    01-27-2024
Name: data_da_ultima_compra, dtype: object

In [832]:
def limpar_data(col, validar_intervalo=True, ano_min=1900, ano_max=2026):
    # Converte para formato de data (datetime)
    col = pd.to_datetime(col, errors='coerce')
    
    # Validação de intervalo ()
    if validar_intervalo:
        if ano_min is not None:
            col = col.mask(col.dt.year < ano_min, pd.NaT)
        if ano_max is not None:
            col = col.mask(col.dt.year > ano_max, pd.NaT)
    
    return col

In [833]:
df1['data_de_nascimento'] = limpar_data(df1['data_de_nascimento'], validar_intervalo=True, ano_min=1900, ano_max=2026)
df1['data_da_ultima_compra'] = limpar_data(df1['data_da_ultima_compra'])


  col = pd.to_datetime(col, errors='coerce')
  col = pd.to_datetime(col, errors='coerce')


In [834]:
df1["data_de_nascimento"].head()

0          NaT
1   1950-10-18
2          NaT
3   1976-06-08
4   2001-03-19
Name: data_de_nascimento, dtype: datetime64[ns]

In [835]:
df1["data_da_ultima_compra"].head()

0   2024-09-30
1          NaT
2          NaT
3          NaT
4          NaT
Name: data_da_ultima_compra, dtype: datetime64[ns]

In [836]:
df1["data_da_ultima_compra"].dtype

dtype('<M8[ns]')

#### Padronização da Coluna "telefone_celular"

In [837]:
df1["telefone_celular"].head()

0    (85) 16400-0408
1      31 87481-2231
2    (11) 93064-3172
3    (11) 42963-8044
4      11 60767-0256
Name: telefone_celular, dtype: object

In [838]:
def padronizar_telefone(telefone, apenas_digitos=False):
    if pd.isna(telefone):
        return None
    
    numero_limpo = re.sub(r'\D', '', str(telefone))
    
    if len(numero_limpo) == 13 and numero_limpo.startswith('55'):
        return f"+{numero_limpo[:2]} ({numero_limpo[2:4]}) {numero_limpo[4:9]}-{numero_limpo[9:]}"
    elif len(numero_limpo) == 11:
        return f"({numero_limpo[:2]}) {numero_limpo[2:7]}-{numero_limpo[7:]}"
    elif len(numero_limpo) == 10:
        return f"({numero_limpo[:2]}) {numero_limpo[2:6]}-{numero_limpo[6:]}"
    else:
        return numero_limpo


In [839]:
df1['telefone_celular'] = df1['telefone_celular'].apply(padronizar_telefone)

In [840]:
df1["telefone_celular"].head()

0    (85) 16400-0408
1    (31) 87481-2231
2    (11) 93064-3172
3    (11) 42963-8044
4    (11) 60767-0256
Name: telefone_celular, dtype: object

In [841]:
# Convertendo para string

df1['telefone_celular'] = df1['telefone_celular'].astype('string')

In [842]:
df1["telefone_celular"].dtype

string[python]

#### Padronização da Coluna "cep"

In [843]:
df1["cep"].head()

0     04397312
1       123456
2    81093-112
3     80681606
4    34867-654
Name: cep, dtype: object

In [844]:
def padronizar_cep(cep):
    if pd.isna(cep):
        return pd.NA
    
    cep_limpo = re.sub(r'\D', '', str(cep))
    cep_limpo = cep_limpo.zfill(8)

    if len(cep_limpo) == 8:
        return f"{cep_limpo[:5]}-{cep_limpo[5:]}"
    
    return pd.NA

In [845]:
df1['cep'] = df1['cep'].apply(padronizar_cep)

In [846]:
df1["cep"] = df1["cep"].astype("string")


In [847]:
df1["cep"].head()

0    04397-312
1    00123-456
2    81093-112
3    80681-606
4    34867-654
Name: cep, dtype: string

In [848]:
df1["cep"].dtype

string[python]

#### Padronização da Coluna "endereco"

In [849]:
df1["endereco"].head()

0                               NaN
1    rua principal, 935 - guarulhos
2      rua central, 633 - fortaleza
3     rua principal, 630 - brasilia
4       rua da paz, 673 - fortaleza
Name: endereco, dtype: object

In [850]:
df1["endereco"].dtype

dtype('O')

In [851]:
# Convertendo de Object para String

df1["endereco"] = df1["endereco"].astype("string")

In [852]:
df1["endereco"].dtype

string[python]

In [853]:
df1["endereco"].isna().sum()

np.int64(5220)

In [854]:
# Checando a qualidade e a consistência estrutural

df1["endereco"].str.len().describe()

count   47280
mean       29
std         3
min        21
25%        26
50%        28
75%        30
max        36
Name: endereco, dtype: Float64

In [855]:
# Procurando caracteres inesperados

df1["endereco"].str.contains(r"[^a-z0-9\s\.,º°\-]", regex=True).sum()

np.int64(0)

In [856]:
# Procurando vírgulas duplicadas

df1["endereco"].str.contains(r",,", regex=True).sum()

np.int64(0)

In [857]:
# Vendo padrões de início (rua, avenida, travessa…)

df1["endereco"].str.extract(r"^([a-z]+)")

Unnamed: 0,0
0,
1,rua
2,rua
3,rua
4,rua
...,...
52495,rua
52496,rua
52497,rua
52498,rua


In [858]:
# Checando se todas tem número

df1["endereco"].str.contains(r"\d").mean()

np.float64(1.0)

In [859]:
df1["endereco"].head()

0                              <NA>
1    rua principal, 935 - guarulhos
2      rua central, 633 - fortaleza
3     rua principal, 630 - brasilia
4       rua da paz, 673 - fortaleza
Name: endereco, dtype: string

#### Padronização da Coluna "estado_uf"

In [860]:
df1["estado_uf"].tail()

52495    SP
52496    SP
52497    PE
52498    SP
52499    RS
Name: estado_uf, dtype: object

In [861]:
# Normalizando o texto

df1['estado_uf'] = (
    df1['estado_uf']
    .astype(str)
    .str.normalize('NFKD')
    .str.encode('ascii', errors='ignore')
    .str.decode('utf-8')
    .str.lower()
    .str.replace('.', '', regex=False)
    .str.strip()
    .str.replace(r'\s+', ' ', regex=True)
)

In [862]:
df1["estado_uf"].tail()

52495    sp
52496    sp
52497    pe
52498    sp
52499    rs
Name: estado_uf, dtype: object

In [863]:
# Mapeando os nomes dos estados

mapa_estados = {
    "acre": "AC",
    "alagoas": "AL",
    "amapa": "AP",
    "amazonas": "AM",
    "bahia": "BA",
    "ceara": "CE",
    "distrito federal": "DF",
    "espirito santo": "ES",
    "goias": "GO",
    "maranhao": "MA",
    "mato grosso": "MT",
    "mato grosso do sul": "MS",
    "minas gerais": "MG",
    "para": "PA",
    "paraiba": "PB",
    "parana": "PR",
    "pernambuco": "PE",
    "piaui": "PI",
    "rio de janeiro": "RJ",
    "rio grande do norte": "RN",
    "rio grande do sul": "RS",
    "rondonia": "RO",
    "roraima": "RR",
    "santa catarina": "SC",
    "sao paulo": "SP",
    "sergipe": "SE",
    "tocantins": "TO",
}


In [864]:
# Aplicando o mapeamento

df1['estado_uf'] = df1['estado_uf'].replace(mapa_estados).astype("string")

In [865]:
# Deixando as siglas em maiúsculas

df1['estado_uf'] = df1['estado_uf'].str.upper()

In [866]:
df1["estado_uf"].tail()

52495    SP
52496    SP
52497    PE
52498    SP
52499    RS
Name: estado_uf, dtype: string

In [867]:
df1["estado_uf"].dtype

string[python]

#### Padronização da Coluna "salario"

In [868]:
df1["salario"].head()

0    Salário confidencial
1           Não informado
2                   12030
3                   12038
4                   14659
Name: salario, dtype: object

In [869]:
def clean_salario(df, coluna="salario"):

    # Lista de valores que são considerados nulos
    valores_sem_salario = {
        "salário confidencial",
        "salario confidencial",
        "não informado",
        "nao informado",
        "nao_informado",
        "",
    }
    
    # Normalização inicial
    col = (
        df[coluna]
        .astype("string")
        .str.strip()
        .str.lower()
    )

    col = col.replace(valores_sem_salario, pd.NA)
    col_numerica = pd.to_numeric(col, errors="coerce")
    
    auditoria = df[
        col.isna() & ~df[coluna].astype("string").str.lower().isin(valores_sem_salario)
    ][[coluna]]
    
    df[coluna] = col_numerica.astype("Float64")
    
    return df, auditoria


In [870]:
df1, auditoria = clean_salario(df1, "salario")

In [871]:
df1["salario"].head()

0    <NA>
1    <NA>
2   12030
3   12038
4   14659
Name: salario, dtype: Float64

#### Padronização da Coluna "status_da_conta"

In [872]:
df1["status_da_conta"].head()

0     suspenso
1        ativo
2            a
3      inativo
4    bloqueado
Name: status_da_conta, dtype: object

In [873]:
def normalize_text(x):
    if pd.isna(x):
        return x
    x = str(x).lower().strip()
    x = unicodedata.normalize("NFKD", x).encode("ascii", "ignore").decode("utf-8")
    x = re.sub(r"\s+", " ", x)
    return x

map_status = {
    "ativo": "ativo",
    "a": "ativo",
    "inativo": "inativo",
    "in": "inativo",
    "suspenso": "suspenso",
    "s": "suspenso",
    "bloqueado": "bloqueado",
}

boolean_true = {"true", "verdadeiro"}
boolean_false = {"false", "falso"}

def clean_status(value):
    v = normalize_text(value)

    if pd.isna(v) or not isinstance(v, str):
        return pd.NA

    if v.isdigit():
        return "ativo" if v == "1" else pd.NA

    if v in boolean_true:
        return "ativo"
    if v in boolean_false:
        return "inativo"

    return map_status.get(v, pd.NA)


In [874]:
df1["status_da_conta"] = df1["status_da_conta"].apply(clean_status).astype("string")

In [875]:
df1["status_da_conta"].head()

0     suspenso
1        ativo
2        ativo
3      inativo
4    bloqueado
Name: status_da_conta, dtype: string

#### Padronização da Coluna "score_de_credito"

In [876]:
df1["score_de_credito"].head()

0    852
1    517
2    428
3    662
4    375
Name: score_de_credito, dtype: object

In [877]:
def normalize_score(x):
    if pd.isna(x):
        return x
    x = str(x).lower().strip()
    x = unicodedata.normalize("NFKD", x).encode("ascii", "ignore").decode("utf-8")
    x = re.sub(r"\s+", " ", x)
    return x

map_status = {
    "excelente": 800,
    "bom": 700,
    "ruim": 400
}

def clean_score(value):
    if isinstance(value, (int, float)) and not pd.isna(value):
        return value

    if pd.isna(value):
        return pd.NA

    v = normalize_score(value)

    if pd.isna(v):
        return pd.NA

    if re.fullmatch(r"\d+", v):
        return int(v)

    return map_status.get(v, pd.NA)


In [878]:
df1["score_de_credito"] = df1["score_de_credito"].apply(clean_score).astype("Int64")

In [879]:
df1["score_de_credito"].head()

0    852
1    517
2    428
3    662
4    375
Name: score_de_credito, dtype: Int64

#### Padronização da Coluna "produto_favorito"

In [880]:
df1["produto_favorito"].sample(5, random_state=4)

11869           monitor
46312                tv
14616    fone de ouvido
36637        smartwatch
46630        smartphone
Name: produto_favorito, dtype: object

In [881]:
df1['produto_favorito'] = (
    df1['produto_favorito']
    .str.replace(r'-\s*produto$', '', regex=True)
    .str.strip()
)

In [882]:
df1["produto_favorito"].unique()

array(['monitor', 'teclado', 'notebook', 'camera', 'mouse',
       'fone de ouvido', 'smartphone', 'tablet', nan, 'smartwatch', 'tv'],
      dtype=object)

In [883]:
df1['produto_favorito'] = (
    df1['produto_favorito']
    .replace(['nan', 'None', 'null', ''], np.nan)
    .astype('string')
    .str.strip()
)


In [884]:
df1["produto_favorito"].unique()

<StringArray>
[       'monitor',        'teclado',       'notebook',         'camera',
          'mouse', 'fone de ouvido',     'smartphone',         'tablet',
             <NA>,     'smartwatch',             'tv']
Length: 11, dtype: string

In [885]:
df1["produto_favorito"].head()

0     monitor
1     monitor
2     teclado
3    notebook
4      camera
Name: produto_favorito, dtype: string

#### Padronização da Coluna "valor_total_gasto"

In [886]:
df1["valor_total_gasto"].tail()

52495    2090.78
52496     R$2500
52497     718.06
52498    1218.89
52499    3468.76
Name: valor_total_gasto, dtype: object

In [887]:
mask = ~df1["valor_total_gasto"].astype(str).str.replace(r"[0-9.,]", "", regex=True).str.strip().eq("")
df1.loc[mask, "valor_total_gasto"].unique()

array(['Zero', 'Muito alto', 'Baixo', 'R$ 1.250,50', nan, 'R$2500'],
      dtype=object)

In [888]:
def limpar_valor(valor):
    if pd.isna(valor):
        return np.nan
    valor = str(valor).replace(" ", "").replace(".", "").replace(",", ".")
    try:
        return float(valor)
    except ValueError:
        return np.nan

In [889]:
df1["valor_total_gasto"] = df1["valor_total_gasto"].apply(limpar_valor)

In [890]:
df1["valor_total_gasto"].tail()

52495   209078
52496      NaN
52497    71806
52498   121889
52499   346876
Name: valor_total_gasto, dtype: float64

In [891]:
df1["valor_total_gasto"].dtype

dtype('float64')

#### Padronização da Coluna "categoria_cliente"

In [892]:
df1["categoria_cliente"].head()

0        ouro
1    diamante
2        ouro
3     platina
4        ouro
Name: categoria_cliente, dtype: object

In [893]:
df1["categoria_cliente"].unique()

array(['ouro', 'diamante', 'platina', 'bronze', 'prata', 'gold',
       'premium', 'vip', nan], dtype=object)

In [894]:
def diagnostico_coluna(df, coluna, n=60):
    ultimos = df[coluna].tail(n)
    tipos = set(type(x) for x in ultimos)
    tem_string_nan = any(str(x).lower() == "nan" for x in ultimos)
    dtype = df[coluna].dtype
    print(f"Diagnóstico da coluna '{coluna}':")
    print("Tipos encontrados nos últimos", n, "valores:", tipos)
    print("Existe string 'nan'? ", tem_string_nan)
    print("dtype da coluna:", dtype)

In [895]:
diagnostico_coluna(df1, "categoria_cliente")

Diagnóstico da coluna 'categoria_cliente':
Tipos encontrados nos últimos 60 valores: {<class 'str'>, <class 'float'>}
Existe string 'nan'?  True
dtype da coluna: object


In [896]:
df1["categoria_cliente"] = df1["categoria_cliente"].replace(["nan", "NaN", "None", ""], np.nan)

In [897]:
df1["categoria_cliente"] = df1["categoria_cliente"].astype("string").replace(["nan", "NaN", "None", ""], pd.NA)

In [898]:
diagnostico_coluna(df1, "categoria_cliente")

Diagnóstico da coluna 'categoria_cliente':
Tipos encontrados nos últimos 60 valores: {<class 'pandas._libs.missing.NAType'>, <class 'str'>}
Existe string 'nan'?  False
dtype da coluna: string


In [899]:
df1["categoria_cliente"].tail()

52495     bronze
52496     bronze
52497     bronze
52498       ouro
52499    platina
Name: categoria_cliente, dtype: string

#### Padronização da Coluna "ativo"

In [900]:
df1["ativo"].tail()

52495    n
52496    s
52497    n
52498    s
52499    n
Name: ativo, dtype: object

In [901]:
df1["ativo"].unique()

array(['ativo', 's', 'n', nan, 'nao', 'inativo', 'true', '1', 'false',
       'sim', '0'], dtype=object)

In [902]:
def padronizar_ativo(x):
    if pd.isna(x):
        return pd.NA
    x = str(x).strip().lower()
    if x in {"ativo", "s", "sim", "true", "1"}:
        return "ativo"
    if x in {"inativo", "n", "nao", "não", "false", "0"}:
        return "inativo"
    return pd.NA

In [903]:
df1["ativo"] = df1["ativo"].apply(padronizar_ativo).astype("string")

In [904]:
df1["ativo"].unique()

<StringArray>
['ativo', 'inativo', <NA>]
Length: 3, dtype: string

In [905]:
df1["ativo"].head()

0      ativo
1      ativo
2    inativo
3    inativo
4    inativo
Name: ativo, dtype: string

#### Padronização da Coluna "regional_zona"

In [906]:
df1["regional_zona"].head()

0           norte
1    centro-oeste
2    centro-oeste
3          centro
4          centro
Name: regional_zona, dtype: object

In [907]:
df1["regional_zona"].unique()

array(['norte', 'centro-oeste', 'centro', 'sul', 'leste', 'oeste', nan],
      dtype=object)

In [908]:
def padronizar_regional_zona(x):
    if pd.isna(x):
        return pd.NA
    x = str(x).strip().lower()
    x = unicodedata.normalize("NFKD", x).encode("ascii", "ignore").decode("utf-8")
    x = x.replace("-", "_")
    mapa = {
        "norte": "norte",
        "sul": "sul",
        "leste": "leste",
        "oeste": "oeste",
        "centro": "centro",
        "centro_oeste": "centro-oeste",
        "centro-oeste": "centro-oeste"
    }
    return mapa.get(x, x)

In [909]:
df1["regional_zona"] = df1["regional_zona"].apply(padronizar_regional_zona).astype("string")

In [910]:
df1["regional_zona"].unique()

<StringArray>
['norte', 'centro-oeste', 'centro', 'sul', 'leste', 'oeste', <NA>]
Length: 7, dtype: string

In [911]:
df1["regional_zona"].head()

0           norte
1    centro-oeste
2    centro-oeste
3          centro
4          centro
Name: regional_zona, dtype: string

## Limpando os Dados

- remover duplicatas
- tratar valores faltantes
- corrigir inconsistências
- tratar outliers
- validar regras de negócio

### Tratamento de Valores Ausentes

#### Deletando Colunas Vazias

In [912]:
df1 = df1.drop(columns=["unnamed_16"])

In [913]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,obs_comentarios,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,NaT,(85) 16400-0408,04397-312,,CE,,suspenso,852,monitor,2024-09-30,449503,ouro,,ativo,norte
1,2,Carla Souza,carla souza,,69,1950-10-18,(31) 87481-2231,00123-456,"rua principal, 935 - guarulhos",PA,,ativo,517,monitor,NaT,675127,diamante,,ativo,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,NaT,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030.0,ativo,428,teclado,NaT,690093,ouro,,inativo,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,1976-06-08,(11) 42963-8044,80681-606,"rua principal, 630 - brasilia",RS,12038.0,inativo,662,notebook,NaT,374336,platina,,inativo,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,2001-03-19,(11) 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659.0,bloqueado,375,camera,NaT,90773,ouro,,inativo,centro


#### Valores Ausentes

In [914]:
df1.isna().sum()

id_cliente                   0
nome_completo                0
nome_limpo                   0
email                     9732
idade                     4900
data_de_nascimento        6507
telefone_celular          2097
cep                       2163
endereco                  5220
estado_uf                    0
salario                   9330
status_da_conta           2139
score_de_credito          6925
produto_favorito          6230
data_da_ultima_compra    36664
valor_total_gasto         7355
categoria_cliente         1162
obs_comentarios          40034
ativo                     1096
regional_zona             2677
dtype: int64

In [915]:
len(df1)

52500

In [916]:
# Deletando a coluna de observações

df1 = df1.drop(columns=["obs_comentarios"])

In [917]:
df1.head()

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
0,1,Ana Silva,ana silva,ana.silva@yahoo.com,56,NaT,(85) 16400-0408,04397-312,,CE,,suspenso,852,monitor,2024-09-30,449503,ouro,ativo,norte
1,2,Carla Souza,carla souza,,69,1950-10-18,(31) 87481-2231,00123-456,"rua principal, 935 - guarulhos",PA,,ativo,517,monitor,NaT,675127,diamante,ativo,centro-oeste
2,3,Ana Costa,ana costa,ana.costa@hotmail.com,46,NaT,(11) 93064-3172,81093-112,"rua central, 633 - fortaleza",RJ,12030.0,ativo,428,teclado,NaT,690093,ouro,inativo,centro-oeste
3,4,Mariana Santos,mariana santos,mariana.santos@bol.com.br,32,1976-06-08,(11) 42963-8044,80681-606,"rua principal, 630 - brasilia",RS,12038.0,inativo,662,notebook,NaT,374336,platina,inativo,centro
4,5,Maria Silva,maria silva,maria.silva@hotmail.com,60,2001-03-19,(11) 60767-0256,34867-654,"rua da paz, 673 - fortaleza",BA,14659.0,bloqueado,375,camera,NaT,90773,ouro,inativo,centro


#### Duplicatas

In [918]:
df1.duplicated().sum()

np.int64(2500)

In [919]:
df1.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
52495     True
52496     True
52497     True
52498     True
52499     True
Length: 52500, dtype: bool

In [920]:
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona
50000,31362,Maria Gomes,maria gomes,maria...gomes@uol.com.br,24,1999-10-24,(21) 61369-1296,28607-746,"rua das flores, 401 - belo horizonte",RJ,5506,ativo,849,mouse,NaT,364034,platina,inativo,norte
50001,16722,Rafael Santos,rafael santos,rafael.santos@bol.com.br,76,1985-11-06,(11) 62613-2573,85267-384,"rua central, 546 - belo horizonte",RJ,6995,inativo,,teclado,2024-10-03,323128,prata,inativo,centro-oeste
50002,36789,Claudia Oliveira,claudia oliveira,claudia.oliveira@hotmail.com,42,1956-01-22,(11) 49487-5313,88836-534,"rua das flores, 172 - sao paulo",NAN,8966,suspenso,429,smartphone,NaT,232292,prata,inativo,norte
50003,22819,Pedro Souza,pedro souza,pedro.souza@bol.com.br,35,1960-12-08,(11) 99999-9999,87846-239,"rua central, 80 - belem",BA,14658,suspenso,,monitor,NaT,74335,prata,inativo,sul
50004,24795,Maria Souza,maria souza,maria.souza@yahoo.com,70,1958-09-24,(85) 64265-6137,04704-402,"rua central, 557 - porto alegre",MG,11155,bloqueado,561,monitor,2024-12-05,391055,platina,,norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52495,26846,Paulo Ferreira,paulo ferreira,paulo.ferreira@outlook.com,38,1996-09-21,(11) 02698-1177,55227-309,"rua das flores, 941 - rio de janeiro",SP,14486,suspenso,550,tv,2024-07-13,209078,bronze,inativo,sul
52496,45552,Patricia Silva,patricia silva,patricia.silva@uol.com.br,53,1968-11-09,(11) 99999-9999,05529-465,"rua central, 860 - rio de janeiro",SP,,inativo,836,notebook,NaT,,bronze,ativo,centro
52497,25412,João Alves,joao alves,joão.alves@uol.com.br,18,1968-06-09,123,60427-184,"rua da paz, 51 - brasilia",PE,6930,bloqueado,866,teclado,NaT,71806,bronze,inativo,norte
52498,44726,Lucia Gomes,lucia gomes,lucia.gomes@gmail.com,75,1990-02-15,(11) 58751-5945,71609-249,"rua da paz, 2 - porto alegre",SP,9779,ativo,,camera,NaT,121889,ouro,ativo,norte


In [921]:
df1 = df1.drop_duplicates()

In [922]:
# Conferindo se as duplicatas foram removidas
df1[df1.duplicated()]

Unnamed: 0,id_cliente,nome_completo,nome_limpo,email,idade,data_de_nascimento,telefone_celular,cep,endereco,estado_uf,salario,status_da_conta,score_de_credito,produto_favorito,data_da_ultima_compra,valor_total_gasto,categoria_cliente,ativo,regional_zona


In [923]:
df1.duplicated().sum()

np.int64(0)

## Enriquecer/Transformar os Dados

- criar novas colunas
- fazer joins
- preparar para modelagem