# Entendimento dos Dados

In [None]:
# importando bibliotecas
import re # trabalha com expressões regulares
import warnings # ignora avisos
import pandas as pd # para manipulação de dados

warnings.filterwarnings('ignore')

In [416]:
# impotando conjunto de dados
df = pd.read_csv('..\\data\\raw\\base_dados_desafio.csv')

In [417]:
# exibe 5 primeiros registros
df.head()

Unnamed: 0,id_cliente,nome,email,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
0,1,Srta. Isis Ramos,ycarvalhosilveira.com,08214862890233030705,Carvalho,AP,2025-06-04,78.19,inadimplente,1988-08-22
1,2,Sr. João Guilherme Nascimento,qmoreiragmail.com,35797279855241406029,Azevedo Grande,SP,2024-11-13,155.7,inadimplente,1983-01-10
2,3,Dr. Igor Monteiro,joao-pedrocarvalhoaraujo.org,+55 (041) 0059 8614,Sales,ES,2025-06-12,166.97,inadimplente,1988-05-18
3,4,Sofia da Rocha,gcavalcantigmail.com,+55 51 7323 0192,da Conceição,RO,2025-07-29,53.01,inadimplente,2006-10-22
4,5,Sr. Daniel Martins,jjesus@bol.com.br,+55 (081) 3404 3537,da Conceição,PI,2025-01-29,141.25,inadimplente,1980-03-14


In [418]:
# exibe os ultimos 5 registros
df.tail()

Unnamed: 0,id_cliente,nome,email,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
495,496,Raul Gonçalves,qda-cunha@gmail.com,(061) 0706 6453,Cavalcanti do Campo,MG,2024-09-07,84.23,adimplente,1979-03-06
496,497,Kaique Nunes,valentina86@fogaca.br,(081) 5307-1528,Lopes,SC,2025-01-06,147.95,adimplente,1983-08-11
497,498,Bárbara Almeida,ana-lauracosta@ribeiro.com,(011) 9202 2887,Pires,PE,2025-01-21,140.81,adimplente,1972-02-16
498,499,Paulo Costa,jesusana-clara@aragao.org,41 9231-5701,Martins de Mendes,PI,2024-12-11,90.69,adimplente,1967-09-10
499,500,Vitor Hugo Azevedo,castrotheo@gomes.br,+55 11 8107 9260,da Mata,SE,2025-07-22,167.15,adimplente,1975-01-09


In [419]:
# informações resumidas do conjunto de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_cliente       500 non-null    int64  
 1   nome             500 non-null    object 
 2   email            499 non-null    object 
 3   telefone         499 non-null    object 
 4   cidade           499 non-null    object 
 5   estado           499 non-null    object 
 6   data_inicio      500 non-null    object 
 7   valor_mensal     500 non-null    float64
 8   status           500 non-null    object 
 9   data_nascimento  499 non-null    object 
dtypes: float64(1), int64(1), object(8)
memory usage: 39.2+ KB


In [420]:
# soma de linhas duplicadas
df.duplicated().sum()

0

In [421]:
# contagem de valores únicos em cada coluna
for col in df.columns:
    print(f'{col.upper()}')
    print(f'Quantidade de valores únicos em {col.upper()}: {df[col].nunique()}')
    print(f'{df[col].value_counts()}')
    print('_'*50)

ID_CLIENTE
Quantidade de valores únicos em ID_CLIENTE: 500
1      1
330    1
343    1
342    1
341    1
      ..
162    1
161    1
160    1
159    1
500    1
Name: id_cliente, Length: 500, dtype: int64
__________________________________________________
NOME
Quantidade de valores únicos em NOME: 491
Julia Campos               2
Nina Lima                  2
Raul Dias                  2
Luiz Henrique Fernandes    2
João Miguel Rocha          2
                          ..
Dra. Isis Ramos            1
Milena Cunha               1
Mariane Pereira            1
Benjamin Pereira           1
Vitor Hugo Azevedo         1
Name: nome, Length: 491, dtype: int64
__________________________________________________
EMAIL
Quantidade de valores únicos em EMAIL: 499
ycarvalhosilveira.com           1
sgomes@yahoo.com.br             1
tlima@uol.com.br                1
carolinemelo@araujo.br          1
ana-beatriz27@lopes.br          1
                               ..
goncalvesana-clara@ig.com.br    1
sophi

**Observações:**
- Os números de telefone não seguem um padrão de escrita.
- Na coluna `cidade` aparentemente há um erro de imputação ou de captação, os valores observados aparentam mais ser os sobrenomes dos clientes. Fazendo uma breve pesquisa identifiquei que não há cidades nos respectivos estados com esse nome.
- Há valores nulos em algumas colunas.
- Não há registros duplicados neste conjunto de dados.

____

**Removendo colunas de nome e email**

Como nosso objetivo é reduzir a taxa de inadimpência, variáveis como `nome` e `email` não agregam informação para a métrica, logo irei remover estas colunas. Desta forma reduziremos gastos computacionais, ou até mesmo financeiros caso essa base de dados possuísse milhões de registros e estivesse em produção.

Criarei um segundo dataframe para fazer as auterações a seguir, pois caso seja de interesse futuramente identificar o nome ou email do cliente, conseguimos buscar por meio do ID em ambos os datsets.

In [422]:
# crinando dataframe onde serão feitos as alterações
df2 = df.copy()

In [423]:
# removendo as colunas
df2.drop(columns=['nome', 'email'], inplace=True)

____

**Identificando nulos**

In [424]:
# exibe registro onde é nulo em data de nascimento
df2.loc[df['data_nascimento'].isnull()]

Unnamed: 0,id_cliente,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
20,21,+55 51 3328 7250,Porto do Sul,RJ,2025-06-25,121.61,inadimplente,


In [425]:
# exibe registro onde é nulo em número de telefone
df2.loc[df['telefone'].isnull()]

Unnamed: 0,id_cliente,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
26,27,,da Cunha da Prata,RS,2025-05-06,187.73,inadimplente,1971-06-01


In [426]:
# exibe registro onde é nulo em cidade
df2.loc[df['cidade'].isnull()]

Unnamed: 0,id_cliente,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
47,48,21 3079-0723,,ES,2025-03-23,163.73,inadimplente,2003-06-28


In [427]:
# exibe registro onde é nulo em estado
df2.loc[df['estado'].isnull()]

Unnamed: 0,id_cliente,telefone,cidade,estado,data_inicio,valor_mensal,status,data_nascimento
38,39,+55 81 4675 2172,Mendes da Prata,,2024-12-24,81.15,inadimplente,1964-06-25


- Observamos que há apenas um valor nulo em cada uma dessas variáveis, poderiamos remover cada um dessas linhas que não chegaria a 1% dos total do conjunto de dados. Porém optarei por tentar preencher os valores, simulando o que faria em um trabalho com conjunto de dados maior onde fosse custoso perder muitos registros.
- Em data de nascimento é impossível definir corretamente a data do cliente, porém pretendo criar uma nova coluna `idade_cliente` onde usarei a data do nascimento como base. Uma vez criada essa nova variável, posso utilizar uma média de idade do estado Rio de Janeiro para ter uma aproximação real da idade do cliente de ID 21. Apesar de provavelmente não ser a idade certa, eu iria preservar os outros registros desse cliente ao invés de simpllesmente remove-lo.
- A variável telefone é impossível que imputemos o valor correto, sem contar que é uma varável que não nos explica o fato do cliente ser indaimplente ou adimplente. Logo optarei por remover esta linha.
- Como vemos anteriormente, a variável cidade está com inconcistência, apresentando valores não esperados para a coluna. Posteiormente irei buscar alguma forma de corrigir os dados com base no número de DDD. Se não for possível, removeremos esta coluna.
- Estado nulo podemos imputar com base no estado do DDD do cliente.

In [428]:
# preenchendo nulo em estado
df2['estado'] = df2['estado'].fillna('PE')

- O DDD (81) localizado na linha onde o estado é nulo, do cliente ID 39, refere-se ao estado de Pernambuco. Por conta disso imputei "PE" onde era nulo.

**Corrigindo datas**

In [429]:
# removendo nulo 
df2 = df2.dropna(subset=['data_nascimento'])

In [430]:
# convertendo o tipo das colunas para datetime
df2['data_inicio'] = pd.to_datetime(df2['data_inicio'], errors='coerce', dayfirst=True)
df2['data_nascimento'] = pd.to_datetime(df2['data_nascimento'], errors='coerce', dayfirst=True)

df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 499 entries, 0 to 499
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_cliente       499 non-null    int64         
 1   telefone         498 non-null    object        
 2   cidade           498 non-null    object        
 3   estado           499 non-null    object        
 4   data_inicio      499 non-null    datetime64[ns]
 5   valor_mensal     499 non-null    float64       
 6   status           499 non-null    object        
 7   data_nascimento  499 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 35.1+ KB


In [431]:
# criando novas variáveis para a análise

# definindo o dia de hoje
hoje = pd.to_datetime('today')

# calcular idade
df2['idade_cliente'] = (hoje - df2['data_nascimento']).dt.days // 365

# calculando tempo de cliente em dias
df2['tempo_cliente_dias'] = (hoje - df2['data_inicio']).dt.days

df2[['idade_cliente', 'tempo_cliente_dias']]

Unnamed: 0,idade_cliente,tempo_cliente_dias
0,36,62
1,42,265
2,37,54
3,18,7
4,45,188
...,...,...
495,46,332
496,42,211
497,53,196
498,57,237


In [432]:
# criando coluna com faixa etária, intervalo de 10 em 10 anos
bins = list(range(0, 101, 10))  # De 0 até 100, de 10 em 10
labels = [f"{i}-{i+9}" for i in bins[:-1]]

# criando a variável faixa_etaria
df2['faixa_etaria'] = pd.cut(df2['idade_cliente'], bins=bins, labels=labels, right=False)

# exibindo os primeiros valores para verificar
print(df2[['idade_cliente', 'faixa_etaria']].head())

   idade_cliente faixa_etaria
0             36        30-39
1             42        40-49
2             37        30-39
3             18        10-19
4             45        40-49


In [433]:
# removendo data de nascimento
df2.drop(columns='data_nascimento', inplace=True)

____

**Tratando números de telefone**

A variável com os números de telefone não apresentam um padrão definido, e também um número de telefone por sí só não nos daria informações que justificasse um cliente ser adimplente ou inadimplente. Porém podemos utiizar o DDD como base para identificar possíveis regiões nos estados, e assim fazer uma análise com um nível de granularidade maior.

In [434]:
# removendo nulo em telefone
df2 = df2.dropna(subset=['telefone'])

In [435]:
# função para padronizar os numeros de telefone
def padronizar_telefone(numero):
    if pd.isnull(numero):
        return None
    
    # transforma em string e remove tudo que não for número
    numero = re.sub(r'\D', '', str(numero))

    # remove o código do país (se tiver)
    if numero.startswith("55") and len(numero) > 11:
        numero = numero[2:]
    
    # se começar com 0 e tiver 11+ dígitos, ignora o 0
    if numero.startswith("0") and len(numero) > 10:
        numero = numero[1:]

    # DDD são os dois primeiros dígitos
    ddd = numero[:2]

    # número pode ter 8 ou 9 dígitos (fixo ou celular)
    numero_base = numero[2:]
    
    if len(numero_base) == 9:
        return f'{ddd} {numero_base[:5]}{numero_base[5:]}'
    elif len(numero_base) == 8:
        return f'{ddd} {numero_base[:4]}{numero_base[4:]}'
    else:
        return None  # número inválido ou malformado


In [436]:
# aplica a função na nova coluna
df2['telefone_limpo'] = df2['telefone'].apply(padronizar_telefone)

In [437]:
df2['telefone_limpo']

0             None
1             None
2      41 00598614
3      51 73230192
4      81 34043537
          ...     
495    61 07066453
496    81 53071528
497    11 92022887
498    41 92315701
499    11 81079260
Name: telefone_limpo, Length: 498, dtype: object

In [438]:
# exibe registros onde a função não iterou, e os telefones ficaram nulos.
df2.loc[df2['telefone_limpo'].isna()]

Unnamed: 0,id_cliente,telefone,cidade,estado,data_inicio,valor_mensal,status,idade_cliente,tempo_cliente_dias,faixa_etaria,telefone_limpo
0,1,08214862890233030705,Carvalho,AP,2025-06-04,78.19,inadimplente,36,62,30-39,
1,2,35797279855241406029,Azevedo Grande,SP,2024-11-13,155.7,inadimplente,42,265,40-49,


In [439]:
# removendo números nulos
df2 = df2.dropna(subset=['telefone_limpo'])

In [440]:
# armazena apenas o ddd em uma nova coluna
df2['ddd'] = df2['telefone_limpo'].str[:2]

In [441]:
# removendo o número de telefone
df2.drop(columns=['telefone'], inplace=True)
df2.drop(columns=['telefone_limpo'], inplace=True)

____

**Tratando variável cidade**

In [442]:
df2.cidade.value_counts()

Cardoso                8
Campos                 8
Moraes                 7
Correia                7
Duarte                 7
                      ..
Silva de Araújo        1
Ramos das Pedras       1
Cardoso do Norte       1
da Rocha das Flores    1
da Mata                1
Name: cidade, Length: 289, dtype: int64

Como identificado anteriormente, a `coluna` cidade está preenchida incorretamente, trazendo o sobre nome dos cliente ao invés do nome da cidade propriamente.
Temos algumas opções:
- Informar à equipe responsável pelos dados desta possível inconcistência, para que possam corrigir ao capturarem tais informações.
- Remover a coluna, visto que não nos fornece o valor que desejamos.

In [443]:
# removendo a coluna cidade
df2.drop(columns='cidade', inplace=True)

Removemos a coluna cidade pois ela apresenta o que seria o sobrenome dos clientes, e isso não nos ajudaria a reduzir a taxa de inadimplência. Caso essa variável tivesse de fato os nomes das cidades a manteriamos pois é uma informação importante e poderia ajudar a reduzir a taxa.

Vale notar também que estamos removendo as colunas do DataFrame2, que é uma cópia do original. O DataFrame original é onde os dados estão mantidos sem modificações, e caso fosse necessário identificar um cliente específico poderiamos corrigir a variável `cidade` para `sobrenome` e usar o ID do cliente para identifica-lo.

____

**Criando nova variável Região**

In [444]:
# dicionário para cada região, utilizando as UF dos estados
uf_para_regiao = {
    # norte
    'AC': 'norte', 'AP': 'norte', 'AM': 'norte', 'PA': 'norte',
    'RO': 'norte', 'RR': 'norte', 'TO': 'norte',

    # nordeste
    'AL': 'nordeste', 'BA': 'nordeste', 'CE': 'nordeste', 'MA': 'nordeste',
    'PB': 'nordeste', 'PE': 'nordeste', 'PI': 'nordeste',
    'RN': 'nordeste', 'SE': 'nordeste',

    # centro-oeste
    'DF': 'centro-oeste', 'GO': 'centro-oeste', 'MT': 'centro-oeste', 'MS': 'centro-oeste',

    # sudeste
    'ES': 'sudeste', 'MG': 'sudeste', 'RJ': 'sudeste', 'SP': 'sudeste',

    # sul
    'PR': 'sul', 'RS': 'sul', 'SC': 'sul'
}

# criando uma nova coluna para armazenar as regiões
df2['regiao'] = df2['estado'].map(uf_para_regiao)

In [445]:
df2

Unnamed: 0,id_cliente,estado,data_inicio,valor_mensal,status,idade_cliente,tempo_cliente_dias,faixa_etaria,ddd,regiao
2,3,ES,2025-06-12,166.97,inadimplente,37,54,30-39,41,sudeste
3,4,RO,2025-07-29,53.01,inadimplente,18,7,10-19,51,norte
4,5,PI,2025-01-29,141.25,inadimplente,45,188,40-49,81,nordeste
5,6,PR,2025-03-15,118.85,inadimplente,37,143,30-39,31,sul
6,7,AL,2025-04-06,126.73,inadimplente,51,121,50-59,21,nordeste
...,...,...,...,...,...,...,...,...,...,...
495,496,MG,2024-09-07,84.23,adimplente,46,332,40-49,61,sudeste
496,497,SC,2025-01-06,147.95,adimplente,42,211,40-49,81,sul
497,498,PE,2025-01-21,140.81,adimplente,53,196,50-59,11,nordeste
498,499,PI,2024-12-11,90.69,adimplente,57,237,50-59,41,nordeste


In [446]:
# importanto dataset
caminho = '..\\data\\processed\\clientes_tratados.csv'

df2.to_csv(caminho, index=False)

____

**Conclusões:**
- Removemos colunas que não adicionam informações relevantes para análise de inadimplência, como:
    - Nome
    - Sobrenome (Coluna `cidade` apresenta inconcistência)
    - Email
    - Telefone

- Transformamos e criamos novas variáveis:
    - Com número de telefone extraímos o DDD, que pode ser útil ao fazer análise por região.
    - Criamos a variável Idade do cliente, e posteriormente a coluna com as faixas etárias em intervalos de 10 anos. 
    - Adicionamos a variável de Região, utilizando como base as UFs dos estados.

- Corrigimos os tipos de dados em algumas colunas.
- Imputamos valores nulos onde fazia sentido.
- Por falta de informação para preencher nulos, removemos uma quantidade de 4 linhas, que representaria menos de 1% do conjunto de dados total.

**Nota: Apesar de ter removido algumas colunas, fizemos isso em um dataframe separado e mantivemos o ID do cliente, para se necessário acessarmos o cliente na versão dos dados originais.**