### 1. Importação das bibliotecas essenciais

In [2]:
# Importando as bibliotecas
import pandas as pd
import plotly.express as px

print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


### 2. Carregamento dos dados

In [3]:
# Definindo o caminho do arquivo csv
caminho_arquivo = '../data/raw/base_churn_preditiva_20191030.csv'

# Lendo o arquivo, especificando que o separador é ';'
df = pd.read_csv(caminho_arquivo, sep=';')

print("As 5 primeiras linhas do DataFrame:")
display(df.head())

As 5 primeiras linhas do DataFrame:


Unnamed: 0,ClientId,DataExtracao,Score_Credito,Estado,Gênero,Idade,Tempo_Cliente,Limite_Credito_Mercado,Qte_Categorias,Usa_Cartao_Credito,Programa_Fidelidade,Sum_Pedidos_Acumulados,DataUltimaTransacao,Churn
0,345.568,2019-06-30,619,São Paulo,Feminino,42,2,0,1,1,1,422287,2019-09-14,1
1,345.569,2019-06-30,608,Rio de Janeiro,Feminino,41,1,8380786,1,0,1,4689274166667,2019-10-05,0
2,345.57,2019-06-30,502,São Paulo,Feminino,42,8,"1.596,608",3,1,0,474714875,2019-08-20,1
3,345.571,2019-06-30,699,São Paulo,Feminino,39,1,0,2,0,0,3909442916667,2019-10-21,0
4,345.572,2019-06-30,850,Rio de Janeiro,Feminino,43,2,"1.255,1082",1,1,1,3295170833333,2019-10-26,0


### 3. Diagnóstico inicial dos dados

In [6]:
# 1. Qual o tamanho do nosso dataset? (Linhas, Colunas)
print(f"O DataFrame possui {df.shape[0]} linhas e {df.shape[1]} colunas.")

O DataFrame possui 10000 linhas e 14 colunas.


In [7]:
# 2. Quais os tipos de dados e há valores faltando?
print("Tipos de Dados e Contagem de Nulos por Coluna:")
df.info()

Tipos de Dados e Contagem de Nulos por Coluna:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ClientId                10000 non-null  float64
 1   DataExtracao            10000 non-null  object 
 2   Score_Credito           10000 non-null  int64  
 3   Estado                  10000 non-null  object 
 4   Gênero                  10000 non-null  object 
 5   Idade                   10000 non-null  int64  
 6   Tempo_Cliente           10000 non-null  int64  
 7   Limite_Credito_Mercado  10000 non-null  object 
 8   Qte_Categorias          10000 non-null  int64  
 9   Usa_Cartao_Credito      10000 non-null  int64  
 10  Programa_Fidelidade     10000 non-null  int64  
 11  Sum_Pedidos_Acumulados  10000 non-null  object 
 12  DataUltimaTransacao     10000 non-null  object 
 13  Churn                   10000 non-null  int64

In [8]:
# 3. Como as variáveis numéricas se distribuem?
print("Estatísticas Descritivas das Variáveis Numéricas:")
display(df.describe())

Estatísticas Descritivas das Variáveis Numéricas:


Unnamed: 0,ClientId,Score_Credito,Idade,Tempo_Cliente,Qte_Categorias,Usa_Cartao_Credito,Programa_Fidelidade,Churn
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,350.5675,650.5288,38.9218,5.0128,1.5302,0.7055,0.5151,0.2013
std,2.886896,96.653299,10.487806,2.892174,0.581654,0.45584,0.499797,0.400992
min,345.568,350.0,18.0,0.0,1.0,0.0,0.0,0.0
25%,348.06775,584.0,32.0,3.0,1.0,0.0,0.0,0.0
50%,350.5675,652.0,37.0,5.0,1.0,1.0,1.0,0.0
75%,353.06725,718.0,44.0,7.0,2.0,1.0,1.0,0.0
max,355.567,850.0,92.0,10.0,4.0,1.0,1.0,1.0


In [10]:
# 4. Como as variáveis categóricas se distribuem?
# Selecionando apenas as colunas que são do tipo 'object' (texto)
df_categorico = df.select_dtypes(include="object")

# Aplicando o describe nesse novo DataFrame filtrado
print("Estatísticas Descritivas das Variáveis Categóricas:")
display(df_categorico.describe())

Estatísticas Descritivas das Variáveis Categóricas:


Unnamed: 0,DataExtracao,Estado,Gênero,Limite_Credito_Mercado,Sum_Pedidos_Acumulados,DataUltimaTransacao
count,10000,10000,10000,10000,10000,10000
unique,1,3,2,6382,9999,122
top,2019-06-30,São Paulo,Masculino,0,1038538333333,2019-10-12
freq,10000,5014,5457,3617,2,296


#### Análise dos resultados do Diagnóstico

- As colunas DataExtracao, Limite_Credito_Mercado, Sum_Pedidos_Acumulados e DataUltimaTransacao estão com o Dtype (tipo de dado) como object, ou seja, estão sendo tratadas como texto. Isso nos impede de fazer qualquer cálculo matemático ou análise de data com elas.

- Sem Dados Faltantes: a coluna Non-Null Count mostra 10000 para todas as variáveis. Não será preciso preencher dados ausentes.

- Dimensões: temos 10.000 clientes e 14 variáveis para analisar.

- Idade: a idade dos clientes varia de 18 a 92 anos, com uma média de aproximadamente 39 anos.

- Estado: temos clientes em 3 estados, sendo São Paulo o mais frequente.

- Churn: A taxa de Churn é de 20.13% (mean de 0.2013 na coluna Churn), o que é um número bem significativo.

### 4. Limpeza dos dados

In [11]:
# Lista das colunas numéricas que precisam de correção
cols_num_clean = ["Limite_Credito_Mercado", "Sum_Pedidos_Acumulados"]
for col in cols_num_clean:
    df[col] = df[col].astype(str).str.replace(".", "", regex=False)
    df[col] = df[col].str.replace(",", ".", regex=False).astype(float)

In [12]:
# Lista das colunas de data que precisam de correção
cols_date_clean = ["DataExtracao", "DataUltimaTransacao"]
for col in cols_date_clean:
    df[col] = pd.to_datetime(df[col])

In [15]:
print("\n--- Verificando os tipos de dados após a limpeza ---")
df.info()


--- Verificando os tipos de dados após a limpeza ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ClientId                10000 non-null  float64       
 1   DataExtracao            10000 non-null  datetime64[ns]
 2   Score_Credito           10000 non-null  int64         
 3   Estado                  10000 non-null  object        
 4   Gênero                  10000 non-null  object        
 5   Idade                   10000 non-null  int64         
 6   Tempo_Cliente           10000 non-null  int64         
 7   Limite_Credito_Mercado  10000 non-null  float64       
 8   Qte_Categorias          10000 non-null  int64         
 9   Usa_Cartao_Credito      10000 non-null  int64         
 10  Programa_Fidelidade     10000 non-null  int64         
 11  Sum_Pedidos_Acumulados  10000 non-null  float64      