# 

# Parte 01 - Prevendo a Retenção de Clientes com Dados Anônimos

---

🎯 **Justificativa do Projeto**

**Contexto e Motivação**

A indústria de seguros automotivos enfrenta altos custos operacionais e desafios crescentes para a fidelização de clientes. A renovação de apólices é um fator estratégico, pois manter um cliente costuma ser significativamente mais econômico do que adquirir um novo. No entanto, prever o comportamento de renovação não é trivial — especialmente quando lidamos com dados de natureza complexa, multivariada e anonimizada, como é o caso neste projeto. Esse cenário simula uma situação real comum no mercado, em que empresas, por questões legais (como a LGPD), garantem a privacidade dos dados dos clientes ao anonimizar os registros.

---


---

**Desafio Técnico**

Recebemos um conjunto de dados com 178 variáveis de entrada anonimizadas e uma variável alvo binária que indica se o cliente renovou ou não o seguro nos últimos dois anos. A ausência de identificação nas variáveis impõe um desafio adicional: desenvolver modelos de machine learning eficazes sem o apoio semântico de atributos conhecidos, exigindo domínio técnico em análise exploratória, engenharia de atributos e algoritmos robustos para classificação.

Além disso, o projeto contempla a **implementação e comparação de diferentes modelos de machine learning para análise multivariada**, buscando identificar o algoritmo mais eficaz e eficiente para esse tipo de dado. Técnicas de seleção de modelos serão exploradas com o objetivo de capturar as nuances dos padrões de comportamento dos clientes, sem comprometer a privacidade das informações.

---

🧠 **Objetivo do Projeto**

O objetivo principal é **construir um modelo preditivo confiável** que seja capaz de classificar, com alta precisão, a probabilidade de um cliente renovar ou não o seguro automotivo. O projeto também visa comparar abordagens de modelagem supervisionada, avaliando sua performance em termos de generalização, interpretabilidade e escalabilidade.

Por meio de um processo rigoroso — incluindo **limpeza de dados, seleção de características, ajuste de hiperparâmetros e validação cruzada** —, buscamos desenvolver soluções que unam desempenho preditivo com boas práticas de ética no tratamento de dados sensíveis.

---

✅ **Resultados Esperados**

1. **Desenvolvimento de um pipeline completo de machine learning**, desde a ingestão dos dados até a avaliação final dos modelos;
2. **Treinamento e comparação de modelos supervisionados** (como Random Forest, XGBoost, LightGBM e redes neurais);
3. **Avaliação por métricas robustas** (AUC-ROC, F1-score, recall, precisão);
4. **Exploração da importância das variáveis**, mesmo que anonimizadas, por meio de técnicas interpretativas (SHAP, Permutation Importance, etc.);
5. **Entrega de um sistema preditivo funcional** e com possibilidade de operacionalização futura;
6. **Documentação das etapas e justificativas técnicas**, alinhada com práticas éticas e compliance com a LGPD.

---

---

🔄 **Aplicações e Benefícios Práticos**

* **Aprimoramento da retenção de clientes** com ações baseadas em previsões personalizadas;
* **Segmentação inteligente da base de usuários**, facilitando campanhas proativas de renovação;
* **Eficiência orçamentária**, com melhor alocação de recursos comerciais e de marketing;
* **Compliance com regulamentações de privacidade**, utilizando dados anonimizados sem perda significativa de valor analítico;
* **Capacitação técnica da equipe de dados**, promovendo o domínio de pipelines de modelagem em ambientes com limitações reais de informação.

---

# 1.0 Instalando e Carregando Pacotes

In [1]:
import importlib    # Importa o módulo 'importlib', que permite importar bibliotecas dinamicamente em tempo de execução
import subprocess   # Importa o módulo 'subprocess' para executar comandos externos, como instalar pacotes via pip
import sys          # Importa o módulo 'sys' para acessar o interpretador Python atual e seu executável


# Dicionário contendo os pacotes que devem ser verificados e instalados, se necessário.
# A chave é o nome usado para importar o módulo, e o valor é o nome usado no pip para instalação.
required_packages = {
    'sklearn': 'scikit-learn',     # sklearn é importado como módulo, mas instalado com o nome scikit-learn
    'scipy': 'scipy',              # scipy é tanto o nome de importação quanto de instalação
    'pandas': 'pandas',            # pandas para análise de dados tabulares
    'numpy': 'numpy',              # numpy para operações numéricas
    'matplotlib': 'matplotlib',    # matplotlib para visualizações
    'seaborn': 'seaborn',          # seaborn para gráficos estatísticos
    'pickle': 'pickle'             # Importa a biblioteca pickle, usada para serialização e desserialização de objetos Python
}

# Função responsável por verificar se o pacote está instalado.
# Caso não esteja, ela o instala automaticamente usando pip.
def check_and_install(package_name, install_name):
    try:
        # Tenta importar o pacote. Se for bem-sucedido, ele já está instalado.
        importlib.import_module(package_name)
        print(f"✅ Biblioteca '{package_name}' já está instalada.")
    except ImportError:
        # Caso a importação falhe, significa que a biblioteca não está instalada.
        # O código abaixo usa o subprocess para executar o comando: python -m pip install <nome_do_pacote>
        print(f"⚠️ Biblioteca '{package_name}' não encontrada. Instalando '{install_name}'...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", install_name])
        print(f"✅ Biblioteca '{install_name}' instalada com sucesso.")

# Loop que percorre cada item do dicionário de pacotes.
# Para cada pacote, chama a função de verificação e instalação, se necessário.
for package, install_name in required_packages.items():
    check_and_install(package, install_name)

✅ Biblioteca 'sklearn' já está instalada.
✅ Biblioteca 'scipy' já está instalada.
✅ Biblioteca 'pandas' já está instalada.
✅ Biblioteca 'numpy' já está instalada.
✅ Biblioteca 'matplotlib' já está instalada.
✅ Biblioteca 'seaborn' já está instalada.
✅ Biblioteca 'pickle' já está instalada.


In [2]:
# Imports
import sklearn                                      # Biblioteca para aprendizado de máquina
import scipy                                        # Biblioteca para computação científica
import pandas as pd                                 # Biblioteca para análise de dados
import numpy as np                                  # Biblioteca para computação numérica
import matplotlib.pyplot as plt                     # Biblioteca para visualização de dados
import seaborn as sns                               # Biblioteca para visualização de dados baseada em matplotlib
from scipy.stats import shapiro                     # Função para o teste de normalidade Shapiro-Wilk
from scipy.stats import mannwhitneyu                # Função para o teste Mann-Whitney U
from sklearn.impute import KNNImputer               # Classe para imputação de dados ausentes usando K-Nearest Neighbors
from sklearn.preprocessing import StandardScaler    # Classe para normalização de dados
from sklearn.ensemble import RandomForestClassifier # Classe para o classificador Random Forest
import pickle                                       # Importa a biblioteca pickle, usada para serialização e desserialização de objetos Python
import warnings                                     # Biblioteca para controle de avisos e alertas

warnings.filterwarnings('ignore')

In [3]:
%reload_ext watermark
%watermark -a "Ricardo de Souza Silva" 

Author: Ricardo de Souza Silva



# 2.0 Carregando os Dados

In [4]:
# Lista para identificar os valores ausentes
lista_labels_valores_ausentes = ["n/a,", "na", "undefined"]

In [5]:
dataset = pd.read_csv("dados/dataset.csv", na_values=lista_labels_valores_ausentes)

In [6]:
dataset.shape

(11500, 179)

In [7]:
dataset.head(10)

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,LABEL_TARGET
0,135,190,229,223,192,125,55,-9,-33,-38,...,-17,-15,-31,-77,-103,-127,-116,-83,-51,False
1,386,382,356,331,320,315,307,272,244,232,...,164,150,146,152,157,156,154,143,129,True
2,-32,-39,-47,-37,-32,-36,-57,-73,-85,-94,...,57,64,48,19,-12,-30,-35,-35,-36,False
3,-105,-101,-96,-92,-89,-95,-102,-100,-87,-79,...,-82,-81,-80,-77,-85,-77,-72,-69,-65,False
4,-9,-65,-98,-102,-78,-48,-16,0,-21,-59,...,4,2,-12,-32,-41,-65,-83,-89,-73,False
5,55,28,18,16,16,19,25,40,52,66,...,-12,-31,-42,-54,-60,-64,-60,-56,-55,False
6,-55,-9,52,111,135,129,103,72,37,0,...,-125,-99,-79,-62,-41,-26,11,67,128,False
7,1,-2,-8,-11,-12,-17,-15,-16,-18,-17,...,-79,-91,-97,-88,-76,-72,-66,-57,-39,False
8,-278,-246,-215,-191,-177,-167,-157,-139,-118,-92,...,-400,-379,-336,-281,-226,-174,-125,-79,-40,True
9,8,15,13,3,-6,-8,-5,4,25,41,...,49,31,11,-5,-17,-19,-15,-15,-11,False


# 3.0 Limpeza e Análise Inicial dos Dados

## 3.1 Análise da Variável Target

In [8]:
# Conta quantas vezes cada valor aparece na coluna 'LABEL_TARGET' do DataFrame 'dataset'.
# Essa função é útil para entender a distribuição das classes da variável alvo (target),
# especialmente em problemas de classificação, onde é importante verificar se há desbalanceamento.
# Por exemplo, em um modelo preditivo, um grande desbalanceamento entre classes pode exigir
# técnicas como reamostragem (oversampling/undersampling) ou ajustes nos pesos do modelo.
dataset['LABEL_TARGET'].value_counts()

LABEL_TARGET
False    9200
True     2300
Name: count, dtype: int64

In [9]:
dataset['LABEL_TARGET']

0        False
1         True
2        False
3        False
4        False
         ...  
11495    False
11496     True
11497    False
11498    False
11499    False
Name: LABEL_TARGET, Length: 11500, dtype: bool

In [10]:
# Converte os valores da coluna 'LABEL_TARGET' para o tipo inteiro (int).
# Isso é necessário quando os dados dessa coluna estão como strings ou floats,
# mas o modelo de machine learning ou a análise exige que sejam inteiros.
# Por exemplo, em problemas de classificação binária (0 e 1),
# garantir que os valores sejam inteiros pode evitar erros durante o treinamento do modelo.
dataset['LABEL_TARGET'] = dataset['LABEL_TARGET'].astype(int)

In [11]:
dataset.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,LABEL_TARGET
0,135,190,229,223,192,125,55,-9,-33,-38,...,-17,-15,-31,-77,-103,-127,-116,-83,-51,0
1,386,382,356,331,320,315,307,272,244,232,...,164,150,146,152,157,156,154,143,129,1
2,-32,-39,-47,-37,-32,-36,-57,-73,-85,-94,...,57,64,48,19,-12,-30,-35,-35,-36,0
3,-105,-101,-96,-92,-89,-95,-102,-100,-87,-79,...,-82,-81,-80,-77,-85,-77,-72,-69,-65,0
4,-9,-65,-98,-102,-78,-48,-16,0,-21,-59,...,4,2,-12,-32,-41,-65,-83,-89,-73,0


## 3.2 Verificando Variáveis Nulas e Duplicados

In [12]:
# Calcula a porcentagem de valores ausentes em cada coluna do DataFrame 'dataset'
percentagem_valores_ausentes = dataset.isna().sum() / len(dataset) * 100
# Arredonda as porcentagens para números inteiros
percentagem_valores_ausentes_arredondada = percentagem_valores_ausentes.round()
# Imprime as porcentagens arredondadas
print(percentagem_valores_ausentes_arredondada)

X1              0.0
X2              0.0
X3              0.0
X4              0.0
X5              0.0
               ... 
X175            0.0
X176            0.0
X177            0.0
X178            0.0
LABEL_TARGET    0.0
Length: 179, dtype: float64


In [13]:
# Obtém a lista de todas as colunas do DataFrame 'dataset' e armazena na variável 'colunas_dados'.
# O método .columns retorna um Index com os nomes das colunas,
# e o método .tolist() converte esse Index em uma lista padrão do Python.
# Essa lista pode ser útil para iterações, seleção de colunas ou análise do esquema dos dados.
colunas_dados = dataset.columns.tolist()

In [14]:
# Cria uma lista com os nomes das 178 primeiras colunas do DataFrame,
# armazenando em 'entrada_dados'. Isso permite focar apenas nas variáveis
# de entrada (features) para facilitar a inspeção — como checar se há colunas
# duplicadas em datasets extensos, onde a quantidade de variáveis torna difícil a verificação manual.
entrada_dados = colunas_dados[0:178]

In [15]:
# Checando se temos colunas duplicadas nos dados de entrada
# Transpõe o DataFrame de entrada (features) para que as colunas se tornem linhas,
# e então usa .duplicated() para identificar quais dessas "linhas" (ou seja, colunas originais) são duplicadas.
# Isso retorna uma série booleana indicando se cada coluna é uma duplicata de alguma anterior.
colunas_duplicadas = dataset[entrada_dados].T.duplicated()

# Usa a série booleana para filtrar os nomes das colunas duplicadas,
# ou seja, retorna os nomes das colunas que aparecem mais de uma vez com os mesmos dados.
colunas_duplicadas_nomes = dataset[entrada_dados].columns[colunas_duplicadas]

# Exibe os nomes das colunas duplicadas encontradas.
print(colunas_duplicadas_nomes)

Index([], dtype='object')


## 3.3 Verificando a Prevalência

**Prevalência**, na análise de dados, é a **proporção de casos positivos** (ou de interesse) dentro do total de observações.
Serve para entender **a frequência de uma classe** e verificar se há **desbalanceamento nos dados**, o que impacta diretamente na escolha de modelos e métricas.


In [16]:
dataset['LABEL_TARGET'].value_counts()

LABEL_TARGET
0    9200
1    2300
Name: count, dtype: int64

In [17]:
# Define uma função para calcular a prevalência de uma classe positiva (normalmente valor 1)
# em um vetor ou lista de rótulos (dados_y), como em um problema de classificação binária.
# A função soma todos os valores (assumindo que os positivos são representados por 1)
# e divide pelo total de elementos, retornando a proporção de casos positivos.
def calculando_prevalencia(dados_y):
    return sum(dados_y) / len(dados_y)

In [18]:
# Imprime a prevalência da classe positiva na coluna 'LABEL_TARGET' do DataFrame.
# A função calculando_prevalencia recebe os valores da coluna (convertidos para array com .values),
# calcula a proporção de casos positivos (valor 1) e exibe o resultado formatado com f-string.
print(f"Prevalência de classe positiva: {calculando_prevalencia(dataset['LABEL_TARGET'].values)}")

Prevalência de classe positiva: 0.2


## 3.4 Sampliando os Dados e Mantendo a Prevalência

In [19]:
# Cria uma nova amostra aleatória dos dados com o mesmo tamanho do DataFrame original.
# Isso embaralha todas as linhas do dataset, útil por exemplo para eliminar qualquer ordem pré-existente.
# A amostra é obtida sem reposição (por padrão), mantendo todas as observações, mas em nova ordem.
dados_sampliados = dataset.sample(n=len(dataset), random_state=42)

In [20]:
dados_sampliados.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,LABEL_TARGET
5556,-5,-13,-4,3,4,4,12,28,45,58,...,-54,-64,-49,-34,-17,-18,-10,-10,-15,0
1570,-39,-32,-21,-14,-9,8,38,67,89,87,...,-14,-71,-123,-143,-154,-129,-94,-46,1,0
2582,115,106,39,-4,-10,-10,-22,-20,1,6,...,-55,-29,-14,-18,-29,-29,-15,-20,-10,0
4948,-6,-14,-25,-24,-10,9,26,54,61,64,...,-7,-24,-9,32,65,97,100,88,80,0
7089,59,56,71,58,66,52,34,17,-2,0,...,-29,3,38,62,65,40,18,5,-6,0


In [21]:
# Reseta o índice do DataFrame 'dados_sampliados' após o embaralhamento,
# descartando o índice antigo com 'drop=True' e criando um novo sequencial (0, 1, 2, ...).
# Isso é útil para evitar confusão com os índices antigos que ficaram fora de ordem após o .sample().
dados_sampliados = dados_sampliados.reset_index(drop=True)

In [22]:
dados_sampliados

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,LABEL_TARGET
0,-5,-13,-4,3,4,4,12,28,45,58,...,-54,-64,-49,-34,-17,-18,-10,-10,-15,0
1,-39,-32,-21,-14,-9,8,38,67,89,87,...,-14,-71,-123,-143,-154,-129,-94,-46,1,0
2,115,106,39,-4,-10,-10,-22,-20,1,6,...,-55,-29,-14,-18,-29,-29,-15,-20,-10,0
3,-6,-14,-25,-24,-10,9,26,54,61,64,...,-7,-24,-9,32,65,97,100,88,80,0
4,59,56,71,58,66,52,34,17,-2,0,...,-29,3,38,62,65,40,18,5,-6,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11495,27,33,29,33,27,22,18,26,24,7,...,5,9,13,17,21,22,5,-5,-5,0
11496,-95,-140,-183,-209,-242,-259,-261,-244,-202,-146,...,237,204,162,131,95,48,14,-14,-42,1
11497,90,26,-58,-157,-251,-303,-285,-223,-149,-81,...,-91,-76,-52,-8,28,37,15,-26,-72,0
11498,91,79,55,21,-3,-14,-7,20,59,87,...,138,119,119,139,167,201,223,232,229,1


In [23]:
# Seleciona aleatoriamente 30% das linhas do DataFrame 'dataset' para criar uma amostra chamada 'amostra_dados_30'.
# O parâmetro 'frac=0.30' indica que a fração da amostra deve ser 30% do total de dados.
# Por padrão, o método 'sample' embaralha os dados antes de amostrar, garantindo aleatoriedade.
# Seleciona 30% dos dados com aleatoriedade controlada pelo parâmetro 'random_state'
amostra_dados_30 = dataset.sample(frac=0.30, random_state=42)

In [24]:
amostra_dados_30

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,LABEL_TARGET
5556,-5,-13,-4,3,4,4,12,28,45,58,...,-54,-64,-49,-34,-17,-18,-10,-10,-15,0
1570,-39,-32,-21,-14,-9,8,38,67,89,87,...,-14,-71,-123,-143,-154,-129,-94,-46,1,0
2582,115,106,39,-4,-10,-10,-22,-20,1,6,...,-55,-29,-14,-18,-29,-29,-15,-20,-10,0
4948,-6,-14,-25,-24,-10,9,26,54,61,64,...,-7,-24,-9,32,65,97,100,88,80,0
7089,59,56,71,58,66,52,34,17,-2,0,...,-29,3,38,62,65,40,18,5,-6,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8395,-50,-46,-51,-60,-62,-64,-67,-62,-58,-54,...,-2,3,7,7,-2,-5,3,9,14,0
9185,70,7,-45,-81,-98,-102,-95,-88,-79,-70,...,-76,-84,-61,-13,51,105,137,149,148,1
9824,-14,5,38,113,189,206,157,97,87,123,...,26,10,-3,-24,-44,-53,-70,-78,-86,1
2111,-3,-1,-8,-15,-28,-31,-32,-37,-33,-34,...,50,49,50,56,61,65,62,51,34,0


In [25]:
# Calcula a proporção da amostra 'amostra_dados_30' em relação ao total do conjunto 'dataset'
# e imprime o resultado formatado com uma casa decimal.
# Isso é útil para verificar se a fração da amostra (30%) foi aplicada corretamente.
print("Tamanho da divisão de validação / teste %.1f" % (len(amostra_dados_30) / len(dataset)))

Tamanho da divisão de validação / teste 0.3


In [26]:
# A partir da amostra que representa 30% do dataset original (amostra_dados_30),
# esta linha seleciona aleatoriamente metade desses dados (ou seja, 15% do total original)
# para compor o conjunto de teste. Esse conjunto será utilizado apenas no final do processo
# para avaliar a performance real do modelo em dados nunca vistos.
dataset_teste = amostra_dados_30.sample(frac=0.5)

# Aqui, removemos do conjunto amostrado os dados que foram destinados ao teste,
# restando os outros 15% do total original. Esses dados formarão o conjunto de validação,
# usado durante o treinamento para testar diferentes hiperparâmetros e evitar overfitting.
dataset_validacao = amostra_dados_30.drop(dataset_teste.index)

# Por fim, esta linha remove do dataset original os 30% de dados que foram separados
# para teste e validação, mantendo os 70% restantes. Esses dados são usados para treinar o modelo,
# ou seja, para permitir que ele aprenda padrões e relações nos dados.
dataset_treino = dataset.drop(amostra_dados_30.index)

In [27]:
# Imprime a quantidade de amostras no conjunto de teste (n) e a prevalência da classe positiva nesse conjunto.
# A prevalência indica a proporção de casos positivos (LABEL_TARGET = 1) em relação ao total.
# Isso é importante para garantir que a divisão dos dados manteve a distribuição original das classes.
print(
    "Teste(n = %d): %.3f"
    % (len(dataset_teste), calculando_prevalencia(dataset_teste.LABEL_TARGET.values))
)

# Faz o mesmo para o conjunto de validação: imprime o número de observações e a prevalência da classe positiva.
# Essa verificação ajuda a confirmar que o conjunto de validação é representativo da população original.
print(
    "Validação(n = %d): %.3f"
    % (len(dataset_validacao), calculando_prevalencia(dataset_validacao.LABEL_TARGET.values))
)

# Por fim, imprime o tamanho e a prevalência do conjunto de treino, que deve ter a maioria dos dados.
# Comparar essas prevalências entre os conjuntos ajuda a verificar se a amostragem foi bem feita
# e se não houve viés na distribuição das classes.
print(
    "Treino(n = %d): %.3f"
    % (len(dataset_treino), calculando_prevalencia(dataset_treino.LABEL_TARGET.values))
)

Teste(n = 1725): 0.204
Validação(n = 1725): 0.201
Treino(n = 8050): 0.199


## 3.5 Balanceamento de Classe

---

- Justificativa da Utilização do Undersampling

Em problemas de **classificação com classes desbalanceadas**, como no nosso caso (em que a variável alvo `LABEL_TARGET` possui muito mais exemplos de uma classe do que da outra), os algoritmos de machine learning tendem a ser **enviesados para a classe majoritária**, o que prejudica a detecção correta da classe minoritária — geralmente a mais importante do ponto de vista de negócio (como fraude, churn, conversão etc.).

Para contornar esse problema, optamos por utilizar a técnica de **undersampling**, que consiste em **reduzir aleatoriamente o número de exemplos da classe majoritária** para igualá-lo ao número de exemplos da classe minoritária. Essa técnica tem os seguintes objetivos:

1. **Balancear a distribuição das classes**, permitindo que o modelo aprenda padrões igualmente importantes em ambas.
2. **Evitar que o modelo aprenda a sempre prever a classe mais frequente**, o que pode levar a uma alta acurácia aparente, mas baixa eficácia prática (ex: alta taxa de falsos negativos).
3. **Reduzir o custo computacional**, pois o volume de dados é menor comparado a outras abordagens (como oversampling ou geração sintética de dados).

Além disso, utilizamos **amostragem aleatória com semente (`random_state`) fixa**, garantindo **reprodutibilidade** e integridade na validação dos modelos.

---

In [28]:
dataset_teste.shape, dataset_validacao.shape, dataset_treino.shape   # Exibe as dimensões (linhas, colunas) dos conjuntos de teste, validação e treino, respectivamente

((1725, 179), (1725, 179), (8050, 179))

In [29]:
dataset_treino['LABEL_TARGET'].value_counts()   # Conta e exibe a quantidade de ocorrências de cada classe presente na coluna 'LABEL_TARGET' do conjunto de treino

LABEL_TARGET
0    6448
1    1602
Name: count, dtype: int64

In [30]:
# Cria uma série booleana chamada 'dados_indice' onde cada valor é True se o valor na coluna 'LABEL_TARGET' do DataFrame 'dataset_treino' for igual a 1, e False caso contrário.
# Isso é útil para filtrar apenas os registros que pertencem à classe positiva (por exemplo, clientes que compraram um produto ou tiveram churn).
dados_indice = dataset_treino['LABEL_TARGET'] == 1

In [31]:
# Seleciona as linhas do DataFrame 'dataset_treino' onde 'LABEL_TARGET' é igual a 1 (classe positiva),
# e armazena em 'dataset_treino_positivo' — útil para análise ou balanceamento de classes.
dataset_treino_positivo = dataset_treino.loc[dados_indice]
# Seleciona as linhas onde 'LABEL_TARGET' é diferente de 1 (classe negativa),
# usando a negação (~) da série booleana, e armazena em 'dataset_treino_negativo'.
dataset_treino_negativo = dataset_treino.loc[~dados_indice] 

In [32]:
# Calcula o menor número de amostras entre os dois subconjuntos: 'dataset_treino_positivo' e 'dataset_treino_negativo',
# usando len() para obter o tamanho de cada um e np.min() para pegar o valor mínimo — isso é útil para balancear as classes.
valor_minimo = np.min([len(dataset_treino_positivo), len(dataset_treino_negativo)])

In [33]:
# Cria um novo DataFrame 'dados_final_treino' contendo um conjunto balanceado de dados,
# com a mesma quantidade de exemplos positivos e negativos (definido por 'valor_minimo').
# Usa sample() para fazer uma amostragem aleatória de 'valor_minimo' registros de cada classe,
# garantindo reprodutibilidade com 'random_state = 69'.
# pd.concat() junta os dois subconjuntos (positivo e negativo) ao longo das linhas (axis=0),
# e ignore_index=True redefine os índices do novo DataFrame.
dados_final_treino = pd.concat([dataset_treino_positivo.sample(n = valor_minimo, random_state = 42),
                                dataset_treino_negativo.sample(n = valor_minimo, random_state = 42)],
                               axis=0,
                               ignore_index=True)

In [34]:
# Embaralha as linhas do DataFrame 'dados_final_treino' usando sample() com n igual ao número total de linhas (shuffle completo),
# garantindo que os exemplos positivos e negativos fiquem misturados aleatoriamente.
# O parâmetro 'random_state = 42' assegura reprodutibilidade do embaralhamento.
# Em seguida, reset_index(drop=True) redefine os índices do DataFrame, descartando os antigos.
dados_final_treino = dados_final_treino.sample(n = len(dados_final_treino), random_state = 42).reset_index(drop = True)

In [35]:
dados_final_treino['LABEL_TARGET'].value_counts()

LABEL_TARGET
1    1602
0    1602
Name: count, dtype: int64

In [36]:
# Exibe uma mensagem formatada mostrando:
# 1. O número total de amostras no conjunto de treino balanceado (n = %d),
# 2. A prevalência da classe positiva (LABEL_TARGET == 1) calculada pela função 'calculando_prevalencia()',
# que provavelmente retorna a proporção de exemplos positivos no conjunto.
# O resultado é formatado com 3 casas decimais (%.3f).
print('Balanceamento em Treino(n = %d): %.3f' % (len(dados_final_treino), 
                                                 calculando_prevalencia(dados_final_treino.LABEL_TARGET.values)))

Balanceamento em Treino(n = 3204): 0.500


# 4.0 Arquivos  Pré-Processamento

In [37]:
# Salva o DataFrame `dataset_treino` como um arquivo CSV no diretório "dados"
# O parâmetro index=False garante que o índice do DataFrame não seja incluído no arquivo CSV
dataset_treino.to_csv("dados/dataset_treino.csv", index=False)

# Salva o DataFrame `dataset_teste` como um arquivo CSV no diretório "dados"
# Também sem incluir o índice no arquivo gerado
dataset_teste.to_csv("dados/dataset_teste.csv", index=False)

# Salva o DataFrame `dataset_validacao` como um arquivo CSV no diretório "dados"
# O índice não será salvo no arquivo CSV
dataset_validacao.to_csv("dados/dataset_validacao.csv", index=False)

# Salva o DataFrame `dados_final_treino` como um arquivo CSV no diretório "dados"
# Há um pequeno erro no nome do arquivo: "datset_final_treino" deveria ser "dataset_final_treino"
# index=False garante que o índice não será incluído no arquivo CSV
dados_final_treino.to_csv("dados/dataset_final_treino.csv", index=False)


In [38]:
# Salvamos os nomes dos dados de entrada (colunas preditoras) para facilitar a utilização mais tarde
pickle.dump(entrada_dados, open('dados/colunas_entrada.sav', 'wb'))

In [39]:
%reload_ext watermark
%watermark -a "Ricardo de Souza Silva"

Author: Ricardo de Souza Silva



In [40]:
%watermark -v -m

Python implementation: CPython
Python version       : 3.12.7
IPython version      : 8.27.0

Compiler    : MSC v.1929 64 bit (AMD64)
OS          : Windows
Release     : 11
Machine     : AMD64
Processor   : AMD64 Family 23 Model 96 Stepping 1, AuthenticAMD
CPU cores   : 12
Architecture: 64bit



In [41]:
%watermark --iversions

pandas    : 2.2.2
sklearn   : 1.5.1
numpy     : 1.26.4
sys       : 3.12.7 | packaged by Anaconda, Inc. | (main, Oct  4 2024, 13:17:27) [MSC v.1929 64 bit (AMD64)]
scipy     : 1.13.1
seaborn   : 0.13.2
matplotlib: 3.9.2

