# **Configurações**

Para melhor manusear o código, sem precisar ficar olhando cada célula ao executar, é criado uma classe para manter configurações gerais do código.

In [None]:
class Config:
    DROP_AND_FILL_NULL = True

    BALANCE_DATA = False
    
    SHUFFLE_DATA = True
    SHUFFLE_CONFIG = {
        'random_state': 26
    }

    DROP_OUTLIERS = False
    DROP_OUTLIERS_CONFIG = {
        'columns': ['vlr_saldo', 'vlr_credito', 'num_atend_atrs', 'num_produtos', 'num_atend', 'qtd_oper', 'qtd_reclm', 'qtd_restr']
    }

    TRAIN_TEST_SPLIT_CONFIG = {
        'test_size': 0.25,
        'random_state': 42
    }

# **Bibliotecas**

## Pacotes nativos:

Primeiramente, é preciso instalar as bibliotecas necessárias para o funcionamento dos processos realizados.

Os pacotes Pandas e Numpy são de uso fundamental em Python e serão utilizados na análise exploratória dos dados, bem como em sua posterior limpeza e tratamento. Scikit-Learn, por outro lado, é uma biblioteca Python aplicada a Machine Learning, e suas ferramentas serão essenciais para o desenvolvovimento do modelo preditivo. Já o pacote matplotlib será utilizado para a visualização dos dados geração de gráficos.

As bibliotecas citadas anteriormente são nativas do Google Colab, e não precisam ser instaladas, como pode ser visto ao utilizar o comando abaixo para buscar os pacotes instalados no ambiente de execução.

In [None]:
'''
O pip, gerenciador de pacotes do python, gera uma lista de pacotes instalados,
com essa lista, utiliza-se a ferramenta grep ( presente nas distribuições linux, incluido no colab) para filtrar os pacotes.
Temos como resultado uma lista de versões dos pacotes encontrado no ambiente virtual com base no filtro de pesquisa.
'''
!pip list -v | grep -E 'numpy|pandas|sklearn|matplotlib'

matplotlib                    3.2.2                        /usr/local/lib/python3.7/dist-packages pip
matplotlib-venn               0.11.7                       /usr/local/lib/python3.7/dist-packages pip
numpy                         1.21.6                       /usr/local/lib/python3.7/dist-packages pip
pandas                        1.3.5                        /usr/local/lib/python3.7/dist-packages pip
pandas-datareader             0.9.0                        /usr/local/lib/python3.7/dist-packages pip
pandas-gbq                    0.13.3                       /usr/local/lib/python3.7/dist-packages pip
pandas-profiling              1.4.1                        /usr/local/lib/python3.7/dist-packages pip
sklearn-pandas                1.8.0                        /usr/local/lib/python3.7/dist-packages pip


## Pacotes a serem instalados manualmente:

Outras bibliotecas necessárias para funcionamento do projeto, são o PyDrive, que permite a conexão com o Google Drive, e o pycaret, que é uma biblioteca de Machine Learning que facilita a construção de modelos preditivos com poucas atuações de código.
Porém esses pacotes apontados acima não são nativos do Google Colab, e precisam ser instalados. Para isso, basta executar o comando abaixo.
Não só isso, mas por uma exigência do **numba**, devemos instalar exatamente a versão mais recente, pois ele aceita a versão _1.21.6_ do **numpy**

In [None]:
'''
O gerenciador pip, instala os pacotes no ambiente virtual, para que possam ser utilizados no código.
São usados os argumentos:
	-q: quiet, não exibe a saída do comando no terminal para não poluir a saída do notebook.
'''

%pip install -q PyDrive 

_É normal que após instalação, seja necessário a reinicialização da máquina virtual para aplicar as alterações!_

## Importando bibliotecas:

Neste processo é feito a importação das bibliotecas usadas de modo geral durante a execução do projeto.

In [None]:
'''
Importa as bibliotecas pandas e numpy para manipulação de dados e matemática respectivamente.
São utilizadas diretivas de importação para facilitar a leitura do código.
- np é um alias para numpy
- pd é um alias para pandas.
'''
import pandas as pd
import numpy as np


'''
Importa as bibliotecas necessárias para autenticação no google drive e download dos arquivos de dados.
O Colab contém bibliotecas para autenticação no google drive, para que possamos acessar os arquivos de dados.
Já o PyDrive facilita a manipulação dos arquivos no google drive.
'''
from google.colab import auth
from google.colab.drive import mount
from oauth2client.client import GoogleCredentials
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive


### --------------------------------------------------------------------------------
##Importa as bibliotecas necessárias para a criação do modelo de machine learning.

# Sklearn que contém algoritmos de aprendizado supervisionado e não supervisionado para classificação, regressão e clustering.
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import NearestNeighbors
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
from sklearn.preprocessing import MinMaxScaler
from sklearn import svm
from sklearn.svm import SVC
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# Importação de bibliotecas para carregar modelo
from joblib import load

### --------------------------------------------------------------------------------


# Importação da biblioteca Plotly, que cria gráficos interativos para a visualização dos dados
import plotly.express as px


# Importação da biblioteca Matplotlib e alguns módulos do sklearn, que cria gráficos estáticos para a visualização dos dados
from sklearn.tree import plot_tree
from sklearn.metrics import plot_confusion_matrix
import matplotlib.pyplot as plt


# Remove warnings durante a execução do código, para facilitar a leitura do notebook e evitar poluição da saída.
import warnings
warnings.filterwarnings('ignore')

# **Carregando dados**

## Acessando dados no Google Drive e importando para o Colab
Neste passo, é necessário autenticar o Colab no Google Drive para que possamos acessar os arquivos de dados e importá-los para o ambiente virtual do Colab.

In [None]:
# Permite o acesso a conta google do usuário para autenticação no google drive.
auth.authenticate_user()
gauth = GoogleAuth()

# Autentica o usuário no google drive.
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

Agora devemos fazer o download dos dados do Google Drive para a máquina virtual do Colab.

In [None]:
# Download dos dados para esta máquina virtual
downloaded = drive.CreateFile({'id': '1DUV-TOm5NhiaDfBgewwh26Ky7jgoC1mU'})
downloaded.GetContentFile('data.csv')

## Importando os dados para um Dataframe


Com os dados devidamentes alocados na máquina, conseguimos fazer a leitura dos mesmos e armazená-los em um DataFrame.

In [None]:
# Carregamento dos dados baixados em um dataframe
df = pd.read_csv('data.csv')

# Verificando o dataframe
df.head()

Unnamed: 0,anomes,num_cpf_hash,vlr_credito,vlr_saldo,num_atend_atrs,vlr_score,num_produtos,num_atend,qtd_oper,qtd_reclm,qtd_restr,vlr_renda,cod_rating,ind_atrito,ind_engaj,ind_novo_cli
0,202104,fffff8b0db8eff291be8b83f8885f52c52782bb42c3c4b...,,,,,,,,,1.0,,,,,
1,202104,ffffd54b45ec46113523184fc07185a0d5cbfa876a07ba...,35943.74,5815.5,,377.0,1.0,,24.0,,10.0,,A,,1.0,
2,202104,ffffd47a92b3e4291c013033ae528708a19eaede50f78e...,6288.22,,,257.0,,,22.0,,4.0,,,,,
3,202104,ffffc102ddd37ec29e985a4564e85a2bace79a85ebff5e...,,,,,,,,,2.0,,,,,
4,202104,ffffbd4a3d42a12e07b1202d68c33d43220c42c8a55160...,1238.93,1400.0,,773.0,2.0,,21.0,,,,A,,1.0,


Carregando dados do drive ( modelo salvo no colab de criação de modelos... )

In [None]:
mount('/content/drive')


deploy_model_loaded = load('/content/drive/MyDrive/Colab Notebooks/modelos_salvos/modelo_gb_deploy.model')
deploy_model_loaded

Mounted at /content/drive


GradientBoostingClassifier(learning_rate=0.75, n_estimators=10, random_state=0)

# **Limpeza dos dados**

## **Limpeza dos dados - parte 1**


* Em primeiro lugar, é necessário retirar as linhas que não possuem cod_rating (parâmetro utilizado internamente pelo banco para classificar seus clientes), a fim de facilitar o aprendizado do modelo preditivo, visto que, se não há registro de cod_rating, a linha não pertence, necessariamente, a um cliente do banco.

* Após a resolução desse primeiro empecilho, todos os valores nulos das colunas "num_atend", "num_atend_atrs", "qtd_reclm", "qtd_restr", "ind_atrito", "ind_engaj", "ind_novo_client" e "vlr_score" foram trocados para o valor zero (0), porque o modelo preditivo não consegue identificar, tampouco manipular dados diferentes de números.

* Finalizando essa primeira parte, mudamos os parâmetros do cod_rating de letras (A, B, C, D, E, F, G, H e HH) para números (0, 1, 2, 3, 4, 5, 6, 7, 8 e 9, respectivamente)

In [None]:
if Config.DROP_AND_FILL_NULL:
	import re

	# Grava o número de linhas antes da limpeza
	print('Número de linhas antes da limpeza: ', df.shape[0])

	#Pega todas as linhas que possuem cod_rating diferente de Nulo
	df = df[~df.cod_rating.isnull()]

	# Verificando o dataframe
	print('Número de linhas removendo as linhas com cod_rating nulo: ', df.shape[0])


	# Substitui todos os nulos por 0 nas colunas de interesse
	columns_to_fill_nan = ['num_atend', 'num_atend_atrs', 'qtd_reclm', 'qtd_restr', 'ind_atrito', 'ind_engaj', 'ind_novo_cli', 'vlr_score', 'num_produtos']
	df[columns_to_fill_nan] = df[columns_to_fill_nan].fillna(0)

	# Faz o teste de consistência verificando se existem valores nulos
	assert df[columns_to_fill_nan].isnull().sum().sum() == 0, 'Existem valores nulos nas colunas de interesse'

	# Verificando o dataframe
	print('Número de linhas substituindo as linhas com valores nulos: ', df.shape[0])

	#Transformas o cod_rating de letras para números. Ordem alfabetica
	'''
	A -> 1
	B -> 2
	...
	'''
	le = LabelEncoder()
	df['cod_rating'] = le.fit_transform(df['cod_rating'])

	# Faz o teste de consistência verificando se foi substituído todas as letras por números na coluna cod_rating
	# Utiliza expressão regular para verificar se existe algum valor que não seja um número
	# assert re.search('[a-zA-Z]', df['cod_rating'].astype(str).sum()) == None, 'Existem letras na coluna cod_rating'

	# Verificando o dataframe após a transformação
	df.head()

Número de linhas antes da limpeza:  12032493
Número de linhas removendo as linhas com cod_rating nulo:  6186773
Número de linhas substituindo as linhas com valores nulos:  6186773


## **Limpeza dos dados - parte 2**

* Nessa etapa, aquelas linhas que possuem valor de crédito e saldo como **nulos** foram retiradas, devido ao fato de que há uma alta probabilidade de que essas possoas não possuam conta no Banco Pan. 

* Posteriormente, a partir de uma verificação, foi percebida a existência de linhas que, apesar de possuirem valores concretos de score, valor de saldo, crédito, número de atendimentos, etc. não possuem informações na coluna **renda**. Dessa forma, a fim de potencializar o funcionamento do modelo preditivo, após perceber a irrelevância dessa coluna para a construção desse, foi decidida a sua retirada da tabela. Além dela, foi excluída, também, a coluna que continha o cpf, visto que, por ter sofrido um processo de hash, possuia letras em sua composição e não era compreendido pela predição. 

In [None]:
if Config.DROP_AND_FILL_NULL:
	# Retirada de todos os valores de crédito e saldo que estão nulos
	df = df[~df.vlr_credito.isnull() & ~df.vlr_saldo.isnull()]

# Exclusão das colunas renda e cpf
df = df.drop('vlr_renda', axis=1)
df = df.drop('num_cpf_hash', axis=1)

# Verificação das mudanças realizadas:
df.head()

Unnamed: 0,anomes,vlr_credito,vlr_saldo,num_atend_atrs,vlr_score,num_produtos,num_atend,qtd_oper,qtd_reclm,qtd_restr,cod_rating,ind_atrito,ind_engaj,ind_novo_cli
1,202104,35943.74,5815.5,0.0,377.0,1.0,0.0,24.0,0.0,10.0,0,0.0,1.0,0.0
4,202104,1238.93,1400.0,0.0,773.0,2.0,0.0,21.0,0.0,0.0,0,0.0,1.0,0.0
7,202104,12607.75,31.7,0.0,0.0,0.0,0.0,9.0,0.0,0.0,9,0.0,0.0,0.0
8,202104,81506.54,5243.45,0.0,560.0,1.0,0.0,14.0,0.0,0.0,0,0.0,0.0,0.0
9,202104,112918.62,7252.64,0.0,374.0,2.0,0.0,23.0,0.0,0.0,0,0.0,1.0,0.0


## Seleção de dados
 
Após a de limpeza dos dados ausentes e dos dados nulos, foram definidas quais features serão utilizadas na construção do modelo preditivo. Para fazer tal escolha, os atributos relevantes no processo de análise da conduta de um cliente do Banco PAN foram considerados.
 
• **Safra (“anomes”)** --> Ao analisar a safra (ano e mês), consegue-se observar o comportamento do cliente ao longo do tempo e estimar seu comportamento futuro.
 
• **Valor de crédito (“vlr_credito”)** --> O valor de crédito apresenta a situação do cliente no mercado quando esse declara seu valor total de crédito, sendo um indicador de possíveis atritos entre cliente e banco, bem como um possível indicador de novos clientes ou clientes que possam ter a intenção de adquirir novos produtos.
 
• **Valor de saldo (“vlr_saldo”)** --> O valor total de saldo do cliente é uma coluna que, a depender do valor (mais baixo ou mais alto), poderá indicar a existência de atrito na relação que será predita pelo modelo. 
    
• **Número de atendimentos (“num_atend” e “num_atend_atrs”)** --> O número total de atendimentos e o número de atendimentos atrasados é um dos principais indicativos de atrito de um cliente com o Banco Pan.
    
• **Valor do score (“vlr_score”)**  --> O valor do score no Serasa de um cliente é capaz de identificar a necessidade do cliente de adquirir, por exemplo, certo valor de crédito no banco.
 
• **Número de produtos (“num_produtos”)** --> Quanto maior o número de serviços aderidos, maior pode ser o nível de atrito com a instituição, considerando a preferência pelo Banco PAN quanto a esses serviços.
 
• **Quantidade de operações (“qtd_oper”)** --> Quando um cliente possui muitas operações referentes a um mesmo serviço, deve ser considerada a preferência pelo Banco PAN, quando comparado a outras instituições financeiras.
 
• **Quantidade de reclamações (“qtd_reclm”)** --> Se um cliente possui muitas reclamações, ele se sente insatisfeito com os serviços oferecidos pela instituição em questão. 
 
• **Quantidade de restritivos no mercado (“qtd_restr”)** --> Considera as restrições financeiras do cliente em outras companhias.

• **Rating do cliente (“cod_rating”)** --> Refere-se ao risco que o cliente representa para o banco, indicando se existem atritos nessa relação ou se é provável que o cliente adquira novos produtos na instituição.
 
• **Índice de atrito (“ind_atritado”)** --> É uma métrica interna do banco que quantifica possíveis conflitos entre o Banco PAN e seus clientes. Se esse índice for diferente de zero, está claro que o cliente possui conflitos com o banco.
 
• **Índice de engajamento (“ind_engajado”)** --> Reflete o quão engajado o cliente é com a instituição, auxiliando o modelo preditivo a analisar se é alta ou baixa a probabilidade de que o cliente contate o banco para adquirir novos produtos ou serviços.
 
• **Índice de identificação de novo cliente (“ind_novo_cliente”)** --> Identifica potenciais clientes do Banco PAN, os quais serão identificados ao entrarem em contato com o atendimento da instituição, de modo que a intenção de abrir uma conta no banco seja predita pelo modelo preditivo.
 
Por fim, foram definidos os campos que não serão utilizados na construção da lógica do modelo preditivo, os quais encontram-se dispostos abaixo.
 
• **Número do CPF (“num_cpf”)** --> Os clientes não serão avaliados individualmente porque o modelo preditivo irá considerar um conjunto de clientes. Além disso, os clientes devem ser mantidos anônimos e os valores deste campo são strings, não sendo reconhecidos pelo modelo. 
 
• **Valor da renda (“vlr_renda")** --> A maioria dos valores para esse campo são nulos (NaN), não havendo uma quantidade suficiente de registros para que o atributo em questão influencie as predições realizadas.

# **Tratamento dos dados**

## Balanceando

Abaixo, está sendo realizado o tratamento dos dados, no qual é selecionada a base de dados limpa e, a partir dela, criada uma proporção entre clientes atritados e não atritados. Isso é feito porque, nos dados fornecidos, existe um volume muito elevado de clientes não atritados quando comparado ao número de clientes atritados, o que induzirá o modelo ao erro. 

In [None]:
if Config.BALANCE_DATA:
	# Defino um novo daraframe somente com os clientes atritados
	angry_clients = df[(df.ind_atrito == 1)]

	# Multiplico o tamanho do DataFrame de clientes atritados por 1.4 para balancear a quantidade de atritados e não atitados
	length_to_balence = int(len(angry_clients * 1.4))#1.4: valor definido manualmente por testes

	# Pegamos um novo DataFrame somente com clientes não atritados, pegando somente a quantidade anteriormente definida
	not_angry_clients = df[(df.ind_atrito == 0)].head(length_to_balence)

	# Concateno os dataframes de não atritados e atritados, ficando assim balanceado e não enviesando o modelo
	frames = [angry_clients, not_angry_clients]
	df = pd.concat(frames)

if Config.SHUFFLE_DATA:
	# Misturando os dados para que não fiquem ordenados por atritados e não atritados.
	# O random_state é para garantir que a amostra seja sempre a mesma.
	df = df.sample(frac = 1, random_state = Config.SHUFFLE_CONFIG['random_state'])

if Config.BALANCE_DATA or Config.SHUFFLE_DATA:
	# Verificando o dataframe
	df.head()

## **Tratamento de dados - parte 2**

* Agora, com os nulos tratados, confere-se a existência de algum dado no data frame que permaneça nulo, a fim de corrirgir caso o resultado seja diferente de zero. 

# **Normalização e padronização dos dados**



A normalização precisa ser feita após a realização da separação de treinamento e teste. Após essa etapa, é preciso realizar a normalização apenas no conjunto de treinamento para que, posteriormente, ela seja aplicada no conjunto de teste. 
* Fit: Treinamento
* Transformação: treinamento e teste

### Remoção de extremos:
Para normalizar os dados, em alguns casos é necessário remover os dados de extremos, pois eles podem distorcer a normalização. Para isso, é utilizado a classe de Outliers criada abaixo:

In [None]:
# Cria a classe que remove outliers do dataframe
class Outliers:
    def __init__(self, df) -> None:
        self.df = df

    # Método que remove os outliers do dataframe
    def remove_outliers(self, columns_to_remove_outliers: list) -> pd.DataFrame:
        # Itera sobre as colunas de interesse
        for column in columns_to_remove_outliers:
            quantile_value = Config.DROP_OUTLIERS_CONFIG['percentile'] / 100
            # Calcula o valor do primeiro quartil
            Q1 = self.df[column].quantile(quantile_value)
            # Calcula o valor do terceiro quartil
            Q3 = self.df[column].quantile(1 - quantile_value)

            # Calcula o valor do intervalo interquartil
            IQR = Q3 - Q1

            # Calcula o valor mínimo
            minimum = Q1 - (IQR * 1.5)

            # Calcula o valor máximo
            maximum = Q3 + (IQR * 1.5)

            # Remove os outliers
            self.df = self.df[(self.df[column] >= minimum) & (self.df[column] <= maximum)]

        # Retorna o dataframe sem os outliers
        return self.df

In [None]:
if Config.DROP_OUTLIERS:
	# Instancia a classe que remove outliers
	outliers = Outliers(df)

	# Remove os outliers
	df = outliers.remove_outliers(Config.DROP_OUTLIERS_CONFIG['columns'])

	# Verificando o dataframe
	df.head()

### Normalização de valores da tabela 

Nos campos seguintes é possível visualizar a normalização vetorial dos valores das colunas 'vlr_credito' e 'vlr_saldo'.
Isso se dá pelo fato de que valores de credito e saldo são, geralmente, redundantes e, para melhor processamento e desempenho do sistema, é adotado o processo de normalização, a partir do cálculo da média e da classificação desses pelos seus respectivos desvios padrões.

In [None]:
# Criando o objeto que será utilizado para converter os valores
scaler = MinMaxScaler()

# Seleciona os dados a serem normalizados pelo dataframe principal
dados_pendentes = df[['vlr_credito', 'vlr_saldo']]

# Dados formatados ( normalizados ), resgatados do método de transformação do MinMaxScaler
scaler_data = scaler.fit_transform(dados_pendentes)

In [None]:
# Criamos o dataframe para utilização dos dados normalizados, utilizando como base, as colunas dos dados anteriores a serem formatados.
numeric_df_scaled = pd.DataFrame(scaler_data, columns = dados_pendentes.columns)

numeric_df_scaled.head()

Unnamed: 0,vlr_credito,vlr_saldo
0,0.018128,0.003289
1,0.0,0.003734
2,3.3e-05,0.000945
3,0.006205,0.000521
4,0.017931,0.000273


# Testando modelo

## Verificando os dados

In [None]:
# Olhando o estado atual do dataframe
df

Unnamed: 0,anomes,vlr_credito,vlr_saldo,num_atend_atrs,vlr_score,num_produtos,num_atend,qtd_oper,qtd_reclm,qtd_restr,cod_rating,ind_atrito,ind_engaj,ind_novo_cli
5516350,202109,187585.58,7000.000000,0.0,743.0,1.0,0.0,16.0,0.0,0.0,0,0.0,0.0,0.0
979505,202104,0.00,7946.794542,0.0,0.0,0.0,0.0,0.0,0.0,0.0,9,0.0,0.0,0.0
1597862,202105,344.06,2010.000000,0.0,693.0,1.0,0.0,3.0,0.0,0.0,0,0.0,0.0,0.0
7448257,202111,64210.85,1109.000000,0.0,0.0,1.0,0.0,19.0,0.0,5.0,0,0.0,0.0,0.0
5661274,202109,185553.38,580.290000,0.0,380.0,2.0,0.0,5.0,0.0,1.0,0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1351922,202105,53760.10,3199.180000,0.0,512.0,1.0,0.0,6.0,0.0,0.0,0,0.0,1.0,0.0
6408995,202110,4150.03,535.560000,0.0,173.0,2.0,0.0,3.0,0.0,2.0,4,0.0,0.0,0.0
6162867,202110,11479.15,2098.780000,0.0,693.0,2.0,0.0,15.0,0.0,0.0,0,0.0,1.0,0.0
1879250,202105,8371.52,118.560000,0.0,0.0,0.0,0.0,5.0,0.0,5.0,9,0.0,0.0,0.0


In [None]:
# Clientes
print('Cliente atritados: %i' % len(df[(df['ind_atrito'] == 1)]))
print('Cliente não atritados: %i' % len(df[(df['ind_atrito'] == 0)]))

Cliente atritados: 2948
Cliente não atritados: 5651650


## Aplicando o modelo no dataframe

In [None]:
df_to_predict = df.drop(columns = ['ind_atrito', 'ind_engaj', 'ind_novo_cli'])

In [None]:
result_model = deploy_model_loaded.predict(df_to_predict)

print('Cliente atritados gerado pelo modelo: %i' % len(df[(result_model == 1)]))
print('Cliente não atritados gerado pelo modelo: %i' % len(df[(result_model == 0)]))

Cliente atritados gerado pelo modelo: 23070
Cliente não atritados gerado pelo modelo: 5631528
