# Bank Marketing Classifier

### Introdução ao tema

O marketing está presente nas nossas vidas muito mais do que imaginamos. Faça uma caminhada pelas ruas da cidade, uma busca no seu navegador, ligue a televisão ou o rádio, abra sua rede social e você será impactado por alguma ação de marketing.

Mas o que é marketing?
Para Philip Kotler, um dos teóricos mais renomados da área, define marketing como:
> *Marketing é a ciência e arte de explorar, criar e proporcionar valor para satisfazer necessidades de um público-alvo com rendibilidade.*

O campo do marketing é vasto e inclui não apenas o ato de vender um produto ou serviço, mas tudo relacionado ao planejamento, pesquisa e posicionamento de mercado. Em outras palavras, pode-se dizer que o marketing é como uma balança entre o que os clientes desejam e os objetivos da empresa. Afinal, um bom marketing precisa criar valor para ambas as partes: para a empresa e para o consumidor.

Vale ressaltar que marketing é uma palavra em inglês, derivada de market (mercado). Portanto, marketing não é apenas vender produtos ou serviços, engloba também outras atividades relacionadas ao mercado.

**Bank Marketing**<br/>

Um tipo de instituição que aplica marketing no seu dia a dia são os bancos, para isso, damos o nome Bank Marketing (Marketing Bancário). O marketing bancário é a prática de atrair e adquirir novos clientes por meio de estratégias de mídia tradicional e mídia digital. O uso dessas estratégias de mídia ajuda a determinar que tipo de cliente é atraído por uma determinada instituição. Isso também inclui diferentes instituições bancárias que usam propositalmente diferentes estratégias para atrair o tipo de cliente com o qual desejam fazer negócios.

E você sabe como as principais empresas fazem atualmente para aplicar estratégias de Marketing?<br/>
Se você respondeu, "elas aplicam técnicas de Inteligência Artificial e Machine Learning para entender e avaliar o comportamento dos seus clientes". Parabéns, você acertou!
Mas antes de explicar com elas fazem isso, vamos começar entendendo um pouco sobre o que é Machine Learning.

**Machine Learning**<br/>
O Machine Learning, ou aprendizado de máquina. É um subcampo da inteligência artificial que permite dar aos computadores a habilidade de aprender sem que sejam explicitamente programados para isso. Ela permite que computadores tomem decisões e interpretem dados de maneira automática, a partir de algoritmos. Temos vários tipos de aprendizagem, são elas: Supervisionada, não supervisionada, semi supervisionada, aprendizagem por reforço e deep learning.
	
Os algoritmos de aprendizagem de máquina, aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de dados que representam instâncias do problema a ser resolvido.

Um algoritmo é uma sequência finita de ações e regras que visam a solucionar um problema. Cada um deles aciona um diferente tipo de operação ao entrar em contato com os dados que o computador recebe. O resultado de todas as operações é o que possibilita o aprendizado da máquina.

Dessa forma, as máquinas aperfeiçoam as tarefas executadas, por meio de processamento de dados como imagens e números. Por isso o machine learning depende do Big Data para ser efetivo. O Big Data, por sua vez pode ser entendido de maneira simplória como uma imensa quantidade de dados. Mas calma, ainda irei falar mais em detalhes sobre isso. Por ora, vamos entender como o Machine Learning e a Inteligência Artificial ajudam a benefeciar a área de Bank Marketing.

**Machine Learning e o Bank Marketing**<br/>
Abaixo irei listar alguns benefícios do Machine Learning (ML) aplicado na área de Bank Marketing:
* **Atendimento ao cliente orientado por IA**: Existem muitas maneiras de tornar o atendimento ao cliente realmente orientado por IA ou, melhor dizer, orientado por dados. Por exemplo, com a ajuda da análise de dados, a instituição bancária pode descobrir as intenções de compra do cliente e oferecer um empréstimo flexível. Além disso, os principais bancos criam chatbots inteligentes que ajudam os clientes a interagir melhor com as empresas financeiras. Com a ajuda de aplicativos inteligentes, os clientes podem acompanhar automaticamente seus gastos, planejar seu orçamento e obter sugestões precisas de economia e investimento.
* **Segmentação de clientes**: Com ML, é possível encontrar características semelhantes e padrões entre os dados dos clientes. Dessa forma, o algoritmo de ML consegue separar os clientes em grupos, possibilitando que a equipe de Marketing possa direcionar os esforços de maneira individual para cada grupo de clientes.
* **Otimização de lances em anúncios**: os anúncios em buscadores funcionam no sistema de leilões de pesquisa. Ou seja, quem der o maior lance aparecerá em primeiro lugar nos resultados de pesquisa para uma determinada palavra-chave. Para fazer o lance perfeito, o marketing se utiliza do machine learning. Ele analisa milhões de dados para ajustar os lances em tempo real.
* **Prever os possíveis clientes**: Com base nos dados históricos da empresa, podemos coletar e entender qual é o perfil dos clientes. E com base nisso, prever a probabilidade do indivíduo adquirir determinado serviço. Como por exemplo, contrair um empréstimo, adquirir investimentos, dentre outros.

**Objetivo do Projeto**<br/>
Como objetivo específico do problema de negócio, irei aplicar técnicas de Machine Learning para identificar e prever ser se o cliente vai ou não adquirir o empréstimo no banco.

Como objetivo de estudo de tecnologia, estarei utilizando do início ao fim do projeto o framework Apache Spark, mais especificamente, o PySpark. PySpark é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina em tempo real, ou seja, para grandes volumes de dados, conhecido como Big Data.

**Sobre o Dataset**<br/>
Este conjunto de dados contém 20 atributos e 41189 registos relevantes para uma campanha de marketing direto de uma instituição bancária portuguesa. A campanha de marketing foi executada por meio de ligações telefônicas. O objetivo da classificação é prever se o cliente irá aderir (yes/no) ao CDB (variável y).<br/>

O dataset pode ser obtido no site do Kaggle, clicando [aqui](https://www.kaggle.com/datasets/ruthgn/bank-marketing-data-set)

> **Nota**: Eu alterei alguns registros do dataset para forçar a situação de dados missing/nulos. Para que dessa forma eu consiga desenvolver e detalhar a etapa de tratamento de valores NA.

Atributos do Dataset:
* AGE: Idade do indivíduo.
* JOB: Emprego.
* MARITAL: Status de estado civil: ('casado', 'solteiro', 'divorciado').
* EDUCATION: Nível de escolaridade
* DEFAULT: Se possui crédito inadimplente.
* HOUSING: Possui credito à habitação.
* LOAN: Se possui empréstimo.
* CONTACT: Tipo de contato: ('Telefone' ou 'Smartphone').
* MONTH: Mês do ano.
* DAY OF WEEK: Dia da semana.
* CAMPAIGN: Quantidade de contatos realizados durante esta campanha e para este cliente.
* PDAYS: Quantidade de dias que se passaram depois que o cliente foi contatado pela última vez em uma campanha anterior.
* PREVIOUS: Quantidade de contatos realizados antes desta campanha e para este cliente.
* POUTCOME: Resultado da campanha de marketing anterior ('fracasso', 'inexistente', 'sucesso').
* EMP.VAR.RATE: Taxa de variação do emprego - indicador trimestral.
* CONS.PRICE.IDX: Índice de preços ao consumidor - indicador mensal.
* CONS.CONF.IDX: Índice de confiança do consumidor - indicador mensal.
* EURIBOR3M: Taxa de 3 meses euribor - indicador diário.
* NR.EMPLOYED: Número de funcionários - indicador trimestral.


* Y: Variável alvo. Verifica se o cliente adquiriu o empréstimo.

---

### Introdução ao Apache Spark

Apache Spark é uma estrutura de código aberto que simplifica o desenvolvimento e a eficiência dos trabalhos de análise de dados. Ele oferece suporte a uma ampla variedade de opções de API e linguagem com mais de 80 operadores de transformação e ação de dados que ocultam a complexidade da computação em cluster.

Com velocidades relatadas 100 vezes mais rápidas do que mecanismos de análise semelhantes, o Spark pode acessar fontes de dados variáveis e ser executado em várias plataformas, incluindo Hadoop, Apache Mesos, Kubernetes, de forma independente ou na nuvem. Seja processando dados em lote ou streaming, você verá um desempenho de alto nível devido ao agendador Spark DAG de última geração, um otimizador de consulta e um mecanismo de execução física.

> Caso você queira saber mais sobre o Apache Spark, eu recomendo fortemente a leitura do artigo "Spark: entenda sua função e saiba mais sobre essa ferramenta", publicado pelo blog XP Educação, que pode ser acessado clicando [aqui](https://blog.xpeducacao.com.br/apache-spark/)

### PySpark

PySpark é a colaboração do Apache Spark e do Python.

O Apache Spark é uma estrutura de computação em cluster de código aberto, construída em torno da velocidade, facilidade de uso e análise de streaming, enquanto o Python é uma linguagem de programação de alto nível e de uso geral. Ele fornece uma ampla variedade de bibliotecas e é usado principalmente para Machine Learning e Real-Time Streaming Analytics.

Em outras palavras, é uma API Python para Spark que permite aproveitar a simplicidade do Python e o poder do Apache Spark para domar o Big Data. 

O uso da biblioteca PySpark possui diversas vantagens:
* É um mecanismo de processamento distribuído, na memória, que permite o processamento de dados de forma eficiente e utilizando a característica de computação distribuída.
* Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos.
* Possui quatro grandes funcionalidades: Manipulação e integração SQL, Streaming de Dados, MLlib para Machine Learning e GraphX para manipulação de grafos.
* Segundo os desenvolvedores, o Apache Spark é até 100x mais rápido em termos de processamento distribuído quando comparado com o Hadoop. 

Toda a execução dos scripts são realizados dentro do Apache Spark, que distribui o processamento dentro de um ambiente de cluster que são interligados aos NÓs que realizam a execução e transformação dos dados.


### Início do Projeto

Depois de todas as definições, vamos iniciar o projeto. O conteúdo programático segue a estrutura padrão de projetos desse tipo. Iniciando pelo carregamento dos dados.


### Data Load and Packages Imports

Irei utilizar funções de dois dos quatro principais módulos do Spark. Funções do módulo de SQL e também do MLLib.

In [None]:
#import pyspark.sql.functions as F
from pyspark.sql import Row #Converte RDDs em objetos do tipo Row
from pyspark.sql.functions import col, isnan, when, count # Encontra a contagem para valores None, Null, Nan, etc.
from pyspark.sql.types import IntegerType, FloatType

from pyspark.ml.feature import StringIndexer, OneHotEncoder #Converte strings em valores numéricos
from pyspark.ml.linalg import Vectors #Serve para criar um vetor denso
from pyspark.ml.evaluation import MulticlassClassificationEvaluator # Para avaliar o modelo com as métricas de avaliação.
from pyspark.ml.feature import RobustScaler, StandardScaler, MinMaxScaler, Normalizer # Métodos para escalas dos dados
from pyspark.ml.classification import RandomForestClassifier, LogisticRegression, GBTClassifier, LinearSVC # Algoritmos de ML
from pyspark.ml import Pipeline # Criação de um Pipeline de execução.
from pyspark.ml.functions import vector_to_array


from math import floor

In [None]:
import sys
print(f'System Version: {sys.version}')
print(f'Spark Context Version: {sc.version}')

Ao inicializar o Notebook pelo terminal com o comando PySpark, criamos automaticamente um Contexto Spark (SparkContext). Este é um objeto que define como e onde o Spark acessa o Cluster.

Para facilitar nossa vida, irei criar uma Sessão Spark. Esta serve para fornecer uma maneira simples para interagir com várias funcionalidades do Spark com um número menor de constructs. Em vez de ter que criar um contexto Spark, contexto Hive, contexto SQL, agora tudo é encapsulado em uma sessão Spark.

In [None]:
# Spark Session - usada quando se trabalha com Dataframes no Spark
spSession = SparkSession.builder.master("local").appName("PySpark-BankMarketing").config("spark.some.config.option", "session").getOrCreate()

Como citado, quero carregar o dataset que eu propositalmente modifiquei com o intuito de fazer algumas etapas adicionais para tratamento dos dados durante o notebook. 

In [None]:
#rdd = sc.textFile('data/bank-marketing-dataset.csv') # Arquivo original
rdd = sc.textFile('data/dataset-with-na.csv') # Arquivo modificado

### Visão Geral sobre os Dados

Primeiro uma visão geral sobre os dados e algumas explicações sobre o funcionamento básico do Spark.

In [None]:
type(rdd)

**RDD - Resilient Distributed Datasets**

É como uma tabela de banco de dados, é a essência do funcionamento do Spark. É uma coleção de objetos distribuída e imutável, é read-only. Cada conjunto de dados no RDD é dividido em partições lógicas, que podem ser computadas em diferentes nodes do cluster. Existem duas formas de criar o RDD:
* Paralelizando uma coleção existente (função sc.parallelize);
* Referenciando um dataset externo (HDFS, RDBMS, NoSQL, S3);

O Spark utiliza o conceito de RDDs para aplicar o MapReduce de maneira rápida. Por padrão, os RDDs são computados cada vez que executamos uma ação. Entretanto, podemos “persistir” o RDD na memória (ou mesmo no disco) de modo que os dados estejam disponíveis ao longo do cluster e possam ser processados de forma muito mais rápida pelas operações de análise de dados.
O RDD suporta dois tipos de operações:

<img src="resources/tabela01.png"/>

Cada transformação gera um novo RDD, pois os RDDs são imutáveis. As ações aplicam as transformações nos RDDs e retornam o resultado.

**Características dos RDDs**:

* Spark é baseado em RDDs. Criamos, transformamos e armazenamos RDDs em Spark;
* RDD representa uma coleção de elementos de dados particionados que podem ser operados em paralelo.
* RDDs são objetos imutáveis. Eles não podem ser alterados uma vez criados.
* RDDs podem ser colocados em cache e permitem persistência (mesmo objeto usado entre sessões diferentes).
* Ao aplicarmos Transformações em RDDs criamos novos RDDs.
* Ações aplicam as transformações nos RDDs e geram um resultado.

**Existem dois tipos de transformações:**

* *Narrow*: Resultado de funções como map() e filter() e os dados vem de uma única partição.
* *Wide*: Resultado de funções como groupByKey() e os dados podem vir de diversas partições.

In [None]:
# Verificando a quantidade de registros no RDD
rdd.count()

In [None]:
# Listando os 5 primeiros registros
rdd.take(5)

Veja que a primeira linha do RDD se trata do cabeçalho da tabela. Além disso, o RDD carregou os dados como uma "lista de strings". 

Portanto, o que eu irei fazer é: Remover a primeira linha que é o cabeçalho. Em seguida fazer o split dos dados utilizando o vírgula como separador. Assim, terei os dados como uma tabela.

In [None]:
header = rdd.first()
rdd_body = rdd.filter(lambda x: header not in x).map(lambda l: l.split(','))

list_columns = header.replace('.', '_').upper().split(',')
list_columns

Agora quero criar o conceito de Rows. Isto é, para cada linha e para cada dado irei atribuir uma chave. Esta chave é justamente o nome das colunas do dataset.

Alterei o nome do atributo Y para TARGET de modo a facilitar as próximas etapas do processo.

In [None]:
rdd_row = rdd_body.map(lambda p: Row(
    AGE = p[0], 
    JOB = p[1], 
    MARITAL = p[2],
    EDUCATION = p[3],
    DEFAULT = p[4],
    HOUSING = p[5],
    LOAN = p[6],
    CONTACT = p[7],
    MONTH = p[8],
    DAY_OF_WEEK = p[9],
    CAMPAIGN = p[10],
    PDAYS = p[11],
    PREVIOUS = p[12],
    POUTCOME = p[13],
    EMP_VAR_RATE = p[14],
    CONS_PRICE_IDX = p[15],
    CONS_CONF_IDX = p[16],
    EURIBOR3M = p[17],
    EMPLOYED = p[18],
    TARGET = p[19]
))

In [None]:
# Criando um Dataframe
rdd_df = spSession.createDataFrame(rdd_row)
rdd_df.cache()

In [None]:
# Utilizando as funções importadas para auxiliar na detecção de valores Missing/Ausentes.

rdd_na = rdd_df.select([count(when(col(c).contains('None') | col(c).contains('NULL') | \
                            (col(c) == '' ) | col(c).isNull() | isnan(c), c )).alias(c)
                    for c in rdd_df.columns])
rdd_na.show()

In [None]:
# Visualizando os valores únicos para cada coluna do dataframe

list_columns = rdd_df.columns

for column in list_columns:
    count = rdd_df.select(column).distinct().count()
    print(f'Column: {column}\tCount: {count}')

### Tratando valores Ausentes

Colunas que apresentaram valores ausentes:
* MARITAL
* DEFAULT
* HOUSING
* DAY_OF_WEEK
* POUTCOME
* CONS_PRICE_IDX

> Vários registros em várias colunas possuem o valor `unknown` em português (desconhecido). Porém, eu irei considerar estes valores como corretos e não vou fazer nenhum tratamento para estes dados.

In [None]:
# Este método agrupa o dataframe pela coluna passada como parâmetro e pela variável target.
def getDfGroup(rdd_df, column):
    df_group = spSession.createDataFrame(rdd_df.groupBy(['TARGET', column]).agg({column: 'count'}).collect())

    df_group = df_group.orderBy(['TARGET', column, f'count({column})'], ascending=[0, 1, 0])

    return df_group
    

**MARITAL**

In [None]:
df_group = getDfGroup(rdd_df, 'MARITAL')

df_group.collect()

A moda do valor nulo agrupada por target é `married`, contendo 22396 registros, portanto, é com esse valor que irei preencher.

**DEFAULT**

In [None]:
df_group = getDfGroup(rdd_df, 'DEFAULT')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `no`.

**EDUCATION**

In [None]:
df_group = getDfGroup(rdd_df, 'EDUCATION')

df_group.collect()

Neste atributo, temos valores `unknown`, porém, não irei considerar como valor nulo.

**HOUSING**

In [None]:
df_group = getDfGroup(rdd_df, 'HOUSING')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `yes`.

**DAY_OF_WEEK**

In [None]:
df_group = getDfGroup(rdd_df, 'DAY_OF_WEEK')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `mon`.

**POUTCOME**

In [None]:
df_group = getDfGroup(rdd_df, 'POUTCOME')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `nonexistent`.

**CONS_PRICE_IDX**

In [None]:
df_group = getDfGroup(rdd_df, 'CONS_PRICE_IDX')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `93.91799999999999`.

Após ter encontrado todos os valores nulos e definido com quais valores eu irei preencher, irei criar a função que realizará todo este mamepamento.

In [None]:
def verificarNA(c):
    c = c.upper()
    if c == 'NONE' or c == 'NULL' or c == '' or c == 'NAN':
        return True
    return False

def mapNA(x):
    AGE = x.AGE
    JOB = x.JOB
    MARITAL = x.MARITAL
    EDUCATION = x.EDUCATION
    DEFAULT = x.DEFAULT
    HOUSING = x.HOUSING
    LOAN = x.LOAN
    CONTACT = x.CONTACT
    MONTH = x.MONTH
    DAY_OF_WEEK = x.DAY_OF_WEEK
    CAMPAIGN = x.CAMPAIGN
    PDAYS = x.PDAYS
    PREVIOUS = x.PREVIOUS
    POUTCOME = x.POUTCOME
    EMP_VAR_RATE = x.EMP_VAR_RATE
    CONS_PRICE_IDX = x.CONS_PRICE_IDX
    CONS_CONF_IDX = x.CONS_CONF_IDX
    EURIBOR3M = x.EURIBOR3M
    EMPLOYED = x.EMPLOYED
    TARGET = x.TARGET
    
    #Corrigindo valores missing
    if verificarNA(x.MARITAL):
        MARITAL = 'married'
        
    if verificarNA(x.DEFAULT):
        DEFAULT = 'no'
        
    if verificarNA(x.HOUSING):
        HOUSING = 'yes'
        
    if verificarNA(x.DAY_OF_WEEK):
        DAY_OF_WEEK = 'mon'
        
    if verificarNA(x.POUTCOME):
        POUTCOME = 'nonexistent'
        
    if verificarNA(x.CONS_PRICE_IDX):
        CONS_PRICE_IDX = '93.91799999999999'
    
    
    return (AGE, JOB, MARITAL, EDUCATION, DEFAULT, HOUSING, LOAN, CONTACT, MONTH, DAY_OF_WEEK, CAMPAIGN, PDAYS, PREVIOUS, POUTCOME, EMP_VAR_RATE, CONS_PRICE_IDX, CONS_CONF_IDX, EURIBOR3M, EMPLOYED, TARGET)



In [None]:
rdd_row = rdd_df.rdd.map(lambda x: mapNA(x))

# Criando um Dataframe
rdd_df = spSession.createDataFrame(rdd_row, schema=list_columns)
rdd_df.cache()

In [None]:
rdd_df.show(2)

---


### Encoding dos dados

A maioria dos atributos são dados categóricos que representam classes. Porém, da forma que está, é impossível submeter os dados para um modelo de Machine Learning.

Logo, temos que converter os dados categóricos para numéricos. E para isso, existem duas abordagens: Label Encoder e o One Hot Encoder. Mas calma, irei explicar o que são e em que situações se aplicam cada um dos dois.

* **Label Encoder**: De maneira simples, o Label Encoder serve para converter os dados categóricos para numéricos. Vamos pegar como exemplo os dias da semana. O algoritmo vai converter os dias em numéricos. Ou seja, Segunda-feira será 0, Terça-feira será igual 1, Quarta-Feira igual 2, e assim por diante.

    O que devemos nos atentar?<br/>
    Veja que o algoritmo substitui valores por números, certo? Pois bem, note que os números são sequenciais e para a maioria dos algoritmos de Machine Learning o fato do numéro ser sequencial implica que o 5 tem mais peso que o 4, o 4 por sua vez, tem mais peso que o 3, e assim por diante.

    Usamos o Label Encoder quando temos uma hierarquia nos dados. Por exemplo, grau de escolaridade, patente em cargos militares, etc. 

> Nota: Em casos onde temos apenas dois valores distintos, podemos utilizar o Label Encoder, mesmo que não haja uma hierárquia entre os dados. Afinal de contas, teremos apenas dois valores: 0 e 1.

---

* **One Hot Encoder**: O One hot encoder (OHE) também converte dados categóricos para valores numéricos. Mas nesse método, para cada classe diferente, o algoritmo cria uma nova coluna, atribuindo apenas os valores 0 e 1. Com isso, eliminamos a possibilidade de uma classe influenciar a outra em um modelo de ML.

In [None]:
# Voltando a programação.. Vejamos todos os valores únicos para cada coluna



for column in list_columns:
    print(f'{column}: Distinct count: {rdd_df.select(column).distinct().count()}')
    rdd_df.select(column).distinct().show()

In [None]:
# Voltando a programação.. Vejamos todos os valores únicos e a quantidade de registros para cada coluna

for column in list_columns:
    print(f'{column}: Distinct count: {rdd_df.select(column).distinct().count()}')
    print(rdd_df.groupBy([column]).count().show())

### LABEL ENCODER

In [None]:
# Estas são as colunas que eu decidi selecionar para aplicar o Label Encoder
columns_labelencoder = ['EDUCATION', 'DEFAULT', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 'PDAYS', 'PREVIOUS', 'TARGET']

In [None]:
#Crio uma função para mapear cada atributo

def map_education(x):
    return -1 if x == 'unknown' else \
            0 if x == 'illiterate' else \
            1 if x == 'basic.4y' else \
            2 if x == 'basic.6y' else \
            3 if x == 'basic.9y' else \
            4 if x == 'high.school' else \
            5 if x == 'professional.course' else \
            6 if x == 'university.degree' else \
            7

def map_housing(x):
    return  0 if x == 'yes' else \
            1 if x == 'no' else \
            1 if x == 'unknown' else\
           -1

def map_month(x):
    return  0 if x == 'jan' else \
            1 if x == 'feb' else \
            2 if x == 'mar' else \
            3 if x == 'apr' else \
            4 if x == 'may' else \
            5 if x == 'jun' else \
            6 if x == 'jul' else \
            7 if x == 'aug' else \
            8 if x == 'sep' else \
            9 if x == 'oct' else \
            10 if x == 'nov' else \
            11 if x == 'dec' else \
            -1

def map_day_of_week(x):
    return  0 if x == 'mon' else \
            1 if x == 'tue' else \
            2 if x == 'wed' else \
            3 if x == 'thu' else \
            4 if x == 'fri' else \
            -1

def map_contact(x):
    return  0 if x == 'cellular' else \
            1 if x == 'telephone' else \
            -1

def map_target(x):
    return  0 if x == 'no' else \
            1 if x == 'yes' else \
            -1
    

In [None]:
# Função para aplicar efetivamente o LabelEncoder 

def manualEncoder(x):
    AGE = x.AGE
    JOB = x.JOB
    MARITAL = x.MARITAL
    EDUCATION = map_education(x.EDUCATION)
    DEFAULT = x.DEFAULT
    HOUSING = map_housing(x.HOUSING)
    LOAN = x.LOAN
    CONTACT = map_contact(x.CONTACT)
    MONTH = map_month(x.MONTH)
    DAY_OF_WEEK = map_day_of_week(x.DAY_OF_WEEK)
    CAMPAIGN = x.CAMPAIGN
    PDAYS = x.PDAYS
    PREVIOUS = x.PREVIOUS
    POUTCOME = x.POUTCOME
    EMP_VAR_RATE = x.EMP_VAR_RATE
    CONS_PRICE_IDX = x.CONS_PRICE_IDX
    CONS_CONF_IDX = x.CONS_CONF_IDX
    EURIBOR3M = x.EURIBOR3M
    EMPLOYED = x.EMPLOYED
    TARGET = map_target(x.TARGET)
  
    
    
    return (AGE, JOB, MARITAL, EDUCATION, DEFAULT, HOUSING, LOAN, CONTACT, MONTH, DAY_OF_WEEK, CAMPAIGN, PDAYS, PREVIOUS, POUTCOME, EMP_VAR_RATE, CONS_PRICE_IDX, CONS_CONF_IDX, EURIBOR3M, EMPLOYED, TARGET)



In [None]:
rdd_row = rdd_df.rdd.map(lambda x: manualEncoder(x))

In [None]:
# Criando um Dataframe
rdd_df_encoded = spSession.createDataFrame(rdd_row, schema=list_columns)
rdd_df_encoded.cache()

In [None]:
rdd_df_encoded.show(2)

> Nota: Eu poderia ter utilizado um método para fazer tudo isso de maneira automática para mim como o StringIndexer. Porém, eu quis ter um controle para indexar os dados ordenados de maneira lógica.

### ONE HOT ENCODER

Agora o One Hot Encoder. Estas são as colunas que eu decidi selecionar para aplicar o algoritmo. Para esta etapa eu quis criar uma função que faça o OHE para mim. Eu não gostei da versão do One Hot Encoder do pacote ml.feature do Pyspark. 

Por isso decidi incrementar o algoritmo com a minha própria função.

In [None]:
columns_ohe = ['JOB', 'MARITAL', 'DEFAULT', 'LOAN', 'POUTCOME']

In [None]:
columns_others = ['AGE','EDUCATION', 'HOUSING', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 
                  'PDAYS', 'PREVIOUS', 'EMP_VAR_RATE', 'CONS_PRICE_IDX', 'CONS_CONF_IDX', 'EURIBOR3M', 
                  'EMPLOYED', 'TARGET']

In [None]:
# Função expandir as colunas que foram geradas pelo OneHotEncoding.
def __applyOHE(df, column):
    
    alias = f'_{column}'
    df_col_onehot = df.select('*', vector_to_array(column).alias(alias))

    num_categories = len(df_col_onehot.first()[alias])
    cols_expanded = [(col(alias)[i]) for i in range(num_categories)]
    df_cols_onehot = df_col_onehot.select('*', *cols_expanded)
    
    return df_cols_onehot, cols_expanded



def myOneHotEncoder(df, list_columns, list_others_columns):
    # LabelEncoder
    indexers = [ StringIndexer(inputCol=c, outputCol="OHE_{0}".format(c)) for c in list_columns]

    # Criação do array de Encoders
    encoders = [OneHotEncoder(
            inputCol=indexer.getOutputCol(),
            outputCol="_{0}".format(indexer.getOutputCol())) 
        for indexer in indexers]
    
    # Aplica os dois métodos: LabelEncoder e OneHotEncoder
    pipeline = Pipeline(stages=indexers + encoders)
    df_temp = pipeline.fit(df).transform(rdd_df_encoded)

    # Obtendo todas as colunas de saída do Encoder
    encoder_columns = [encoder.getOutputCol() for encoder in encoders]

    # Expandindo o array gerado pelo OneHotEncoding para Colunas individuais
    ohe_columns = []
    for column in encoder_columns: 
        df_temp, _ohe = __applyOHE(df_temp, column)

        ohe_columns.extend(_ohe)
    
    df_res = df_temp.select(*list_others_columns, *ohe_columns)
    
    return df_res

In [None]:
df_res = myOneHotEncoder(rdd_df_encoded, columns_ohe, columns_others)

In [None]:
df_res.show(1)

### Alterando o tipo de dado

Lembra que quando carregamos os dados eles vieram como uma lista de Strings? Pois bem, quando eu fiz o split dos dados e separei cada valor para seu respectivo atributo, o que aconteceu foi que os dados continuaram como sendo do tipo string.

Por isso irei aplicar o cast para converter os dados para os tipos `inteiro` e `float`.

In [None]:
df_res.dtypes

In [None]:
df_res = df_res.withColumn('AGE', col('AGE').cast(IntegerType()))
df_res = df_res.withColumn('CAMPAIGN', col('CAMPAIGN').cast(IntegerType()))
df_res = df_res.withColumn('PDAYS', col('PDAYS').cast(IntegerType()))
df_res = df_res.withColumn('PREVIOUS', col('PREVIOUS').cast(IntegerType()))

df_res = df_res.withColumn('EMP_VAR_RATE', col('EMP_VAR_RATE').cast(FloatType()))
df_res = df_res.withColumn('CONS_PRICE_IDX', col('CONS_PRICE_IDX').cast(FloatType()))
df_res = df_res.withColumn('CONS_CONF_IDX', col('CONS_CONF_IDX').cast(FloatType()))
df_res = df_res.withColumn('EURIBOR3M', col('EURIBOR3M').cast(FloatType()))
df_res = df_res.withColumn('EMPLOYED', col('EMPLOYED').cast(FloatType()))

Agora que todos os dados são numéricos, quero visualizar a correlação de cada atributo com a variável TARGET. Em seguida, selecionar somente os atributos cuja correlação é maior do que 0.05.

In [None]:
selected_columns = []

for column in df_res.columns:
    corr = df_res.corr('TARGET', column)
    print(f'Column {column} Corr : {corr}')
    
    if abs(corr) > 0.05 and column != 'TARGET':
        selected_columns.append(column)

In [None]:
df_res1 = df_res.select(*selected_columns, 'TARGET')
df_res1.show(5)

In [None]:
selected_columns

Eu poderia começar a modelagem dos dados utilizando somente essas colunas, mas quero testar uma versão considerandos todos os atributos.

### Pré Processamento dos Dados

In [None]:
list_rows = ['AGE', 'EDUCATION', 'HOUSING', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 'PDAYS', 'PREVIOUS', 'EMP_VAR_RATE', 
 'CONS_PRICE_IDX', 'CONS_CONF_IDX', 'EURIBOR3M', 'EMPLOYED', '__OHE_JOB[0]', '__OHE_JOB[1]', '__OHE_JOB[2]', '__OHE_JOB[3]', 
 '__OHE_JOB[4]', '__OHE_JOB[5]', '__OHE_JOB[6]', '__OHE_JOB[7]', '__OHE_JOB[8]', '__OHE_JOB[9]', '__OHE_JOB[10]', 
 '__OHE_MARITAL[0]', '__OHE_MARITAL[1]', '__OHE_MARITAL[2]', '__OHE_DEFAULT[0]', '__OHE_DEFAULT[1]', '__OHE_LOAN[0]', 
 '__OHE_LOAN[1]', '__OHE_POUTCOME[0]', '__OHE_POUTCOME[1]']

In [None]:
def transformaVar(row, list_columns) :
    # Criando uma lista com o valor de cada atributo do Row
    list_row = [row[i] for i in list_columns]
    
    # Criação de uma Tupla com dois valores
    # O primeiro é a variável alvo: TARGET;
    # Em seguida, a criação de um Vetor Denso com todos os valores da Row
    obj = (row['TARGET'], Vectors.dense(list_row))
    return obj

In [None]:
rdd_processing = df_res.rdd.map(lambda x: transformaVar(x, list_rows))

rdd_processing.take(1)

In [None]:
df_processing = spSession.createDataFrame(rdd_processing, ["TARGET","FEATURES"])
df_processing.show(10)
df_processing.cache()

Agora temos a primeira versão dos dados que serão submetidos ao algoritmo de Machine Learning.

### Escala dos Dados

Temos que deixar os dados todos em uma mesma escala, se não o modelo vai ficar doido, tendo que encontrar a relação entre atributos com valores 0s e 1s e outros atributos com valores 99999 e 100000.

O modelo não vai apresentar erro (exception), mas ele vai aprender errado sobre os dados, dando muito mais importância para valores muito altos do que os valores baixos, principalmente os modelos lineares.

Existem vários algoritmos para fazer a escala dos dados: MinMax, Standard, Robust, Quantile, etc.. É uma verdadeira ciência! Para esse projeto eu selecionei o RobustScaler.

In [None]:
scaler = RobustScaler(inputCol='FEATURES', outputCol='FEATURES_SCALED')

### Divisão em treino e teste

Irei dividir o conjunto de dados em três partes:
1. Dados para treinamento: 78%;
2. Dados para testes: 20%;
3. Dados para validações: 2%;

In [None]:
# Dados de Treino e de Teste
(dados_treino, dados_teste, dados_valid) = df_processing.randomSplit([0.78, 0.2, 0.02])

dados_treino.count(), dados_teste.count(), dados_valid.count()

### Tratamento das classes desbalanceadas

In [None]:
dados_treino.groupBy('TARGET').count().show()

Veja que a diferença entre a quantidade para cada saída da variável target é muito grande. Isso reflete a realidade. Afinal de contas, a quantidade de pessoas que realmente fazem um empréstimo após uma chamada de telefone do setor de Marketing do banco é pequena.

Mas o que isso impacta no nosso modelo?<br/>
Simples, o algoritmo vai aprender muito sobre os dados do grupo majoritário e pouco sobre os dados do grupo minoritário. Por isto, devemos aplicar alguma técnica para tratar este problema.

1. Podemos simplesmente remover os dados do grupo majoritário de modo a balancear as classes. Mas como a diferença é enorme, neste caso perderíamos muita informação relevante.
2. Podemos preencher o grupo minoritário com dados sintéticos. Existem algumas formas de fazer isso. Eu irei aplicar a mais simples de todas, multiplicar os registros existentes de modo que as classes fiquem balanceadas. 

In [None]:
def balanceClasses(df, target):
    # Separando os dataframes por classe target
    df_target_1 = df[df[target] == 1]
    df_target_0 = df[df[target] == 0]
    
    # Obtendo a proporção entre os datasets. 
    # Arredondei essa proporção para baixo para que a classe minoritária não ultrapasse a classe majoritária.
    fraction = float(floor(df_target_0.count() / df_target_1.count()))

    # Multiplicando os valores utilizando o Sample (Amostragem) com reposição
    # Nota: O 123 é somente um seed qualquer para a aleatoriedade possa ser replicada
    df_target_1_sample = df_target_1.sample(True, fraction, 123)
    
    # A amostragem pode ter desconsiderado de maneira aleatória algum registro real
    # Por isso eu quero incluir além dos valores sintéticos gerados, os valores reais
    # mas sem ultrapassar a quantidade de dados do grupo majoritário
    diff = df_target_1_sample.count() - df_target_1.count()

    # Convertendo os dados um dataframe
    df_temp = spSession.createDataFrame(df_target_1_sample.collect()[0:diff])
    # Unindo os dados sintéticos com os dados reais
    df_temp = df_temp.unionAll(df_target_1)
    
    # Unindo os dois dataframes finais
    df =  df_temp.unionAll(df_target_0)
        
    return df

In [None]:
dados_treino = balanceClasses(dados_treino, 'TARGET')

In [None]:
print(dados_treino.count())

dados_treino.groupBy('TARGET').count().show()

Agora sim. Temos as classes muito mais balanceadas. Com isso, o modelo vai aprender igualmente sobre os dados. Você pode se perguntar... Mas o modelo não vai aprender muito mais sobre os dados duplicados do que os demais?

A resposta é sim. Em computação não dá só para ganhar, sempre quando cobrimos um lado, o outro é descoberto. Contudo, o modelo ainda sim vai aprender melhor sobre os atributos TARGET como um todo.

### Modelagem

In [None]:
dtClassifer = RandomForestClassifier(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")
#dtClassifer = GBTClassifier(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")
#dtClassifer = LinearSVC(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")

### Feature Selection

In [None]:
pipeline = Pipeline(stages=[scaler, dtClassifer])

model = pipeline.fit(dados_treino)

features_importances = model.stages[-1].featureImportances

features_importances = list(sorted(zip(list_rows, features_importances), key= lambda x: x[1], reverse=True))

cols_importants = [column[0] for column in features_importances if column[1] > 0.03]

cols_importants

In [None]:
rdd_processing = df_res.rdd.map(lambda x: transformaVar(x, cols_importants))

rdd_processing.take(1)

In [None]:
df_processing = spSession.createDataFrame(rdd_processing, ["TARGET","FEATURES"])

In [None]:
# Dados de Treino e de Teste
(dados_treino, dados_teste, dados_valid) = df_processing.randomSplit([0.78, 0.2, 0.02])

dados_treino = balanceClasses(dados_treino, 'TARGET')

### Aplicando Pipeline, Treinando e Prevendo o Modelo

In [None]:
#dtClassifer = RandomForestClassifier(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")
dtClassifer = GBTClassifier(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")
#dtClassifer = LinearSVC(labelCol = "TARGET", featuresCol = "FEATURES_SCALED")

In [None]:
pipeline = Pipeline(stages=[scaler, dtClassifer])

model = pipeline.fit(dados_treino)

In [None]:
# Previsões com dados de teste
previsoes = model.transform(dados_teste)

### Avaliação do Modelo

In [None]:
# Avaliando a acurácia
avaliador = MulticlassClassificationEvaluator(predictionCol = "prediction", labelCol = "TARGET", metricName = "f1")
avaliador.evaluate(previsoes) 

In [None]:
# Resumindo as previsões - Confusion Matrix
previsoes.groupBy("TARGET","PREDICTION").count().show()

### Salvando o Modelo

In [None]:
#Save model
model.write().overwrite().save('models/modelo_v1')

### Carregando o Modelo

In [None]:
from pyspark.ml import Pipeline, PipelineModel

In [None]:
model_load = PipelineModel.load('models/modelo_v1')

In [None]:
preds_valid = model_load.transform(dados_valid)

avaliador = MulticlassClassificationEvaluator(predictionCol = "prediction", labelCol = "TARGET", metricName = "f1")
avaliador.evaluate(preds_valid) 

In [None]:
# Resumindo as previsões - Confusion Matrix
preds_valid.groupBy("TARGET","PREDICTION").count().show()

### Considerações Finais