# Bank Marketing Classifier

### Introdução ao tema

O marketing está presente nas nossas vidas muito mais do que imaginamos. Faça uma caminhada pelas ruas da cidade, uma busca no seu navegador, ligue a televisão ou o rádio, abra sua rede social e você será impactado por alguma ação de marketing.

Mas o que é marketing?
Para Philip Kotler, um dos teóricos mais renomados da área, define marketing como:
> *Marketing é a ciência e arte de explorar, criar e proporcionar valor para satisfazer necessidades de um público-alvo com rendibilidade.*

O campo do marketing é vasto e inclui não apenas o ato de vender um produto ou serviço, mas tudo relacionado ao planejamento, pesquisa e posicionamento de mercado. Em outras palavras, pode-se dizer que o marketing é como uma balança entre o que os clientes desejam e os objetivos da empresa. Afinal, um bom marketing precisa criar valor para ambas as partes: para a empresa e para o consumidor.

Vale ressaltar que marketing é uma palavra em inglês, derivada de market (mercado). Portanto, marketing não é apenas vender produtos ou serviços, engloba também outras atividades relacionadas ao mercado.

**Bank Marketing**<br/>

Um tipo de instituição que aplica marketing no seu dia a dia são os bancos, para isso, damos o nome Bank Marketing (Marketing Bancário). O marketing bancário é a prática de atrair e adquirir novos clientes por meio de estratégias de mídia tradicional e mídia digital. O uso dessas estratégias de mídia ajuda a determinar que tipo de cliente é atraído por uma determinada instituição. Isso também inclui diferentes instituições bancárias que usam propositalmente diferentes estratégias para atrair o tipo de cliente com o qual desejam fazer negócios.

E você sabe como as principais empresas fazem atualmente para aplicar estratégias de Marketing?<br/>
Se você respondeu, "elas aplicam técnicas de Inteligência Artificial e Machine Learning para entender e avaliar o comportamento dos seus clientes". Parabéns, você acertou!
Mas antes de explicar com elas fazem isso, vamos começar entendendo um pouco sobre o que é Machine Learning.

**Machine Learning**<br/>
O Machine Learning, ou aprendizado de máquina. É um subcampo da inteligência artificial que permite dar aos computadores a habilidade de aprender sem que sejam explicitamente programados para isso. Ela permite que computadores tomem decisões e interpretem dados de maneira automática, a partir de algoritmos. Temos vários tipos de aprendizagem, são elas: Supervisionada, não supervisionada, semi supervisionada, aprendizagem por reforço e deep learning.
	
Os algoritmos de aprendizagem de máquina, aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de dados que representam instâncias do problema a ser resolvido.

Um algoritmo é uma sequência finita de ações e regras que visam a solucionar um problema. Cada um deles aciona um diferente tipo de operação ao entrar em contato com os dados que o computador recebe. O resultado de todas as operações é o que possibilita o aprendizado da máquina.

Dessa forma, as máquinas aperfeiçoam as tarefas executadas, por meio de processamento de dados como imagens e números. Por isso o machine learning depende do Big Data para ser efetivo. O Big Data, por sua vez pode ser entendido de maneira simplória como uma imensa quantidade de dados. Mas calma, ainda irei falar mais em detalhes sobre isso. Por ora, vamos entender como o Machine Learning e a Inteligência Artificial ajudam a benefeciar a área de Bank Marketing.

**Machine Learning e o Bank Marketing**<br/>
Abaixo irei listar alguns benefícios do Machine Learning (ML) aplicado na área de Bank Marketing:
* **Atendimento ao cliente orientado por IA**: Existem muitas maneiras de tornar o atendimento ao cliente realmente orientado por IA ou, melhor dizer, orientado por dados. Por exemplo, com a ajuda da análise de dados, a instituição bancária pode descobrir as intenções de compra do cliente e oferecer um empréstimo flexível. Além disso, os principais bancos criam chatbots inteligentes que ajudam os clientes a interagir melhor com as empresas financeiras. Com a ajuda de aplicativos inteligentes, os clientes podem acompanhar automaticamente seus gastos, planejar seu orçamento e obter sugestões precisas de economia e investimento.
* **Segmentação de clientes**: Com ML, é possível encontrar características semelhantes e padrões entre os dados dos clientes. Dessa forma, o algoritmo de ML consegue separar os clientes em grupos, possibilitando que a equipe de Marketing possa direcionar os esforços de maneira individual para cada grupo de clientes.
* **Otimização de lances em anúncios**: os anúncios em buscadores funcionam no sistema de leilões de pesquisa. Ou seja, quem der o maior lance aparecerá em primeiro lugar nos resultados de pesquisa para uma determinada palavra-chave. Para fazer o lance perfeito, o marketing se utiliza do machine learning. Ele analisa milhões de dados para ajustar os lances em tempo real.
* **Prever os possíveis clientes**: Com base nos dados históricos da empresa, podemos coletar e entender qual é o perfil dos clientes. E com base nisso, prever a probabilidade do indivíduo adquirir determinado serviço. Como por exemplo, contrair um empréstimo, adquirir investimentos, dentre outros.

**Objetivo do Projeto**<br/>
Como objetivo específico do problema de negócio, irei aplicar técnicas de Machine Learning para identificar e prever ser se o cliente vai ou não adquirir CDBs (Certificado de Depósito Bancário). Este é um tipo de investimento muito comum e bastante conservador. De maneira rápida e simples, basicamente o cliente empresta o dinheiro para o banco e após de um prazo pré-estabelecido, ele resgata o dinheiro com o acréscimo de juros.

Como objetivo de estudo de tecnologia, estarei utilizando do início ao fim do projeto o framework Apache Spark, mais especificamente, o PySpark. PySpark é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina em tempo real, ou seja, para grandes volumes de dados, conhecido como Big Data.

**Sobre o Dataset**<br/>
Este conjunto de dados contém 20 atributos e 41189 registos relevantes para uma campanha de marketing direto de uma instituição bancária portuguesa. A campanha de marketing foi executada por meio de ligações telefônicas. O objetivo da classificação é prever se o cliente irá aderir (yes/no) ao CDB (variável y).<br/>

O dataset pode ser obtido clicando [aqui](https://www.kaggle.com/datasets/ruthgn/bank-marketing-data-set)

### Introdução ao Apache Spark

Apache Spark é uma estrutura de código aberto que simplifica o desenvolvimento e a eficiência dos trabalhos de análise de dados. Ele oferece suporte a uma ampla variedade de opções de API e linguagem com mais de 80 operadores de transformação e ação de dados que ocultam a complexidade da computação em cluster.

Com velocidades relatadas 100 vezes mais rápidas do que mecanismos de análise semelhantes, o Spark pode acessar fontes de dados variáveis e ser executado em várias plataformas, incluindo Hadoop, Apache Mesos, Kubernetes, de forma independente ou na nuvem. Seja processando dados em lote ou streaming, você verá um desempenho de alto nível devido ao agendador Spark DAG de última geração, um otimizador de consulta e um mecanismo de execução física.

> Caso você queira saber mais sobre o Apache Spark, eu recomendo fortemente a leitura do artigo "Spark: entenda sua função e saiba mais sobre essa ferramenta", publicado pelo blog XP Educação, que pode ser acessado clicando [aqui](https://blog.xpeducacao.com.br/apache-spark/)

### PySpark

PySpark é a colaboração do Apache Spark e do Python.

O Apache Spark é uma estrutura de computação em cluster de código aberto, construída em torno da velocidade, facilidade de uso e análise de streaming, enquanto o Python é uma linguagem de programação de alto nível e de uso geral. Ele fornece uma ampla variedade de bibliotecas e é usado principalmente para Machine Learning e Real-Time Streaming Analytics.

Em outras palavras, é uma API Python para Spark que permite aproveitar a simplicidade do Python e o poder do Apache Spark para domar o Big Data. 


**Links de Referência**:

* https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.DataFrame.html
* https://sparkbyexamples.com/pyspark/pyspark-structtype-and-structfield/
* https://sparkbyexamples.com/pyspark/pyspark-map-transformation/

---

* https://spark.apache.org/docs/latest/ml-pipeline.html
* https://github.com/Krupique/Explorating-Data/blob/main/PreProcessamento-Medium/PreProcessamento.ipynb
* https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html

* https://www.databricks.com/wp-content/uploads/hubfs/notebooks/spark2.0/ML%20persistence%20in%202.0.html

### Introdução

### Data Load and Packages Imports

In [None]:
from pyspark.sql import Row #Converte RDDs em objetos do tipo Row
from pyspark.ml.feature import StringIndexer #Converte strings em valores numéricos
from pyspark.ml.linalg import Vectors #Serve para criar um vetor denso
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

In [None]:
import sys
print(f'System Version: {sys.version}')
print(f'Spark Context Version: {sc.version}')

In [None]:
# Spark Session - usada quando se trabalha com Dataframes no Spark
spSession = SparkSession.builder.master("local").appName("DSA-SparkMLLib").config("spark.some.config.option", "session").getOrCreate()

In [None]:
#rdd = sc.textFile('data/bank-marketing-dataset.csv')
rdd = sc.textFile('data/test.csv')

### Overview

In [None]:
type(rdd)

In [None]:
rdd.count()

In [None]:
# Listando os 5 primeiros registros
rdd.take(5)

In [None]:
header = rdd.first()
rdd_body = rdd.filter(lambda x: header not in x).map(lambda l: l.split(','))

list_columns = header.replace('.', '_').upper().split(',')
list_columns

In [None]:
rdd_row = rdd_body.map(lambda p: Row(
    AGE = p[0], 
    JOB = p[1], 
    MARITAL = p[2],
    EDUCATION = p[3],
    DEFAULT = p[4],
    HOUSING = p[5],
    LOAN = p[6],
    CONTACT = p[7],
    MONTH = p[8],
    DAY_OF_WEEK = p[9],
    CAMPAIGN = p[10],
    PDAYS = p[11],
    PREVIOUS = p[12],
    POUTCOME = p[13],
    EMP_VAR_RATE = p[14],
    CONS_PRICE_IDX = p[15],
    CONS_CONF_IDX = p[16],
    EURIBOR3M = p[17],
    EMPLOYED = p[18],
    TARGET = p[19]
))

In [None]:
# Criando um Dataframe
rdd_df = spSession.createDataFrame(rdd_row)
rdd_df.cache()

In [None]:
# Find count for empty, None, Null, Nan with string literals.
from pyspark.sql.functions import col,isnan,when,count

rdd_na = rdd_df.select([count(when(col(c).contains('None') | col(c).contains('NULL') | \
                            (col(c) == '' ) | col(c).isNull() | isnan(c), c )).alias(c)
                    for c in rdd_df.columns])
rdd_na.show()

In [None]:
list_columns = rdd_df.columns

for column in list_columns:
    count = rdd_df.select(column).distinct().count()
    print(f'Column: {column}\tCount: {count}')

### Handling Data Missing

Columns with missing values:
* MARITAL
* DEFAULT
* HOUSING
* DAY_OF_WEEK
* POUTCOME
* CONS_PRICE_IDX

In [None]:
def getDfGroup(rdd_df, column):
    df_group = spSession.createDataFrame(rdd_df.groupBy(['TARGET', column]).agg({column: 'count'}).collect())

    df_group = df_group.orderBy(['TARGET', column, f'count({column})'], ascending=[0, 1, 0])

    return df_group
    

**MARITAL**

In [None]:
df_group = getDfGroup(rdd_df, 'MARITAL')

df_group.collect()

A moda do valor nulo agrupada por target é `married`, contendo 22396 registros, portanto, é com esse valor que irei preencher.

**DEFAULT**

In [None]:
df_group = getDfGroup(rdd_df, 'DEFAULT')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `no`.

**EDUCATION**

In [None]:
df_group = getDfGroup(rdd_df, 'EDUCATION')

df_group.collect()

Neste atributo, temos valores `unknown`, porém, não irei considerar como valor nulo.

**HOUSING**

In [None]:
df_group = getDfGroup(rdd_df, 'HOUSING')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `yes`.

**DAY_OF_WEEK**

In [None]:
df_group = getDfGroup(rdd_df, 'DAY_OF_WEEK')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `mon`.

**POUTCOME**

In [None]:
df_group = getDfGroup(rdd_df, 'POUTCOME')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `nonexistent`.

**CONS_PRICE_IDX**

In [None]:
df_group = getDfGroup(rdd_df, 'CONS_PRICE_IDX')

df_group.collect()

A moda do atributo no valor nulo agrupado por target é `93.91799999999999`.

In [None]:
def verificarNA(c):
    c = c.upper()
    if c == 'NONE' or c == 'NULL' or c == '' or c == 'NAN':
        return True
    return False

def mapNA(x):
    AGE = x.AGE
    JOB = x.JOB
    MARITAL = x.MARITAL
    EDUCATION = x.EDUCATION
    DEFAULT = x.DEFAULT
    HOUSING = x.HOUSING
    LOAN = x.LOAN
    CONTACT = x.CONTACT
    MONTH = x.MONTH
    DAY_OF_WEEK = x.DAY_OF_WEEK
    CAMPAIGN = x.CAMPAIGN
    PDAYS = x.PDAYS
    PREVIOUS = x.PREVIOUS
    POUTCOME = x.POUTCOME
    EMP_VAR_RATE = x.EMP_VAR_RATE
    CONS_PRICE_IDX = x.CONS_PRICE_IDX
    CONS_CONF_IDX = x.CONS_CONF_IDX
    EURIBOR3M = x.EURIBOR3M
    EMPLOYED = x.EMPLOYED
    TARGET = x.TARGET
    
    #Corrigindo valores missing
    if verificarNA(x.MARITAL):
        MARITAL = 'married'
        
    if verificarNA(x.DEFAULT):
        DEFAULT = 'no'
        
    if verificarNA(x.HOUSING):
        HOUSING = 'yes'
        
    if verificarNA(x.DAY_OF_WEEK):
        DAY_OF_WEEK = 'mon'
        
    if verificarNA(x.POUTCOME):
        POUTCOME = 'nonexistent'
        
    if verificarNA(x.CONS_PRICE_IDX):
        CONS_PRICE_IDX = '93.91799999999999'
    
    
    return (AGE, JOB, MARITAL, EDUCATION, DEFAULT, HOUSING, LOAN, CONTACT, MONTH, DAY_OF_WEEK, CAMPAIGN, PDAYS, PREVIOUS, POUTCOME, EMP_VAR_RATE, CONS_PRICE_IDX, CONS_CONF_IDX, EURIBOR3M, EMPLOYED, TARGET)



In [None]:
rdd_row = rdd_df.rdd.map(lambda x: mapNA(x))

# Criando um Dataframe
rdd_df = spSession.createDataFrame(rdd_row, schema=list_columns)
rdd_df.cache()

In [None]:
rdd_df.show(2)

---


### Normalização e Encoding dos dados

In [None]:
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, OneHotEncoder
from pyspark.ml.functions import vector_to_array
import pyspark.sql.functions as F

In [None]:
for column in list_columns:
    print(f'{column}: Distinct count: {rdd_df.select(column).distinct().count()}')
    rdd_df.select(column).distinct().show()

### LABEL ENCODER

In [None]:
columns_labelencoder = ['EDUCATION', 'DEFAULT', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 'PDAYS', 'PREVIOUS', 'TARGET']

In [None]:
rdd_df.select('DEFAULT').distinct().show()

In [None]:
def map_education(x):
    return -1 if x == 'unknown' else \
            0 if x == 'illiterate' else \
            1 if x == 'basic.4y' else \
            2 if x == 'basic.6y' else \
            3 if x == 'basic.9y' else \
            4 if x == 'high.school' else \
            5 if x == 'professional.course' else \
            6 if x == 'university.degree' else \
            7

def map_housing(x):
    return  0 if x == 'yes' else \
            1 if x == 'no' else \
            1 if x == 'unknown' else\
           -1

def map_month(x):
    return  0 if x == 'jan' else \
            1 if x == 'feb' else \
            2 if x == 'mar' else \
            3 if x == 'apr' else \
            4 if x == 'may' else \
            5 if x == 'jun' else \
            6 if x == 'jul' else \
            7 if x == 'aug' else \
            8 if x == 'sep' else \
            9 if x == 'oct' else \
            10 if x == 'nov' else \
            11 if x == 'dec' else \
            -1

def map_day_of_week(x):
    return  0 if x == 'mon' else \
            1 if x == 'tue' else \
            2 if x == 'wed' else \
            3 if x == 'thu' else \
            4 if x == 'fri' else \
            -1

def map_contact(x):
    return  0 if x == 'cellular' else \
            1 if x == 'telephone' else \
            -1

def map_target(x):
    return  0 if x == 'no' else \
            1 if x == 'yes' else \
            -1
    

In [None]:
def manualEncoder(x):
    AGE = x.AGE
    JOB = x.JOB
    MARITAL = x.MARITAL
    EDUCATION = map_education(x.EDUCATION)
    DEFAULT = x.DEFAULT
    HOUSING = map_housing(x.HOUSING)
    LOAN = x.LOAN
    CONTACT = map_contact(x.CONTACT)
    MONTH = map_month(x.MONTH)
    DAY_OF_WEEK = map_day_of_week(x.DAY_OF_WEEK)
    CAMPAIGN = x.CAMPAIGN
    PDAYS = x.PDAYS
    PREVIOUS = x.PREVIOUS
    POUTCOME = x.POUTCOME
    EMP_VAR_RATE = x.EMP_VAR_RATE
    CONS_PRICE_IDX = x.CONS_PRICE_IDX
    CONS_CONF_IDX = x.CONS_CONF_IDX
    EURIBOR3M = x.EURIBOR3M
    EMPLOYED = x.EMPLOYED
    TARGET = map_target(x.TARGET)
  
    
    
    return (AGE, JOB, MARITAL, EDUCATION, DEFAULT, HOUSING, LOAN, CONTACT, MONTH, DAY_OF_WEEK, CAMPAIGN, PDAYS, PREVIOUS, POUTCOME, EMP_VAR_RATE, CONS_PRICE_IDX, CONS_CONF_IDX, EURIBOR3M, EMPLOYED, TARGET)



In [None]:
rdd_row = rdd_df.rdd.map(lambda x: manualEncoder(x))

In [None]:
# Criando um Dataframe
rdd_df_encoded = spSession.createDataFrame(rdd_row, schema=list_columns)
rdd_df_encoded.cache()

In [None]:
rdd_df_encoded.show(2)

### ONE HOT ENCODER

In [None]:
columns_str = ['JOB', 'MARITAL', 'DEFAULT', 'LOAN', 'POUTCOME']

In [None]:
columns_others = ['AGE','EDUCATION', 'HOUSING', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 
                  'PDAYS', 'PREVIOUS', 'EMP_VAR_RATE', 'CONS_PRICE_IDX', 'CONS_CONF_IDX', 'EURIBOR3M', 
                  'EMPLOYED', 'TARGET']

In [None]:
# Função expandir as colunas que foram geradas pelo OneHotEncoding.
def __applyOHE(df, column):
    
    alias = f'_{column}'
    df_col_onehot = df.select('*', vector_to_array(column).alias(alias))

    num_categories = len(df_col_onehot.first()[alias])
    cols_expanded = [(F.col(alias)[i]) for i in range(num_categories)]
    df_cols_onehot = df_col_onehot.select('*', *cols_expanded)
    
    return df_cols_onehot, cols_expanded



def myOneHotEncoder(df, list_columns, list_others_columns):
    # LabelEncoder
    indexers = [ StringIndexer(inputCol=c, outputCol="OHE_{0}".format(c)) for c in columns_str]

    # Criação do array de Encoders
    encoders = [OneHotEncoder(
            inputCol=indexer.getOutputCol(),
            outputCol="_{0}".format(indexer.getOutputCol())) 
        for indexer in indexers]
    
    # Aplica os dois métodos: LabelEncoder e OneHotEncoder
    pipeline = Pipeline(stages=indexers + encoders)
    df_temp = pipeline.fit(df).transform(rdd_df_encoded)

    # Obtendo todas as colunas de saída do Encoder
    encoder_columns = [encoder.getOutputCol() for encoder in encoders]

    # Expandindo o array gerado pelo OneHotEncoding para Colunas individuais
    ohe_columns = []
    for column in encoder_columns: 
        df_temp, _ohe = __applyOHE(df_temp, column)

        ohe_columns.extend(_ohe)
    
    df_res = df_temp.select(*list_others_columns, *ohe_columns)
    
    return df_res

In [None]:
df_res = myOneHotEncoder(rdd_df_encoded, columns_str, columns_others)

In [None]:
df_res.show(1)

### Alterando o tipo de dado

In [None]:
df_res.dtypes

In [None]:
df_res.select('CAMPAIGN').dtypes

In [None]:
from pyspark.sql.types import IntegerType, BooleanType, DateType, StringType, FloatType

df_res = df_res.withColumn('AGE', col('AGE').cast(IntegerType()))
df_res = df_res.withColumn('CAMPAIGN', col('CAMPAIGN').cast(IntegerType()))
df_res = df_res.withColumn('PDAYS', col('PDAYS').cast(IntegerType()))
df_res = df_res.withColumn('PREVIOUS', col('PREVIOUS').cast(IntegerType()))

df_res = df_res.withColumn('EMP_VAR_RATE', col('EMP_VAR_RATE').cast(FloatType()))
df_res = df_res.withColumn('CONS_PRICE_IDX', col('CONS_PRICE_IDX').cast(FloatType()))
df_res = df_res.withColumn('CONS_CONF_IDX', col('CONS_CONF_IDX').cast(FloatType()))
df_res = df_res.withColumn('EURIBOR3M', col('EURIBOR3M').cast(FloatType()))
df_res = df_res.withColumn('EMPLOYED', col('EMPLOYED').cast(FloatType()))

In [None]:
selected_columns = []

for column in df_res.columns:
    corr = df_res.corr('TARGET', column)
    print(f'Column {column} Corr : {corr}')
    
    if abs(corr) > 0.05:
        selected_columns.append(column)

In [None]:
df_res1 = df_res.select(selected_columns)
df_res1.show(5)

In [None]:
df_res1.columns

### Pré Processamento dos Dados

In [None]:
list_rows = ['AGE', 'EDUCATION', 'HOUSING', 'CONTACT', 'MONTH', 'DAY_OF_WEEK', 'CAMPAIGN', 'PDAYS', 'PREVIOUS', 'EMP_VAR_RATE', 
 'CONS_PRICE_IDX', 'CONS_CONF_IDX', 'EURIBOR3M', 'EMPLOYED', '__OHE_JOB[0]', '__OHE_JOB[1]', '__OHE_JOB[2]', '__OHE_JOB[3]', 
 '__OHE_JOB[4]', '__OHE_JOB[5]', '__OHE_JOB[6]', '__OHE_JOB[7]', '__OHE_JOB[8]', '__OHE_JOB[9]', '__OHE_JOB[10]', 
 '__OHE_MARITAL[0]', '__OHE_MARITAL[1]', '__OHE_MARITAL[2]', '__OHE_DEFAULT[0]', '__OHE_DEFAULT[1]', '__OHE_LOAN[0]', 
 '__OHE_LOAN[1]', '__OHE_POUTCOME[0]', '__OHE_POUTCOME[1]']

In [None]:
def transformaVar(row) :
    obj = (row['TARGET'], 
           Vectors.dense([
                        row['CONTACT'],
                        row['CAMPAIGN'],
                        row['PDAYS'],
                        row['PREVIOUS'],
                        row['EMP_VAR_RATE'],
                        row['CONS_PRICE_IDX'],
                        row['CONS_CONF_IDX'],
                        row['EURIBOR3M'],
                        row['EMPLOYED'],
                        row['__OHE_JOB[1]'],
                        row['__OHE_JOB[5]'],
                        row['__OHE_JOB[10]'],
                        row['__OHE_MARITAL[1]'],
                        row['__OHE_DEFAULT[0]'],
                        row['__OHE_DEFAULT[1]'],
                        row['__OHE_POUTCOME[0]'],
                        row['MONTH']
                         ]))
    return obj

In [None]:
def transformaVar(row) :
    obj = (row['TARGET'], Vectors.dense([
                                        row['AGE'],
                                        row['EDUCATION'],
                                        row['HOUSING'],
                                        row['CONTACT'],
                                        row['MONTH'],
                                        row['DAY_OF_WEEK'],
                                        row['CAMPAIGN'],
                                        row['PDAYS'],
                                        row['PREVIOUS'],
                                        row['EMP_VAR_RATE'],
                                        row['CONS_PRICE_IDX'],
                                        row['CONS_CONF_IDX'],
                                        row['EURIBOR3M'],
                                        row['EMPLOYED'],
                                        row['__OHE_JOB[0]'],
                                        row['__OHE_JOB[1]'],
                                        row['__OHE_JOB[2]'],
                                        row['__OHE_JOB[3]'],
                                        row['__OHE_JOB[4]'],
                                        row['__OHE_JOB[5]'],
                                        row['__OHE_JOB[6]'],
                                        row['__OHE_JOB[7]'],
                                        row['__OHE_JOB[8]'],
                                        row['__OHE_JOB[9]'],
                                        row['__OHE_JOB[10]'],
                                        row['__OHE_MARITAL[0]'],
                                        row['__OHE_MARITAL[1]'],
                                        row['__OHE_MARITAL[2]'],
                                        row['__OHE_DEFAULT[0]'],
                                        row['__OHE_DEFAULT[1]'],
                                        row['__OHE_LOAN[0]'],
                                        row['__OHE_LOAN[1]'],
                                        row['__OHE_POUTCOME[0]'],
                                        row['__OHE_POUTCOME[1]']
                                        ]))
    return obj

In [None]:
rdd_processing = df_res.rdd.map(transformaVar)

rdd_processing.take(1)

In [None]:
df_processing = spSession.createDataFrame(rdd_processing, ["target","features"])
df_processing.show(10)
df_processing.cache()

### Escala dos Dados

In [None]:
from pyspark.ml.feature import RobustScaler, StandardScaler, MinMaxScaler, Normalizer

In [None]:
scaler = RobustScaler(inputCol='features', outputCol='features_scaled')

### Divisão em treino e teste

In [None]:
# Dados de Treino e de Teste
(dados_treino, dados_teste, dados_valid) = df_processing.randomSplit([0.78, 0.2, 0.02])

dados_treino.count(), dados_teste.count(), dados_valid.count()

#### Tratamento das classes desbalanceadas

In [None]:
dados_treino.groupBy('target').count().show()

In [None]:
df_target_1 = dados_treino[dados_treino['target'] == 1]
df_target_0 = dados_treino[dados_treino['target'] == 0]

df_target_1.count(), df_target_0.count()

In [None]:
from math import floor

In [None]:
fraction = float(floor(df_target_0.count() / df_target_1.count()))

df_target_1_sample = df_target_1.sample(True, fraction, 1234)

In [None]:
diff = df_target_1_sample.count() - df_target_1.count()

df_temp = spSession.createDataFrame(df_target_1_sample.collect()[0:diff])

df_temp = df_temp.unionAll(df_target_1)

In [None]:
dados_treino =  df_temp.unionAll(df_target_0)

In [None]:
dados_treino.count()

In [None]:
dados_treino.groupBy('target').count().show()

### Machine Learning

In [None]:
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.classification import GBTClassifier
from pyspark.ml.classification import LinearSVC

In [None]:
dtClassifer = RandomForestClassifier(labelCol = "target", featuresCol = "features")
#dtClassifer = GBTClassifier(labelCol = "target", featuresCol = "features_scaled")
#dtClassifer = LinearSVC(labelCol = "target", featuresCol = "features")

### Aplicando Pipeline, Treinando e Prevendo o Modelo

In [None]:
pipeline = Pipeline(stages=[scaler, dtClassifer])

model = pipeline.fit(dados_treino)

In [None]:
features_importances = model.stages[-1].featureImportances

features_importances = list(sorted(zip(list_rows, features_importances), key= lambda x: x[1], reverse=True))

cols_importants = [column[0] for column in features_importances if column[1] > 0.03]

cols_importants

In [None]:
# Previsões com dados de teste
previsoes = model.transform(dados_teste)

### Avaliação do Modelo

In [None]:
# Avaliando a acurácia
avaliador = MulticlassClassificationEvaluator(predictionCol = "prediction", labelCol = "target", metricName = "f1")
avaliador.evaluate(previsoes) 

In [None]:
# Resumindo as previsões - Confusion Matrix
previsoes.groupBy("target","prediction").count().show()

### Salvando o Modelo

In [None]:
#Save model
model.write().overwrite().save('models/modelo_v1')

### Carregando o Modelo

In [None]:
from pyspark.ml import Pipeline, PipelineModel

In [None]:
model_load = PipelineModel.load('models/modelo_v1')

In [None]:
preds_valid = model_load.transform(dados_valid)

avaliador = MulticlassClassificationEvaluator(predictionCol = "prediction", labelCol = "target", metricName = "f1")
avaliador.evaluate(preds_valid) 

In [None]:
# Resumindo as previsões - Confusion Matrix
preds_valid.groupBy("target","prediction").count().show()

### Considerações Finais