### Inicialização do pyspark

In [2]:
import pyspark
from pyspark.mllib.tree import DecisionTree, DecisionTreeModel
from pyspark.mllib.util import MLUtils

spark = pyspark.sql.SparkSession.builder.appName('decision_tree').getOrCreate()
sc = spark.sparkContext

### Implementação de árvore de decisão para classificação

In [3]:
#Carrega e processo os dados para dentro de um RDD de LabeledPoint
data = MLUtils.loadLibSVMFile(sc, 'data/iris_libsvm.txt')

#Separa os dados em treino e teste
(trainingData, testData) = data.randomSplit([0.7, 0.3])

In [9]:
data.collect()[2]

LabeledPoint(0.0, (4,[0,1,2,3],[4.7,3.2,1.3,0.2]))

In [14]:
#Treina o modelo
#categoricalFeaturesInfo vazio indica que todas as features são contínuas
model = DecisionTree.trainClassifier(trainingData, numClasses=3, categoricalFeaturesInfo={}
                                    , impurity='gini', maxDepth=5, maxBins=32)

#Valida o modelo em instâncias de teste e calcula o erro no teste
predictions = model.predict(testData.map(lambda x: x.features))
labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)
testErr = labelsAndPredictions.filter(
    lambda lp: lp[0] != lp[1]).count() / float(testData.count())
print('Test error: ' + str(testErr))
print('Learned classification tree model:')
print(model.toDebugString())

Test error: 0.041666666666666664
Learned classification tree model:
DecisionTreeModel classifier of depth 4 with 13 nodes
  If (feature 2 <= 2.45)
   Predict: 0.0
  Else (feature 2 > 2.45)
   If (feature 3 <= 1.75)
    If (feature 2 <= 5.05)
     Predict: 1.0
    Else (feature 2 > 5.05)
     If (feature 0 <= 6.05)
      Predict: 1.0
     Else (feature 0 > 6.05)
      Predict: 2.0
   Else (feature 3 > 1.75)
    If (feature 2 <= 4.85)
     If (feature 0 <= 5.95)
      Predict: 1.0
     Else (feature 0 > 5.95)
      Predict: 2.0
    Else (feature 2 > 4.85)
     Predict: 2.0



In [13]:
#Save and load the model
#model.save(sc, 'tmp/myDecisionTreeClassificationModel')
#sameModel = DecisionTreeModel.load(sc, 'tmp/myDecisionTreeClassificationModel')

Test error: 0.041666666666666664
Learned classification tree model:
DecisionTreeModel classifier of depth 4 with 13 nodes
  If (feature 2 <= 2.45)
   Predict: 0.0
  Else (feature 2 > 2.45)
   If (feature 3 <= 1.75)
    If (feature 2 <= 5.05)
     Predict: 1.0
    Else (feature 2 > 5.05)
     If (feature 0 <= 6.05)
      Predict: 1.0
     Else (feature 0 > 6.05)
      Predict: 2.0
   Else (feature 3 > 1.75)
    If (feature 2 <= 4.85)
     If (feature 0 <= 5.95)
      Predict: 1.0
     Else (feature 0 > 5.95)
      Predict: 2.0
    Else (feature 2 > 4.85)
     Predict: 2.0



---

### Hiperparâmetros
### Hiperparâmetros de especificação do problema
<b>numClasses</b>: Número de classes da variável dependente (Apenas para classificação) 

<b>categoricalFeaturesInfo</b>: Dicionário especificando quais variáveis independentes são categóricas, não é obrigatório mas pode ajudar no tempo de treinamento do modelo

### Critérios de parada do modelo
<b>maxDepth</b>: Profundidade máxima da árvore

<b>minInstancesPerNode</b>: Para que um ramo seja splitado, cada uma de suas folhas deve ter o mínimo de datapoints especificados neste parâmetro

<b>minInfoGain</b>: Para que um ramo seja splitado, deve ter um ganho de informação mínimo especificado neste parâmetro

### Parâmetros de tunagem
<b>maxBins</b>: Número máximo de bins utilizado para discretizar variáveis contínuas

<b>maxMemoryInMB</b>: Quantidade de memória que será utilizada para coletar estatísticas dos dados. Por padrão é 246mb para que o algoritmo rode na maioria dos ambientes. Aumentar este parâmetro pode deixar o treinamento mais rápido, se houver memória disponível

<b>subsamplingRate</b>: Fração dos dados de treinamento utilizados para treinar o modelo. Este parâmetro é relevante apenas para ensembles (RandomForest ou GradientBoostedTrees)

<b>impurity</b>: Especifica qual cálculo será utilizado para realizar o split 'gini' ou 'entropy'

---

### Exemplo

https://www.timlrx.com/2018/06/19/feature-selection-using-feature-importance-score-creating-a-pyspark-estimator/

In [16]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import numpy as np
import pandas as pd
pd.options.display.max_columns = None

from pyspark import SparkContext
from pyspark import SQLContext

In [18]:
#sc = SparkContext()
spark = SQLContext(sc)

In [19]:
from pyspark.sql.functions import *
from pyspark.ml.classification import  RandomForestClassifier
from pyspark.ml.feature import StringIndexer, OneHotEncoderEstimator, VectorAssembler, VectorSlicer
from pyspark.ml import Pipeline
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.linalg import Vectors
from pyspark.ml.tuning import ParamGridBuilder, TrainValidationSplit

In [22]:
df = spark.read.option("delimiter", ";").csv("data/bank-additional/bank-additional-full.csv", header=True, inferSchema = True)