**Importando bibliotecas**

In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import RFormula
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator

**Criando uma aplicação Spark**

In [None]:
spark = SparkSession.builder.master("local").appName("Classificação").getOrCreate()

**Importando dados**

In [None]:
churn = spark.read.csv("/home/rowedder/download/churn.csv", inferSchema=True, header=True, sep=";")

In [None]:
churn.show(3)

**Criando o objeto (RFormula)**

In [None]:
formula = RFormula(formula="Exited ~ .", featuresCol="features", labelCol="label", handleInvalid="skip")

In [None]:
churn_trans = formula.fit(churn).transform(churn).select("features", "label")

In [None]:
churn_trans.show(truncate=False)

**Dividindo os dados em porcentagem para treino e teste**

In [None]:
churn_treino, churn_teste = churn_trans.randomSplit([0.7,0.3])

In [None]:
print(churn_treino.count())

In [None]:
print(churn_teste.count())

**Criando o objeto (Árvore de Decisão)**

In [None]:
dt = DecisionTreeClassifier(labelCol="label", featuresCol="features")

**Criando o modelo de treino (fit)**

In [None]:
modelo = dt.fit(churn_treino)

**Testando o modelo (Previsão)**

In [None]:
previsao = modelo.transform(churn_teste)

In [None]:
previsao.show()

**Avaliando a performance do modelo de árvore de decisão (Métrica de Performance)**

In [None]:
avaliar = BinaryClassificationEvaluator(rawPredictionCol="prediction", labelCol="label", metricName="areaUnderROC")

In [None]:
areaUnderRoc = avaliar.evaluate(previsao)

In [None]:
print(areaUnderRoc)