# Multi Layer Perceptron:

- conjunto de neurônios dispostos em camadas
- para o MLP, todos os neurônios de uma camada estão conectados com todos os neurônios das 
camadas seguintes (full conected ou altamente conectado)
- não existe conexão entre neurônios da mesma camada
- dados percorrem da esquerda para a direita, funcionando através de ajuste de pesos

# Componentes e Mecanismo: 
- camada de entrada: terá um neurônio para cada atributo (variáveis independentes)
- camada de saída: 
    * classificação multiclasse: um neurônio para cada classe (variável dependente) 
    * classificação binária (output "1/0"): 2 ou 1 neurônios na camada de saída (1 exclusivo
    para cada classe, ou 1 que funciona para ambas classes (1 ou 0).
    * regressão: 1 neurônio
- camada oculta: apresentam os pesos e funções de ativação nas sinapses (as ligações dos neurônios)
quando a rede inicia, são gerados aleatoriamente valores pequenos para os pesos. Função de perda (loss 
function) mede o erro associada a passagem dos registros pela rede, propagando este erro de volta para rede, 
(backpropagation) ajustando os pesos da rede. Assim, os pesos vão se ajustando e a rede vai aprendendo. 
                       

# Hiper Parâmetros:
- layers: camadas, é dado por um vetor contendo a qtd de neurônios em cada camada
[camada de entrada, camadas ocultas, camada de saída¹]
¹: em caso de classificação, tem a qtd de neurônios igual a de classes, para regressão, temos 1 neurônio de 
saída. 
- seed: semente,
- stepSize: o quanto os pesos serão atualizados em cada iteração (learning rate) (deafult=0,03)
    

# Qual a melhor configuração de camada oculta?
cálculo: (qtd_atributos + qtd_classes)/2 ~ qtd de neurônios na camada oculta (arred pra cima)
    
ex: cam entrada = 4, cam saída = 3 > 4+3/2 = 3,5 (4)
    
testando possíveis configurações:
[4,4,4,3]
[4,4,3,4,3]

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession
findspark.init()
spark = SparkSession.builder.appName("MLP").getOrCreate()

In [2]:
iris = spark.read.csv("iris.csv", header=True, inferSchema=True)
print(iris.count())
iris.show(5)

150
+-----------+----------+-----------+----------+-----------+
|sepallength|sepalwidth|petallength|petalwidth|      class|
+-----------+----------+-----------+----------+-----------+
|        5.1|       3.5|        1.4|       0.2|Iris-setosa|
|        4.9|       3.0|        1.4|       0.2|Iris-setosa|
|        4.7|       3.2|        1.3|       0.2|Iris-setosa|
|        4.6|       3.1|        1.5|       0.2|Iris-setosa|
|        5.0|       3.6|        1.4|       0.2|Iris-setosa|
+-----------+----------+-----------+----------+-----------+
only showing top 5 rows



In [3]:
# Criação mde vetor com variáveis independentes:

from pyspark.ml.feature import VectorAssembler 
asb = VectorAssembler(inputCols=["sepallength","sepalwidth","petallength","petalwidth"], 
                      outputCol="independente")
irisas = asb.transform(iris)
irisas.show(5)

+-----------+----------+-----------+----------+-----------+-----------------+
|sepallength|sepalwidth|petallength|petalwidth|      class|     independente|
+-----------+----------+-----------+----------+-----------+-----------------+
|        5.1|       3.5|        1.4|       0.2|Iris-setosa|[5.1,3.5,1.4,0.2]|
|        4.9|       3.0|        1.4|       0.2|Iris-setosa|[4.9,3.0,1.4,0.2]|
|        4.7|       3.2|        1.3|       0.2|Iris-setosa|[4.7,3.2,1.3,0.2]|
|        4.6|       3.1|        1.5|       0.2|Iris-setosa|[4.6,3.1,1.5,0.2]|
|        5.0|       3.6|        1.4|       0.2|Iris-setosa|[5.0,3.6,1.4,0.2]|
+-----------+----------+-----------+----------+-----------+-----------------+
only showing top 5 rows



In [4]:
# StringIndexer para gerar indexação das classes:
from pyspark.ml.feature import StringIndexer
ind = StringIndexer(inputCol="class", outputCol="dependente")
irisas = ind.fit(irisas).transform(irisas)
irisas.show(5)

+-----------+----------+-----------+----------+-----------+-----------------+----------+
|sepallength|sepalwidth|petallength|petalwidth|      class|     independente|dependente|
+-----------+----------+-----------+----------+-----------+-----------------+----------+
|        5.1|       3.5|        1.4|       0.2|Iris-setosa|[5.1,3.5,1.4,0.2]|       0.0|
|        4.9|       3.0|        1.4|       0.2|Iris-setosa|[4.9,3.0,1.4,0.2]|       0.0|
|        4.7|       3.2|        1.3|       0.2|Iris-setosa|[4.7,3.2,1.3,0.2]|       0.0|
|        4.6|       3.1|        1.5|       0.2|Iris-setosa|[4.6,3.1,1.5,0.2]|       0.0|
|        5.0|       3.6|        1.4|       0.2|Iris-setosa|[5.0,3.6,1.4,0.2]|       0.0|
+-----------+----------+-----------+----------+-----------+-----------------+----------+
only showing top 5 rows



In [6]:
# observa classes distintos das colunas pra validar:
irisas.select("class","dependente").distinct().show()

+---------------+----------+
|          class|dependente|
+---------------+----------+
|    Iris-setosa|       0.0|
| Iris-virginica|       2.0|
|Iris-versicolor|       1.0|
+---------------+----------+



In [7]:
irisTreino, irisTeste = irisas.randomSplit([0.7,0.3])
print(irisTreino.count())
print(irisTeste.count())

107
43


In [8]:
from pyspark.ml.classification import MultilayerPerceptronClassifier
mlp = MultilayerPerceptronClassifier(maxIter=10, layers=[4,5,4,3], featuresCol="independente", 
                                     labelCol="dependente")
modelo = mlp.fit(irisTreino)

In [10]:
previsao = modelo.transform(irisTeste) 
previsao.select("dependente","prediction").show(5)

+----------+----------+
|dependente|prediction|
+----------+----------+
|       0.0|       0.0|
|       0.0|       0.0|
|       0.0|       0.0|
|       1.0|       2.0|
|       1.0|       2.0|
+----------+----------+
only showing top 5 rows



In [11]:
# Avaliando performance:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
performance = MulticlassClassificationEvaluator(labelCol="dependente", predictionCol="prediction",
                                               metricName="accuracy")
acuracia = performance.evaluate(previsao)
print(acuracia)


0.627906976744186


In [15]:
# Ajustando Hiper Parâmetros:

print("MaxIter: " + str(modelo.getMaxIter()))
print("Layers: " + str(modelo.getLayers()))
print("StepSize: " + str(modelo.getStepSize()))

MaxIter: 10
Layers: [4, 5, 4, 3]
StepSize: 0.03


In [16]:
# Ajustando número máximo de iterações:
parunico = {modelo.maxIter: 1000} # dicionário padrão chave-valor

In [19]:
modelo = mlp.fit(irisTreino, parunico)

In [20]:
print("MaxIter: " + str(modelo.getMaxIter()))
print("Layers: " + str(modelo.getLayers()))
print("StepSize: " + str(modelo.getStepSize()))

MaxIter: 1000
Layers: [4, 5, 4, 3]
StepSize: 0.03


In [21]:
# Nova previsão: 
previsao = modelo.transform(irisTeste) 
previsao.select("dependente","prediction").show(5)

+----------+----------+
|dependente|prediction|
+----------+----------+
|       0.0|       0.0|
|       0.0|       0.0|
|       0.0|       0.0|
|       1.0|       1.0|
|       1.0|       1.0|
+----------+----------+
only showing top 5 rows



In [22]:
# Avaliando performance: maxIter 10 > 1000 : acurácia: 61% > 95% 
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
performance = MulticlassClassificationEvaluator(labelCol="dependente", predictionCol="prediction",
                                               metricName="accuracy")
acuracia = performance.evaluate(previsao)
print(acuracia)

0.9534883720930233
