# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Curso 03: Gerenciamento e Processamento Paralelo de Dados em Larga Escala</span>

### <span style="color:darkred">Classificação PySpark com o algoritmo Classificação Multi Layer Perceptron</span>

*Prof. Dr. Jose Fernando Rodrigues Junior*<br>
*ICMC-USP São Carlos*

**Classificação Multi Layer Perceptron**

In [None]:
import findspark
findspark.init()

In [None]:
import pyspark
from pyspark.sql import SparkSession
# instruction .master("local[*]") makes Spark use multiple CPU cores in parallel
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
from pyspark.ml.classification import MultilayerPerceptronClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
data = spark.read.format("libsvm").load("iris.txt")
# Split the data into training and testing sets
train, test = data.randomSplit([0.7, 0.3])

**Multilayer Perceptron (MLP)**: um classificador MLP é um tipo de rede neural artificial que consiste em uma ou mais camadas de neurônios organizadas em uma estrutura de camadas totalmente conectadas: uma camada de entrada, uma ou mais camadas ocultas, e uma camada de saída. Cada neurônio em uma camada aplica uma função de ativação, geralmente não linear, à soma ponderada de suas entradas, permitindo que a rede capture relações complexas nos dados. O MLP é treinado utilizando algoritmos como backpropagation, ajustando os pesos das conexões entre neurônios para minimizar o erro entre as previsões da rede e os valores reais. Esse tipo de classificador é eficaz para tarefas de classificação onde as relações entre as variáveis de entrada e as classes de saída são complexas e não lineares.

In [None]:
# specify layers for the neural network:
# input layer of size 4 (features), two intermediate layers of sizes 5 and 4
# and one output layer of size 3 (classes)
layers = [4, 5, 5, 5, 3]

# create the trainer and set its parameters
trainer = MultilayerPerceptronClassifier(maxIter=100, layers=layers, blockSize=21) # 20 épocas

# train the model
model = trainer.fit(train)

In [None]:
# compute accuracy on the test set
result = model.transform(test)
predictionAndLabels = result.select("prediction", "label")
evaluator = MulticlassClassificationEvaluator(metricName="accuracy")
print("Test set accuracy = " + str(evaluator.evaluate(predictionAndLabels)))

In [None]:
result.show(result.count(), truncate=5)

**MLP sobre o dataset Forest CoverType**

O dataset Forest CoverType é um conjunto de dados amplamente utilizado em aprendizado de máquina para tarefas de classificação, contendo informações sobre diferentes tipos de cobertura florestal em áreas dos Estados Unidos. O dataset inclui 581.012 registros, cada um representando uma célula de 30x30 metros de terreno, com 54 atributos, como elevação, inclinação, tipo de solo e condições de sombra, entre outros. A variável alvo é um rótulo que identifica o tipo de cobertura florestal, categorizado em sete classes distintas: **Spruce/Fir** (Classe 1), **Lodgepole Pine** (Classe 2), **Ponderosa Pine** (Classe 3), **Cottonwood/Willow** (Classe 4), **Aspen** (Classe 5), **Douglas-fir** (Classe 6) e **Krummholz** (Classe 7). O objetivo é prever corretamente o tipo de cobertura florestal com base nas características fornecidas. Este dataset é desafiador devido à alta dimensionalidade e à presença de dados de diferentes tipos de terreno e condições ambientais.

Detalhes: https://archive.ics.uci.edu/dataset/31/covertype

In [None]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import col
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import MultilayerPerceptronClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Initialize Spark session
# instruction .master("local[*]") makes Spark use multiple CPU cores in parallel
#spark = SparkSession.builder.master("local[*]").getOrCreate()
spark = SparkSession.builder.getOrCreate()

In [None]:
# Load the dataset
data = spark.read.csv("covtype.data", inferSchema=True, header=False)

# The dataset has 55 columns: the first 54 are features, and the last one is the label
# Define the feature columns
feature_columns = data.columns[:-1]

# Rename the last column to 'label'
data = data.withColumnRenamed(data.columns[-1], "label")

# Adjust the labels to be in the range [0, 6] instead of [1, 7]
data = data.withColumn("label", col("label") - 1)

# Assemble all feature columns into a single vector column
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")
data = assembler.transform(data)

# Convert the label column to IntegerType (required by MultilayerPerceptronClassifier)
data = data.withColumn("label", data["label"].cast(IntegerType()))

In [None]:
# Split the data into training and testing sets
train, test = data.randomSplit([0.7, 0.3], seed = 1)

In [None]:
%%time
# Specify layers for the neural network:
# Input layer of size 54 (features), two intermediate layers of size 50 and 25,
# and output layer of size 7 (classes)
layers = [54, 50, 7]

# Create the trainer and set its parameters
trainer = MultilayerPerceptronClassifier(maxIter=500, layers=layers, blockSize=128, seed=1, featuresCol="features", labelCol="label")

# Train the model
model = trainer.fit(train)

In [None]:
# Compute accuracy on the test set
result = model.transform(test)
predictionAndLabels = result.select("prediction", "label")
evaluator = MulticlassClassificationEvaluator(metricName="accuracy")
accuracy = evaluator.evaluate(predictionAndLabels)
print("Test set accuracy = " + str(accuracy))

# Show the results (optional)
#result.show(truncate=25)

In [None]:
spark.stop()

**Múltiplos classificadores sobre o dataset Forest CoverType**

In [None]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import col
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import (
    MultilayerPerceptronClassifier,
    RandomForestClassifier,
    DecisionTreeClassifier,
    LogisticRegression
)
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Initialize Spark session
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Load the dataset
data = spark.read.csv("covtype.data", inferSchema=True, header=False)

# The dataset has 55 columns: the first 54 are features, and the last one is the label
# Define the feature columns
feature_columns = data.columns[:-1]

# Rename the last column to 'label'
data = data.withColumnRenamed(data.columns[-1], "label")

# Adjust the labels to be in the range [0, 6] instead of [1, 7]
data = data.withColumn("label", col("label") - 1)

# Assemble all feature columns into a single vector column
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")
data = assembler.transform(data)

# Convert the label column to IntegerType (required by most classifiers)
data = data.withColumn("label", data["label"].cast(IntegerType()))

# Split the data into training and testing sets
train, test = data.randomSplit([0.7, 0.3], seed = 1)

# Define the classifiers
classifiers = {
    "Multilayer Perceptron": MultilayerPerceptronClassifier(
        maxIter=100, layers=[54, 54, 7], blockSize=256, seed=1, featuresCol="features", labelCol="label"
    ),
    "Random Forest": RandomForestClassifier(
        numTrees=100, seed=1, featuresCol="features", labelCol="label"
    ),
    "Decision Tree": DecisionTreeClassifier(
        seed=1, featuresCol="features", labelCol="label"
    ),
    "Logistic Regression": LogisticRegression(
        maxIter=100, featuresCol="features", labelCol="label"
    ),
}

# Initialize evaluator
evaluator = MulticlassClassificationEvaluator(metricName="accuracy")

evaluations_list = []
# Train and evaluate each classifier
for name, classifier in classifiers.items():
    # Train the model
    model = classifier.fit(train)

    # Make predictions
    predictions = model.transform(test)

    # Evaluate accuracy
    accuracy = evaluator.evaluate(predictions.select("prediction", "label"))
    evaluations_list.append(f"Test set accuracy for {name} = {accuracy}")

    # Optionally, show some predictions (truncate to keep output concise)
#    predictions.show(5, truncate=25)

In [None]:
for evaluation in evaluations_list:
    print(evaluation)

In [None]:
spark.stop()