### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`PCA`</strong>
Os objetivos da geração e extração de características através do `PCA` <strong>(Principal Component Analysis)</strong> são reduzir a dimensionalidade dos dados, criar atributos sintéticos que mantenham as características importantes dos dados originais e representar os atributos originais através de projeção. No entanto, o `PCA` não permite avaliar a importância dos atributos e não representa mais o negócio analisado.

As limitações do `PCA` em relação à avaliação da importância dos atributos são:

- O `PCA` cria atributos sintéticos que não possuem uma compreensão funcional direta, o que dificulta a interpretação dos resultados.

- O `PCA` representa os atributos originais por meio de projeção, o que pode levar a perda de informações em relação à importância dos atributos.

- O `PCA` não permite avaliar a importância dos atributos em relação ao negócio analisado, ou seja, não é capaz de identificar quais atributos são mais relevantes para o problema em questão.

Portanto, o `PCA` <strong>(Principal Component Analysis)</strong> cria atributos sintéticos através da redução da dimensionalidade dos dados. Ele busca manter as características importantes dos dados originais ao criar novos atributos que são uma combinação linear dos atributos originais. A utilidade do `PCA` está em simplificar a representação dos dados, tornando-os mais fáceis de visualizar e analisar. No entanto, o `PCA` não permite avaliar a importância dos atributos e os novos atributos sintéticos não representam mais o negócio analisado.
<hr>

No código a seguir, está sendo importada a biblioteca **`findspark`** para localizar e inicializar o Spark, junto com a **`pyspark`**. Em seguida, são importadas classes específicas necessárias do **pyspark.sql**, como **`SparkSession`**. Também é importada a classe **`PCA`** de **pyspark.ml.feature** para análise de componentes principais. O método **findspark.init()** é usado para inicializar o Spark. Uma sessão Spark é então criada usando **SparkSession.builder.appName("PCA").getOrCreate()**, permitindo a execução de operações Spark. Essas etapas preparam o ambiente e as ferramentas necessárias para realizar análises de dados, incluindo a aplicação de técnicas como PCA para redução de dimensionalidade em conjuntos de dados usando o Apache Spark.

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import PCA

findspark.init()
spark = SparkSession.builder.appName("PCA").getOrCreate()

No código a seguir, está sendo utilizado o **`pyspark`** para ler um arquivo CSV contendo dados sobre carros. Primeiro, a biblioteca é importada e em seguida é feita a leitura do arquivo usando a função **spark.read.csv**. O arquivo está localizado no diretório "`../Carros.csv`". Os parâmetros **header=True** e **inferSchema=True** indicam que a primeira linha do arquivo contém o cabeçalho e que o esquema dos dados deve ser inferido automaticamente, respectivamente. O parâmetro **sep=";"** especifica que o separador de campos no arquivo é o ponto e vírgula. Após a leitura, os cinco primeiros registros são exibidos na saída utilizando a função **carros.show(5)**. Este código é útil para carregar e visualizar rapidamente os dados de um arquivo CSV utilizando o ambiente do **pyspark**.

In [2]:
carros = spark.read.csv("../Carros.csv", header=True, inferSchema=True, sep=";")
carros.show(5)

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



No código a seguir, está sendo utilizado o **`pyspark`**, uma biblioteca para processamento distribuído em Python. A função **`VectorAssembler`** é importada da biblioteca **pyspark.ml.feature**, e é utilizada para combinar várias colunas de características em uma única coluna de vetor. No exemplo, estamos criando um objeto **`vectas`** do tipo VectorAssembler, especificando as colunas de entrada com os nomes "Consumo", "Cilindros", "Cilindradas", "RelEixoTraseiro", "Peso", "Tempo", "TipoMotor", "Transmissao", "Marchas" e "Carburadors". Essas colunas são combinadas em uma única coluna chamada "caracteristicas", definida como a coluna de saída (**`outputCol`**). Em seguida, a transformação é aplicada aos dados dos carros (**carros**) utilizando o método **`transform`**, que cria uma nova coluna com as características combinadas, conforme especificado. Finalmente, é selecionada a coluna resultante "caracteristicas" utilizando o método **`select`** e exibida utilizando o método **`show`**, com a opção **truncate=False** para mostrar o conteúdo completo da coluna. Essa transformação é útil em tarefas de aprendizado de máquina, onde as características precisam ser combinadas em um único vetor para análise e modelagem.

In [3]:
from pyspark.ml.feature import VectorAssembler

vectas = VectorAssembler(
    inputCols=["Consumo","Cilindros","Cilindradas","RelEixoTraseiro","Peso","Tempo","TipoMotor","Transmissao","Marchas","Carburadors"],outputCol="caracteristicas"
)
carros = vectas.transform(carros)
carros.select("caracteristicas").show(truncate=False)

+-----------------------------------------------------+
|caracteristicas                                      |
+-----------------------------------------------------+
|[21.0,6.0,160.0,39.0,262.0,1646.0,0.0,1.0,4.0,4.0]   |
|[21.0,6.0,160.0,39.0,2875.0,1702.0,0.0,1.0,4.0,4.0]  |
|[228.0,4.0,108.0,385.0,232.0,1861.0,1.0,1.0,4.0,1.0] |
|[214.0,6.0,258.0,308.0,3215.0,1944.0,1.0,0.0,3.0,1.0]|
|[187.0,8.0,360.0,315.0,344.0,1702.0,0.0,0.0,3.0,2.0] |
|[181.0,6.0,225.0,276.0,346.0,2022.0,1.0,0.0,3.0,1.0] |
|[143.0,8.0,360.0,321.0,357.0,1584.0,0.0,0.0,3.0,4.0] |
|[244.0,4.0,1467.0,369.0,319.0,20.0,1.0,0.0,4.0,2.0]  |
|[228.0,4.0,1408.0,392.0,315.0,229.0,1.0,0.0,4.0,2.0] |
|[192.0,6.0,1676.0,392.0,344.0,183.0,1.0,0.0,4.0,4.0] |
|[178.0,6.0,1676.0,392.0,344.0,189.0,1.0,0.0,4.0,4.0] |
|[164.0,8.0,2758.0,307.0,407.0,174.0,0.0,0.0,3.0,3.0] |
|[173.0,8.0,2758.0,307.0,373.0,176.0,0.0,0.0,3.0,3.0] |
|[152.0,8.0,2758.0,307.0,378.0,18.0,0.0,0.0,3.0,3.0]  |
|[104.0,8.0,472.0,293.0,525.0,1798.0,0.0,0.0,3.0

No código a seguir, está sendo realizado um processo de análise de componentes principais (PCA) utilizando a biblioteca **`PCA`** do pacote **`pca`**. O parâmetro **k** define o número de componentes principais desejados, neste caso, definido como 3. A função **`fit`** é utilizada para ajustar o modelo aos dados, onde o conjunto de dados de entrada é especificado pela variável **carros**. O parâmetro **`inputCol`** indica a coluna do conjunto de dados que contém as características a serem analisadas, enquanto **`outputCol`** especifica o nome da coluna que conterá as características após a redução de dimensionalidade realizada pelo PCA, neste caso, denominada **caracteristicaspca**. Após a execução desse código, o modelo estará pronto para ser utilizado para reduzir a dimensionalidade dos dados de entrada de acordo com os componentes principais identificados.

In [4]:
pca = PCA(k=3, inputCol="caracteristicas", outputCol="caracteristicaspca")
modelo = pca.fit(carros)

No código a seguir, está sendo utilizado um modelo para transformar os dados contidos na variável **carros**. A função **`transform`** é aplicada ao modelo, gerando um novo conjunto de dados armazenado na variável **resultado**. Em seguida, é realizada uma seleção das colunas referentes às características principais dos carros, utilizando o método **`select`** com o argumento "caracteristicaspca". Por fim, o método **`show`** é utilizado para exibir o resultado da transformação, com a opção **truncate=False** garantindo que as informações não sejam truncadas na visualização. Esse código provavelmente faz parte de um processo de análise de dados ou de construção de um modelo de aprendizado de máquina, onde o modelo está sendo aplicado aos dados de carros para extrair suas características principais.

In [7]:
resultado = modelo.transform(carros)
resultado.select("caracteristicaspca").show(truncate=False)

+-----------------------------------------------------------+
|caracteristicaspca                                         |
+-----------------------------------------------------------+
|[618.7707206779613,-937.712394997354,1231.963352994551]    |
|[3112.9887675342197,-161.05746385491523,1191.8619913054383]|
|[640.4959007710695,-1120.718886511042,1320.0756315189049]  |
|[3466.0956877556673,-149.69421418298353,1401.204178036853] |
|[661.4577445758732,-812.4592128844115,1395.2949328316356]  |
|[769.2343671787738,-1120.4160559477316,1518.7436632279525] |
|[644.8369503533214,-727.9539376169618,1313.6815210979353]  |
|[9.10188066170976,1061.295403667789,1045.171050021569]     |
|[67.13360966508404,878.4793682045013,1143.9379120496164]   |
|[31.390504477140627,1095.369449828574,1306.012486190633]   |
|[32.8916592220896,1091.1521230845226,1310.0881577350908]   |
|[-118.372737516754,1832.771927405815,2088.6955393326043]   |
|[-150.18148405358025,1820.8730926512776,2091.1033550766124]|
|[-184.0