### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`StandardScaler`</strong>
- Para normalizar os atributos para o desvio padrão ou média zero, podemos utilizar a biblioteca Scikit-learn em Python. Para realizar a normalização com desvio padrão (withStd=True), podemos utilizar a classe StandardScaler. Essa classe padroniza os recursos removendo a média e escalando para a variância unitária. 
<hr>

No código a seguir, está sendo utilizada a **Biblioteca** `findspark` para localizar e inicializar o Spark no ambiente local. Em seguida, é importado o módulo `pyspark` e a **Classe** `SparkSession` do `pyspark.sql`. Com o `findspark.init()`, o Spark é inicializado, e uma instância da **Classe** `SparkSession` é criada com a função `builder()`, configurando o nome da aplicação como "standardscaler" através do **Parâmetro** `appName`. Essa sessão Spark é obtida ou criada com `getOrCreate()`, permitindo a execução de operações no cluster.

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession

findspark.init()
spark = SparkSession.builder.appName("standardscaler").getOrCreate()

No código a seguir, está sendo importada a **Biblioteca** `StandardScaler` do `pyspark.ml.feature`, a qual fornece funcionalidades para pré-processamento de dados em Spark. Essa biblioteca oferece uma classe chamada **StandardScaler**, a qual é utilizada para padronizar os recursos de um conjunto de dados, garantindo que tenham média zero e desvio padrão um, o que é essencial para muitos algoritmos de aprendizado de máquina. Essa padronização é realizada através de uma **Função** que calcula as médias e os desvios padrão dos recursos e, em seguida, aplica a transformação aos dados, resultando em um conjunto de dados escalonado.

In [2]:
from pyspark.ml.feature import StandardScaler

No código a seguir, está sendo utilizado o **Spark** para ler um arquivo CSV chamado "Carros.csv", localizado um diretório acima do diretório atual. A função **spark.read.csv()** é utilizada com os parâmetros para especificar o arquivo, definir se o arquivo possui um cabeçalho e inferir o esquema dos dados automaticamente. O parâmetro **sep=";"** indica que o separador de campos no arquivo CSV é o ponto e vírgula. Em seguida, a função **carros.show(5)** é chamada para exibir as primeiras cinco linhas do DataFrame resultante da leitura do arquivo CSV, permitindo uma visualização rápida dos dados.

In [4]:
carros = spark.read.csv("../Carros.csv", header=True, inferSchema=True, sep=";")
carros.show(5)

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



No código a seguir, está sendo utilizada a **biblioteca** `PySpark`, mais especificamente o módulo "`feature`", para importar a **Classe** `VectorAssembler`, responsável por combinar múltiplas colunas em uma única coluna de vetores. Em seguida, é instanciado um objeto vecassembler com os **parâmetros** de entrada ("Consumo", "Cilindros", "Cilindradas") e saída ("Matriz"). Posteriormente, a **função** `transform`() é chamada para aplicar a transformação aos dados do dataframe "carros". Por fim, a função `select`() é utilizada para exibir as colunas originais "Consumo", "Cilindros" e "Cilindradas", além da coluna resultante "Matriz".

In [5]:
from pyspark.ml.feature import VectorAssembler

vecassembler = VectorAssembler(inputCols=["Consumo","Cilindros","Cilindradas"], outputCol="Matriz")
carros_vetor = vecassembler.transform(carros)

carros_vetor.select("Consumo","Cilindros","Cilindradas","Matriz").show()

+-------+---------+-----------+------------------+
|Consumo|Cilindros|Cilindradas|            Matriz|
+-------+---------+-----------+------------------+
|     21|        6|        160|  [21.0,6.0,160.0]|
|     21|        6|        160|  [21.0,6.0,160.0]|
|    228|        4|        108| [228.0,4.0,108.0]|
|    214|        6|        258| [214.0,6.0,258.0]|
|    187|        8|        360| [187.0,8.0,360.0]|
|    181|        6|        225| [181.0,6.0,225.0]|
|    143|        8|        360| [143.0,8.0,360.0]|
|    244|        4|       1467|[244.0,4.0,1467.0]|
|    228|        4|       1408|[228.0,4.0,1408.0]|
|    192|        6|       1676|[192.0,6.0,1676.0]|
|    178|        6|       1676|[178.0,6.0,1676.0]|
|    164|        8|       2758|[164.0,8.0,2758.0]|
|    173|        8|       2758|[173.0,8.0,2758.0]|
|    152|        8|       2758|[152.0,8.0,2758.0]|
|    104|        8|        472| [104.0,8.0,472.0]|
|    104|        8|        460| [104.0,8.0,460.0]|
|    147|        8|        440|

No código a seguir, está sendo utilizada a **Biblioteca** `StandardScaler` do **Python**, que implementa a padronização de recursos para uma matriz de dados, com a criação de uma instância chamada `escala`. Essa instância é configurada com parâmetros específicos, como a coluna de entrada (`inputCol`) e de saída (`outputCol`). Em seguida, é criado um **objeto** `modelo`, o qual é ajustado aos dados `carros_vetor` por meio do método `fit()` da instância `escala`. Posteriormente, os dados são transformados usando o método `transform()` do modelo ajustado, resultando em `carrosstandard`, que contém as colunas originais e as colunas padronizadas. Por fim, uma visualização dos dados é exibida usando o método `show`, mostrando as colunas "Matriz" e "standard" sem truncamento.

In [5]:
escala = StandardScaler(inputCol="Matriz", outputCol="standard", withStd=True, withMean=False)
modelo = escala.fit(carros_vetor)
carrosstandard = modelo.transform(carros_vetor)

carrosstandard.select("Matriz","standard").show(truncate=False)

+------------------+-----------------------------------------------------------+
|Matriz            |standard                                                   |
+------------------+-----------------------------------------------------------+
|[21.0,6.0,160.0]  |[0.24996122082808128,3.359609874407659,0.20137542427273997]|
|[21.0,6.0,160.0]  |[0.24996122082808128,3.359609874407659,0.20137542427273997]|
|[228.0,4.0,108.0] |[2.713864683276311,2.239739916271773,0.13592841138409947]  |
|[214.0,6.0,258.0] |[2.5472238693909235,3.359609874407659,0.32471787163979315] |
|[187.0,8.0,360.0] |[2.2258451568976763,4.479479832543546,0.4530947046136649]  |
|[181.0,6.0,225.0] |[2.15442766523251,3.359609874407659,0.28318419038354053]   |
|[143.0,8.0,360.0] |[1.7021168846864583,4.479479832543546,0.4530947046136649]  |
|[244.0,4.0,1467.0]|[2.904311327716754,2.239739916271773,1.8463609213006844]   |
|[228.0,4.0,1408.0]|[2.713864683276311,2.239739916271773,1.7721037336001115]   |
|[192.0,6.0,1676.0]|[2.28535