### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`RFormula`</strong>
`RFormula` é uma classe no Apache Spark MLlib que permite ***definir um formulário de entrada para modelos de aprendizado de máquina***, especificando colunas categóricas e numéricas. Ele é usado principalmente para ***preparar dados antes de treinar modelos de machine learning***, permitindo que os usuários especifiquem quais colunas devem ser tratadas como características (numéricas) e quais como rótulos (categóricas). Isso ajuda a garantir que o modelo seja treinado corretamente, considerando o tipo de dados de cada coluna.
</br>
<hr>

No código a seguir, está sendo utilizado o **módulo** `findspark` para inicializar o ambiente do Apache Spark dentro do Python. Em seguida, a **classe** `SparkSession` da **biblioteca** `pyspark.sql` é usada para criar uma sessão Spark com o nome de aplicação "rfomula". Essa sessão Spark permite a interação com o cluster Spark, facilitando a execução de tarefas distribuídas e processamento de grandes volumes de dados. Além disso, é importada a **classe** `RFormula` da **biblioteca** `pyspark.ml.feature`, que é uma ferramenta útil para transformar dados em um formato adequado para aprendizado de máquina, similar ao R. A função `findspark.init()` é chamada para garantir que o Spark esteja configurado corretamente antes de iniciar a sessão Spark. Por fim, `SparkSession.builder.appName("rfomula").getOrCreate()` cria ou obtém uma sessão Spark, essencial para operações subsequentes de processamento de dados.

In [6]:
import findspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import RFormula

findspark.init()
spark = SparkSession.builder.appName("rfomula").getOrCreate()

No código a seguir, está sendo utilizado o *Spark* para ler um arquivo CSV chamado "Carros.csv" localizado no diretório superior ao do script. O *Spark* é uma *biblioteca* utilizada para processamento de dados em grande escala. A função **`spark.read.csv`** é utilizada para ler o arquivo CSV, com os parâmetros **`header=True`**, que indica que a primeira linha do arquivo contém os cabeçalhos das colunas, **`inferSchema=True`**, que permite ao Spark inferir automaticamente o tipo de dados de cada coluna, e **`sep=";"`**, que especifica que o delimitador de campo no arquivo CSV é o ponto e vírgula. Após a leitura, o *DataFrame* resultante é armazenado na variável **`carros`**. Em seguida, a função **`carros.show(5)`** é chamada para exibir as primeiras cinco linhas do *DataFrame* **`carros`**, permitindo uma visualização rápida dos dados importados.

In [9]:
carros = spark.read.csv("../Carros.csv", header=True, inferSchema=True, sep=";")
carros.show(5)

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



No código a seguir, está sendo utilizada a **biblioteca** `pyspark.ml.feature` para aplicar a **classe** `RFormula`, que facilita a criação de **features** (variáveis independentes) e **labels** (variáveis dependentes) a partir de uma fórmula no estilo R. O **parâmetro** `formula` é utilizado para definir a relação entre as variáveis, onde "HP" é a variável dependente e "Consumo", "Cilindros" e "Cilindradas" são as variáveis independentes. O **parâmetro** `featuresCol` é definido como "independente" e `labelCol` como "dependente". Em seguida, a **função** `fit` da **classe** `RFormula` é aplicada ao DataFrame `carros` para ajustar o modelo e, posteriormente, a **função** `transform` é utilizada para transformar o DataFrame original adicionando as colunas "independente" e "dependente". Por fim, o método `select` é chamado para selecionar e exibir as colunas "independente" e "dependente" do DataFrame resultante, utilizando a **função** `show` para mostrar os dados na saída.

In [8]:
Rformula = RFormula(formula="HP ~ Consumo + Cilindros + Cilindradas", featuresCol="independente", labelCol="dependente")
carrosrf = Rformula.fit(carros).transform(carros)

carrosrf.select("independente", "dependente").show()

+------------------+----------+
|      independente|dependente|
+------------------+----------+
|  [21.0,6.0,160.0]|     110.0|
|  [21.0,6.0,160.0]|     110.0|
| [228.0,4.0,108.0]|      93.0|
| [214.0,6.0,258.0]|     110.0|
| [187.0,8.0,360.0]|     175.0|
| [181.0,6.0,225.0]|     105.0|
| [143.0,8.0,360.0]|     245.0|
|[244.0,4.0,1467.0]|      62.0|
|[228.0,4.0,1408.0]|      95.0|
|[192.0,6.0,1676.0]|     123.0|
|[178.0,6.0,1676.0]|     123.0|
|[164.0,8.0,2758.0]|     180.0|
|[173.0,8.0,2758.0]|     180.0|
|[152.0,8.0,2758.0]|     180.0|
| [104.0,8.0,472.0]|     205.0|
| [104.0,8.0,460.0]|     215.0|
| [147.0,8.0,440.0]|     230.0|
| [324.0,4.0,787.0]|      66.0|
| [304.0,4.0,757.0]|      52.0|
| [339.0,4.0,711.0]|      65.0|
+------------------+----------+
only showing top 20 rows

