### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`UnivariateFeatureSelector`</strong>
`UnivariateFeatureSelector` é uma abstração genérica no Apache Spark MLlib para seletores de características univariados, que operam sobre um conjunto de características individuais de um dataset. Esses seletores são usados para ***identificar e manter apenas as características mais relevantes para a tarefa de modelagem***, baseando-se em critérios univariados, como a importância de uma única característica para a divisão entre classes. A ideia por trás do uso de `UnivariateFeatureSelector` é ***simplificar o modelo mantendo apenas as características que têm um impacto significativo na predição***, ajudando a evitar overfitting e melhorando a generalização do modelo.
</br>
<hr>

No código a seguir, está sendo utilizada a **biblioteca** `findspark` para inicializar o ambiente do Spark e a **biblioteca** `pyspark.sql` para criar uma **sessão Spark**. Inicialmente, a **função** `findspark.init()` é chamada para configurar o ambiente do Spark. Em seguida, uma instância da **classe** `SparkSession` é criada com o nome da aplicação definido como "univariatefeatureselector", utilizando o **método** `builder.appName()`. A criação da sessão Spark é concluída com a chamada ao **método** `getOrCreate()`, que inicia ou recupera uma sessão Spark existente. Este setup é essencial para utilizar as funcionalidades de análise de dados e aprendizado de máquina fornecidas pelo Spark, incluindo ferramentas como `UnivariateFeatureSelector` e `RFormula` da **biblioteca** `pyspark.ml.feature`, que são mencionadas mas não utilizadas diretamente no trecho apresentado.

In [1]:
import findspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import UnivariateFeatureSelector, RFormula

findspark.init()
spark = SparkSession.builder.appName("univariatefeatureselector").getOrCreate()

No código a seguir, está sendo usada a **biblioteca** Spark para ler um arquivo CSV contendo dados de carros. A **função** `spark.read.csv` é utilizada para carregar o arquivo "../Carros.csv" com as seguintes **parâmetros**: `header=True`, indicando que o arquivo possui cabeçalhos, `inferSchema=True`, que permite a inferência automática dos tipos de dados das colunas, e `sep=";"`, definindo o separador de campos como ponto e vírgula. Em seguida, a **função** `show(5)` é chamada para exibir as primeiras cinco linhas do DataFrame resultante.

In [2]:
carros = spark.read.csv("../Carros.csv", header=True, inferSchema=True, sep=";")
carros.show(5)

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



No código a seguir, está sendo utilizada a **biblioteca** `RFormula` do **Spark** para transformar um conjunto de dados de carros. A **classe** `RFormula` é inicializada com a **fórmula** `"HP ~ ."` indicando que a variável dependente é `HP` e todas as outras colunas são independentes. A **instância** `RFormula` é configurada com os parâmetros `featuresCol` como "independente" e `labelCol` como "dependente". O **método** `fit` é aplicado ao DataFrame `carros` para ajustar o modelo, seguido pelo **método** `transform` para transformar os dados. Finalmente, as colunas "independente" e "dependente" do DataFrame transformado `carrosrf` são selecionadas e exibidas usando a **função** `select` e `show`, respectivamente, sem truncamento dos valores.

In [3]:
Rformula = RFormula(formula="HP ~ .", featuresCol="independente", labelCol="dependente")
carrosrf = Rformula.fit(carros).transform(carros)

carrosrf.select("independente", "dependente").show(truncate=False)

+-----------------------------------------------------+----------+
|independente                                         |dependente|
+-----------------------------------------------------+----------+
|[21.0,6.0,160.0,39.0,262.0,1646.0,0.0,1.0,4.0,4.0]   |110.0     |
|[21.0,6.0,160.0,39.0,2875.0,1702.0,0.0,1.0,4.0,4.0]  |110.0     |
|[228.0,4.0,108.0,385.0,232.0,1861.0,1.0,1.0,4.0,1.0] |93.0      |
|[214.0,6.0,258.0,308.0,3215.0,1944.0,1.0,0.0,3.0,1.0]|110.0     |
|[187.0,8.0,360.0,315.0,344.0,1702.0,0.0,0.0,3.0,2.0] |175.0     |
|[181.0,6.0,225.0,276.0,346.0,2022.0,1.0,0.0,3.0,1.0] |105.0     |
|[143.0,8.0,360.0,321.0,357.0,1584.0,0.0,0.0,3.0,4.0] |245.0     |
|[244.0,4.0,1467.0,369.0,319.0,20.0,1.0,0.0,4.0,2.0]  |62.0      |
|[228.0,4.0,1408.0,392.0,315.0,229.0,1.0,0.0,4.0,2.0] |95.0      |
|[192.0,6.0,1676.0,392.0,344.0,183.0,1.0,0.0,4.0,4.0] |123.0     |
|[178.0,6.0,1676.0,392.0,344.0,189.0,1.0,0.0,4.0,4.0] |123.0     |
|[164.0,8.0,2758.0,307.0,407.0,174.0,0.0,0.0,3.0,3.0] |180.0  

No código a seguir, está sendo realizada a seleção de características univariadas de um conjunto de dados. A **classe** `UnivariateFeatureSelector` é utilizada para criar um objeto `selector` com as colunas de entrada e saída especificadas pelos **parâmetros** `featuresCol`, `outputCol` e `labelCol`. As **funções** `setFeatureType` e `setLabelType` são chamadas para definir os tipos de dados das características e do rótulo como contínuos. Além disso, a **função** `setSelectionThreshold` define o limiar de seleção para 5 características. Em seguida, o método `fit` é utilizado para ajustar o seletor aos dados do **DataFrame** `carrosrf`, e o método `transform` aplica a transformação, resultando no **DataFrame** `carrosuni` com as características selecionadas. Por fim, a **função** `select` é usada para selecionar e exibir as primeiras 5 linhas da coluna `selecionados` sem truncamento.

In [4]:
selector = UnivariateFeatureSelector(featuresCol="independente", outputCol="selecionados", labelCol="dependente")
selector.setFeatureType("continuous").setLabelType("continuous").setSelectionThreshold(5)
carrosuni = selector.fit(carrosrf).transform(carrosrf)
carrosuni.select("selecionados").show(5, truncate=False)

+-----------------------+
|selecionados           |
+-----------------------+
|[21.0,6.0,0.0,1.0,4.0] |
|[21.0,6.0,0.0,1.0,4.0] |
|[228.0,4.0,1.0,1.0,1.0]|
|[214.0,6.0,1.0,0.0,1.0]|
|[187.0,8.0,0.0,0.0,2.0]|
+-----------------------+
only showing top 5 rows

