### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`ChiSqSelector`</strong>
`ChiSqSelector` é uma classe no **Apache Spark MLlib** que implementa um seletor baseado na estatística de teste do Qui-Quadrado (Chi-Square Test). Ele é utilizado para ***selecionar as melhores características (features) de um conjunto de dados com base na sua relevância para a tarefa de classificação***. O `ChiSqSelector` avalia cada característica em relação à distribuição de valores entre diferentes classes e seleciona aquelas cuja distribuição é significativamente diferente entre as classes, indicando maior potencial de discriminação. Isso ajuda a reduzir dimensionalidade dos dados, removendo características menos informativas e possivelmente melhorando a performance dos modelos de `machine learning`.
</br>
<hr>

No código a seguir, está sendo utilizado o **Spark**, uma estrutura de processamento de dados distribuída, para realizar seleção de características usando a **`Biblioteca` pyspark.ml.feature**. Primeiramente, é importado o **findspark** para facilitar a localização do Spark. Em seguida, são importados **SparkSession** e as **`Bibliotecas` ChiSqSelector e RFormula**. O **SparkSession** é inicializado para criar uma sessão Spark, necessária para interagir com o ambiente de execução do Spark. A **`Classe` ChiSqSelector** é utilizada para selecionar características com base em testes qui-quadrado de independência estatística. A **`Classe` RFormula** é empregada para especificar a fórmula de regressão simbólica. Ambas as classes fazem parte da `biblioteca` **pyspark.ml.feature**, que oferece diversas ferramentas para processamento e transformação de dados. O `método` **builder** é invocado para construir um `objeto` **SparkSession** com o nome de "`chiqsqselector`". Por fim, **getOrCreate()** é chamado para retornar uma instância existente do SparkSession com o nome especificado ou criar uma nova se não houver uma disponível. Esse código configura o ambiente Spark e prepara as ferramentas necessárias para realizar seleção de características em dados de maneira eficiente e escalável.

In [1]:
import findspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import ChiSqSelector, RFormula

findspark.init()
spark = SparkSession.builder.appName("chiqsqselector").getOrCreate()

No código a seguir, está sendo utilizado o **Spark**, uma estrutura de código aberto para processamento de dados em larga escala. A `função` **spark.read.csv** é empregada para carregar um `arquivo` CSV denominado "Carros.csv" como um DataFrame do Spark, onde os `parâmetros` **header=True** e **inferSchema=True** indicam que a primeira linha do arquivo contém os nomes das colunas e que o Spark deve inferir automaticamente os tipos de dados de cada coluna, respectivamente. O `parâmetro` **sep=";"** especifica o delimitador utilizado no `arquivo` CSV como ponto e vírgula. Posteriormente, a `função` **show(5)** é chamada para exibir as primeiras cinco linhas do DataFrame carregado, permitindo uma rápida visualização dos dados e a verificação inicial de sua estrutura e conteúdo. Este código é útil para análise e processamento de dados tabulares em grande escala, com o Spark facilitando operações distribuídas e eficientes em ambientes de processamento de dados distribuídos.

In [2]:
carros = spark.read.csv("../Carros.csv", header=True, inferSchema=True, sep=";")
carros.show(5)

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



No código a seguir, está sendo utilizado o **RFormula**, uma `classe` da `biblioteca` **spark.ml.feature**, do Apache Spark, para criar uma fórmula de regressão linear. Esta fórmula é definida pela relação entre a variável dependente, representada por "HP", e todas as outras variáveis independentes do conjunto de dados. Em seguida, é criado um `objeto` **carrosrf** que aplica essa fórmula ao conjunto de dados **carros** utilizando a `função` **fit** da `classe` **RFormula**. O resultado é uma transformação do conjunto de dados original, onde as `variáveis` independentes são renomeadas e preparadas para serem utilizadas em um `modelo` de regressão. Por fim, utilizando a `função` **select** do `objeto` **carrosrf**, são selecionadas as colunas "independente" e "dependente" e exibidas em formato tabular.

In [3]:
Rformula = RFormula(formula="HP ~ .", featuresCol="independente", labelCol="dependente")
carrosrf = Rformula.fit(carros).transform(carros)

carrosrf.select("independente", "dependente").show(truncate=False)

+-----------------------------------------------------+----------+
|independente                                         |dependente|
+-----------------------------------------------------+----------+
|[21.0,6.0,160.0,39.0,262.0,1646.0,0.0,1.0,4.0,4.0]   |110.0     |
|[21.0,6.0,160.0,39.0,2875.0,1702.0,0.0,1.0,4.0,4.0]  |110.0     |
|[228.0,4.0,108.0,385.0,232.0,1861.0,1.0,1.0,4.0,1.0] |93.0      |
|[214.0,6.0,258.0,308.0,3215.0,1944.0,1.0,0.0,3.0,1.0]|110.0     |
|[187.0,8.0,360.0,315.0,344.0,1702.0,0.0,0.0,3.0,2.0] |175.0     |
|[181.0,6.0,225.0,276.0,346.0,2022.0,1.0,0.0,3.0,1.0] |105.0     |
|[143.0,8.0,360.0,321.0,357.0,1584.0,0.0,0.0,3.0,4.0] |245.0     |
|[244.0,4.0,1467.0,369.0,319.0,20.0,1.0,0.0,4.0,2.0]  |62.0      |
|[228.0,4.0,1408.0,392.0,315.0,229.0,1.0,0.0,4.0,2.0] |95.0      |
|[192.0,6.0,1676.0,392.0,344.0,183.0,1.0,0.0,4.0,4.0] |123.0     |
|[178.0,6.0,1676.0,392.0,344.0,189.0,1.0,0.0,4.0,4.0] |123.0     |
|[164.0,8.0,2758.0,307.0,407.0,174.0,0.0,0.0,3.0,3.0] |180.0  

No código a seguir, está sendo utilizado o **ChiSqSelector**, uma **`Classe`** da `biblioteca` **MLlib**, que implementa a seleção de características baseada no teste qui-quadrado de independência. Ele permite selecionar as melhores características de acordo com uma `métrica` específica, neste caso, utilizando o `método` **fdr** (false discovery rate) com um valor de 0.01 como **Parâmetro**. O **ChiSqSelector** recebe como entrada as colunas de características independentes e dependentes, representadas respectivamente por "independente" e "dependente", e produz uma nova coluna chamada "selecionados" que contém as características selecionadas. Em seguida, é aplicado o seletor aos dados de treinamento utilizando o `método` **fit**, e transforma esses dados utilizando o `método` **transform**. Por fim, é exibido um resumo dos cinco primeiros registros da coluna "selecionados" utilizando o `método` **select**.

In [4]:
selector = ChiSqSelector(selectorType="fdr", fdr=0.01, featuresCol="independente", outputCol="selecionados", labelCol="dependente")
carroscs = selector.fit(carrosrf).transform(carrosrf)

carroscs.select("selecionados").show(5, truncate=False)

+-------------+
|selecionados |
+-------------+
|[160.0,39.0] |
|[160.0,39.0] |
|[108.0,385.0]|
|[258.0,308.0]|
|[360.0,315.0]|
+-------------+
only showing top 5 rows

