### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`Imputer`</strong>
- A principal função do Imputer é substituir valores ausentes por algum valor específico ou estratégia de substituição, como média, mediana ou moda. Ele também pode substituir qualquer outro valor especificado pelo usuário usando o parâmetro setMissingValue.
<br><br><hr>
  

No código a seguir, está sendo utilizado o **`pyspark`**, uma biblioteca para processamento de dados distribuídos utilizando o Apache Spark. Primeiramente, é importado o **`findspark`** para facilitar a inicialização do ambiente do Spark. Em seguida, é importada a classe **`SparkSession`** do **pyspark.sql** para criar uma sessão do Spark, permitindo a interação com os dados. Com a sessão criada, é invocado o método **`builder`** para configurar a sessão, onde é definido o nome da aplicação como "imputer". Por fim, a função **`getOrCreate`()** é utilizada para obter a sessão Spark existente ou criar uma nova, caso não exista, e atribuí-la à variável **spark**, pronta para ser usada em operações de processamento de dados.

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession
findspark.init()

spark = SparkSession.builder.appName("imputer").getOrCreate()

No código a seguir, está sendo importada a biblioteca **pyspark.ml.feature** para utilizar a função **`Imputer`**. Essa função é utilizada para preencher valores faltantes em conjuntos de dados, como em um DataFrame do Spark, substituindo esses valores pela média ou mediana das colunas correspondentes. Essa é uma etapa importante no pré-processamento de dados, garantindo que o conjunto de dados esteja completo antes de realizar análises ou treinamento de modelos de machine learning.

In [2]:
from pyspark.ml.feature import Imputer

No código a seguir, está sendo utilizado o **`Spark`** para ler um arquivo CSV chamado "CarrosNAN.csv". A função **`spark.read.csv`** é usada para essa finalidade, onde definimos que o arquivo possui cabeçalho e o esquema deve ser inferido automaticamente. O separador de colunas é definido como ponto e vírgula. Em seguida, a função **carros.`show`()** é usada para exibir os dados do DataFrame carros no console.

In [3]:
carros = spark.read.csv("../CarrosNAN.csv", header=True, inferSchema=True, sep=";")
carros.show()

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|       null|             39|2875| null|        0|          1|      4|          4|110|
|    228|        0|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        0|       null|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        0|        360|            315|null| 1702|        0|          0|      3|          2|175|
|    181|        6|        225|            276| 346| null|        1|          0|      3|          1|105|
|    143|        8|        360|            321| 357| 15

No código a seguir, está sendo utilizado o **`Imputer`** para preencher valores faltantes nas colunas "Cilindradas" e "Peso" do dataframe **carros**. Em seguida, um modelo é ajustado aos dados usando o método **`fit`** e transforma o dataframe original com os valores imputados, armazenando o resultado de volta na variável **carros**. Por fim, são selecionadas as colunas "novaCilindradas" e "novaPeso" e exibidas usando o método **`show`**.

In [4]:
imput = Imputer(inputCols=["Cilindradas","Peso"], outputCols=["novaCilindradas", "novaPeso"])
modelo = imput.fit(carros)
carros = modelo.transform(carros)

carros.select("novaCilindradas", "novaPeso").show()

+---------------+--------+
|novaCilindradas|novaPeso|
+---------------+--------+
|            160|     262|
|            848|    2875|
|            108|     232|
|            848|    3215|
|            360|    1318|
|            225|     346|
|            360|     357|
|           1467|     319|
|           1408|     315|
|           1676|     344|
|           1676|    1318|
|           2758|     407|
|           2758|     373|
|           2758|     378|
|            472|     525|
|            848|    5424|
|            440|    5345|
|            787|      22|
|            757|    1615|
|            711|    1835|
+---------------+--------+
only showing top 20 rows



No código a seguir, está sendo utilizada a classe **`Imputer`** da biblioteca **pyspark.ml** para lidar com valores ausentes no conjunto de dados. Primeiro, é criado um objeto **imput** que irá substituir os valores ausentes na coluna "Cilindros" por sua mediana, e a coluna resultante é renomeada para "novaCilindros". Em seguida, são definidos os parâmetros da estratégia de imputação com **`setStrategy`("median")** e o valor ausente é especificado como 0 com **`setMissingValue`(0)**. Após isso, o objeto **imput** é ajustado aos dados utilizando o método **`fit`()** com o DataFrame **carros** e a transformação é aplicada com **`transform`()**. Por fim, apenas as colunas "Cilindros" e "novaCilindros" são selecionadas e exibidas com **`show`()**. Este código é útil para lidar com valores ausentes em conjuntos de dados, garantindo que as análises subsequentes sejam realizadas de forma mais precisa e confiável.

In [5]:
imput = Imputer(inputCols=["Cilindros"], outputCols=["novaCilindros"])
imput.setStrategy("median").setMissingValue(0).fit(carros).transform(carros).select("Cilindros","novaCilindros").show()

+---------+-------------+
|Cilindros|novaCilindros|
+---------+-------------+
|        6|            6|
|        6|            6|
|        0|            6|
|        0|            6|
|        0|            6|
|        6|            6|
|        8|            8|
|        4|            4|
|        4|            4|
|        0|            6|
|        6|            6|
|        8|            8|
|        8|            8|
|        8|            8|
|        8|            8|
|        8|            8|
|        8|            8|
|        4|            4|
|        4|            4|
|        4|            4|
+---------+-------------+
only showing top 20 rows

