### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`StringIndexer`</strong>

O modelo criado com um conjunto de dados no StringIndexer é usado para transformar outros conjuntos de dados. Ele atribui números únicos para cada categoria encontrada nos dados de treinamento. Os itens mais frequentes recebem números menores. Para lidar com rótulos não conhecidos, você pode usar o parâmetro "`handleInvalid`" com os valores "`error`" (exceção padrão), "`skip`" (omitir) ou "`keep`" (colocar em uma categoria especial chamada "desconhecidos"). 
<hr>

No código a seguir, está sendo utilizado o **`findspark`** para localizar e configurar o ambiente do Spark no Python. Em seguida, são importados os módulos necessários do **`pyspark`**, incluindo o **`SparkSession`** da biblioteca **pyspark.sql**. A função **`init`()** é chamada para inicializar o Spark, e em seguida, é criada uma sessão Spark utilizando o **SparkSession.builder**, com o nome de aplicação definido como "stringindexer". Essa sessão Spark é atribuída à variável **spark**. Esse código é utilizado para configurar e iniciar o ambiente Spark no Python, preparando-o para realizar operações de processamento de dados distribuídos.

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession

findspark.init()
spark = SparkSession.builder.appName("stringindexer").getOrCreate()

No código a seguir, está sendo utilizado o módulo **pyspark.ml.feature** para importar a função **`StringIndexer`**. Esta função é usada para converter uma coluna de strings em uma coluna de índices numéricos em um DataFrame Spark. Por exemplo, se houver uma coluna de categorias como "A", "B" e "C", o StringIndexer atribuirá o índice 0 para "A", 1 para "B" e 2 para "C". Isso é útil para preparar dados de texto para algoritmos de aprendizado de máquina, que geralmente requerem entradas numéricas. Com a conversão para índices numéricos, as strings podem ser usadas como características em modelos de machine learning.

In [2]:
from pyspark.ml.feature import StringIndexer

No código a seguir, está sendo realizado o carregamento de um conjunto de dados chamado "Churn.csv" para análise de churn utilizando o Spark. A variável **churn** recebe os dados do arquivo CSV com o auxílio da função **spark.read.load**. A função **`load`** é usada para carregar o arquivo, especificando o caminho do arquivo, o formato do arquivo (no caso, CSV), o separador de campos (ponto e vírgula), a inferência do esquema (inferSchema=True) para determinar automaticamente os tipos de dados das colunas e o cabeçalho (header=True) para indicar que a primeira linha contém os nomes das colunas. Em seguida, a função **`show`** é usada para exibir as primeiras cinco linhas do conjunto de dados, facilitando a visualização inicial da estrutura e dos dados.

In [3]:
churn = spark.read.load("../Churn.csv", format="csv", sep=";", inferSchema=True, header=True)
churn.show(5)

+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|CreditScore|Geography|Gender|Age|Tenure| Balance|NumOfProducts|HasCrCard|IsActiveMember|EstimatedSalary|Exited|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|        619|   France|Female| 42|     2|       0|            1|        1|             1|       10134888|     1|
|        608|    Spain|Female| 41|     1| 8380786|            1|        0|             1|       11254258|     0|
|        502|   France|Female| 42|     8| 1596608|            3|        1|             0|       11393157|     1|
|        699|   France|Female| 39|     1|       0|            2|        0|             0|        9382663|     0|
|        850|    Spain|Female| 43|     2|12551082|            1|        1|             1|         790841|     0|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+-------

No código a seguir, está sendo realizado o processo de indexação de uma coluna chamada "Geography" usando a biblioteca **`StringIndexer`** do **Apache Spark** em Python. Primeiramente, é criado um objeto **indice** que recebe a função **`StringIndexer`**, onde é especificado que a coluna de entrada é "Geography" e a coluna de saída é denominada como "indice". Em seguida, é instanciado um modelo utilizando o método **`fit`** aplicado ao objeto **indice**, que é treinado com os dados fornecidos pelo dataframe **churn**. Posteriormente, a indexação é aplicada aos dados do dataframe **churn** e o resultado é armazenado no dataframe **dadoscomindice**. Por fim, são selecionadas as colunas "Geography" e "indice" do dataframe resultante e são exibidas as primeiras 10 linhas utilizando o método **`show`**. Essa indexação é útil para transformar dados categóricos em numéricos, facilitando o processamento por algoritmos de machine learning.

In [4]:
indice = StringIndexer(inputCol="Geography", outputCol="indice")
modelo = indice.fit(churn)
dadoscomindice = modelo.transform(churn)

dadoscomindice.select("Geography","indice").show(10)

+---------+------+
|Geography|indice|
+---------+------+
|   France|   0.0|
|    Spain|   2.0|
|   France|   0.0|
|   France|   0.0|
|    Spain|   2.0|
|    Spain|   2.0|
|   France|   0.0|
|  Germany|   1.0|
|   France|   0.0|
|   France|   0.0|
+---------+------+
only showing top 10 rows

