### Prof. Fernando Amaral - www.eia.ai
### Contribuição: Adriano Santos
#### <strong><font color=orange>Machine Learning com Spark</font></strong>
## <strong>`IndexToString`</strong>

A função do IndexToString é converter um índice de volta para a categoria original. "Converter de volta um índice para a categoria" significa transformar um valor numérico, típico de um índice ou código, em uma representação mais compreensível ou significativa, geralmente relacionada a uma categoria específica. Por exemplo, se tivermos um índice numérico que representa os tipos de produtos (1 para eletrônicos, 2 para roupas, etc.), converter de volta para a categoria significa atribuir a cada número o nome da categoria correspondente. Portanto, o `IndexToString` pode ser usado para mostrar valores "reais" ao converter os índices de volta para suas categorias correspondentes. Ele cria um atributo com a coluna original, permitindo que os valores "reais" sejam exibidos quando necessário.
<br><br><hr>

No código a seguir, está sendo utilizado o **`findspark`** para localizar o Spark na máquina, junto com a biblioteca **`pyspark`**. Em seguida, é importada a classe **`SparkSession`** do módulo **pyspark.sql**. O método **`init`()** é chamado para inicializar o **`findspark`**, permitindo que o Spark seja localizado. Uma sessão Spark é então criada utilizando o método **`builder`**, onde o nome da aplicação é definido como "indextostring". Essa sessão é armazenada na variável **spark**. Este código tem como objetivo iniciar uma sessão Spark para processamento de dados utilizando a biblioteca **`pyspark`**.

In [1]:
import findspark, pyspark
from pyspark.sql import SparkSession
findspark.init()

spark = SparkSession.builder.appName("indextostring").getOrCreate()

No código a seguir, está sendo utilizado o **`pyspark`**, uma biblioteca para processamento de big data em Python. A linha de código importa a classe **`StringIndexer`** do módulo **`feature`** dessa biblioteca. O **`StringIndexer`** é uma função que converte rótulos de strings em índices de números inteiros, o que é útil para o pré-processamento de dados categóricos em algoritmos de aprendizado de máquina. Ele atribui um índice único a cada valor distinto na coluna de strings, facilitando o processamento e a análise subsequentes dos dados. Essa funcionalidade é comumente utilizada em pipelines de Machine Learning no ambiente do Spark para lidar com dados categóricos.

In [2]:
from pyspark.ml.feature import StringIndexer

No código a seguir, está sendo carregado um conjunto de dados chamado "Churn.csv" usando a biblioteca **`spark`** do Apache Spark em Python. O conjunto de dados é lido a partir do arquivo "../Churn.csv", utilizando o formato CSV e configurando o separador como ponto e vírgula. A opção "`inferSchema`" é definida como verdadeira para inferir automaticamente os tipos de dados das colunas, enquanto "`header`" é configurado como verdadeiro para indicar que a primeira linha contém os nomes das colunas. Em seguida, os primeiros cinco registros do conjunto de dados são mostrados na saída usando a função **`show`(5)**. Este código é útil para carregar e visualizar rapidamente os primeiros registros de um conjunto de dados no ambiente do Apache Spark.

In [4]:
churn = spark.read.load("../Churn.csv", format="csv", sep=";", inferSchema=True, header=True)

churn.show(5)

+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|CreditScore|Geography|Gender|Age|Tenure| Balance|NumOfProducts|HasCrCard|IsActiveMember|EstimatedSalary|Exited|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|        619|   France|Female| 42|     2|       0|            1|        1|             1|       10134888|     1|
|        608|    Spain|Female| 41|     1| 8380786|            1|        0|             1|       11254258|     0|
|        502|   France|Female| 42|     8| 1596608|            3|        1|             0|       11393157|     1|
|        699|   France|Female| 39|     1|       0|            2|        0|             0|        9382663|     0|
|        850|    Spain|Female| 43|     2|12551082|            1|        1|             1|         790841|     0|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+-------

No código a seguir, está sendo utilizado o **`StringIndexer`** para transformar a coluna "Geography" em índices numéricos, armazenados na coluna "indice". Primeiro, é criado um objeto **StringIndexer** especificando a coluna de entrada como "Geography" e a coluna de saída como "indice". Em seguida, o modelo é ajustado aos dados de churn utilizando o método **`fit`**. Posteriormente, os dados são transformados com o método **`transform`** o modelo ajustado, e apenas as colunas "Geography" e "indice" são selecionadas com o método **`select`** e exibidas para as primeiras 10 linhas usando o método **`show`**. Este código é útil para codificar variáveis categóricas em um formato numérico para posterior uso em modelos de aprendizado de máquina.

In [5]:
indice = StringIndexer(inputCol="Geography", outputCol="indice")
modelo = indice.fit(churn)
dadoscomindice = modelo.transform(churn)

dadoscomindice.select("Geography","indice").show(10)

+---------+------+
|Geography|indice|
+---------+------+
|   France|   0.0|
|    Spain|   2.0|
|   France|   0.0|
|   France|   0.0|
|    Spain|   2.0|
|    Spain|   2.0|
|   France|   0.0|
|  Germany|   1.0|
|   France|   0.0|
|   France|   0.0|
+---------+------+
only showing top 10 rows



No código a seguir, está sendo utilizado o **`pyspark`**, uma biblioteca para processamento distribuído em Python. Importa-se a função **`IndexToString`** da biblioteca **pyspark.ml.feature** para realizar uma conversão de índices para valores originais. A variável **retorno** é criada para configurar a conversão, especificando a coluna de entrada como **"indice"** e a coluna de saída como **"categoriaoriginal"**. Em seguida, aplica-se essa transformação aos dados contidos na variável **dadoscomindice** e armazena-se o resultado na variável **convertido**. Por fim, seleciona-se algumas colunas (**"Geography"**, **"indice"** e **"categoriaoriginal"**) do DataFrame convertido e exibe-se as primeiras cinco linhas utilizando o método **`show`(5)**. Este código é útil em análises de dados com o Spark, principalmente para converter índices numéricos de categorias em seus valores originais, facilitando a interpretação dos resultados.

In [6]:
from pyspark.ml.feature import IndexToString

retorno = IndexToString(inputCol="indice", outputCol="categoriaoriginal")
convertido = retorno.transform(dadoscomindice)

convertido.select("Geography","indice","categoriaoriginal").show(5)

+---------+------+-----------------+
|Geography|indice|categoriaoriginal|
+---------+------+-----------------+
|   France|   0.0|           France|
|    Spain|   2.0|            Spain|
|   France|   0.0|           France|
|   France|   0.0|           France|
|    Spain|   2.0|            Spain|
+---------+------+-----------------+
only showing top 5 rows

