# Indexação de Texto com StringIndexer
### Inicializando o PySpark

In [13]:
import findspark
import pyspark
from pyspark.sql import SparkSession

# Faz a Interafce entre o Spark e o Jupyter Notebook
findspark.init()

# Inicializando uma Sessão no Spark
spark = SparkSession.builder.appName("StringIndexer").getOrCreate()

In [20]:
from pyspark.ml.feature import StringIndexer, IndexToString

### Carregando a Base de Dados usado nesta Aula

In [21]:
churn = spark.read.load("Material_do_Curso/Churn.csv", format="csv",
                        sep=";", inferSchema=True, header=True)
churn.show(5)

[Stage 25:>                                                         (0 + 1) / 1]                                                                                

+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|CreditScore|Geography|Gender|Age|Tenure| Balance|NumOfProducts|HasCrCard|IsActiveMember|EstimatedSalary|Exited|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|        619|   France|Female| 42|     2|       0|            1|        1|             1|       10134888|     1|
|        608|    Spain|Female| 41|     1| 8380786|            1|        0|             1|       11254258|     0|
|        502|   France|Female| 42|     8| 1596608|            3|        1|             0|       11393157|     1|
|        699|   France|Female| 39|     1|       0|            2|        0|             0|        9382663|     0|
|        850|    Spain|Female| 43|     2|12551082|            1|        1|             1|         790841|     0|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+-------

### Indexação da Coluna ***Geography***
Aplicando a Indexação na coluna ***Geography*** do conjunto de dados ***Churn***

In [27]:
# Instanciando um Objeto StringIndexer
indece = StringIndexer(inputCol="Geography", outputCol="indice")

# Criando um Modelo para obter a indexação da coluna Geography
modelo = indece.fit(churn)

# Aplicando a Transformação e obtendo os indices para a coluna Geography
dados_Geography_indice = modelo.transform(churn)

# Mostrando os dados originais da coluna Geography e sua respectiva indexação
dados_Geography_indice.select("Geography", "indice").show(10)

+---------+------+
|Geography|indice|
+---------+------+
|   France|   0.0|
|    Spain|   2.0|
|   France|   0.0|
|   France|   0.0|
|    Spain|   2.0|
|    Spain|   2.0|
|   France|   0.0|
|  Germany|   1.0|
|   France|   0.0|
|   France|   0.0|
+---------+------+
only showing top 10 rows



# Índice para Texto com IndexToString

In [29]:
# Criando uma Instância da Classe IndexToString
retorno = IndexToString(inputCol="indice", outputCol="categoriaOriginal")

# Converte a coluna indice para categorias 
convertido = retorno.transform(dados_Geography_indice)

# Mostra o resultado.
convertido.select("Geography", "indice", "categoriaOriginal").show(10)

+---------+------+-----------------+
|Geography|indice|categoriaOriginal|
+---------+------+-----------------+
|   France|   0.0|           France|
|    Spain|   2.0|            Spain|
|   France|   0.0|           France|
|   France|   0.0|           France|
|    Spain|   2.0|            Spain|
|    Spain|   2.0|            Spain|
|   France|   0.0|           France|
|  Germany|   1.0|          Germany|
|   France|   0.0|           France|
|   France|   0.0|           France|
+---------+------+-----------------+
only showing top 10 rows

