## StringIndexer
- Técnica de Categorical Encoding: transforma categorias em números
- Itens mais frequentes recebem os números menores
- Você cria um modelo com um conjunto de dados e usa este modelo para tanformar outros conjuntos de dados
    - Rótulos não conhecidos encontrados são tradados pelo parâmetro haleInvalid, que pode ter os valores como:
        - Execção (default): 'error'
        - Omitir: 'skip'
        - Colocar 'desconhecidos' em uma categoria especial: 'keep'

In [2]:
from pyspark.sql import SparkSession

from pyspark.ml.feature import StringIndexer


spark = (
    SparkSession
    .builder
    .appName('StringIndexer')
    .getOrCreate()
)

spark

In [5]:
df_churn = (
    spark.read.format('csv')
    .option('inferSchema', True)
    .option('delimiter', ';')
    .option('header', True)
    .load('data/Churn.csv')
)

df_churn.show(5)

+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|CreditScore|Geography|Gender|Age|Tenure| Balance|NumOfProducts|HasCrCard|IsActiveMember|EstimatedSalary|Exited|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+
|        619|   France|Female| 42|     2|       0|            1|        1|             1|       10134888|     1|
|        608|    Spain|Female| 41|     1| 8380786|            1|        0|             1|       11254258|     0|
|        502|   France|Female| 42|     8| 1596608|            3|        1|             0|       11393157|     1|
|        699|   France|Female| 39|     1|       0|            2|        0|             0|        9382663|     0|
|        850|    Spain|Female| 43|     2|12551082|            1|        1|             1|         790841|     0|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+-------

In [11]:
indexer = StringIndexer(
    inputCol='Geography',
    outputCol='Geography_idx',
    handleInvalid='keep'
)

model = indexer.fit(df_churn)

df_churn_idx = model.transform(df_churn)
df_churn_idx.showb()

+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+-------------+
|CreditScore|Geography|Gender|Age|Tenure| Balance|NumOfProducts|HasCrCard|IsActiveMember|EstimatedSalary|Exited|Geography_idx|
+-----------+---------+------+---+------+--------+-------------+---------+--------------+---------------+------+-------------+
|        619|   France|Female| 42|     2|       0|            1|        1|             1|       10134888|     1|          0.0|
|        608|    Spain|Female| 41|     1| 8380786|            1|        0|             1|       11254258|     0|          2.0|
|        502|   France|Female| 42|     8| 1596608|            3|        1|             0|       11393157|     1|          0.0|
|        699|   France|Female| 39|     1|       0|            2|        0|             0|        9382663|     0|          0.0|
|        850|    Spain|Female| 43|     2|12551082|            1|        1|             1|         790841|     0

In [26]:
df_churn_idx.select('Geography', 'Geography_idx').orderBy('Geography').show(50)

+---------+-------------+
|Geography|Geography_idx|
+---------+-------------+
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France|          0.0|
|   France| 