# 1.Introdução

# Etapas do Processo

    1. Introdução
        Explicação sobre os dados e o processo a ser realizado.
        
    2. Importação das Bibliotecas
        Importação das bibliotecas que serão utilizadas no processo.
        
    3. Criação do Ambiente Spark
        A criação de um ambiente Spark é o processo de configurar um ambiente de computação que utiliza o Apache Spark, um framework de processamento de dados em larga escala. Este ambiente pode incluir a instalação do Spark, configuração de variáveis de ambiente, e a integração com ferramentas como Jupyter Notebook, que permitem a interação com os dados de forma eficiente e intuitiva.
        Os motivos para a decisão de trabalhar com spark são:
        
            * Processamento Distribuído: O Apache Spark é projetado para processar grandes volumes de dados de forma distribuída, o que significa que ele pode realizar operações em paralelo em clusters de computação, resultando em maior eficiência e velocidade.
            
           *  Flexibilidade: O Spark suporta diversas linguagens de programação, como Python, Java, Scala e R. Isso permite que os desenvolvedores escolham a linguagem com a qual estão mais confortáveis, facilitando a integração e a implementação de soluções de dados.
            
            * Diversas Funcionalidades: O ambiente Spark oferece uma gama de bibliotecas e módulos, como Spark SQL, MLlib (para aprendizado de máquina), Spark Streaming (para processamento de dados em tempo real) e GraphX (para processamento de gráficos), permitindo uma variedade de aplicações em diferentes áreas.
            
            * Integração com Big Data: O Spark é frequentemente utilizado em conjunto com sistemas de armazenamento de dados grandes, como Hadoop, Apache Cassandra e Amazon S3, permitindo o acesso e o processamento de dados em larga escala.
            
            * Desempenho: O Spark é otimizado para desempenho, com características como execução em memória, o que reduz o tempo necessário para ler e escrever dados em disco. Isso o torna mais rápido em comparação com outras soluções de processamento de dados.
        
            * Análise de Dados Interativa: A criação de um ambiente Spark, especialmente em conjunto com ferramentas como Jupyter Notebook, facilita a análise interativa de dados. Os usuários podem executar comandos e visualizar resultados em tempo real, promovendo uma melhor exploração dos dados.        
            
    4. Importação dos Dados
        Nesta etapa serão importados os dados a serem trabalhados neste notebook.
        
    5. Análise Exploratória dos Dados
        A análise exploratória dos dados é a etapa em que as tabelas importadas anteriormente serão analisadas quanto ao tipo dos metadados, à quantidade de dados, aos dados faltantes, às suas distribuições, entre outras informações fundamentais para iniciar qualquer tipo de trabalho.
        
    6. Tratamento dos Dados
        Nesta etapa iremos realizar a feature selection que é o processo de identificar e selecionar as características (features) mais relevantes de um conjunto de dados para a construção de um modelo de machine learning. Essa etapa é crucial no pré-processamento dos dados, pois impacta diretamente na qualidade e desempenho do modelo. Os principais motivos de realizar a feature selection são: Redução da Dimensionalidade, Melhoria da Performance do Modelo, Interpretação e Explicabilidade, Aumento da Generalização e Facilitação da Visualização.
        
    7. Criação de Novo Arquivo
        Ao final do processo, iremos gerar novos arquivos no formato .csv e .parquet.

Esses dados são fictícios e simulam as operações de uma empresa que gostaria de avaliar a perda de clientes (Churn).

Considere os dados:

    * Base de Churn com informações cadastrais de 1000 pessoas
    * Base de Transações contendo as transações históricas de compras feitas por essas pessoas, incluindo detalhes como data da compra, valor gasto e categoria do produto

Criar as seguintes variáveis explicativas:

    * Tempo desde a Última Transação: A diferença entre a data mais recente no conjunto de dados e a última data de compra de cada cliente.
    * Frequência de Compra: Quantidade de compras que o cliente fez dividida pelo número de meses desde sua inscrição.
    * Total Gasto: Soma de todos os valores gastos pelo cliente em todas as suas transações.
    * Categoria Favorita: Categoria de produto em que o cliente gastou a maior quantia.
    * Gasto Médio por Transação: Total gasto dividido pelo número total de transações.
    * Duração da Assinatura: Número de dias desde que o cliente se inscreveu até a data mais recente no conjunto de dados.
    * Número de Categorias Compradas: Quantidade de categorias diferentes das quais o cliente comprou.
    * Usou Suporte antes da Primeira Compra: Indicador (1 ou 0) se o cliente usou o suporte antes de fazer sua primeira compra.
    * Dias entre Inscrição e Primeira Compra: Diferença em dias entre a data de inscrição do cliente e sua primeira transação.
    * Frequência de Transações por Plano: Número de transações do cliente dividido pelos meses de inscrição, segmentado por plano (Básico, Intermediário, Avançado)

Variáveis históricas - 3 meses:

    * Média do Valor Gasto em Esportes nos Últimos 3 Meses: Esta variável calcula a média dos gastos do cliente na categoria "Esportes" nos últimos três meses.
    * Média do Valor Gasto em Eletrônicos nos Últimos 3 Meses: Semelhante à anterior, mas focada na categoria "Eletrônicos".
    * Média do Valor Gasto em Roupas nos Últimos 3 Meses: Foca na categoria "Roupas", representando a média dos gastos do cliente nos últimos três meses.
    * Média do Valor Gasto em Alimentos nos Últimos 3 Meses: Representa a média dos gastos do cliente na categoria "Alimentos" nos últimos três meses.
    * Média do Valor Gasto em Livros nos Últimos 3 Meses: Foca na categoria "Livros", calculando a média dos gastos do cliente nos últimos três meses.
    Repita o passo anterior considerando - últimos 6 meses, 9 meses e 12 meses.

# 2.Importação das Bibliotecas

In [4]:
!pip install pyspark
!pip install findspark



In [20]:
import findspark
findspark.init()
from pyspark.sql import SparkSession, functions as F

# 3.Criação do Ambiente Spark

In [21]:
spark = SparkSession.builder.appName("Feature Selection").getOrCreate()
spark

# 4. Importação dos Dados

In [22]:
base_file_path = "../data/base_churn.csv"
transaction_file_path = "../data/base_transacoes.csv"

df_base = spark.read.csv(base_file_path, header=True, inferSchema=True)
df_transaction = spark.read.csv(transaction_file_path, header=True, inferSchema=True)

df_base.show(5)
df_transaction.show(5)

+---+-----+------+----------------------+------------+-------------+-----+
| ID|Idade|Gênero|Dias desde a Inscrição|Usou Suporte|        Plano|Churn|
+---+-----+------+----------------------+------------+-------------+-----+
|  1|   21|     F|                  1331|           1|Intermediário|    1|
|  2|   21|     M|                  1160|           0|Intermediário|    0|
|  3|   62|     M|                   454|           1|       Básico|    0|
|  4|   64|     M|                   226|           1|Intermediário|    0|
|  5|   61|     M|                   474|           1|     Avançado|    0|
+---+-----+------+----------------------+------------+-------------+-----+
only showing top 5 rows

+------------+----------+--------------------+------------------+-----------+
|ID Transação|ID Cliente|                Data|             Valor|  Categoria|
+------------+----------+--------------------+------------------+-----------+
|           1|         1|2022-11-25 13:50:...|57.287427536330505| 

# 5. Análise Exploratória dos Dados

In [27]:
""" 
##### Lista de coisas a serem feitas #####

Ajustar os nomes de cada coluna
, checar se os valores conferem com o tipo de cada coluna ok
, padronizar os nomes das colunas conforme seus tipos de metadados
, 
, 
"""

' \n##### Lista de coisas a serem feitas #####\n\nAjustar os nomes de cada coluna\n, checar se os valores conferem com o tipo de cada coluna\n, padronizar os nomes das colunas conforme seus tipos de metadados\n, \n, \n'

In [24]:
df_base.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- Idade: integer (nullable = true)
 |-- Gênero: string (nullable = true)
 |-- Dias desde a Inscrição: integer (nullable = true)
 |-- Usou Suporte: integer (nullable = true)
 |-- Plano: string (nullable = true)
 |-- Churn: integer (nullable = true)



In [15]:
df_transaction.printSchema()

root
 |-- ID Transação: integer (nullable = true)
 |-- ID Cliente: integer (nullable = true)
 |-- Data: timestamp (nullable = true)
 |-- Valor: double (nullable = true)
 |-- Categoria: string (nullable = true)



In [13]:
print("df_base:", df_base.count())
print("df_transaction:", df_transaction.count())

df_base: 1000
df_transaction: 10171


# 6. Tratamento dos Dados

# 7. Criação de Novo Arquivo