# üöÄ Pipeline de Churn Prediction - Arquitetura Medallion

Este notebook simula a transi√ß√£o da camada **Silver** para a **Gold**, aplicando engenharia de atributos (Feature Engineering) e treinando um modelo de Machine Learning para prever o cancelamento de clientes (Churn). Foi otimizado para a infraestrutura do Databricks Free Edition.

## 1. Instala√ß√£o e Importa√ß√£o de Bibliotecas
O Databricks j√° possui o PySpark nativamente, mas vamos importar as fun√ß√µes necess√°rias para o nosso pipeline de ML.

In [None]:
from pyspark.sql.functions import col, datediff, current_date, to_date
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator

## 2. Ingest√£o de Dados (Camada Silver)
Nesta etapa, carregamos os dados j√° limpos e estruturados da nossa tabela (ou arquivo CSV) na camada Silver.

In [None]:
# Lendo o CSV mapeado no Unity Catalog / Volumes (Camada Silver)
file_path = "/Volumes/workspace/voc/churn/churn_silver_2025.csv"

df_silver = spark.read.csv(file_path, header=True, inferSchema=True)
display(df_silver.limit(5))

## 3. Tratamento e Feature Engineering (Silver ‚û°Ô∏è Gold)
Criaremos novas vari√°veis (features) que ajudar√£o o algoritmo a encontrar padr√µes.
* **taxa_uso_valor**: Rela√ß√£o entre os logs de uso e a mensalidade paga.
* **dias_desde_assinatura**: O tempo de vida (tenure) do cliente na base.

In [None]:
df_gold_prep = df_silver.withColumn(
    "taxa_uso_valor", 
    col("total_logs_app_30d") / (col("valor_mensalidade") + 0.01) # Evita divis√£o por zero
).withColumn(
    "dias_desde_assinatura", 
    datediff(current_date(), to_date(col("data_assinatura")))
).na.drop() # Tratamento b√°sico de eventuais nulos

display(df_gold_prep.limit(5))

## 4. Prepara√ß√£o para Machine Learning
Modelos precisam de n√∫meros para operar. Aqui convertemos textos para √≠ndices e agrupamos todas as vari√°veis num vetor de caracter√≠sticas (`features`).

In [None]:
# Tratamento da Vari√°vel Categ√≥rica
indexer = StringIndexer(inputCol="categoria_principal_voc", outputCol="categoria_indexada", handleInvalid="keep")
df_indexed = indexer.fit(df_gold_prep).transform(df_gold_prep)

# Vetoriza√ß√£o das Features
assembler = VectorAssembler(
    inputCols=["valor_mensalidade", "total_logs_app_30d", "tickets_suporte_abertos", 
               "score_sentimento_voc", "taxa_uso_valor", "dias_desde_assinatura", "categoria_indexada"],
    outputCol="features"
)
df_features = assembler.transform(df_indexed)

## 5. Divis√£o de Dados e Treinamento do Modelo
Separamos **80% dos dados para treino** e **20% para teste**. Em seguida, instanciamos o `RandomForestClassifier`.

In [None]:
# Split de Treino e Teste
train_data, test_data = df_features.randomSplit([0.8, 0.2], seed=42)

# Treinamento do Random Forest
# Par√¢metros enxutos (numTrees=50, maxDepth=5) para rodar suavemente na Free Edition
rf = RandomForestClassifier(featuresCol="features", labelCol="churn", numTrees=50, maxDepth=5, seed=42)
rf_model = rf.fit(train_data)

## 6. Avalia√ß√£o do Modelo
Testamos a qualidade da nossa IA em dados n√£o vistos previamente utilizando duas m√©tricas de classifica√ß√£o robustas.

In [None]:
predictions = rf_model.transform(test_data)

# C√°lculo da AUC-ROC
evaluator_roc = BinaryClassificationEvaluator(labelCol="churn", rawPredictionCol="rawPrediction", metricName="areaUnderROC")
auc_roc = evaluator_roc.evaluate(predictions)

# C√°lculo da Acur√°cia
evaluator_acc = MulticlassClassificationEvaluator(labelCol="churn", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator_acc.evaluate(predictions)

print("=" * 30)
print(f"üìä Acur√°cia do Modelo: {accuracy:.4f}")
print(f"üìà AUC-ROC: {auc_roc:.4f}")
print("=" * 30)

## 7. Gera√ß√£o da Tabela Gold e Conclus√£o
A base final `churn_predictions_gold` consolida o `id_cliente`, as probabilidades geradas pelas √°rvores de decis√£o e a classifica√ß√£o bin√°ria final.

In [None]:
churn_predictions_gold = predictions.select("id_cliente", "probability", "prediction") \
                                    .withColumnRenamed("prediction", "previsao_churn")

# Visualizando o DataFrame Gold
display(churn_predictions_gold)

# Em um ambiente produtivo real, o comando abaixo salvaria na camada Gold:
# churn_predictions_gold.write.mode("overwrite").saveAsTable("gold.churn_predictions")

### ‚úÖ Conclus√£o
O pipeline foi executado com sucesso! 
Os dados brutos (Silver) foram higienizados e transformados matematicamente (Feature Eng). Ap√≥s serem indexados e vetorizados, passaram por um classificador de Floresta Aleat√≥ria que identificou o padr√£o de evas√£o. Agora possu√≠mos um Dataframe na camada Gold enriquecido com a probabilidade de evas√£o, pronto para ser plugado em pain√©is ou fluxos de CRM de reten√ß√£o.