# _BUSINESS UNDERSTANDING_

## **Previsão de Cancelamento - Churn - através do Método de Classificação**

---

## **Sumário Executivo**

### **Objetivo**
Este projeto tem como objetivo desenvolver um modelo de classificação para prever a probabilidade de cancelamento de assinaturas (churn) em uma plataforma de streaming. A meta principal é identificar usuários com alta chance de cancelamento, permitindo ações proativas para retenção de clientes e redução de perdas.

---

### **Metodologia**
Foi utilizada a abordagem **CRISP-DM (Cross Industry Standard Process for Data Mining)**, que guiou todas as etapas do projeto. Abaixo, destacam-se os passos seguidos:

1. **Entendimento do Negócio**: Identificação de variáveis-chave como idade, número de dispositivos conectados e avaliação média de conteúdos.

2. **Pré-Processamento**: Tratamento de valores ausentes, criação de novas features a partir das variáveis do registro de dados, transformação de variáveis e análise exploratória de dados.

3. **Modelagem**: Ajuste de hiperparâmetros com foco no recall, priorizando a identificação de usuários propensos ao churn.

4. **Validação**: Análise atravéz da matriz de confusão, análise de métricas como AUC-ROC e aplicação de validação cruzada.

5. **Tomada de Decisão**: Implementação de thresholds personalizados para otimização dos resultados em cenários de custo-benefício.


---

### **Resultados**
Os resultados detalhados podem ser encontrados no relatório completo - se encontra no final do projeto -, incluindo métricas de avaliação, insights das variáveis mais importantes e recomendações para os próximos passos.

# _DATA UNDERSTANDING_

#### Importando as bibliotecas e funções

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from data.load_data import load_data
from data.process_data import analisar_qualidade_dados, exibir_estatisticas, generate_class_table, calcular_faixa_por_variavel, comparar_variavel_com_target
from visualizations.plot_results import plot_continuous_data, plot_discrete_data,  plot_class_distribution

ModuleNotFoundError: No module named 'data'

#### Carregando base de dados

In [None]:
# # Carregar e processar os dados
df = load_data('streaming_data.csv')

#### Análise descritiva

#### Análise de qualidade dos dados

In [None]:
analisar_qualidade_dados(df)

#### Medidas estatíticas de resumo por variável

Age

In [None]:
exibir_estatisticas(df['Age'])
plot_continuous_data(df['Age'])

Gender

In [None]:
generate_class_table(df, 'Gender')
plot_class_distribution(df, 'Gender')

Time_on_platform

In [None]:
exibir_estatisticas(df['Time_on_platform'])
plot_continuous_data(df['Time_on_platform'])  

Num_streaming_services

In [None]:
exibir_estatisticas (df['Num_streaming_services'])   
plot_discrete_data(df['Num_streaming_services']) 
generate_class_table(df, 'Num_streaming_services')
plot_class_distribution(df, 'Num_streaming_services')

Subscription_type

In [None]:
generate_class_table(df, 'Subscription_type')
plot_class_distribution(df, 'Subscription_type')

Devices_connected

In [None]:
exibir_estatisticas (df['Devices_connected'])   
plot_discrete_data(df['Devices_connected']) 
generate_class_table(df, 'Devices_connected')
plot_class_distribution(df, 'Devices_connected')

Avg_rating

In [None]:
df['Avg_rating']=round(df['Avg_rating'])
exibir_estatisticas (df['Avg_rating'])   
plot_discrete_data(df['Avg_rating']) 
generate_class_table(df, 'Avg_rating')
plot_class_distribution(df, 'Avg_rating')

Churned

In [None]:
generate_class_table(df, 'Churned')
plot_class_distribution(df, 'Churned')

#### Análise individual das _features_ em relação ao _target_

Faixa de Age por Churned

In [None]:
# dividindo dados contínuos por faixa
calcular_faixa_por_variavel(df,'Age', 'Churned', 10, 1, 'desc')

In [None]:
# Criar o gráfico de barras
plt.figure(figsize=(15, 6))
sns.countplot(x='Variable_bins', hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Churned por Faixa de Tempo na Plataforma')
plt.xticks(rotation=45, ha='right')  # Ajustar rótulos do eixo x para ficarem legíveis
plt.xlabel('Faixa de Tempo')
plt.ylabel('Contagem')
plt.show()

Faixa de Time_on_platform por Churned

In [None]:
# dividindo dados contínuos por faixa
calcular_faixa_por_variavel(df,'Time_on_platform', 'Churned', 21, 1, 'desc')

In [None]:
# Criar o gráfico de barras
plt.figure(figsize=(15, 6))
sns.countplot(x='Variable_bins', hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Churned por Faixa de Tempo na Plataforma')
plt.xticks(rotation=45, ha='right')  # Ajustar rótulos do eixo x para ficarem legíveis
plt.xlabel('Faixa de Tempo')
plt.ylabel('Contagem')
plt.show()

Gender por Chuned

In [None]:
comparar_variavel_com_target(df, 'Gender', 'Churned')


# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x='Gender', hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

Devices_connected por Churned

In [None]:
comparar_variavel_com_target(df, 'Devices_connected', 'Churned')

# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x='Devices_connected', hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

Devices_connected por Churned

In [None]:
comparar_variavel_com_target(df, 'Subscription_type', 'Churned')
# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x='Subscription_type', hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

Num_streaming_services por Churned

In [None]:
comparar_variavel_com_target(df, 'Num_streaming_services', 'Churned')

var_categorico = 'Num_streaming_services'

# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x=var_categorico, hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

Num_active_profiles por Churned

In [None]:
comparar_variavel_com_target(df, 'Num_active_profiles', 'Churned')

var_categorico = 'Num_active_profiles'

# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x=var_categorico, hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

Avg_rating por Churned

In [None]:
comparar_variavel_com_target(df, 'Avg_rating', 'Churned')
var_categorico = 'Avg_rating'

# Criar um gráfico de barras para Gender por Churned
plt.figure(figsize=(15, 6))
sns.countplot(x=var_categorico, hue='Churned', data=df, palette=["Gold", "#FF7043"])
plt.title('Distribuição de Feature por Churned')
plt.show()

#### Análise das _features_ em relação ao _target_

Análise gráfica

In [None]:
df_scaler = df.copy()
# Selecionar as colunas para escalonamento
columns_to_scale = ['Age', 'Time_on_platform', 'Devices_connected', 'Num_active_profiles', 'Avg_rating']
# Inicializar o MinMaxScaler
scaler = MinMaxScaler()
# Aplicar o escalonamento
df_scaler[columns_to_scale] = scaler.fit_transform(df_scaler[columns_to_scale])

df_scaler.plot.box(figsize=(30, 6))
plt.xticks(rotation=60, ha='right');

#### Análise de correlação entre variáveis numéricas

In [None]:
# Selecionar apenas colunas numéricas
numeric_df = df.select_dtypes(include=['number'])

# Calculando a matriz de correlação
corr = numeric_df.corr()

# Plotando o mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, fmt=".2f", cmap='coolwarm', cbar=True)
plt.title("Heatmap de Correlação (somente variáveis numéricas)")
plt.show()