# 0.0 Business Problem

#### Contexto:
A TopBank é uma grande empresa de serviços bancários. Ela atua principalmente nos países da Europa oferecendo produtos financeiros, desde contas bancárias até investimentos, passando por alguns tipos de seguros e produto de investimento.

O modelo de negócio da empresa é do tipo serviço, ou seja, ela comercializa serviços bancários para seus clientes através de agências físicas e um portal online. 

O principal produto da empresa é uma conta bancária, na qual o cliente pode depositar seu salário, fazer saques, depósitos e transferência para outras contas. Essa conta bancária não tem custo para o cliente e tem uma vigência de 12 meses, ou seja, o cliente precisa renovar o contrato dessa conta para continuar utilizando pelos próximos 12 meses.

Segundo o time de Analytics da TopBank, cada cliente que possui essa conta bancária retorna um valor monetário de 15% do valor do seu salário estimado, se esse for menor que a média e 20% se esse salário for maior que a média, durante o período vigente de sua conta. Esse valor é calculado anualmente. 

Por exemplo, se o salário mensal de um cliente é de 1.000 reais e a média de todos os salários do banco é de 800 reais. A empresa, portanto, fatura 200 reais anualmente com esse cliente. Se esse cliente está no banco há 10 anos, a empresa já faturou 2.000 reais com suas transações e utilização da conta. 

Nos últimos meses, o time de Analytics percebeu que a taxa de clientes cancelando suas contas e deixando o banco, atingiu números inéditos na empresa. Preocupados com o aumento dessa taxa, o time planejou um plano de ação para diminuir taxa de evasão de clientes.

Preocupados com a queda dessa métrica, o time de Analytics da TopBottom, contratou você como consultor de Data Science para criar um plano de ação, com o objetivo de reduzir a evasão de clientes, ou seja, impedir que o cliente cancele seu contrato e não o renove por mais 12 meses. Essa evasão, nas métricas de negócio, é conhecida como Churn.

De maneira geral, Churn é uma métrica que indica o número de clientes que cancelaram o contrato ou pararam de comprar seu produto em um determinado período de tempo. Por exemplo, clientes que cancelaram o contrato de serviço ou após o vencimento do mesmo, não renovaram, são clientes considerados em churn.

Outro exemplo seria os clientes que não fazem uma compra à mais de 60 dias. Esse clientes podem ser considerados clientes em churn até que uma compra seja realizada. O período de 60 dias é totalmente arbitrário e varia entre empresas. 

Projeto retirado do Blog Seja Um Data Scientist
https://sejaumdatascientist.com/predicao-de-churn/

Projeto original disponível na plataforma Kaggle
https://www.kaggle.com/mervetorkan/churndataset


## 0.1 Estratégia da Solução:

#### Objetivos:
1. Qual a taxa atual de Churn da Top-Bank? Como ela varia mensalmente?
2. Qual a performance do modelo em classificar os clientes como churn?
3. Qual o retorno esperado, em termos de faturamento, se a empresa utilizar seu modelo para evitar o churn dos clientes?

#### Proposta de Solução:
1. Descobrir a média global de Churn, e utilizar de Exploratory Data Analysis para levantar parâmetros de timeseries para explicar o comportamento da variabilidade ao longo do tempo. (Output = taxa e parâmetros)
2. Escolher métrica de performance, modelar o problema e treinar. (Output = Métricas do modelo)
3. Identificar o custo do churn atual, scorar os clientes, suas probabilidades de churn, definir programa de giftcards, mensurar probabilidade de conversão de clientes em churn, e custo do programa. Retorno financeiro = Churn atual - (menos) Churn predito após programa de giftcards - (menos) custo do programa. (Output = Retorno financeiro)

#### Inputs:
1. Problema de negócio
2. Conjunto de dados com características de 10.000 clientes e seus status de churn

#### Outputs:
1. Tabela de banco de dados SQL com todas as classificações
2. Respostas às perguntas de negócio
3. API com request/predict - v1 | v2 | v3 - 1/0

#### Ciclos:
1. Pipeline de dados, funcional, de ponta a ponta (desde a coleta de dados até o 
    treinamento do modelo)
2. Entender os dados e limpa-los (buscar inconsistências) Análises de estatística
    descritiva de primeira ordem
3. Feature Engineering (criar variáveis que modelam o fenômeno)
4. Criar as hipóteses (10 hipóteses, afirmações)
5. Análise exploratória de dados para validar ou refutar hióteses
6. Treinar o modelo

## 0.2 Sumário:

## 0.3 Resultados e Conclusão:

# 1.0 Imports

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, roc_auc_score, roc_curve

from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss

from xgboost import XGBRFClassifier

import time

In [2]:
df = pd.read_csv('C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\preditor_churn_banco\\churn.csv')

# 2.0 Exploratory Data Analysis and Cleaning

In [3]:
tempo_agora = time.time()

In [4]:
df.head(5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [5]:
df['Exited'].mean()

0.2037

A feature target é desbalanceada, com 20% de churn.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


In [7]:
df.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [8]:
df.describe(include='object')

Unnamed: 0,Surname,Geography,Gender
count,10000,10000,10000
unique,2932,3,2
top,Smith,France,Male
freq,32,5014,5457


In [9]:
# Encondings
df['Geography_enc'] = LabelEncoder().fit_transform(df['Geography'])
df['Gender_enc'] = LabelEncoder().fit_transform(df['Gender'])

In [10]:
df.drop('CustomerId', axis=1).corr()['Exited'].sort_values(ascending=False)[1:]

Age                0.285323
Balance            0.118533
Geography_enc      0.035943
EstimatedSalary    0.012097
HasCrCard         -0.007138
Tenure            -0.014001
RowNumber         -0.016571
CreditScore       -0.027094
NumOfProducts     -0.047820
Gender_enc        -0.106512
IsActiveMember    -0.156128
Name: Exited, dtype: float64

# 3.0 Feature Engineering

# 4.0 Hypothesis

# 5.0 Exploratory Data Analysis

# 6.0 Machine Learning Model

In [11]:
# Encodings
temp = pd.get_dummies(df['Geography_enc'], prefix='Geography', drop_first=True)
df = pd.concat([df, temp], axis=1)

# Removing features
features_remover = 'CustomerId Surname Geography Gender Geography_enc RowNumber'.split()
df.drop(features_remover, axis=1, inplace=True)

# Split features and target
X = df.drop('Exited', axis=1)
y = df['Exited']

# Standard and scaler
scaler = StandardScaler()
X_scaler = scaler.fit_transform(X)
X_scaler = pd.DataFrame(X_scaler, columns = X.columns)

# Hiding test
X_train, X_test, y_train, y_test = train_test_split(X_scaler, y, test_size=0.2, random_state=101)

# Train and validation
X_train_, X_valid, y_train_, y_valid = train_test_split(X_train, y_train, test_size=0.3, random_state=101)

In [12]:
# Solving unbalance
smote = SMOTE()
X_smote, y_smote = smote.fit_resample(X_train_, y_train_)
X_smote = pd.DataFrame(X_smote, columns=X.columns)

# near = NearMiss()
# X_near, y_near = near.fit_resample(X_train_, y_train_)
# X_near = pd.DataFrame(X_near, columns=X.columns)

In [13]:
# Modeling
model = XGBRFClassifier(use_label_encoder=False)
model.fit(X_smote, y_smote, eval_metric='error')
predict = model.predict(X_valid)

# 7.0 Performance

In [14]:
print(classification_report(y_valid, predict))
print(roc_auc_score(y_valid, predict))

              precision    recall  f1-score   support

           0       0.91      0.84      0.88      1923
           1       0.51      0.67      0.58       477

    accuracy                           0.81      2400
   macro avg       0.71      0.76      0.73      2400
weighted avg       0.83      0.81      0.82      2400

0.7574348256949146


**Baseline:** \
Adicionado encodings \
**métricas:** Acc = 0.86, roc_auc = 0.71, f1 score = 92/57

**Adicionado balanceamento:**  \
Adicionado smote para resolver desbalanceamento \
**métricas:** Acc = 0.80, roc_auc = 0.76, f1 score = 87/59 \
Substituindo smote por near para resolver desbalanceamento \
**métricas:** Acc = 0.59, roc_auc = 0.62, f1 score = 69/40

# Time

In [15]:
print(f'O tempo de processamento do projeto foi de: {int(round(time.time()-tempo_agora, 2)/60)} minutos')

O tempo de processamento do projeto foi de: 0 minutos
