# Modelo de Churn

##  Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# Para persistir modelos
import joblib as jb
import pickle

#ignore warnings
import warnings
warnings.filterwarnings("ignore")

## Importando as bases

In [2]:
df_raw = pd.read_csv("..\\Bases\\WA_Fn-UseC_-Telco-Customer-Churn.csv")

In [3]:
df_raw.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [4]:
df_raw_production = df_raw[7000:]
df_raw = df_raw[:7000]

In [None]:
print("Esta base contém: {} linhas e  {} colunas.".format(df_raw.shape[0], df_raw.shape[1]))

## Data Exploration

### Análise do Target

In [None]:
sns.countplot(df_raw.Churn)

### Missing Values

In [None]:
print("Esta base contém " + str(df_raw.isnull().sum().sum()) + ' valores nulos.')

### Tipos

In [None]:
print("Quantidade de categóricas: {}\nQUantidade de numéricas {}".format(np.sum(df_raw.dtypes == 'object'),
                                                                         np.sum(df_raw.dtypes != 'object')))

#### Avaliação das numéricas

In [None]:
df_raw[df_raw.columns[df_raw.dtypes!='object']]

Observamos que ``SeniorCitizen`` não é uma feature numérica "de verdade". é uma categórica transformada em _dummy_ .

In [5]:
df_raw['SeniorCitizen'] = ['Yes' if x == 1 else 'No' for x in df_raw.SeniorCitizen]

##### Análise das distribuições

In [None]:
plt.figure(figsize=(10,7))
sns.distplot(df_raw.tenure)

In [None]:
plt.figure(figsize=(10,7))
sns.distplot(df_raw.MonthlyCharges)

#### Avaliação das categóricas

In [None]:
df_raw[df_raw.columns[df_raw.dtypes=='object']]

##### O valor de ``customerID`` é único?

In [None]:
print("Existe {} clientes com mais de um valor na base de dados.".format(
      np.sum(df_raw.customerID.value_counts()>1)))

##### As variáveis categóricas apresentam muitas categorias?

In [None]:
df_raw[df_raw.columns[df_raw.dtypes=='object']].nunique()

Apareceu uma variável estranha ``TotalCharges`` como categórica, vamos avaliar:

In [None]:
df_raw.TotalCharges.value_counts()

Tem valores vazios! Vamos corrigir isso...

In [6]:
df_raw['TotalCharges'] = df_raw.TotalCharges.str.replace(" ", "0")
df_raw['TotalCharges'] = pd.to_numeric(df_raw.TotalCharges)

### Outliers

In [None]:
df_raw[df_raw.columns[df_raw.dtypes!='object']]

Como vimos, nenhuma das colunas acima apresenta uma distribuição normal. A determinação do outlier será realizada a partir de IQR:

Função para determinação de outliers

In [7]:
def identificar_outliers(df, col):
    import scipy.stats as ss
    iqr = ss.iqr(df[col])
    limite_outlier_superior = np.percentile(df[col], 75) + 1*iqr
    limite_outlier_inferior = np.percentile(df[col], 25) - 1*iqr
    
    not_outlier = [(x <= limite_outlier_superior)|( x >= limite_outlier_inferior) for x in df[col]]
    
    print ("{} tem {} outliers.".format(col, len(not_outlier)-np.sum(not_outlier)))
    return not_outlier

Determinando outliers:

In [8]:
for col in df_raw.columns[df_raw.dtypes!='object']:
    df_raw = df_raw[identificar_outliers(df_raw, col)]

tenure tem 0 outliers.
MonthlyCharges tem 0 outliers.
TotalCharges tem 0 outliers.


## Data Preparation para modelagem

### Train Test Split

In [9]:
from sklearn.model_selection import train_test_split

#### Separação em dependente e independentes

In [10]:
X = df_raw[['gender', 'SeniorCitizen', 'Partner', 'Dependents',
               'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
               'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
               'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
               'PaymentMethod', 'MonthlyCharges', 'TotalCharges']]
y = df_raw['Churn']

#### Criação das dummies

In [11]:
from sklearn.preprocessing import OneHotEncoder

In [12]:
ohe = OneHotEncoder(sparse=False, handle_unknown='ignore').fit(X[X.columns[X.dtypes=='object']])

X_dummy_cat = pd.DataFrame(columns = ohe.get_feature_names(),
                           data= ohe.transform(X[X.columns[X.dtypes=='object']]))

In [13]:
X_dummy = X[X.columns[X.dtypes!='object']].join(X_dummy_cat)

In [None]:
#X_dummy = pd.get_dummies(X)

#### Divisão em teste e treino

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X_dummy, y, test_size = 0.33)

## Modelagem

In [15]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve, classification_report

### Regressão Logística

Este modelo será o nosso baseline.

In [None]:
model_logit = LogisticRegression()
model_logit.fit(X_train, y_train)
print(classification_report(y_test, model_logit.predict(X_test)))

### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
%%time
model_RF = RandomForestClassifier(n_estimators=200, n_jobs=-1)
model_RF.fit(X_train, y_train)
print(classification_report(y_test, model_RF.predict(X_test)))

### Gradient Boosting

In [17]:
from sklearn.ensemble import GradientBoostingClassifier

In [None]:
model_Boost = GradientBoostingClassifier()
model_Boost.fit(X_train, y_train)
print(classification_report(y_test, model_Boost.predict(X_test)))

### Criação de métrica de negócio

Vamos supor que seja ``n`` vezes mais caro errar alguém que _churnará_ do que errar alguém que não _churnará_. Assim, temos que nos preocupar muito mais com os falsos positivos (FP), inicialmente queremos aumentar a ``Precision``

In [16]:
def metrica_de_negocio(y, y_pred, n):
    
    from sklearn.metrics import confusion_matrix
    
    tn, fp, fn, tp = confusion_matrix(y ,y_pred).ravel()
    metrica_negocio = 1 - (fn + n*fp)/(tn+ n*fp + fn + tp)
    
    return metrica_negocio

### Otimizador de negócio

In [18]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import make_scorer

In [19]:
metrica = make_scorer(metrica_de_negocio, n=2)

In [20]:
model_Boost = GradientBoostingClassifier()
params_Boost = {'learning_rate':(0.05, 0.2),
                'n_estimators':range(20,1000),
                'subsample':[1.0,2.0],
                'min_samples_split':[2,3],
                'max_depth':[2,3,4]
                 }

In [None]:
%%time
clf = RandomizedSearchCV(estimator = model_Boost, 
                         param_distributions = params_Boost, 
                         scoring = metrica).fit(X_train, y_train)

In [None]:
clf.best_params_

In [None]:
model_final = clf.best_estimator_

In [None]:
pickle.dump(model_final, open('..\\Modelos\\modelo.sav', 'wb'))
pickle.dump(ohe, open('..\\Modelos\\encoder.sav', 'wb'))

## Testando API

### Rodando a API:

É preciso rodar este script ou no terminal ou em outro notebook:
``` Python 
%run main.py
```

In [None]:
import requests

In [None]:
url = 'http://127.0.0.1:5000/'

In [None]:
%%time

exemplo = df_raw_production.sample(1)
customer_id = exemplo.customerID.values[0]
dados = exemplo.T.to_dict()[exemplo.index[0]]

response = requests.post(url, json=dados)

print('Cliente: {}\nChurn: {}'.format(customer_id, response.json()['churn']))