# Prevendo se um cliente irá abandonar a empresa ou não

* Importando bibliotecas para manipulação e visualização dos dados

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

* Fazendo leitura dos dados

In [None]:
dados = pd.read_csv('Telco.csv')

* Exibindo cinco primeiras linhas

In [None]:
dados.head()

Exibindo informações dos dados

In [None]:
dados.info()

* Convertendo TotalCharges para float

In [None]:
dados['TotalCharges'] = pd.to_numeric(dados['TotalCharges'], errors='coerce')

* Procurando por NaNs

In [None]:
dados.isna().sum()

* Removendo NaNs

In [None]:
dados = dados.dropna()

In [None]:
dados.isna().sum()

Coluna customerID pode ser removida

In [None]:
dados = dados.drop('customerID',axis=1)

In [None]:
dados.head()

* Visualizando dados em função do churn (desistência)

In [None]:
linhas = 6
colunas = 3

plt.figure(figsize=(14,15))
plt.subplot(linhas,colunas,1)
sns.countplot(data=dados, x='gender',hue='Churn');
plt.subplot(linhas,colunas,2)
sns.countplot(data=dados, x='SeniorCitizen',hue='Churn');
plt.subplot(linhas,colunas,3)
sns.countplot(data=dados, x='Partner',hue='Churn');
plt.subplot(linhas,colunas,4)
sns.countplot(data=dados, x='Dependents',hue='Churn');
plt.subplot(linhas,colunas,5)
sns.countplot(data=dados, x='PhoneService',hue='Churn');
plt.subplot(linhas,colunas,6)
sns.countplot(data=dados, x='MultipleLines',hue='Churn');
plt.subplot(linhas,colunas,7)
sns.countplot(data=dados, x='InternetService',hue='Churn');
plt.subplot(linhas,colunas,8)
sns.countplot(data=dados, x='OnlineSecurity',hue='Churn');
plt.subplot(linhas,colunas,9)
sns.countplot(data=dados, x='OnlineBackup',hue='Churn');
plt.subplot(linhas,colunas,10)
sns.countplot(data=dados, x='DeviceProtection',hue='Churn');
plt.subplot(linhas,colunas,11)
sns.countplot(data=dados, x='TechSupport',hue='Churn');
plt.subplot(linhas,colunas,12)
sns.countplot(data=dados, x='StreamingTV',hue='Churn');
plt.subplot(linhas,colunas,13)
sns.countplot(data=dados, x='StreamingMovies',hue='Churn');
plt.subplot(linhas,colunas,14)
sns.countplot(data=dados, x='Contract',hue='Churn');
plt.subplot(linhas,colunas,15)
sns.countplot(data=dados, x='PaperlessBilling',hue='Churn');
plt.subplot(linhas,colunas,16)
sns.countplot(data=dados, x='PaymentMethod',hue='Churn');
plt.tight_layout()

In [None]:
linhas = 1
colunas = 3

plt.figure(figsize=(14,8))
plt.subplot(linhas,colunas,1)
sns.distplot(dados['tenure'])

plt.subplot(linhas,colunas,2)
sns.distplot(dados['MonthlyCharges'])

plt.subplot(linhas,colunas,3)
sns.distplot(dados['TotalCharges'])

* Normalizando dados

In [None]:
colunas = ['tenure','MonthlyCharges','TotalCharges']

In [None]:
from sklearn.preprocessing import MinMaxScaler, MultiLabelBinarizer

In [None]:
for col in colunas:
    scaler = MinMaxScaler()
    dados[col] = scaler.fit_transform(dados[col].values.reshape(-1, 1))

In [None]:
dados.head()

In [None]:
mlb = MultiLabelBinarizer()

dados['gender'] = mlb.fit_transform(dados['gender'])
dados['Partner'] = mlb.fit_transform(dados['Partner'])
dados['Dependents'] = mlb.fit_transform(dados['Dependents'])
dados['PhoneService'] = mlb.fit_transform(dados['PhoneService'])
dados['MultipleLines'] = mlb.fit_transform(dados['MultipleLines'])
dados['InternetService'] = mlb.fit_transform(dados['InternetService'])
dados['OnlineSecurity'] = mlb.fit_transform(dados['OnlineSecurity'])
dados['OnlineBackup'] = mlb.fit_transform(dados['OnlineBackup'])
dados['DeviceProtection'] = mlb.fit_transform(dados['DeviceProtection'])
dados['TechSupport'] = mlb.fit_transform(dados['TechSupport'])
dados['StreamingTV'] = mlb.fit_transform(dados['StreamingTV'])
dados['StreamingMovies'] = mlb.fit_transform(dados['StreamingMovies'])
dados['Contract'] = mlb.fit_transform(dados['Contract'])
dados['PaperlessBilling'] = mlb.fit_transform(dados['PaperlessBilling'])
dados['PaymentMethod'] = mlb.fit_transform(dados['PaymentMethod'])
dados['Churn'] = mlb.fit_transform(dados['Churn'])

In [None]:
dados.head()

* Determinando variáveis X e Y

In [None]:
X = dados.drop('Churn',axis=1).values
Y = dados['Churn'].values

* Criando amostras de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size=0.25, random_state=42)

* Importando bibliotecas de métricas de classificação

In [None]:
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

* Criando listas para armazenar as métricas

In [None]:
acc = []
prec = []
rec = []
f1 = []
modelos = []

* Modelo 1: Regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logreg = LogisticRegression()

In [None]:
logreg.fit(X_treino,Y_treino)

In [None]:
Y_pred_logreg = logreg.predict(X_teste)

In [None]:
acc_logreg = accuracy_score(Y_teste,Y_pred_logreg)
prec_logreg = precision_score(Y_teste,Y_pred_logreg)
rec_logreg = recall_score(Y_teste,Y_pred_logreg)
f1_logreg = f1_score(Y_teste,Y_pred_logreg)

In [None]:
print("Acuracia Regressão Logística = {:0.2f}".format(acc_logreg))
print("Precisão Regressão Logística = {:0.2f}".format(prec_logreg))
print("Recall Regressão Logística = {:0.2f}".format(rec_logreg))
print("F1 Regressão Logística = {:0.2f}".format(f1_logreg))

In [None]:
acc.append(acc_logreg)
prec.append(prec_logreg)
rec.append(rec_logreg)
f1.append(f1_logreg)
modelos.append("Regressão Logística")

* Modelo 2: Support Vector Machine

In [None]:
from sklearn.svm import SVC

In [None]:
svc = SVC()

In [None]:
svc.fit(X_treino,Y_treino)

In [None]:
Y_pred_svc = svc.predict(X_teste)

In [None]:
acc_svc = accuracy_score(Y_teste,Y_pred_svc)
prec_svc = precision_score(Y_teste,Y_pred_svc)
rec_svc = recall_score(Y_teste,Y_pred_svc)
f1_svc = f1_score(Y_teste,Y_pred_svc)

In [None]:
print("Acuracia SVC = {:0.2f}".format(acc_svc))
print("Precisão SVC = {:0.2f}".format(prec_svc))
print("Recall SVC = {:0.2f}".format(rec_svc))
print("F1 SVC = {:0.2f}".format(f1_svc))

In [None]:
acc.append(acc_svc)
prec.append(prec_svc)
rec.append(rec_svc)
f1.append(f1_svc)
modelos.append("SVC")

* Modelo 3: Naive-Bayes

In [None]:
from sklearn.naive_bayes import BernoulliNB, GaussianNB,CategoricalNB,MultinomialNB

In [None]:
naive_bernoulli = BernoulliNB()

In [None]:
naive_bernoulli.fit(X_treino,Y_treino)

In [None]:
Y_pred_bernoulli = naive_bernoulli.predict(X_teste)

In [None]:
acc_bernoulli = accuracy_score(Y_teste,Y_pred_bernoulli)
prec_bernoulli = precision_score(Y_teste,Y_pred_bernoulli)
rec_bernoulli = recall_score(Y_teste,Y_pred_bernoulli)
f1_bernoulli = f1_score(Y_teste,Y_pred_bernoulli)

In [None]:
print("Acuracia Naive Bernoulli = {:0.2f}".format(acc_bernoulli))
print("Precisão Naive Bernoulli = {:0.2f}".format(prec_bernoulli))
print("Recall Naive Bernoulli = {:0.2f}".format(rec_bernoulli))
print("F1 Naive Bernoulli = {:0.2f}".format(f1_bernoulli))

In [None]:
naive_gaussian = GaussianNB()

In [None]:
naive_gaussian.fit(X_treino,Y_treino)

In [None]:
Y_pred_gaussian = naive_gaussian.predict(X_teste)

In [None]:
acc_gaussian = accuracy_score(Y_teste,Y_pred_gaussian)
prec_gaussian = precision_score(Y_teste,Y_pred_gaussian)
rec_gaussian = recall_score(Y_teste,Y_pred_gaussian)
f1_gaussian = f1_score(Y_teste,Y_pred_gaussian)

In [None]:
print("Acuracia Naive Gaussian = {:0.2f}".format(acc_gaussian))
print("Precisão Naive Gaussian = {:0.2f}".format(prec_gaussian))
print("Recall Naive Gaussian = {:0.2f}".format(rec_gaussian))
print("F1 Naive Gaussian = {:0.2f}".format(f1_gaussian))

In [None]:
naive_categorical = CategoricalNB()

In [None]:
naive_categorical.fit(X_treino,Y_treino)

In [None]:
Y_pred_categorical = naive_categorical.predict(X_teste)

In [None]:
acc_categorical = accuracy_score(Y_teste,Y_pred_categorical)
prec_categorical = precision_score(Y_teste,Y_pred_categorical)
rec_categorical = recall_score(Y_teste,Y_pred_categorical)
f1_categorical = f1_score(Y_teste,Y_pred_categorical)

In [None]:
print("Acuracia Naive Gaussian = {:0.2f}".format(acc_categorical))
print("Precisão Naive Gaussian = {:0.2f}".format(prec_categorical))
print("Recall Naive Gaussian = {:0.2f}".format(rec_categorical))
print("F1 Naive Gaussian = {:0.2f}".format(f1_categorical))

In [None]:
naive_multi = MultinomialNB()

In [None]:
naive_multi.fit(X_treino,Y_treino)

In [None]:
Y_pred_multi = naive_multi.predict(X_teste)

In [None]:
acc_multi = accuracy_score(Y_teste,Y_pred_multi)
prec_multi = precision_score(Y_teste,Y_pred_multi)
rec_multi = recall_score(Y_teste,Y_pred_multi)
f1_multi = f1_score(Y_teste,Y_pred_multi)

In [None]:
print("Acuracia Naive Multi = {:0.2f}".format(acc_multi))
print("Precisão Naive Multi = {:0.2f}".format(prec_multi))
print("Recall Naive Multi = {:0.2f}".format(rec_multi))
print("F1 Naive Multi = {:0.2f}".format(f1_multi))

In [None]:
acc.append(acc_multi)
prec.append(prec_multi)
rec.append(rec_multi)
f1.append(f1_multi)
modelos.append("Naive-Bayes")

* Modelo 4: AdaBoost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

In [None]:
ada = AdaBoostClassifier()

In [None]:
ada.fit(X_treino,Y_treino)

In [None]:
Y_pred_ada = ada.predict(X_teste)

In [None]:
acc_ada = accuracy_score(Y_teste,Y_pred_ada)
prec_ada = precision_score(Y_teste,Y_pred_ada)
rec_ada = recall_score(Y_teste,Y_pred_ada)
f1_ada = f1_score(Y_teste,Y_pred_ada)

In [None]:
print("Acuracia Ada Boost = {:0.2f}".format(acc_ada))
print("Precisão Ada Boost = {:0.2f}".format(prec_ada))
print("Recall Ada Boost = {:0.2f}".format(rec_ada))
print("F1 Ada Boost = {:0.2f}".format(f1_ada))

In [None]:
acc.append(acc_ada)
prec.append(prec_ada)
rec.append(rec_ada)
f1.append(f1_ada)
modelos.append("AdaBoost")

* Criando dicionários com as métricas

In [None]:
dici = {"Modelo" : modelos, "Acuracia" : acc, "Precisao" : prec, "Recall" : rec, "F1" : f1}

In [None]:
pd_dici = pd.DataFrame(dici)

In [None]:
pd_dici = pd_dici.sort_values(by='Recall',ascending=False)

In [None]:
pd_dici

* Regressão logística apresentou melhor desempenho