# 0.0 IMPORTS

In [1]:
import pandas               as pd
import numpy                as np
import matplotlib.pyplot    as plt
import seaborn              as sns
import math
import inflection
import pylab

from warnings               import simplefilter
from IPython.display        import Image

simplefilter(action='ignore', category=FutureWarning)
%matplotlib inline

## 0.1 Funções

## 0.2 Import dos dados

In [2]:
# Carregamento dos dados
df_raw = pd.read_csv('Customer-Churn.csv')
df_raw.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


# 1.0 DESCRIÇÃO DOS DADOS

Dicionário de dados

customerID - Identificação do Cliente
gender - Se o cliente é homem ou mulher
SeniorCitizen – Se o cliente é um cidadão idoso ou não (1, 0)
Partner – Se o cliente tem um parceiro ou não (Sim, Não)
Dependents – Se o cliente tem dependentes ou não (Sim, Não)
Tenure – Número de meses que o cliente permaneceu na empresa
PhoneService – Se o cliente tem um serviço de telefone ou não (Sim, Não)
MultipleLines – Se o cliente tem várias linhas ou não (Sim, Não, Sem serviço telefônico)
InternetService – Provedor de serviços de Internet do cliente (DSL, fibra óptica, não)
OnlineSecurity – Se o cliente tem segurança online ou não (Sim, Não, Sem serviço de Internet)
OnlineBackup – Se o cliente tem backup online ou não (Sim, Não, Sem serviço de Internet)
DeviceProtection – Se o cliente tem proteção de dispositivo ou não (Sim, Não, Sem serviço de Internet)
TechSupport – Se o cliente tem suporte técnico ou não (Sim, Não, Sem serviço de Internet)
StreamingTV – Se o cliente tem streaming de TV ou não (Sim, Não, Sem serviço de Internet)
StreamingMovies – Se o cliente tem streaming de filmes ou não (Sim, Não, Sem serviço de Internet)
Contract – A vigência do contrato do cliente (mês a mês, um ano, dois anos)
PaperlessBilling –  Se o cliente tem faturamento sem papel ou não (Sim, Não)
PaymentMethod –  O método de pagamento do cliente (cheque eletrônico, cheque enviado, transferência bancária (automático), cartão de crédito (automático))
MonthlyCharges – O valor cobrado do cliente mensalmente
TotalCharges – O valor total cobrado do cliente
Churn – Se o cliente churnou ou não (sim ou não)

In [3]:
# Copia de segurança
df1 = df_raw.copy()

## 1.1 Dimensão dos dados

In [4]:
# Tamanho do dataset
print('Numero de linhas:', df1.shape[0])
print('Numero de colunas:', df1.shape[1])

Numero de linhas: 7043
Numero de colunas: 21


## 1.2 Tipo dos dados

In [5]:
# Verificar os tipos dos dados
df1.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

## 1.3 Check NA

In [6]:
# Checando os números nulos
df1.isna().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

## 1.4 Descrição Estatística

In [7]:
df1.describe()

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.162147,32.371149,64.761692
std,0.368612,24.559481,30.090047
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75


In [9]:
num_attributes = df1.select_dtypes( include=['int64', 'float64'] )
cat_attributes = df1.select_dtypes( exclude=['int64', 'float64', 'datetime64[ns]'] )

In [11]:
# Central Tendency - mean, meadina 
ct1 = pd.DataFrame( num_attributes.apply( np.mean ) ).T
ct2 = pd.DataFrame( num_attributes.apply( np.median ) ).T

# dispersion - std, min, max, range, skew, kurtosis
d1 = pd.DataFrame( num_attributes.apply( np.std ) ).T 
d2 = pd.DataFrame( num_attributes.apply( min ) ).T 
d3 = pd.DataFrame( num_attributes.apply( max ) ).T 
d4 = pd.DataFrame( num_attributes.apply( lambda x: x.max() - x.min() ) ).T 
d5 = pd.DataFrame( num_attributes.apply( lambda x: x.skew() ) ).T 
d6 = pd.DataFrame( num_attributes.apply( lambda x: x.kurtosis() ) ).T 

# concatenar
m = pd.concat( [d2, d3, d4, ct1, ct2, d1, d5, d6] ).T.reset_index()
m.columns = ['attributes', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurtosis']
m

Unnamed: 0,attributes,min,max,range,mean,median,std,skew,kurtosis
0,SeniorCitizen,0.0,1.0,1.0,0.162147,0.0,0.368585,1.833633,1.362596
1,tenure,0.0,72.0,72.0,32.371149,29.0,24.557737,0.23954,-1.387372
2,MonthlyCharges,18.25,118.75,100.5,64.761692,70.35,30.087911,-0.220524,-1.25726


In [12]:
cat_attributes.apply( lambda x: x.unique().shape[0] )

customerID          7043
gender                 2
Partner                2
Dependents             2
PhoneService           2
MultipleLines          3
InternetService        3
OnlineSecurity         3
OnlineBackup           3
DeviceProtection       3
TechSupport            3
StreamingTV            3
StreamingMovies        3
Contract               3
PaperlessBilling       2
PaymentMethod          4
TotalCharges        6531
Churn                  2
dtype: int64

# 2.0 ENGENHARIA DE ATRIBUTOS

In [13]:
# Cópia de segurança
df2 = df1.copy()

In [20]:
#Variáveis
# 0 é não idoso
# 1 é idoso

df2.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

In [19]:
df2.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


Variáveis de: 
localização (está em números)
tempo
especificações técnicas
informações pessoais

In [None]:
df2.['']

## 2.1 Criação de Hipóteses

In [None]:
Dicionário de dados

customerID - Identificação do Cliente
gender - Se o cliente é homem ou mulher
SeniorCitizen – Se o cliente é um cidadão idoso ou não (1, 0)
Partner – Se o cliente tem um parceiro ou não (Sim, Não)
Dependents – Se o cliente tem dependentes ou não (Sim, Não)
Tenure – Número de meses que o cliente permaneceu na empresa
PhoneService – Se o cliente tem um serviço de telefone ou não (Sim, Não)
MultipleLines – Se o cliente tem várias linhas ou não (Sim, Não, Sem serviço telefônico)
InternetService – Provedor de serviços de Internet do cliente (DSL, fibra óptica, não)
OnlineSecurity – Se o cliente tem segurança online ou não (Sim, Não, Sem serviço de Internet)
OnlineBackup – Se o cliente tem backup online ou não (Sim, Não, Sem serviço de Internet)
DeviceProtection – Se o cliente tem proteção de dispositivo ou não (Sim, Não, Sem serviço de Internet)
TechSupport – Se o cliente tem suporte técnico ou não (Sim, Não, Sem serviço de Internet)
StreamingTV – Se o cliente tem streaming de TV ou não (Sim, Não, Sem serviço de Internet)
StreamingMovies – Se o cliente tem streaming de filmes ou não (Sim, Não, Sem serviço de Internet)
Contract – A vigência do contrato do cliente (mês a mês, um ano, dois anos)
PaperlessBilling –  Se o cliente tem faturamento sem papel ou não (Sim, Não)
PaymentMethod –  O método de pagamento do cliente (cheque eletrônico, cheque enviado, transferência bancária (automático), cartão de crédito (automático))
MonthlyCharges – O valor cobrado do cliente mensalmente
TotalCharges – O valor total cobrado do cliente
Churn – Se o cliente churnou ou não (sim ou não)

Hipóteses de âmbito pessoal

**1.** Mulheres deveriam ter mais têndencia para taxa de cancelamento (churn).

**2.** Pessoas com dependentes deveriam ter maior tendência para churn.

**3.** Pessoas idosas deveriam ter maior fidelidade (menos churn).

**4.** Casais tendem a ter menor churn.

Hipóteses de caráter cliente

**1.** Pessoas com streaming de TV ou de filmes deveriam ter maior churn. 

**2.** Pessoas com método de pagamento de cheque eletrônico ou cheque enviado ou transferência bancária (automático) devem ter maior churn.

**3.** Pessoas com contrato de menor duração devem ter maior churn.

**4.** Pessoas que pagam mensalmente 70 reais ou mais devem ter maior churn.

# 3.0 FILTRAGEM DAS VARIÁVEIS

In [None]:
# Cópia de segurança
#df3 = df2.copy()

# 4.0 ANÁLISE EXPLORATÓRIA DOS DADOS

In [None]:
# Cópia de segurança
#df4 = df3.copy()

# 5.0 PREPARAÇÃO DOS DADOS

In [None]:
# Cópia de segurança
#df5 = df4.copy()

# 6.0 SELEÇÃO DOS ATRIBUTOS

In [None]:
# Cópia de segurança
#df6 = df5.copy()

# 7.0 MODELOS DE MACHINE LEARNING

In [None]:
# Cópia de segurança
#df7 = df6.copy()

# 8.0 HYPERPARAMETER FINE TUNNING

In [None]:
# Cópia de segurança
#df8 = df7.copy()

# 9.0 TRADUÇÃO E INTERPRETAÇÃO DO ERRO

In [None]:
# Cópia de segurança
#df9 = df8.copy()

# 10.0 DEPLOY MODEL TO PRODUCTION

In [None]:
# Cópia de segurança
#df10 = df9.copy()