# **1 - Carregamento dos dados tratados**

In [1]:
import pandas as pd
df = pd.read_csv('dados_tratados_num.csv')
df.head()

Unnamed: 0,Status_Cliente,Sexo,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Telefone,Assinatura_MultiTelefone,Assinatura_Internet,Assinatura_Seguro_online,...,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,0,0,0,0,0,9,0,0,0,0,...,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,0,1,0,1,1,9,0,1,0,0,...,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,1,1,0,1,1,4,0,0,1,0,...,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,1,1,1,0,1,13,0,0,1,0,...,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,1,0,1,0,1,3,0,0,1,0,...,0,0,0,0,1,0,0,2.796667,83.9,267.4


# **2 - Pré-processamento dos dados**

## **2.1 - Ajuste no Dataframe**

Para evitar quaisquer confusão na interpretação dos dados, a coluna ***Status_Cliente*** será invertida de forma a indicar que:
- 1 = Cliente ativo
- 0 = Cliente inativo

In [2]:
df.Status_Cliente = df.Status_Cliente.replace({0:1,1:0})
df.head()

Unnamed: 0,Status_Cliente,Sexo,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Telefone,Assinatura_MultiTelefone,Assinatura_Internet,Assinatura_Seguro_online,...,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,1,0,0,0,0,9,0,0,0,0,...,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,1,1,0,1,1,9,0,1,0,0,...,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,0,1,0,1,1,4,0,0,1,0,...,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,0,1,1,0,1,13,0,0,1,0,...,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,0,0,1,0,1,3,0,0,1,0,...,0,0,0,0,1,0,0,2.796667,83.9,267.4


## **2.2 - Eliminação das variáveis não úteis**

Pelo o que foi observado do arquivo de análise gráfica (*Challenge_DS_Alura_Semana02.ipynb*), é possível ter uma noção de quais variáveis não apresentam influência significativa. Assim, a lista de variáveis que não possuem influência na variável ***Status_Cliente*** são:

1. ***Sexo***: O gênero não apresenta influência alguma com a variável de estudo.
2. ***Assinatura_Telefone***: O serviço de assinatura de telefone não apresenta influência na taxa de cancelamento dos clientes. 
3. ***Assinatura_MultiTelefone***: De forma semelhante, o serviço de assinatura multi linha também não paresenta influência na taxa de cancelamento dos clientes.

In [3]:
df.drop(['Sexo','Assinatura_Telefone','Assinatura_MultiTelefone'], axis=1, inplace=True)
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro_online,Assinatura_Backup,Assinatura_Seguro_dispositivo,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Diario,Valor_Mensal,Valor_Total
0,1,0,0,0,9,0,0,0,0,0,0,0,0,0,0,2.186667,65.6,593.3
1,1,0,1,1,9,0,0,1,0,1,1,1,1,1,0,1.996667,59.9,542.4
2,0,0,1,1,4,1,0,1,1,1,1,0,1,0,1,2.463333,73.9,280.85
3,0,1,0,1,13,1,0,0,1,1,0,1,1,0,1,3.266667,98.0,1237.85
4,0,1,0,1,3,1,0,1,0,0,0,0,1,0,0,2.796667,83.9,267.4


## **2.3 - Identificação e eliminação das variáveis altamente correlacionadas**

Variáveis altamente correlacionadas podem influenciar negativamente na eficiência no modelo por torna-lo enviesado. Para isto, a tabela de correlação é útil para verificar quais variáveis tem alta correlação (negativa ou positiva) entre si. Assim, observa-se que:

1. ***Valor_Total***: Esta variável possui alta correlação com a variável ***Valor_Mensal***. 
2. ***Valor_Diario***: Esta variável também possui alta correlação com a variável ***Valor_Mensal***. 
3. ***Assinatura_Backup***: Esta variável possui alta correlação com a variável ***Assinatura_Suporte_Tecnico***.
4. ***Assinatura_Seguro_Dispositivo***: Esta variável possui alta correlação com a variável ***Assinatura_Seguro_Online***.

Assim, é possível reduzir estas variáveis em 3 sem perda significativa de informação para o modelo. A saber: ***Valor_Mensal***, ***Assinatura_Suporte*** e ***Assinatura_Segurança***.

In [4]:
# Excluindo as variável Valor_Total, Valor_Diario, Assinatura_Backup, Assinatura_Seguro_Dispositivo
df.drop(['Valor_Total', 'Valor_Diario', 'Assinatura_Backup', 'Assinatura_Seguro_dispositivo'], axis=1, inplace=True)
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro_online,Assinatura_Suporte_tecnico,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Mensal
0,1,0,0,0,9,0,0,0,0,0,0,0,0,65.6
1,1,0,1,1,9,0,0,1,1,1,1,1,0,59.9
2,0,0,1,1,4,1,0,1,1,0,1,0,1,73.9
3,0,1,0,1,13,1,0,1,0,1,1,0,1,98.0
4,0,1,0,1,3,1,0,0,0,0,1,0,0,83.9


In [5]:
# Renomeando as as variáveis correlacionadas
trad = {'Assinatura_Suporte_tecnico':'Assinatura_Suporte', 'Assinatura_Seguro_online':'Assinatura_Seguro'}
df.rename( columns=trad, inplace=True )
df.head()

Unnamed: 0,Status_Cliente,Aposentado,Casado,Dependentes,Meses_Contrato,Assinatura_Internet,Assinatura_Seguro,Assinatura_Suporte,Assinatura_TV,Assinatura_Filmes,Tipo_Contrato,Fatura_Online,Forma_Pagamento,Valor_Mensal
0,1,0,0,0,9,0,0,0,0,0,0,0,0,65.6
1,1,0,1,1,9,0,0,1,1,1,1,1,0,59.9
2,0,0,1,1,4,1,0,1,1,0,1,0,1,73.9
3,0,1,0,1,13,1,0,1,0,1,1,0,1,98.0
4,0,1,0,1,3,1,0,0,0,0,1,0,0,83.9


# **3. Contrução dos modelos de Machinel Learning**

Como etapa preliminar, uma função será construída compilando os principais algoritmos de Machine Learning para classificação. Para isto, serão utilizados os seguintes algoritmos de classficação supervisionados:

- Logistic Regression:

    O Logistic Regression utiliza a função de Sigmoid para gerar a probabilidade de uma determinada classificação. Este algoritmo é largamente utilizado quando o dataset possui uma classificação binária (0/1, verdadeiro/falso, etc). 

    Para o caso de um dataset multiclasse, o algoritmo utiliza a abordagem um versus restante. É possível configurar isto definindo o parâmetro multi_class como ovr.  Também é possível ajustar o solver (solver), penalidade (penalty) e a distribuição da classe (class_weight). 

- Decision Tree Classifier:

    O algoritmo Desicion Tree Classifier é um algoritmo de classificação onde as características mais importantes da dos dados vão sendo subdivididos em avaliações de verdadeiro ou falso. A partição dos dados permite montar um padrão de classificação por meio das ramificação da árvore, onde um determinado registro pode ser classificado ao ser comparado com a árvore de decisão.

- Random Forest:

    O algoritmo Random Forest é uma combinação de vários Decisions Tree. Este algoritmo utiliza a técnica de sub-amostragem e aplica a média das amostras para melhorar a previsão e contralar o problema de overfiting. 

- k-Neighbor Classifier:

    Este algoritmo utiliza a abordagem de distância entre os registro em um espeço vetorial correspondente. Registro que possuem uma distância média pequena tendem a ter a mesma classificação. Este tipo de algoritmo também é bastante utiliado como sistema de recomendação. 

- Gaussian Nayve-Bayes:

    O algoritmo Gaussian Navye-Bayes é baseado no Teorema de Bayes onde a probabilidade condicional é calculada com base em uma informação dada. A condição de Naive assume que as informações dos registros são independentes (outro motivo para a eliminação das variáveis altamente correlacionadas). A grande vantagem deste algoritmo é que, diferentemente dos demais algoritmos de aprendizado, este não necessita de um grande banco de dados para apresentar uma boa performance nas previsões.

- Support Vector Machine:

    O Support Vector Machine é um algoritmo onde utiliza de um hiper palno para separar os registros em duas classes: negativa e positiva. Este hiper plano é calculado com base na maximização da distância entre os pontos. Com o hiper plano definindo a borda entre as duas classes, o algoritmo realiza a previsão da classificação com base na posição de um determinado registro neste espaço vetorial.

    Este algortimo, assim como Decision Tree e o Random Forest, pode ser utilizado tanto para classificação quanto para regresão.

- Ada Boost:

    O algoritmo Ada Boost é nada mais que um compilado de vários algoritmos de previsão mais simples (e menos eficientes) organizados de forma iterativa de modo a fornecer, no conjunto, um algoritmo de previsão com alta eficiência. A ideia é avaliar uma combinação linear entre os resultados entre vários sub-modelos e otimizar os pesos de tais modelos de forma a fornecer a maior acurácia possível.

- Gradient Boosting Classifier:

    De forma semelhante ao Ada Boost, o Gradient Boosting Classifier configura-se como um compilado de árvores de decisão (Decission Trees). 

In [27]:
# Criando a função para avaliar diferentes algoritmos
from sklearn.model_selection import cross_validate 
from sklearn.model_selection import StratifiedGroupKFold
from sklearn.preprocessing import MinMaxScaler

skf = StratifiedGroupKFold( n_splits = 10, shuffle = True, random_state = 101 )
scaler = MinMaxScaler()

def classifier_model(model,x,y,n_folders):
    # Escalonamento dos dados
    x = scaler.fit_transform(x)

    # Resultados da cross-validação
    results_cv = cross_validate(model, x, y, cv=n_folders, scoring = ['precision','recall', 'accuracy'])
    mean_accuracy = round( results_cv['test_accuracy'].mean(), 3 )
    mean_precision = round( results_cv['test_precision'].mean(), 3 )
    mean_recall = round( results_cv['test_recall'].mean(), 3 )

    # Retornanco os dados
    return [mean_accuracy, mean_precision, mean_recall]


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

# Definindo os modelos a serem utilizados
seed_state = 101 # Fizando o seed do random generator
lr = LogisticRegression(random_state=seed_state, penalty=None)
dtc = DecisionTreeClassifier(random_state=seed_state)
rfc = RandomForestClassifier(random_state=seed_state)
knc = KNeighborsClassifier()
gnb = GaussianNB()
svc = SVC(random_state=seed_state)
abc = AdaBoostClassifier(random_state=seed_state)
gbc = GradientBoostingClassifier(random_state=seed_state)

# Compilando os mdoelos
models = [lr, dtc, rfc, knc, gnb, svc, abc, gbc]
models_name = ['LogisticRegression', 'DecisionTreeClassifier', 'RandomForestClassifier', 'KNeighborsClassifier', 'GaussianNB', 
    'SupportVectorMachine', 'AdaBoostClassifier','GradientBoostingClassifier' ]

models_results = []

for i, model in enumerate(models):
    print(models_name[i])
    result = classifier_model(model)
    models_results.append(result)

# **3. Análise do balanceamento da variável de estudo *Status_Cliente***

## **3.1 - Proporção de clientes ativos e inativos**

Relembrando a análise quantitativa do relatório anterior, obtém-se a seguinte proporção de clientes ativos e inativos:

In [6]:
print('----------------------------------')
print('Quantidade de clientes ativos (1) e inativos (0)')
print(df.Status_Cliente.value_counts())
print('----------------------------------')
print('Quantidade percentual de clientes ativos (1) e inativos (0)')
print(df.Status_Cliente.value_counts(normalize=True).map("{:.1%}".format))
print('----------------------------------')

----------------------------------
Quantidade de clientes ativos (1) e inativos (0)
1    5163
0    1869
Name: Status_Cliente, dtype: int64
----------------------------------
Quantidade percentual de clientes ativos (1) e inativos (0)
1    73.4%
0    26.6%
Name: Status_Cliente, dtype: object
----------------------------------


## **3.2 - Técnica de balanceamento para distribuições desbalanceadas**

Como a variável ***Statuts_Cliente*** tem a proporção de 1:4 das respostas (inativo para ativo), é aconselhável realizar uma verificação das técnicas de balanceamento. Por mais que a proporção da classe de registro minoritária (Clientes inativos) seja relativamente grande, em torno de 26.5%, o modelo ainda pode sofrer certo grau de enviesamento. Para isto, algumas técnicas de balanceamento serão analiasadas. Tais técnicas consistem em reduzir a disparidade entre a classe marjoritária (neste caso, cliente ativo) e a minoritária (cliente inativo). Além disto, também é possível realizar tratamento de registros que possam ser considerados ambíguos pelos algoritmos de classificação. 

In [15]:
# Separando as variáveis

y = df.Status_Cliente
x = df.copy()
x.drop('Status_Cliente',axis=1, inplace=True)

### **3.2.1 - Técnica RandonSampling**

A técnica de desbalaceamento RandomSampling é a mais simples e consiste na escolha aleatória de registros da classe marjoritária para o descarte, de forma a aumentar a diminuir a disparidade entre as classes minoritárias e marjoritárias.

In [21]:
# Importando a biblioteca
from imblearn.under_sampling import RandomUnderSampler
from matplotlib import pyplot
from numpy import where
from collections import Counter

# Gerando o modelo
undersample = RandomUnderSampler(random_state=101)

# Gerando a nova amostragem
x_resampled, y_resampled = undersample.fit_resample(x, y)

# Realizand a contagem
counter = Counter(y_resampled)
print(counter)

Counter({0: 1869, 1: 1869})


In [20]:
# Biblioteca
from imblearn.under_sampling import NearMiss   

# Gerando o modelo
versao = 1
n=3
undersample = NearMiss(version=versao, n_neighbors=n) 

# Gerando a nova amostragem
x_resampled, y_resampled = undersample.fit_resample(x, y)

# Realizand a contagem
counter = Counter(y_resampled)
print(counter)

Counter({0: 1869, 1: 1869})


In [25]:
from imblearn.under_sampling import TomekLinks

undersample = TomekLinks()

x_resampled, y_resampled = undersample.fit_resample(x, y)

# Realizand a contagem
counter = Counter(y_resampled)
print(counter)

Counter({1: 4709, 0: 1869})
