# <a>Projeto 2 - Churn</a>

## <a> Motivação </a>

Muitos problemas da vida real na carreira de cientista de dados são modelados como classificação. Quando nossa variável dependente é discreta, temos uma classificação. As classes podem ser somente duas (variável dependente binária) ou problemas multiclasse. 

Agora que você já criou seu primeiro modelo, sabe como separar a base, sabe que selecionar modelo é só na validação, vamos aumentar um pouquinho o nível! Criar o modelo, treinar, validar e testar é a parte mais "fácil". Escolher a melhor forma de tratar dados faltantes (missing data), realizar uma boa engenharia de features (feature engineering) e selecionar a melhor métrica para cada projeto são partes essenciais e que requerem uma certa "criatividade" de nossa parte. 

## <a> Objeto de Estudo </a>

Um problema muito recorrente para muitas empresas é qual a melhor forma de retenr seus clientes. Saber de antemão se um cliente vai cancelar os serviços é uma grande vantagem competitiva para qualquer empresa. A estratégia de marketing, CRM e as equipes de vendas podem se beneficiar muito se tiver informações de quais clientes tem mais chances de deixar de contratar os serviços de uma empresa.

Esse tipo de problema é chamado de previsão de churn (de churn rate, ou, % de clientes que deixam a empresa num determinado tempo). Para resolver esse tipo de problema precisamos ter uma base histórica com clientes que saíram e não saíram da empresa, bem como suas características. 

Bancos, telefônicas, varejo, qualquer empresa que presta algum tipo de serviços e possui informações sobre seus clientes pode se beneficiar de modelos preditivos similares aos que iremos construir.

Nesse projeto, vamos ajudar a Let's Talk (empresa telefônica da holding Let's Data) a manter seus clientes. Faremos isso criando modelos para classificar os clientes em "churn" ou "não churn", ou seja, se irão cancelar os serviços ou não.


A base utilizada trata de uma empresa telefônica fictícia com dados demográficos e de serviços contratados pelos  clientes com a informação se saiu ou não da empresa.

In [None]:
# importando as bibliotecas para leitura dos dados e criação de gráficos
import os
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns


# configurando pandas para mostrar todas as linhas e colunas
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None) 

# configurando pandas para não mostrar notação científica para números
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Ignorando Alertas
import warnings
warnings.filterwarnings("ignore")

##### **Carregando os Dados**

In [None]:
# Ler os dados da telefonica. Existe uma base de testes, mas ela não tem as respostas, então não serve muito pro nosso caso
df_clientes = pd.read_csv('churn.csv')
df_clientes.head()

 - *Verificando as variáveis*

In [None]:
df_clientes.columns

Cada linha é um cliente, portanto, vamos verificar se isso é fato?

In [None]:
df_clientes['id'].is_unique

De fato, é uma linha por cliente ;)

Entendendo as colunas:
- **id** $→$ identificação do cliente

- **gender** $→$ sexo do cliente

- **SeniorCitizen** $→$ indicador se é um(a) idoso(a)

- **Partner** $→$ indicador se tem um parceiro(a)

- **Dependents** $→$ indicador se possui dependentes

- **tenure** $→$ quantos meses o cliente está na empresa

- **PhoneService** $→$ indicador se possui serviços de telefonia

- **MultipleLines** $→$ indicador se possui múltiplas linhas telefônicas

- **InternetService** $→$indicador se possui serviços de internet

- **OnlineSecurity** $→$ indicador se possui serviços de segurança online

- **OnlineBackup** $→$ indicador se possui serviços de backup online

- **DeviceProtection** $→$ indicador se possui serviços de proteção de equipamentos

- **TechSupport** $→$ indicador se possui serviços de suporte técnico

- **StreamingTV** $→$ indicador se possui serviços de streaming de tv

- **StreamingMovies** $→$ indicador se possui serviços de streaming de filmes

- **Contract** $→$ tipo de contrato

- **PaperlessBilling** $→$ indicador se a cobrança é via papel ou não (cobrança eletrônica)

- **PaymentMethod** $→$ indicador do tipo de pagamento

- **MonthlyCharges** $→$ valor mensal dos serviços

- **TotalCharges** $→$ valor total dos serviços desde o início do contrato

- **Churn** $→$ indicador se saiu da empresa ou não

In [None]:
df_clientes.head()

#### **Transformando o** $id$ **em indice do dataframe**

In [None]:
# Vamos transformar id em indice do dataframe
df_clientes = df_clientes.set_index('id')
df_clientes.head()

In [None]:
# Avaliando a quantidade de linhas e colunas
df_clientes.shape

In [None]:
# Avaliando os tipos
df_clientes.dtypes

In [None]:
df_clientes.info()

#### Convertendo a variável $TotalCharges$ que está como object, mas deveria ser float

In [None]:
# Verificando para confirmar 
df_clientes['TotalCharges'].dtype

In [None]:
# Convertendo
df_clientes['TotalCharges'].value_counts()

#### Eliminando espaços da coluna $TotalCharges$

In [None]:
# Vamos tirar todos os espaços primeiro. Usando expressão regular simples \s é qualquer
# caractere de espaço, seja espaço simples ou tabulação. \s+ pega uma ou mais sequências de espaços em braco
df_clientes['TotalCharges'] = df_clientes['TotalCharges'].replace("\s+", "", regex=True)

In [None]:
df_clientes['TotalCharges'].value_counts()

In [None]:
# Tentando converter para float
#df_clientes['TotalCharges'].astype(float)

- **Porque deu erro na hora de Conversão**? é porque o $astype(float)$ é meio burrinho, ele tem dificuldades de tratar alguns espaços.Ou seja, ele não conseguiu converter a $String$ vazia em $Float$

In [None]:
# Não funcionou porque existem valores que não conseguem ter conversão para float
df_clientes.loc[df_clientes['TotalCharges'] == '']

### **Transformando para numérico**

In [None]:
# Para converter podemos utilizar o to_numeric com coerção de error (famoso forçar a barra)
pd.to_numeric(df_clientes['TotalCharges'], errors='coerce')

- **Pegando sos índices das linhas vazias**

In [None]:
# Pegando os índices das linhas que tem nulos pra saber como o to_numeric converte
indices_total_charges_nulo = df_clientes.loc[df_clientes['TotalCharges'] == ''].index
indices_total_charges_nulo

- **Visualizando os valores atribuidos apois a transformação**

In [None]:
# Filtrando pelos índices pra ver como o to_numeric realiza a coerção de erros
pd.to_numeric(df_clientes['TotalCharges'], errors='coerce')[indices_total_charges_nulo]

In [None]:
# Ótimo! Ele "força a barra" pra converter tudo que não é numérico para NaN (not a number - "isso não é um número")
df_clientes['TotalCharges'] = pd.to_numeric(df_clientes['TotalCharges'], errors='coerce')

- **Visualizando o tipo das colunas apois a transformação**

In [None]:
# Visualizando o tipo das colunas
df_clientes.dtypes

## <a> Começando com estatística descritiva </a>

Conhecer bem as medidas estatísticas, de tendência central, dispersão, separatrizes, distribuições, é essencial para conhecermos melhor os dados em que estamos trabalhando. Qual a distribuição de tenure? Da cobrança mensal? Da cobrança total? A base está desbalanceada?

In [None]:
df_clientes.describe()

**Informações:**

SeniorCitizen e Churn são discretas, mas por serem float acabou entrando na dança: vamos ignorar.

Podemos perceber que tenure tem máximo de 72 meses (6 anos). Podemos inferir que os dados foram coletados com essa janela.

#### **Analisando a distribuição de tenure** *(meses na empresa)*

In [None]:
# Analisando a distribuição de tenure (meses na empresa)
sns.set_style("darkgrid")
plt.tight_layout()

sns.histplot(data=df_clientes, x='tenure' );

**Informações**:
    
  Temos muitos valores próximos a zero, vamos avaliar?

In [None]:
# Temos muitos valores próximos a zero, vamos avaliar?

len(df_clientes.loc[df_clientes['tenure'] <= 5])

In [None]:
100 * len(df_clientes.loc[df_clientes['tenure'] <= 5]) / df_clientes.shape[0]

#### **Mudando o padrão de quartis para** $decis$

In [None]:
# Mudando o padrão de quartis para decis. linspace divide em espaços iguais um intervalo de números (0 a 1 com 11 intervalos)
df_clientes.describe(percentiles=np.linspace(0, 1, 11))

- **Analisando a distribuição da cobrança mensal**

In [None]:
# Analisando a distribuição da cobrança mensal
sns.set_style("darkgrid")
plt.tight_layout()

sns.histplot(data=df_clientes, x='MonthlyCharges');

- **Analisando a distribuição da cobrança total**

In [None]:
# Analisando a distribuição da cobrança total
sns.set_style("darkgrid")
plt.tight_layout()

sns.histplot(data=df_clientes, x='TotalCharges');

#### **Analisando a variável target**: $churn$ *(cancelou os serviços da empresa ou não)*

In [None]:
# Analisando a variável target: churn (cancelou os serviços da empresa ou não)
sns.countplot(data=df_clientes, x='Churn');

**Informações:**

- Temos uma base bastante desbalanceada. Temos que tomar cuidado com a métrica a ser utilizada. Vamos avaliar o desbalanceamento.

#### **Verificando a quantidade de pessoas que sairam e não sairam**

In [None]:
# Verificando a quantidade de pessoas que sairam e não sairam 
len(df_clientes.loc[df_clientes['Churn'] == 0]), len(df_clientes.loc[df_clientes['Churn'] == 1])

#### *Chute do Modelo*: Se o modelo chutar tudo como "não saiu da empresa"

In [None]:
# Se o modelo chutar tudo como "não saiu da empresa"
100 * len(df_clientes.loc[df_clientes['Churn'] == 0]) / df_clientes.shape[0]

**Conclusão**:
- Ou seja, acurácia perto de 73% quer dizer que usamos machine learning pra nada :D

## <a> Relação entre as features e a variável target </a>

Uma análise interessante é avaliar relações entre as variáveis preditoras com a target. Vamos analisar as dispersões das variáveis preditoras com o churn

In [None]:
# O pairplot faz gráficos de dispersão para os pares de variáveis (incluindo a target)
# Na diagonal principal ele mostra o histograma
sns.pairplot(data=df_clientes);

**Conclusão:**

- Fica evidente uma correlação positiva entre tenure e cobranças totais (o que é bem óbvio). Além disso, nada que chame muito a atenção com relação à variável target. Como ela é categórica, se tivéssemos um gráfico que nem o abaixo, poderíamos inferir uma correlação forte:

## <a> Codificação de Variáveis Categóricas </a>

Lembrando que os modelos de machine learning não sabem o que são categorias em sua maioria, devemos, portanto, codificar as variáveis de sexo, parceiro(a), dependentes, tipo de cobrança e todos os tipos de serviço.

In [None]:
df_clientes.head()

#### **Vamos analisar quantas classes possuem as variáveis categóricas para saber como codificar cada uma**

In [None]:
# Visualizando as colunas numéricas
df_clientes._get_numeric_data().columns

In [None]:
# Exemplo de list comprehension
[coluna for coluna in df_clientes.columns]

#### **Pegando todas variáveis que não são numéricas**

In [None]:
colunas_categoricas = [coluna for coluna in df_clientes.columns if coluna not in df_clientes._get_numeric_data().columns]
colunas_categoricas

### **Outras forma de verificar as colunas Categóricas**

In [None]:
cat_col_names = []
num_col_names = []

for col in df_clientes.columns:
    if df_clientes[col].dtype == 'object':
        cat_col_names.append(col)
    else:
        num_col_names.append(col)

print(cat_col_names)
#print(num_col_names)

 - **Verificando os Valores Únicos**

In [None]:
for col in cat_col_names:
    print(col, len(df_clientes[col].unique()))

### **Contando todos os valores das variaveis categóricas**

In [None]:
for coluna_categorica in colunas_categoricas:
    display(df_clientes[coluna_categorica].value_counts())

**Informações:**
- As variáveis gender, partner, dependents, phone service e paperless billing, possuem duas classes (sim ou não). Podemos então mapeá-las diretamente:

#### **Mapeando as variaveis**

In [None]:
# Mapear gender, partner, dependents, phone service e paperless billing
df_clientes['gender'] = df_clientes['gender'].map({'Female': 1, 'Male': 0})

colunas_binarias = ['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

for coluna_binaria in colunas_binarias:
    df_clientes[coluna_binaria] = df_clientes[coluna_binaria].map({'Yes': 1, 'No': 0}) 

In [None]:
# Será que funcionou?

display(df_clientes['gender'].value_counts())

for colunas_binaria in colunas_binarias:
    display(df_clientes[colunas_binaria].value_counts())

Por que Dependents ficou diferente? **Talvez ele tenha valores nulos**

In [None]:
df_clientes.loc[:, colunas_binarias + ['gender']].isnull().sum()

**Informações:**
- Para as outras variáveis podemos avaliar quais podem ser ordinais para utilizar a codificação ordinal.

### **Atualizando as Colunas**

In [None]:
# Atualizando as colunas que ainda são categóricas
colunas_categoricas = [coluna for coluna in df_clientes.columns if coluna not in df_clientes._get_numeric_data()]
colunas_categoricas

In [None]:
for coluna_categorica in colunas_categoricas:
    display(df_clientes[coluna_categorica].value_counts())

**Conclusões:**

- Podemos inferir que Contract é ordinal, pois possui claramente uma diferença entre os tipos de contrato mensais, anuais e bianuais. Outras que podemos (forçando um pouquinho a barra) são InternetService e PaymentMethod. A 1a porque tendo em vista que fibra ótica normalmente é mais rápida que ADSL (e provavelmente mais cara também). A 2a porque podemos avaliar a facilidade de cobrança pelo correio ser mais difícil/lenta que as mais automáticas e eletrônicas

In [None]:
df_clientes['Contract'] = df_clientes['Contract'].map({'Month-to-month': 0, 'One year': 1, 'Two year': 2})
df_clientes['InternetService'] = df_clientes['InternetService'].map({'No': 0, 'DSL': 1, 'Fiber optic': 2})
df_clientes['PaymentMethod'] = df_clientes['PaymentMethod'].map({'Mailed check': 0, 
                                                                 'Electronic check': 1, 
                                                                 'Bank transfer (automatic)': 2,
                                                                 'Credit card (automatic)': 3})
df_clientes.head()

In [None]:
df_clientes.dtypes

Para os outros, vamos de one hot encoding

In [None]:
# Atualizando as colunas que ainda são categóricas
colunas_categoricas = [coluna for coluna in df_clientes.columns if coluna not in df_clientes._get_numeric_data()]
colunas_categoricas

### Importantdo as Categória $OneHotEncoder$

In [None]:
# Vamos utilizar OHE para variáveis categóricas nominais
from sklearn.preprocessing import OneHotEncoder

In [None]:
ohe = OneHotEncoder(sparse=False, drop='first')
df_ohe_transformadas = ohe.fit_transform(df_clientes[colunas_categoricas])
ohe.categories_

In [None]:
ohe.get_feature_names_out()

Bem melhor assim! Vamos então pensar essas novas colunas no dataframe de clientes e remover as colunas originais

In [None]:
df_ohe_transformadas

#### **Adicionando as novas colunas no DataFrame original, e excluindo as originais** 

In [None]:
# Tranformando o array numpy em colunas.
df_ohe_transformadas = pd.DataFrame(data=df_ohe_transformadas, columns=ohe.get_feature_names_out(), index=df_clientes.index)
df_ohe_transformadas.head()

In [None]:
df_clientes.head()

In [None]:
df_ohe_transformadas.shape

### *Juntando os DataFrames*

In [None]:
# Utilizando o concat para realizar um "JOIN" entre os dataframes original e com as colunas com one hot encoding
# axis=0 ele apensaria as linhas, axis=1 ele junta as colunas
df_clientes = pd.concat([df_clientes, df_ohe_transformadas], axis=1)
df_clientes.head()

In [None]:
colunas_categoricas

### *Eliminando as Colunas caetgóricas originais*

In [None]:
# Agora precisamos remover as colunas originais!
df_clientes = df_clientes.drop(colunas_categoricas, axis=1)
df_clientes.head()

In [None]:
df_clientes.dtypes

#### UFA! Tudo prontinho, variáveis todas numéricas!!

## <a> Determinando quem são variáveis preditoras e variável target </a>

Variáveis preditoras: X; variável target: y.

In [None]:
df_clientes.columns

### Separando $X$ e $y$

In [None]:
X = df_clientes.drop('Churn', axis=1) # tirando a variável dependente
y = df_clientes[['Churn']] # extraindo a variável dependente

In [None]:
# Variáveis preditoras (ou independentes ou, features)
X.head()

In [None]:
# Variável dependente, ou target, ou label (ah, vcs entenderam :)
y.head()

## <a> Separação de bases </a>

Vamos separar logo essas bases?? Isso evita tratamento de missing data (valores faltantes), por exemplo, e tais transformações deve ser realizadas DEPOIS do split (separação).

In [None]:
# A função que separa nossa base em treino e teste! 
# Lembrando que faremos cross validation com a base de treino
from sklearn.model_selection import train_test_split

In [None]:
# Devolve uma tupla com 4 elementos: X de treino, X de teste, y de treino, y de teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, # preditoras 
                                                        y, # target
                                                        test_size=.2, 
                                                        random_state=42)

# Vamos ver quantas linhas ficamos com treino e teste
X_treino.shape, X_teste.shape, y_treino.shape, y_teste.shape

In [None]:
X_treino.head()

In [None]:
y_treino.head()

In [None]:
X_treino.shape[0] / X.shape[0]

## <a> Tratamento de dados faltantes (missing data) </a>

- **Verificando valores Nulos/ausentes**

In [None]:
# isnull busca quem é nulo (dados faltantes)
X_treino.isnull().sum()

In [None]:
X_teste.isnull().sum()

#### Existem diversas formas de tratar missing data, as formas podem inclusive ser testadas (com cross validation) para avaliar qual é a mais robusta para performance do modelo. Vamos testar algumas durante os treinamentos.

In [None]:
# 1o o mais simples: utilizar as medidas de tendência central!!
# Antes disso vamos guardar os X originais para tentar outras formas mais tarde
X_treino_original = X_treino.copy()
X_teste_original = X_teste.copy()

y_treino_original = y_treino.copy()
y_teste_original = y_teste.copy()

#### Verificando o nome das colunas com valores faltantes

In [None]:
X_treino.loc[:, X_treino.isnull().sum() > 0].columns

In [None]:
X_teste.loc[:, X_teste.isnull().sum() > 0].columns

In [None]:
# Para as variáveis numéricas, vamos utilizar a mediana, para as categóricas, a moda
mediana_tenure = X_treino['tenure'].median()
mediana_dependents = X_treino['Dependents'].median()
mediana_total_charges = X_treino['TotalCharges'].median()
moda_payment_method = X_treino['PaymentMethod'].value_counts().index[0]

mediana_tenure, mediana_dependents, mediana_total_charges, moda_payment_method

#### Filtarndo as Linhas de cada variavel com valores nulos e atribuindo os valores correspondente de cada coluna (Valor imputado)

In [None]:
X_treino.loc[X_treino['tenure'].isnull(), 'tenure'] = mediana_tenure
X_treino.loc[X_treino['Dependents'].isnull(), 'Dependents'] = mediana_dependents
X_treino.loc[X_treino['TotalCharges'].isnull(), 'TotalCharges'] = mediana_total_charges
X_treino.loc[X_treino['PaymentMethod'].isnull(), 'PaymentMethod'] = moda_payment_method

X_treino.isnull().sum()

In [None]:
# Não podemos calcular medidas de tendência central com a base toda! Temos que utilizar o que
# foi calculado na base de treino
X_teste.loc[X_teste['tenure'].isnull(), 'tenure'] = mediana_tenure # computado no treino
X_teste.loc[X_teste['Dependents'].isnull(), 'Dependents'] = mediana_dependents # computado no treino
X_teste.loc[X_teste['TotalCharges'].isnull(), 'TotalCharges'] = mediana_total_charges # computado no treino
X_teste.loc[X_teste['PaymentMethod'].isnull(), 'PaymentMethod'] = moda_payment_method # computado no treino

X_teste.isnull().sum()

## <a> Vamos de Machine Learning? </a>

Primeiro modelo que vamos treinar é a regressão logística! A prima esquisita da regressão linear, que nem pra regressão serve, mas sim pra classificação! Lembrando que vamos utilizar cross validation para evitar overfit e ter uma base de comparação para outros modelos

In [None]:
# Veja como Regressão Logística está no pacotão de modelos lineares!
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

In [None]:
# Criando o estimador, algoritmo, modelo, preditor, classificador (virge, que tanto de nome!)
# Vamos alterar o número de iterações para cálculo da regressão logística, pois no default ele enche de warnings
# que pode não ter chegado na melhor solução
regressao_logistica = LogisticRegression(max_iter=500)

In [None]:
type(regressao_logistica)

In [None]:
# Vamos treinar utilizando cross validation
valores_f1_rl = cross_val_score(estimator=regressao_logistica, 
                                  X=X_treino, 
                                  y=y_treino.values.flatten(), 
                                  cv=10, # 10-fold CV
                                  scoring='f1') # f1 score porque a base está desbalanceada
valores_f1_rl

In [None]:
len(valores_f1_rl)

In [None]:
media_f1_rl = valores_f1_rl.mean()
f'f1-score: {media_f1_rl*100}'

### Vamos tentar agora com random forest?

In [None]:
# Modelo de bagging mais famoso!
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier()

# Vamos treinar utilizando cross validation (sempre!!)
valores_f1_rf = cross_val_score(estimator=random_forest, 
                                      X=X_treino, 
                                      y=y_treino.values.flatten(), 
                                      cv=10, # 
                                  scoring='f1')
valores_f1_rf

In [None]:
media_f1_rf = valores_f1_rf.mean()
f'f1-score: {media_f1_rf*100}'


### Finalmente, o famoso XGBoost

In [None]:
import xgboost as xgb

In [None]:
xgb_model = xgb.XGBClassifier(random_state=42, 
                              objective='binary:logistic', 
                              use_label_encoder=False, 
                              eval_metric='error')

In [None]:
type(xgb_model)

In [None]:
# Vamos treinar utilizando cross validation (sempre!!)
valores_f1_xgb = cross_val_score(estimator=xgb_model, 
                                      X=X_treino, 
                                      y=y_treino.values.flatten(), 
                                      cv=10, # 
                                  scoring='f1')
valores_f1_xgb

In [None]:
media_f1_xgb = valores_f1_xgb.mean()

f'f1-score: {media_f1_xgb*100}'

### Fueeeeen :D

Vamos de regressão logística e testar um pouco de feature engineering


## <a> Feature Engineering </a>

Nesse momento em que separamos quem só sabe fazer as coisas no automático e quem realmente se debruça sobre o problema a ser atacado. Vamos avaliar alguns possíveis insights do problema em questão.

Vamos começar com a imputação de dados faltantes? Será que conseguimos melhorar algo?

In [None]:
# Revisitando os dados faltantes (antes do split)
X.isnull().sum()

### Insights

Perceberam que tenure tem um número considerável de dados faltantes. Mas, se pararmos pra pensar, temos a cobrança total e a cobrança mensal. Será que podemos utilizar esses valores para inferir algo melhor que somente a mediana? Ora, se dividirmos a cobrança total pelo valor mensal, teremos uma estimativa muito boa de quantos meses o cliente está com serviço contratado (tenure). Vamos testar

In [None]:
# Buscando somente a coluna tenure para deixar o resto das imputações iguais
X_treino['tenure'] = X_treino_original['tenure']
X_teste['tenure'] = X_teste_original['tenure']

In [None]:
X_treino['tenure'].isnull().sum()

In [None]:
X_teste['tenure'].isnull().sum()

In [None]:
X_treino.loc[X_treino['tenure'].isna(), 'tenure'] = X_treino.loc[X_treino['tenure'].isna(), 'TotalCharges'] / X_treino.loc[X_treino['tenure'].isna(), 'MonthlyCharges']

In [None]:
len(X_treino.loc[X_treino['tenure'].isna()])

In [None]:
# Testando modelo com diferente missing data para tenure
rl_2 = LogisticRegression(max_iter=500)

# Vamos treinar utilizando cross validation
valores_f1_rl2 = cross_val_score(estimator=rl_2, 
                                  X=X_treino, 
                                  y=y_treino.values.flatten(), 
                                  cv=10, # 10-fold CV
                                  scoring='f1')
valores_f1_rl2

In [None]:
media_f1_rl2 = valores_f1_rl2.mean()

f'f1-score: {media_f1_rl2*100}'

### Outros tipos de imputação

Uma outra forma de imputar é utilizando um modelo preditivo para inferir os dados faltantes! Vamos tentar isso para a variável Dependents? Para tal, vamos utilizar imputação utilizando K nearest neighbors, um algoritmo simples que busca similaridades entre pontos "vizinhos" para predizer alguma valor ou classe. No nosso problema, o algoritmo vai prever os dependentes dos clientes que não tem essa informação com base na similaridade desse cliente com outros. Vamos testar também!

In [None]:
# Buscando o X original de novo! Como vamos mudar somente a coluna de Dependents, vamos buscar somente essa coluna
X_treino['Dependents'].isnull().sum()

In [None]:
X_treino['Dependents'] = X_treino_original['Dependents']
X_treino['Dependents'].isnull().sum()

In [None]:
X_treino.isnull().sum()

In [None]:
# imputação fica em "impute"
from sklearn.impute import KNNImputer

imputacao_knn = KNNImputer(n_neighbors=2)
treino_imputado = imputacao_knn.fit_transform(X_treino)
treino_imputado

In [None]:
imputacao_knn.feature_names_in_

In [None]:
treino_imputado.shape

In [None]:
treino_imputado[:, 3]

In [None]:
X_treino['Dependents'] = treino_imputado[:, 3]
X_treino['Dependents'].isnull().sum()

In [None]:
X_treino.head()

In [None]:
X_treino_original.head()

#### E lá vamos nós!!

In [None]:
# Testando modelo com diferente missing data para dependents
rl_3 = LogisticRegression(max_iter=500)

# Vamos treinar utilizando cross validation
valores_f1_rl3 = cross_val_score(estimator=rl_3, 
                                  X=X_treino, 
                                  y=y_treino.values.flatten(), 
                                  cv=10, # 10-fold CV
                                  scoring='f1')
valores_f1_rl3

In [None]:
media_f1_rl3 = valores_f1_rl3.mean()


f'f1-score: {media_f1_rl3*100}'

### Última tentativa, com diversas variáveis categóricas novas (binárias)

Essa parte é muito utilizada na prática para tentar buscar padrões que só o ser humano (por enquanto) consegue avaliar. Esse conhecimento faz muita diferença e devemos nos debruçar muito no problema para criar essas variáveis "derivadas". Vamos apelar? :)

In [None]:
X_treino.head()

In [None]:
# O cliente tem ou não tem internet
X_treino['tem_internet'] = X_treino['InternetService'].isin([1, 2]).astype(int)

# Possui alguma fidelidade?
X_treino['tem_fidelidade'] = X_treino['Contract'].isin([1, 2]).astype(int)

# Vamos contar a quantidade de serviços que o cliente tem contratado
X_treino['numero_de_servicos'] = X_treino['tem_internet'] + X_treino['OnlineSecurity_Yes'] + \
        X_treino['MultipleLines_Yes'] + X_treino['OnlineBackup_Yes'] + \
        X_treino['DeviceProtection_Yes'] + X_treino['TechSupport_Yes'] + \
        X_treino['StreamingTV_Yes'] + X_treino['StreamingMovies_Yes'] + \
        X_treino['PhoneService']

# Vamos criar um valor por media de cobrança?
X_treino['media_cobranca_por_servico'] = X_treino['MonthlyCharges'] / X_treino['numero_de_servicos']
X_treino.head()

In [None]:
# Testando modelo com diferente missing data para dependents
rl_4 = LogisticRegression(max_iter=500)

# Vamos treinar utilizando cross validation
valores_f1_rl4 = cross_val_score(estimator=rl_4, 
                                  X=X_treino, 
                                  y=y_treino.values.flatten(), 
                                  cv=10, # 10-fold CV
                                  scoring='f1')
valores_f1_rl4

In [None]:
media_f1_rl4 = valores_f1_rl4.mean()

f'f1-score: {media_f1_rl4*100}'

## <a> Modelo Campeão! </a>

Agora que temos um modelo campeao (que acabou sendo a regressão logística simprona com tenure imputado com total cobrança dividido pela cobrança mensal! :D), vamos treinar modelo na base de treinamento toda!


In [None]:
# Bagunçamos bastante o X_treino desde o 1o modelo, vamos retomar (seria mais fácil criar pipelines, mas mostrar os passos é importante)
X_treino = X_treino_original
X_treino.loc[X_treino['tenure'].isna(), 'tenure'] = X_treino.loc[X_treino['tenure'].isna(), 'TotalCharges'] / X_treino.loc[X_treino['tenure'].isna(), 'MonthlyCharges']
X_treino.loc[X_treino['Dependents'].isnull(), 'Dependents'] = mediana_dependents
X_treino.loc[X_treino['TotalCharges'].isnull(), 'TotalCharges'] = mediana_total_charges
X_treino.loc[X_treino['PaymentMethod'].isnull(), 'PaymentMethod'] = moda_payment_method

X_treino.isnull().sum()


In [None]:
# Mesmo com teste
X_teste = X_teste_original
X_teste.loc[X_teste['tenure'].isna(), 'tenure'] = X_teste.loc[X_teste['tenure'].isna(), 'TotalCharges'] / X_teste.loc[X_teste['tenure'].isna(), 'MonthlyCharges']
X_teste.loc[X_teste['Dependents'].isnull(), 'Dependents'] = mediana_dependents
X_teste.loc[X_teste['TotalCharges'].isnull(), 'TotalCharges'] = mediana_total_charges
X_teste.loc[X_teste['PaymentMethod'].isnull(), 'PaymentMethod'] = moda_payment_method

X_teste.isnull().sum()


In [None]:
regressao_logistica.fit(X_treino, y_treino.values.flatten())

In [None]:
regressao_logistica.coef_

In [None]:
df_coeficientes = pd.DataFrame(regressao_logistica.coef_)
df_coeficientes.columns=regressao_logistica.feature_names_in_
df_coeficientes

## <a> Finalmente </a>

Agora que temos nosso modelo final, podemos fazer inferências dos valores do churn no teste. Percebam que nunca utilizamos o teste PARA NADA, como deve ser.

In [None]:
# ver estimadores scikit learn
# estimador é treinado com fit
# estimador prediz com predict
predicoes_churn = regressao_logistica.predict(X_teste)
predicoes_churn[:5]

In [None]:
len(predicoes_churn)

In [None]:
y_teste.head()

In [None]:
predicoes_vs_real = pd.DataFrame({'predicao': predicoes_churn.flatten(), 'real': y_teste.values.flatten()})
predicoes_vs_real.head(20)

In [None]:
# Tudo muito bem, tudo muito bom. Mas será que uma simples média é melhor do 
# que nosso modelo? Vamos testar o r quadrado
from sklearn.metrics import f1_score

f1_score(y_true=y_teste, y_pred=predicoes_churn)

56,66% de f1-score, queda no teste te mostra se vale a pena ou não utilizar o modelo em produção. Vamos dar uma olhada na acurácia, só de curiosidade? :)

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_true=y_teste, y_pred=predicoes_churn)

Acima dos 73% do modelo "burrinho", algum ganho por certo.