# Problema:  Prever se um cliente vai cancelar sua assinatura

# Estrutura das variáveis


*   **Estado:** O estado de onde o cliente é originário
*   **Tempo de conta:** Número de dias que o cliente está usando os serviços
*   **Código de área:** A área de onde o cliente é originário
*   **Número de telefone:** O número de telefone do cliente
*   **Plano internacional:** O status do plano internacional do cliente
*   **Plano de correio de voz:** O status do plano de correio de voz do cliente
*   **Número de mensagens de correio de voz:** Número de mensagens de correio de voz enviadas pelo cliente
*   **Total de minutos diurnos:** Total de minutos de chamadas feitos por um cliente durante o dia
*   **Total de chamadas diurnas:** Número total de chamadas feitas por um cliente durante o dia
*   **Total de cobranças diurnas:** Valor total cobrado a um cliente **durante** o dia
*   **Total de minutos vespertinos:** Total de minutos de chamadas feitos por um cliente durante a tarde
*   **Total de chamadas vespertinas:** Número total de chamadas feitas por um cliente durante a tarde
*   **Total de cobranças vespertinas:** Valor total cobrado a um cliente durante a tarde
*   **Total de minutos noturnos:** Total de minutos de chamadas feitos por um cliente durante a noite
*   **Total de chamadas noturnas:** Número total de chamadas feitas por um cliente durante a noite
*   **Total de cobranças noturnas:** Valor total cobrado a um cliente durante a noite
*   **Total de minutos internacionais:** Total de minutos de chamadas internacionais feitas por um cliente
*   **Total de chamadas internacionais:** Número total de chamadas internacionais feitas por um cliente
*   **Total de cobranças internacionais:** Valor total cobrado por chamadas internacionais feitas por um cliente
*   **Chamadas ao serviço de atendimento ao cliente:** Número total de chamadas feitas ao serviço de atendimento ao cliente
*   **Cancelamento:** Cancelado ou não

https://github.com/kuldeep1909/Sony-Research-Machine-Learning-Project

In [1]:
#!pip install pandas
#!pip install numpy
#!pip install matplotlib
#!pip install seaborn
#!pip install scikit-learn
#!pip install jupyter
#!pip install shap
%pip install torchmetrics

Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np
import pandas as pd

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchmetrics
from torch.utils.data import TensorDataset, DataLoader

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings('ignore')

In [3]:
X_train = pd.read_csv("X_train.csv")
X_test = pd.read_csv("X_test.csv")

y_train = pd.read_csv("y_train.csv")
y_test = pd.read_csv("y_test.csv")

In [4]:
X_train.shape

(2666, 15)

In [5]:
model =LogisticRegression(max_iter=1000, verbose=0)
model.fit(X_train, y_train)

In [6]:
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

In [7]:
accuracy_train = accuracy_score(y_train, y_pred_train)
precision_train = precision_score(y_train, y_pred_train)
recall_train = recall_score(y_train, y_pred_train)
f1_train = f1_score(y_train, y_pred_train)

In [8]:
accuracy_test = accuracy_score(y_test, y_pred_test)
precision_test = precision_score(y_test, y_pred_test)
recall_test = recall_score(y_test, y_pred_test)
f1_test = f1_score(y_test, y_pred_test)

In [9]:
print("Acurácia no conjunto de treino:", accuracy_train)
print("Precisão no conjunto de treino:", precision_train)
print("Recall no conjunto de treino:", recall_train)
print("F1-score no conjunto de treino:", f1_train)

print("\nAcurácia no conjunto de teste:", accuracy_test)
print("Precisão no conjunto de teste:", precision_test)
print("Recall no conjunto de teste:", recall_test)
print("F1-score no conjunto de teste:", f1_test)

Acurácia no conjunto de treino: 0.8657164291072769
Precisão no conjunto de treino: 0.6555555555555556
Recall no conjunto de treino: 0.15284974093264247
F1-score no conjunto de treino: 0.24789915966386555

Acurácia no conjunto de teste: 0.8875562218890555
Precisão no conjunto de teste: 0.84375
Recall no conjunto de teste: 0.27835051546391754
F1-score no conjunto de teste: 0.4186046511627907


In [10]:
X_train.values

array([[ 0.09433962,  0.        ,  1.        , ...,  0.15254237,
         0.14820359,  0.04501263],
       [-0.13207547,  0.        ,  0.        , ...,  0.16071429,
         0.13609467,  0.04498945],
       [-0.56603774,  0.        ,  1.        , ...,  0.12244898,
         0.14678899,  0.045     ],
       ...,
       [ 0.0754717 ,  0.        ,  0.        , ...,  0.06896552,
         0.14820359,  0.04500899],
       [-0.58490566,  0.        ,  0.        , ...,  0.18518519,
         0.13609467,  0.04498012],
       [-0.39622642,  0.        ,  0.        , ...,  0.06666667,
         0.13609467,  0.04498229]])

In [11]:
# Converter X e y para torch.Tensor
X_train_tensor = torch.tensor(X_train.values, dtype=torch.float32)
y_train_tensor = torch.tensor(y_train.values, dtype=torch.float32).reshape(-1, 1)

X_test_tensor = torch.tensor(X_test.values, dtype=torch.float32)
y_test_tensor = torch.tensor(y_test.values, dtype=torch.float32).reshape(-1, 1)

In [12]:
class NeuralNetwork(nn.Module):
    def __init__(self, input_dim, num_labels):
        super(NeuralNetwork, self).__init__()
        self.linear1 = nn.Linear(input_dim, 100)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(0.1)
        self.linear2 = nn.Linear(100, num_labels)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.linear2(x)
        x = self.sigmoid(x)
        return x

In [13]:
model = NeuralNetwork(15,1)

In [None]:
n_epochs = 1000
# taxa de aprendizado. São os passos entre os cálculos de erros.
learning_race = 0.0001

In [None]:
# funções disponíveis para calcular o erro
# devem ser testadas qual a melhor.

#Para saídas binárias com sigmoide
criterion = nn.BCELoss()

#Combina a sigmoide e a BCELoss
#criterion = nn.BCEWithLogitsLoss()

#Usado quando a saída é categórica (multiclasse), mas pode ser adaptada para classificação binária
#criterion = nn.CrossEntropyLoss()

In [None]:
#Método básico de otimização
#optimizer = torch.optim.SGD(model.parameters(), lr=learning_race)

optimizer = torch.optim.Adam(model.parameters(), lr=learning_race)

#Uma variante do Adam, mas com decaimento de peso "correto" (weight decay)
#optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=0.01)

#Uma variação de SGD com uma taxa de aprendizado adaptativa
#optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)

In [22]:
for epoch in range(n_epochs):
    model.train()

    outputs = model(X_train_tensor)
    loss = criterion(outputs, y_train_tensor)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 100 == 0:
        print(f'Época [{epoch+1}/100], Loss: {loss.item():.4f}')

Época [100/100], Loss: 0.3618
Época [200/100], Loss: 0.3579
Época [300/100], Loss: 0.3519
Época [400/100], Loss: 0.3507
Época [500/100], Loss: 0.3433
Época [600/100], Loss: 0.3387
Época [700/100], Loss: 0.3352
Época [800/100], Loss: 0.3298
Época [900/100], Loss: 0.3261
Época [1000/100], Loss: 0.3207
Época [1100/100], Loss: 0.3184
Época [1200/100], Loss: 0.3151
Época [1300/100], Loss: 0.3080
Época [1400/100], Loss: 0.3073
Época [1500/100], Loss: 0.3035
Época [1600/100], Loss: 0.2990
Época [1700/100], Loss: 0.2962
Época [1800/100], Loss: 0.2941
Época [1900/100], Loss: 0.2885
Época [2000/100], Loss: 0.2863
Época [2100/100], Loss: 0.2810
Época [2200/100], Loss: 0.2816
Época [2300/100], Loss: 0.2789
Época [2400/100], Loss: 0.2767
Época [2500/100], Loss: 0.2732
Época [2600/100], Loss: 0.2702
Época [2700/100], Loss: 0.2657
Época [2800/100], Loss: 0.2670
Época [2900/100], Loss: 0.2630
Época [3000/100], Loss: 0.2603
Época [3100/100], Loss: 0.2602
Época [3200/100], Loss: 0.2584
Época [3300/100],

#### model.eval()

Coloca o modelo em modo de avaliação. No modo de avaliação, a modelagem **desativa camadas como dropout e batch normalization**, que se comportam de maneira diferente durante o treinamento e a inferência. Além disso, neste modo, o **cálculo dos gradientes é desabilitado**, o que melhora a eficiência e evita a atualização acidental dos parâmetros.

In [68]:
model.eval()

NeuralNetwork(
  (linear1): Linear(in_features=15, out_features=100, bias=True)
  (relu): ReLU()
  (dropout): Dropout(p=0.1, inplace=False)
  (linear2): Linear(in_features=100, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)