Importa as bibliotecas que iremos utilizar

In [3]:
import pandas as pd
import numpy as np 

# 1 - Análise da Base de Dados

Nesta base de dados temos a rotatividade de clientes em empresas de telecomunicações.

O conjunto de dados inclui informações sobre:

* Clientes que saíram no último mês – a coluna é chamada de cancelou
* Serviços para os quais cada cliente se inscreveu – telefone, várias linhas, internet, segurança online, backup online, proteção de dispositivos, suporte técnico e streaming de TV e filmes
* Informações da conta do cliente – há quanto tempo eles são clientes, contrato, forma de pagamento, cobrança sem papel, cobranças mensais e cobranças totais
* Informações demográficas sobre os clientes – sexo, faixa etária e se eles têm parceiros e dependentes

In [4]:
# REaliza a leitura da base de dados
df = pd.read_csv('telco.csv')

In [5]:
# Exibe as duas primeiras linhas
df.head(2)

Unnamed: 0,id_cliente,genero,idoso,casado,dependentes,meses_cliente,servico_de_telefone,varias_linhas,servico_de_internet,seguranca_online,...,protecao_de_dispositivo,suporte_tecnico,tv,streaming_de_filmes,contrato,fatura_sem_papel,forma_de_pagamento,cobrancas_mensais,custos_totais,cancelou
0,7590-VHVEG,feminino,nao,sim,nao,1,nao,nao,DSL,nao,...,nao,nao,nao,nao,mensal,sim,cheque eletronico,29.85,29.85,nao
1,5575-GNVDE,masculino,nao,nao,nao,34,sim,nao,DSL,sim,...,sim,nao,nao,nao,anual,nao,cheque,56.95,1889.5,nao


In [6]:
# Exibe quantidade de valores nulos por coluna
df.isnull().sum()

id_cliente                 0
genero                     0
idoso                      0
casado                     0
dependentes                0
meses_cliente              0
servico_de_telefone        0
varias_linhas              0
servico_de_internet        0
seguranca_online           0
backup_online              0
protecao_de_dispositivo    0
suporte_tecnico            0
tv                         0
streaming_de_filmes        0
contrato                   0
fatura_sem_papel           0
forma_de_pagamento         0
cobrancas_mensais          0
custos_totais              0
cancelou                   0
dtype: int64

In [None]:
# Exibe o tipo de dados das colunas
df.dtypes

In [None]:
# Exibe informações descritivas a respeito das colunas numéricas
df.describe().T

In [None]:
# Exibe informações descritivas a respeito das colunas não numéricas
df.describe(include='O').T

Analisando as informações a cima, nas colunas não numéricas, apenas a coluna id_cliente possui vários valores únicos, tendo as outras colunas no máximo 4 valores únicos.

A coluna id_cliente é um identificador único para cada cliente e em nada agrega para um modelo de machine learning. Sabendo disto, devemos excluir esta coluna.

A coluna genero deve possuir masculino e feminino.

Das outras colunas não numéricas que possuem apenas 2 valores únicos, podemos inferir que são "nao" e "sim", logo, podemos converter tais valores para 0 e 1, respectivamente.

As colunas servico_de_internet, contrato e forma_de_pagamento não aparentam seguir um padrão numérico nos valores únicos, então podemos usar o label encoder para converter os valores textuais para numéricos.

# 2 - Preparar a Base de Dados

In [None]:
# Apaga a coluna id_cliente
df.drop('id_cliente', inplace=True, axis=1)

## 2.1 - Converter Dados textuais para numéricos com `loc`

In [None]:
# Exibe os valores únicos da coluna genero
df.genero.unique()

```Python
df.loc[df['idoso'] == 'nao','idoso'] = 0
df.loc[df['idoso'] == 'sim','idoso'] = 1
df['idoso'] = pd.to_numeric(df['idoso'])

df.loc[df['casado'] == 'nao','casado'] = 0
df.loc[df['casado'] == 'sim','casado'] = 1
df['casado'] = pd.to_numeric(df['casado'])

df.loc[df['dependentes'] == 'nao','dependentes'] = 0
df.loc[df['dependentes'] == 'sim','dependentes'] = 1
df['dependentes'] = pd.to_numeric(df['dependentes'])

df.loc[df['servico_de_telefone'] == 'nao','servico_de_telefone'] = 0
df.loc[df['servico_de_telefone'] == 'sim','servico_de_telefone'] = 1
df['servico_de_telefone'] = pd.to_numeric(df['servico_de_telefone'])

df.loc[df['varias_linhas'] == 'nao','varias_linhas'] = 0
df.loc[df['varias_linhas'] == 'sim','varias_linhas'] = 1
df['varias_linhas'] = pd.to_numeric(df['varias_linhas'])

df.loc[df['seguranca_online'] == 'nao','seguranca_online'] = 0
df.loc[df['seguranca_online'] == 'sim','seguranca_online'] = 1
df['seguranca_online'] = pd.to_numeric(df['seguranca_online'])

df.loc[df['backup_online'] == 'nao','backup_online'] = 0
df.loc[df['backup_online'] == 'sim','backup_online'] = 1
df['backup_online'] = pd.to_numeric(df['backup_online'])

df.loc[df['protecao_de_dispositivo'] == 'nao','protecao_de_dispositivo'] = 0
df.loc[df['protecao_de_dispositivo'] == 'sim','protecao_de_dispositivo'] = 1
df['protecao_de_dispositivo'] = pd.to_numeric(df['protecao_de_dispositivo'])

df.loc[df['suporte_tecnico'] == 'nao','suporte_tecnico'] = 0
df.loc[df['suporte_tecnico'] == 'sim','suporte_tecnico'] = 1
df['suporte_tecnico'] = pd.to_numeric(df['suporte_tecnico'])

df.loc[df['tv'] == 'nao','tv'] = 0
df.loc[df['tv'] == 'sim','tv'] = 1
df['tv'] = pd.to_numeric(df['tv'])

df.loc[df['streaming_de_filmes'] == 'nao','streaming_de_filmes'] = 0
df.loc[df['streaming_de_filmes'] == 'sim','streaming_de_filmes'] = 1
df['streaming_de_filmes'] = pd.to_numeric(df['streaming_de_filmes'])

df.loc[df['fatura_sem_papel'] == 'nao','fatura_sem_papel'] = 0
df.loc[df['fatura_sem_papel'] == 'sim','fatura_sem_papel'] = 1
df['fatura_sem_papel'] = pd.to_numeric(df['fatura_sem_papel'])

df.loc[df['cancelou'] == 'nao','cancelou'] = 0
df.loc[df['cancelou'] == 'sim','cancelou'] = 1
df['cancelou'] = pd.to_numeric(df['cancelou'])
```

In [None]:
# Converte os valores da coluna genero de masculino para 0
df.loc[df['genero'] == 'masculino','genero'] = 0
# Converte os valores da coluna genero de feminino para 1
df.loc[df['genero'] == 'feminino','genero'] = 1
# Converte a coluna genero para o tipo de dados numérico
df['genero'] = pd.to_numeric(df['genero'])

In [None]:
# Primeiro, criamos um dicionário para mapear as strings "nao" e "sim" para valores numéricos.
# Neste caso, "nao" é mapeado para 0 e "sim" é mapeado para 1.
mapeamento = {'nao': 0, 'sim': 1}

# Em seguida, listamos todas as colunas do dataframe df que precisam ser convertidas.
# Estas colunas atualmente têm valores como "nao" e "sim" que queremos transformar em 0 e 1, respectivamente.
colunas = [
    'idoso', 'casado', 'dependentes', 'servico_de_telefone',
    'varias_linhas', 'seguranca_online', 'backup_online',
    'protecao_de_dispositivo', 'suporte_tecnico', 'tv',
    'streaming_de_filmes', 'fatura_sem_papel', 'cancelou'
]


# Aqui, fazemos a operação principal:
# 1. df[colunas] seleciona todas as colunas listadas acima no dataframe df.
# 2. .replace(mapeamento) substitui os valores nas colunas selecionadas usando o dicionário de mapeamento.
#    Isso transforma "nao" em 0 e "sim" em 1.
# 3. .astype(int) converte o tipo de dados das colunas selecionadas para inteiro.
# Atribuímos o resultado de volta a df[colunas], efetivamente atualizando o dataframe com os novos valores.
df[colunas] = df[colunas].replace(mapeamento).astype(int)

In [None]:
df.info()

São muitas colunas com valores sim e não. Podemos pensar de forma mais inteligente para fazer este tratamento, usando nossos loops de repetição

## 2.2 - Converter Dados textuais para numéricos com `Label Encoder`
Analisando o código a cima, temos apenas 3 colunas do tipo object. vamos analisar quais os valores únicos de cada uma:

In [None]:
# Seleciona as colunas do tipo "object"
colunas_object = df.select_dtypes(include=['object']).columns.tolist()
colunas_object

In [None]:
df[colunas_object].head()

In [None]:
df['servico_de_internet'].unique()

In [None]:
df['contrato'].unique()

In [None]:
df['forma_de_pagamento'].unique()


Como não são valores que podemos substituir por valores numéricos de forma intuitiva, vamos usar o label encoder.

In [None]:
# Primeiro passo, importar a biblioteca necessária
from sklearn.preprocessing import LabelEncoder

# Chamamos a função LabelEncoder e atribuimos à variável le 
le = LabelEncoder()

In [None]:
# Se der erro ao executar este comando, 
# será necessaŕio instalar a biblioteca sklearn
# Para isto, tire o comentário da linha abaixo e execute
#!pip install sklearn

# Importância de Salvar o LabelEncoder

Quando utilizamos a técnica de codificação de labels (ou "label encoding") em nossos dados, estamos, na verdade, 
criando um mapeamento entre os valores originais das colunas e os novos valores numéricos. Para garantir que possamos 
decodificar esses números de volta para seus valores originais no futuro, é fundamental salvar esse mapeamento.

Utilizando a biblioteca `pickle`, podemos facilmente salvar cada objeto `LabelEncoder` ajustado em um arquivo separado.
No entanto, como o código acima salva o objeto `le` em cada iteração do loop, o objeto é sobrescrito 
a cada nova coluna processada. Assim, ao final do loop, só temos acesso ao último `LabelEncoder` utilizado.

Se quisermos reverter os valores numéricos para os valores originais de qualquer coluna, 
precisamos do `LabelEncoder` específico para aquela coluna. Por isso, o código acima salva cada 
`LabelEncoder` em um arquivo separado, nomeado com o nome da coluna.

Contudo, é fundamental estar ciente de que, ao usar esta abordagem, será criado um arquivo `.pkl` 
para cada coluna na lista `colunas_object`. Assim, é importante gerenciar e organizar esses arquivos 
adequadamente para evitar confusões no futuro.

In [None]:
# Importação da biblioteca pickle, que permite serializar (ou "salvar") 
# objetos Python em um arquivo e depois desserializar (ou "carregar") esses objetos de volta.
import pickle

In [None]:
# Para cada coluna na lista colunas_object (que supomos conter os nomes das colunas de tipo object no dataframe df):
for coluna in colunas_object:
    # Aqui estamos usando o objeto LabelEncoder (denominado "le") para transformar os valores 
    # de texto da coluna atual em números.
    # A função fit_transform faz duas coisas: 
    # 1. "fit" aprende o mapeamento entre os valores de texto e os números.
    # 2. "transform" aplica esse mapeamento, convertendo os valores de texto em números.
    df[coluna] = le.fit_transform(df[coluna])
    
    # Após ajustar o LabelEncoder à coluna atual, queremos salvar esse objeto "le" 
    # para poder reverter a transformação no futuro, se necessário.
    # Aqui, estamos abrindo (ou criando) um arquivo com o nome da coluna (por exemplo, "idade.pkl") 
    # no modo de gravação binária ('wb').
    with open(f'{coluna}.pkl', 'wb') as file:
        # Usando a função dump do pickle, serializamos e gravamos o objeto "le" no arquivo.
        pickle.dump(le, file)

In [None]:
f'{coluna}.pkl'

In [1]:
# Todas colunas com valores numéricos 
df.info()

NameError: name 'df' is not defined

# 3 - Separar os dados em X e y de Treinamento e Teste


Para ciência de dados, é comum separar os valores em X (X maiúsculo mesmo) e y (y minúsculo mesmo) onde:

* `X` são nossas variáveis independentes (Atributos)

* `y` é a variável dependente, o que queremos prever (nosso alvo), pode ser uma classe, categoria ou um valor numérico contínuo

Geralmente, em 99,9% dos casos, o valor que iremos prever está na última coluna da tabela, logo, o X são todas as colunas da primeira até a penúltima, e o y será nossa última coluna.






In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X = df.drop('cancelou', axis=1)
X

In [None]:
y = df[['cancelou']]
y

A partir deste momento, não iremos utilizar tabela, iremos utilizar matrizes, conhecidas por arrays numpy (numpy é a biblioteca do python para manipular matrizes)

A quantidade de dados utilizados para o teste geralmente  fica entre 40% e 20%. Esta porcentagem de dados para testes é definida no parâmetro test_size

In [None]:
# Separa os dados em treinamento e teste com 30% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

# 4 - Normalizar a base de dados


Não podemos equecer de não normalizar a coluna da nossa classe alvo pois é uma classificação

In [None]:
# Importa a biblioteca para normalizar os dados com Min Max 
from sklearn.preprocessing import MinMaxScaler

# Cria um ainstância do normalizador
normalizador = MinMaxScaler()

# Normaliza o X_train e aprende quais são os valores mínimos e máximos de cada coluna de X
X_train = normalizador.fit_transform(X_train)

# Normaliza o X_trest com os valores mínimos e máximos de cada coluna de X do X_train
X_test = normalizador.transform(X_test)

# 4 - Vamos treinar um algoritmo de machine learning!!

In [None]:
# Biblioteca de algoritmo de machine Learning Naive Bayes
from sklearn.naive_bayes import GaussianNB

# Bibliotecas apara avaliar desempenho de modelos de machine learning de classificação
from sklearn.metrics import classification_report, confusion_matrix

# Bibliotecas de Gráficos
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Criando e treinando o modelo Naive Bayes
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)

In [None]:
# Realizando previsões
y_pred = nb_model.predict(X_test)

# Criando a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)

# Plotando a matriz de confusão com um heatmap
plt.figure(figsize=(8,6))
sns.heatmap(conf_matrix, annot=True, fmt='g', cmap="Blues")
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

# Exibindo o classification report
print(classification_report(y_test, y_pred))

# Explicação: Naive Bayes

O algoritmo Naive Bayes é um método de classificação probabilístico baseado no teorema de Bayes.
Em resumo, ele:
- Estima a probabilidade de uma instância pertencer a uma classe específica.
- Assume que os recursos (features) são independentes entre si (daí o "naive" ou "ingênuo").

# Explicação: Matriz de Confusão

A matriz de confusão é uma tabela que apresenta as frequências:
- Verdadeiro Positivo (VP): Casos reais foram previstos corretamente.
- Falso Positivo (FP): Casos foram incorretamente previstos como positivos.
- Verdadeiro Negativo (VN): Casos negativos foram previstos corretamente.
- Falso Negativo (FN): Casos foram incorretamente previstos como negativos.

# Explicação: Métricas do Classification Report

- **Precisão (Precision)**: Dos casos previstos como positivos, quantos são realmente positivos?
  `Precision = VP / (VP + FP)`
  
- **Recall (Sensibilidade)**: Dos casos que são realmente positivos, quantos previmos corretamente?
  `Recall = VP / (VP + FN)`

- **F1-Score**: Média harmônica entre precisão e recall, oferece um balanço entre as duas métricas.
  `F1 = 2 * (Precision * Recall) / (Precision + Recall)`

- **Support**: Número de ocorrências reais da classe no conjunto de teste.

- **Accuracy (Acurácia)**: De todas as classificações, quantas o modelo classificou corretamente?
  `Accuracy = (VP + VN) / (VP + FP + FN + VN)`

Espero que estas explicações ajudem a entender os conceitos fundamentais apresentados aqui.

# Funções em Python

No Python, uma função é um bloco de código reutilizável que executa uma ação específica. Elas oferecem uma maneira de estruturar seu código em blocos separados, permitindo que você organize seu código, o torne mais legível e reutilize em outros lugares.

## Como definir uma função:

Para criar uma função no Python, você precisa seguir a seguinte sintaxe:

```python
def nome_da_funcao(argumentos):
    # Código da função
    return resultado
```
- ``def`` é a palavra-chave que inicia a definição da função.
- ``nome_da_funcao`` é o nome que você deseja dar à função.
- ``argumentos`` são variáveis que você passa para a função.
- ``return`` é a palavra-chave que retorna um valor da função.

In [None]:
# Definindo a função de soma
def soma(a, b):
    """
    Esta função aceita dois argumentos e retorna a soma de ambos.
    
    Argumentos:
    a -- Primeiro número
    b -- Segundo número
    
    Retorna:
    A soma de a e b
    """
    return a + b

# Definindo a função de multiplicação
def multiplicacao(a, b):
    """
    Esta função aceita dois argumentos e retorna o produto de ambos.
    
    Argumentos:
    a -- Primeiro número
    b -- Segundo número
    
    Retorna:
    O produto de a e b
    """
    return a * b

# Definindo a função que verifica se um número é par ou ímpar
def verifica_paridade(n):
    """
    Esta função aceita um número e retorna uma string indicando se é "par" ou "ímpar".
    
    Argumento:
    n -- Número a ser verificado
    
    Retorna:
    Uma string "par" se o número for par, e "ímpar" se for ímpar.
    """
    if n % 2 == 0:
        return "par"
    else:
        return "ímpar"

Repare que ao definir as funções, nada foi retornado.

In [None]:
# Testando as funções
soma(5, 3)  # Deve imprimir 8

In [None]:
multiplicacao(5, 3)  # Deve imprimir 15

In [None]:
verifica_paridade(5)  # Deve imprimir "ímpar"

Seguindo esta lógica, podemos criar uma função para exibir as métricas de desempenho do modelo.

In [None]:
def avaliar_model(y_test, y_pred):
    # Criando a matriz de confusão
    conf_matrix = confusion_matrix(y_test, y_pred)

    # Plotando a matriz de confusão com um heatmap
    plt.figure(figsize=(8,6))
    sns.heatmap(conf_matrix, annot=True, fmt='g', cmap="Blues")
    plt.xlabel('Predicted')
    plt.ylabel('Actual')
    plt.title('Confusion Matrix')
    plt.show()

    # Exibindo o classification report
    print(classification_report(y_test, y_pred))

# Outros tipos de modelos:
Existem diversos tipos de modelos, alguns muito similares na forma de aplicação, mas podem gerar acurácias melhores ou piores.

Cada bloco de código abaixo é o treinamento e teste de um modelo diferente, sobre a mesma base de dados.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cria uma instância do algorítmo de Regressão Logística
lrmodel = LogisticRegression()

# Treina o modelo com a base de treinamento
lrmodel_treinado = lrmodel.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = lrmodel_treinado.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn import svm

# Cria uma instância do modelo
svmc = svm.SVC()
# Treina o modelo com a base de treinamento
svmc.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = svmc.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn.linear_model import SGDClassifier

# Cria uma instância do modelo
sgd = SGDClassifier()
# Treina o modelo com a base de treinamento
sgd.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = sgd.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn.neighbors import NearestCentroid

# Cria uma instância do modelo
nct = NearestCentroid()
# Treina o modelo com a base de treinamento
nct.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = nct.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn import tree

# Cria uma instância do modelo
dtc = tree.DecisionTreeClassifier()
# Treina o modelo com a base de treinamento
dtc.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = dtc.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Cria uma instância do modelo
rdmf = RandomForestClassifier()
# Treina o modelo com a base de treinamento
rdmf.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = rdmf.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

# Cria uma instância do modelo
ext_clf = ExtraTreesClassifier()
# Treina o modelo com a base de treinamento
ext_clf.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = ext_clf.predict(X_test)

avaliar_model(y_test, y_predict)

In [None]:
from sklearn.neural_network import MLPClassifier

# Cria uma instância do modelo
mlp = MLPClassifier()
# Treina o modelo com a base de treinamento
mlp.fit(X_train, y_train)

# Realiza a predição dos valores de teste
y_predict = mlp.predict(X_test)

avaliar_model(y_test, y_predict)

Analisando as acurácias dos modelos, vemos que ficaram bem próximas, mas em machine learning, maior acurácia significa melhor resultado.

Aqui, o algoritmo que resultou na melhor acurácia foram: SGDClassifier, svm, LogisticRegression

Na prática, poderíamos utilizar um destes modelos com outros clientes da empresa e prever com nosso modelo quais clientes provavelmente irão cancelar o contrato e, antes que isto ocorra, criar uma campanha de marketing direcionada a estes clientes, ofertando planos mais em conta, mais vantagens... Assim evitando a evasão de clientes.

Na aula que vem iremos aprender como aplicar estes modelos com dados de um ou mais clientes para prever se o cliente irá cancelar ou não o contrato. 

# Exercícios

A base de dados `campanha_banco.csv` possui informaçõs sobre campanhas de marketing de um banco x, oferecendo um determinado produto aos clientes (como por exemplo, seguro de pix, seguro de vida, empréstimo, proposta de invertimento em fundo de investimentos...)

Infelizmente, por questões de sigilo de dados, o banco não pode informar qual o tipo de campanha e 8 colunas possuem valores mas não possuem a descrição do que a coluna representa. 

A base de dados já teve os dados textuais convertidos para numéricos. 

1 - Realize a leitura da base de dados;

2 - Realize uma breve análise da base de dados;

3 - Crie a variável X (Para receber os dados de todas as colunas menos a última);

4 - Crie a variável y para receber os dados da coluna `aceitou_proposta`;

5 - Use o train_test_split para separar a base de dados em treinamento e teste (separe 30% dos dados para teste);

6 - Realize a normalização do X de treinamento e teste;

7 - Aplique a base de treinamento em no mínimo 4 modelos;

8 - Verifique qual modelo resultou na melhor acurácia e exiba a matriz d confusão dele.