# Bibliotecas

In [55]:
import pandas as pd
import keras
import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

# Exploração/Pre-Processamento

In [30]:
df = pd.read_csv('bank.csv', sep=';')

df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


In [31]:
df.info()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4521 entries, 0 to 4520
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        4521 non-null   int64 
 1   job        4521 non-null   object
 2   marital    4521 non-null   object
 3   education  4521 non-null   object
 4   default    4521 non-null   object
 5   balance    4521 non-null   int64 
 6   housing    4521 non-null   object
 7   loan       4521 non-null   object
 8   contact    4521 non-null   object
 9   day        4521 non-null   int64 
 10  month      4521 non-null   object
 11  duration   4521 non-null   int64 
 12  campaign   4521 non-null   int64 
 13  pdays      4521 non-null   int64 
 14  previous   4521 non-null   int64 
 15  poutcome   4521 non-null   object
 16  y          4521 non-null   object
dtypes: int64(7), object(10)
memory usage: 600.6+ KB


Unnamed: 0,0
age,0
job,0
marital,0
education,0
default,0
balance,0
housing,0
loan,0
contact,0
day,0


In [32]:
# Verificar a distribuição da variável alvo
df['y'].value_counts()

Unnamed: 0_level_0,count
y,Unnamed: 1_level_1
no,4000
yes,521


In [33]:
X = df.drop('y', axis=1)
y = df['y'].apply(lambda x: 1 if x == 'yes' else 0)

In [34]:
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = X.select_dtypes(include=['object']).columns

print("Variáveis numéricas:", numerical_cols)
print("Variáveis categóricas:", categorical_cols)


Variáveis numéricas: Index(['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous'], dtype='object')
Variáveis categóricas: Index(['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact',
       'month', 'poutcome'],
      dtype='object')


In [35]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

X_train.shape, X_test.shape

((3616, 51), (905, 51))

O dataset possui 521 amostras (linhas).

---

O dataset possui 16 features, que podem ser divididas em duas categorias principais:

- Variáveis Numéricas:
  - age: Idade do cliente (tipo int).
  - balance: Saldo bancário do cliente (tipo int).
  - duration: Duração da última chamada de contato com o cliente, em segundos (tipo int).
  - campaign: Número de contatos realizados durante esta campanha (tipo int).
  - pdays: Número de dias desde o último contato com o cliente (tipo int).
  - previous: Número de contatos realizados em campanhas anteriores (tipo int).

- Variáveis Categóricas:
  - job: Profissão do cliente (exemplo: "admin.", "technician").
  - marital: Estado civil do cliente (exemplo: "married", "single").
  - education: Nível de educação do cliente (exemplo: "primary", "secondary", "tertiary").
  - default: Se o cliente tem ou não crédito em atraso (valores: "yes" ou "no").
  - housing: Se o cliente tem ou não crédito à habitação (valores: "yes" ou "no").
  - loan: Se o cliente tem ou não um empréstimo pessoal (valores: "yes" ou "no").
  - contact: Canal de contato utilizado para alcançar o cliente (exemplo: "cellular", "telephone").
  - day: Dia do mês em que o cliente foi contatado (tipo int).
  - month: Mês em que o cliente foi contatado (exemplo: "jan", "feb", etc.).
  - poutcome: Resultado da campanha anterior (exemplo: "failure", "success", "unknown").

---

A variável alvo é y, que representa se o cliente subscriu (ou não) o depósito a prazo oferecido durante a campanha de marketing. O objetivo é classificar os clientes em duas categorias:

- "yes" (1): O cliente subscreveu o depósito a prazo.

- "no" (0): O cliente não subscreveu o depósito a prazo.



# Modelo

In [36]:
model = Sequential()

model.add(Dense(1, input_dim=X_train.shape[1], activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

model.summary()


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


- Otimização e Perda:
  - Otimizador (optimizer='adam'): O Adam é um dos otimizadores mais usados em problemas de deep learning. Ele se adapta a taxa de aprendizado para cada parâmetro, o que ajuda a acelerar a convergência.
  - Função de Perda (loss='binary_crossentropy'): Como estamos lidando com um problema de classificação binária, a perda de binary_crossentropy é a mais adequada. Ela calcula a diferença entre a previsão do modelo e o valor real (0 ou 1), penalizando as previsões erradas.

- Métricas
  - Acurácia (metrics=['accuracy']): A acurácia mede a porcentagem de previsões corretas do modelo, o que é útil para problemas equilibrados, mas pode ser influenciada em problemas desbalanceados (como esse, onde temos mais exemplos de "no" do que "yes").
  - F1 Score: O F1 score é uma métrica mais completa para classificação binária, especialmente em cenários de desbalanceamento de classes. Ele combina a precisão (quantos dos classificados como positivos são realmente positivos) e recall (quantos dos positivos reais foram identificados).

In [49]:
def f1_score(y_true, y_pred):
    y_true = tf.cast(y_true, tf.float32)

    y_pred = tf.cast(tf.greater_equal(y_pred, 0.5), tf.float32)

    true_positives = tf.reduce_sum(y_true * y_pred)
    predicted_positives = tf.reduce_sum(y_pred)
    possible_positives = tf.reduce_sum(y_true)

    precision = true_positives / (predicted_positives + tf.keras.backend.epsilon())
    recall = true_positives / (possible_positives + tf.keras.backend.epsilon())

    f1 = 2 * (precision * recall) / (precision + recall + tf.keras.backend.epsilon())
    return f1

In [50]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', f1_score])

model.summary()


In [51]:
history = model.fit(X_train, y_train, epochs=50, batch_size=10, validation_data=(X_test, y_test))

Epoch 1/50
[1m362/362[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.4534 - f1_score: 0.1660 - loss: 0.8146 - val_accuracy: 0.8862 - val_f1_score: 0.0183 - val_loss: 0.3832
Epoch 2/50
[1m362/362[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.8836 - f1_score: 0.0121 - loss: 0.3478 - val_accuracy: 0.8884 - val_f1_score: 0.0073 - val_loss: 0.3129
Epoch 3/50
[1m362/362[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.8841 - f1_score: 0.0183 - loss: 0.3062 - val_accuracy: 0.8928 - val_f1_score: 0.0311 - val_loss: 0.2901
Epoch 4/50
[1m362/362[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.8789 - f1_score: 0.0441 - loss: 0.3029 - val_accuracy: 0.8884 - val_f1_score: 0.0513 - val_loss: 0.2779
Epoch 5/50
[1m362/362[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.8816 - f1_score: 0.0760 - loss: 0.2835 - val_accuracy: 0.8862 - val_f1_score: 0.0696

In [53]:
y_pred = model.predict(X_test)

y_pred = (y_pred >= 0.5).astype(int)

[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step


In [54]:
accuracy = (y_pred.flatten() == y_test.values).mean()
print(f'Acurácia: {accuracy:.4f}')

Acurácia: 0.9017


In [56]:
f1 = f1_score(y_test, y_pred)
print(f'F1 Score: {f1:.4f}')

F1 Score: 0.3776


A acurácia de 90.17% indica que o modelo acerta a classificação em 90.17% dos casos. Isso é geralmente um bom sinal de que o modelo está performando bem em muitos dos exemplos. Entretanto, é importante destacar que a acurácia pode ser enganosa de vez em quando, especialmente quando as classes são desbalanceadas, como nesse, onde a classe "no" tem muito mais exemplos que a classe "yes".

Mesmo que a acurácia pareça alta, ela pode estar sendo influenciada pela grande diferença de classes, fazendo com que o modelo se concentre mais na classe majoritária ("no").

A métrica F1 de 0.3776 é bem mais baixa, o que sugere que, apesar de o modelo ter uma boa taxa de acertos gerais, ele não está se saindo bem em identificar a classe minoritária ("yes").

Para melhorar o desempenho do modelo, pode-se considerar técnicas de balanceamento de classes, como atribuir pesos diferentes para as classes ou utilizar subamostragem ou superamostragem, ajustando o foco do modelo para a classe minoritária ("yes). Além disso, a utilização de modelos mais complexos, como redes neurais mais profundas, pode ajudar o modelo a aprender padrões mais complexos e evitar overfitting, como está acontecendo agr. Ajustes nos hiperparâmetros, como o learning rate, o batch size e o número de épocas, também pode contribuir para uma melhor convergência do modelo. No lado do pré-processamento, a análise de outliers pode melhorar ainda mais os resultados. Além disso, métricas adicionais, como precisão e recall, podem fornecer uma visão mais detalhada do desempenho do modelo para cada classe específica. Em resumo, enquanto a acurácia reflete uma boa performance geral, o baixo F1 Score aponta a necessidade de ajustes focados em melhorar a identificação da classe minoritária ("yes) e, com isso, melhorar o desempenho geral do modelo.