------------------------------------------------------------------------
<center>

# Business Understanding:

## Bank Marketing
</center>

*Discentes:*

    *   Arthur Bezerra Calado
    *   Gabriel D'assumpção de Carvalho
    *   Pedro Henrique Sarmento de Paula

*Data:* 04/07/2024

------------------------------------------------------------------------

------------------------------------------------------------------------

In [1]:
import pandas as pd
import matplotlib as plt

# Introdução

<p style="text-align: justify">
O marketing é um conjunto de técnicas e métodos aplicados ao estudo das necessidades dos mercados, funcionando como um mecanismo essencial para potencializar os negócios. As organizações utilizam estratégias variadas para se comunicar diretamente com os clientes, seja por meio de redes sociais, outdoors ou telemarketing, visando alcançar objetivos específicos. No contexto do setor bancário, um dos desafios mais significativos é garantir a eficácia das campanhas de marketing para atrair novos clientes e reter os existentes. A base de dados disponível no UC Irvine Machine Learning Repository se concentra no marketing direto realizado por um banco português, com o propósito de avaliar o sucesso das campanhas de depósito a prazo.
</p>

<p style="text-align: justify">
O telemarketing, como forma de marketing direto, pode ser percebido como invasivo. Por isso, é crucial identificar se o cliente potencial realmente se enquadra no perfil desejado pela empresa, porque nos dias atuais os clientes "adoram compartilhar histórias, boas e ruins, sobre suas experiências de consumo" (KOTLER, 2017, p. 21). O objetivo do marketing é maximizar a retenção de clientes e incentivar a recompra de produtos ou serviços da empresa. Assim, as técnicas de marketing visam selecionar o melhor conjunto de clientes, aqueles mais propensos a se interessar pelo produto oferecido.
</p>

<p style="text-align: justify">
Como mencionado anteriormente pelo fato do telemarketing ser um metodo invasivo cada vez mais esse meio de marketing está sendo menos procurado, podemos ver abaixo uma pequena analise do termo "telemarketing" na ferramenta Google Trands que mostra os mais populares termos buscados.
</p>


In [11]:
gtd_tele = pd.read_csv('https://raw.githubusercontent.com/gabrieldadcarvalho/machine_learning/main/pjt_final/telemarketing_2004.csv')


Unnamed: 0,Date,telemarketing
0,2004-01,92
1,2004-02,99
2,2004-03,86
3,2004-04,90
4,2004-05,89
...,...,...
242,2024-03,15
243,2024-04,15
244,2024-05,14
245,2024-06,14


<p style="text-align: justify">
O problema de negócio em questão é determinar quais clientes são mais
propensos a aderir a um depósito bancário a prazo após uma campanha de
marketing direto. Esta análise é crucial, pois permite ao banco otimizar
seus recursos e estratégias de marketing, focando nos clientes com maior
probabilidade de conversão. A importância deste problema no contexto do
setor bancário não pode ser subestimada, pois campanhas de marketing
bem-sucedidas resultam em um aumento significativo na base de clientes
e, consequentemente, nos lucros do banco.
</p>

<p style="text-align: justify">
Considerando o objetivo do marketing, é evidente que a análise de dados
é uma ferramenta fundamental para a tomada de decisões, facilitando a
compreensão do perfil de cada cliente. Com o avanço de métodos
estatísticos e computacionais, é possível utilizar ferramentas de
inteligência artificial que combinam conhecimentos de estatística
multivariada e computação para a detecção de padrões. Nesse contexto, os
modelos de classificação desempenham um papel crucial, pois permitem
obter conhecimento explicativo e preditivo a partir de dados brutos. Um
modelo de classificação utiliza algumas características de entrada, que
neste caso serão características do cliente bancário, e tem como alvo de
saída o objetivo inicial: determinar se o cliente será bem-sucedido ou
não na adesão a um depósito bancário a prazo.
</p>

<p style="text-align: justify">
Existem diversos tipos de classificadores como K-NN, Suport Vector
Machine (SVM), Logistic Regression (LR), Random Forest (RF), Decision
Tree (DT), Neural Network (NN) e outros. Cada um desses modelos tem suas
vantagens e desvantagens. Por exemplo, SVM e NN são modelos robustos com
capacidade de lidar com dados lineares e não lineares, mas podem perder
a capacidade explicativa. Portanto, a escolha do modelo depende do
objetivo do banco: se deseja um modelo explicativo para entender por que
certos clientes são mais propensos a fazer um depósito ou se precisa
apenas de um modelo preditivo que forneça uma resposta de sucesso ou
fracasso ao inserir as características do cliente.
</p>

<p style="text-align: justify">
Através da análise dos dados coletados entre 2008 e 2010, durante uma
das maiores crises financeiras dos Estados Unidos, podemos identificar
padrões e características dos clientes que levaram ao sucesso das
campanhas. Esta análise não só ajudará a melhorar as estratégias atuais,
mas também fornecerá insights valiosos para mitigar os impactos de
crises financeiras futuras, garantindo a sustentabilidade e o
crescimento do banco a longo prazo. O conjunto de dados a ser analisado
contém 16 variáveis categóricas e inteiras, com 41.188 observações.
</p>

| Nome da variável | Papel          | Tipo       | Demográfico           | Descrição                                                                                                                                                                                                                                                                                                                                                                                                                                         | Unidades | Valores ausentes |
|------------------|----------------|------------|-----------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------|------------------|
| idade            | Característica | Inteiro    | Idade                 |                                                                                                                                                                                                                                                                                                                                                                                                                                                   |          | Não              |
| trabalho         | Característica | Categórico | Ocupação              | Tipo de emprego (categórico: 'Admin.', 'Blue-collar', 'Entrepreneur', 'Householdant', 'Management', 'Aposentado', 'Autônomo', 'Serviços', 'Estudante', 'Técnico', 'Desempregado', 'Desconhecido')                                                                                                                                                                                                                                                 |          | Não              |
| conjugal         | Característica | Categórico | Estado civil          | estado civil (categórico: 'divorciado', 'casado', 'solteiro', 'desconhecido'; nota: 'divorciado' significa divorciado ou viúvo)                                                                                                                                                                                                                                                                                                                   |          | Não              |
| educação         | Característica | Categórico | Nível de escolaridade | (categórico: 'basic.4y', 'basic.6y', 'basic.9y', 'high.school', 'analfabeto', 'professional.course', 'university.degree', 'unknown')                                                                                                                                                                                                                                                                                                              |          | Não              |
| inadimplência    | Característica | Binário    |                       | tem crédito inadimplente?                                                                                                                                                                                                                                                                                                                                                                                                                         |          | Não              |
| equilíbrio       | Característica | Inteiro    |                       | saldo médio anual                                                                                                                                                                                                                                                                                                                                                                                                                                 | Euros    | Não              |
| habitação        | Característica | Binário    |                       | Tem crédito habitação?                                                                                                                                                                                                                                                                                                                                                                                                                            |          | Não              |
| empréstimo       | Característica | Binário    |                       | Tem empréstimo pessoal?                                                                                                                                                                                                                                                                                                                                                                                                                           |          | Não              |
| contato          | Característica | Categórico |                       | tipo de comunicação de contato (categórico: 'celular', 'telefone')                                                                                                                                                                                                                                                                                                                                                                                |          | Sim              |
| day_of_week      | Característica | Data       |                       | último dia de contato da semana                                                                                                                                                                                                                                                                                                                                                                                                                   |          | Não              |
| mês              | Característica | Data       |                       | último mês do ano de contato (categórico: 'jan', 'feb', 'mar', ..., 'nov', 'dec')                                                                                                                                                                                                                                                                                                                                                                 |          | Não              |
| duração          | Característica | Inteiro    |                       | Duração do último contato, em segundos (numérico). Observação importante: esse atributo afeta fortemente o destino de saída (por exemplo, se duration=0 e y='no'). No entanto, a duração não é conhecida antes de uma chamada ser realizada. Além disso, após o fim da chamada y é obviamente conhecido. Assim, esse insumo só deve ser incluído para fins de benchmark e deve ser descartado se a intenção for ter um modelo preditivo realista. |          | Não              |
| campanha         | Característica | Inteiro    |                       | número de contatos realizados durante esta campanha e para este cliente (numérico, inclui último contato)                                                                                                                                                                                                                                                                                                                                         |          | Não              |
| pdays            | Característica | Inteiro    |                       | número de dias que se passaram após o cliente ter sido contatado pela última vez a partir de uma campanha anterior (numérico; -1 significa que o cliente não foi contatado anteriormente)                                                                                                                                                                                                                                                         |          | Sim              |
| anterior         | Característica | Inteiro    |                       | número de contatos realizados antes desta campanha e para este cliente                                                                                                                                                                                                                                                                                                                                                                            |          | Não              |
| presultado       | Característica | Categórico |                       | resultado da campanha de marketing anterior (categórico: 'fracasso', 'inexistente', 'sucesso')                                                                                                                                                                                                                                                                                                                                                    |          | Sim              |
| y                | Alvo           | Binário    |                       | O cliente subscreveu um depósito a prazo?                                                                                                                                                                                                                                                                                                                                                                                                         |          |                  |


<p style="text-align: justify">
Como observado na tabela de variáveis do nosso banco de dados em
questão, notamos que as variáveis "contato", "pdays" e "presultado"
apresentam observações faltantes. Antes de prosseguir com a escolha do
classificador, é essencial realizar uma análise exploratória para tratar
dados faltantes, identificar possíveis outliers, ajustar a distribuição
das variáveis para melhor simetria e transformar variáveis categóricas
em variáveis dummy. Além disso, considerando que os dados são do período
entre 2008 e 2010, pode haver desafios na aplicação de modelos para
classificar novas observações com precisão.
</p>

<p style="text-align: justify">
Dado que o banco de dados contém mais de 41 mil observações, a busca por
um modelo otimizado entre os classificadores citados no 5º parágrafo
exige recursos adequados. Isso inclui hardware e software robustos, bem
como suporte de TI para a instalação de pacotes, manutenção preventiva e
atualizações de software necessárias para a análise de dados. Recursos
adequados são essenciais para lidar com a volumosa quantidade de dados e
garantir a eficiência e a precisão das análises.
</p>

<p style="text-align: justify">
Além desses recursos, é fundamental decidir se o modelo será ajustado
uma única vez com os dados de "bank marketing" ou se será desenvolvido
um Data Warehouse. Um Data Warehouse permitirá armazenar todas as
informações estruturadas dos clientes, facilitando atualizações e
melhorias contínuas do modelo ao longo do tempo. Isso reduzirá a
dependência de dados de terceiros e aumentará a precisão na
classificação dos clientes recorrentes da empresa, proporcionando uma
base sólida para estratégias futuras de marketing e análise de clientes.
</p>

<p style="text-align: justify">
Em resumo, o estudo tem como objetivo utilizar o software Python para
coleta de dados, análise de dados e estimação de modelos de
classificadores, com o intuito de maximizar os depósitos a prazo
captados pelo telemarketing do banco. Portanto, é crucial definir
métricas claras para avaliar o desempenho do projeto. Algumas das
métricas propostas são:

-   Taxa de crescimento de depósitos a prazo;
-   Taxa de permanência de clientes;
-   Comparação do custo atual de aquisição de novos clientes com o custo
    após a implementação do modelo;
-   Estimativa do Retorno sobre o Investimento (ROI).
</p>

# Referência Bibliográfica

KOTLER, Philip; KARTAJAYA, Hermawan; SETIAWAN, Iwan. **Marketing 4.0: do tradicional ao digital**. Rio de Janeiro: Sextante, 2017.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=9cbf65cb-016b-458a-bee9-1cc8843984e5' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>