# Descrição do Cenário:
Você está conduzindo um projeto de análise de dados para um banco europeu que deseja entender o motivo pelo qual seus clientes estão encerrando seus serviços (churn). O banco possui uma base de dados robusta, com diversas informações sobre seus clientes, como credit score, localização geográfica, gênero, idade, número de cartões, salário estimado, e se o cliente deixou o banco ou não (exited). Essa base de dados representa uma grande oportunidade para o banco, pois, ao analisar os fatores que levam os clientes a saírem, ele pode desenvolver estratégias para reter clientes e melhorar seus serviços.

Nos últimos meses, o banco tem enfrentado uma taxa de churn significativa, o que afeta diretamente a receita e a confiança dos investidores. Dado que adquirir novos clientes é mais caro do que manter os atuais, o banco está buscando soluções que lhe permitam identificar padrões e fatores que influenciam a decisão dos clientes de deixar o banco.

# Descrição do Problema:
O problema a ser resolvido neste projeto é a identificação dos principais fatores que levam ao churn dos clientes e o desenvolvimento de estratégias eficazes para reduzir essa taxa de saída. Utilizando a base de dados do banco, o objetivo é responder às seguintes perguntas:

1. Quais são os fatores mais relevantes que influenciam os clientes a deixarem o banco? (Ex.: credit score baixo, salário estimado, idade, etc.)

2. Existem padrões específicos relacionados a localização geográfica ou perfil demográfico (gênero, idade)?

3. Como o comportamento dos clientes que deixam o banco se diferencia daqueles que permanecem?

4. Quais características devem ser priorizadas para estratégias de retenção?

5. A análise deverá gerar insights que possibilitem ao banco implementar ações para:

6. Reter os clientes que estão prestes a sair.

7. Personalizar ofertas e serviços para diferentes perfis de clientes.

8. Minimizar custos associados à perda de clientes.

### Primeiramente, vamos começar conhecendo a base de dados fornecida pelo banco europeu.

In [183]:
# Para o tratamento e pequena análise do Dataframe será necessário importar algumas bibliotecas
import pandas as pd

In [184]:
churn_df = pd.read_csv('Churn_Modelling.csv')

In [185]:
# Verificando a base de dados
churn_df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [186]:
# Vamos verificar as dimesões do Dataframe.
churn_df.shape



(10000, 14)

1000 linhas e 14 colunas.

### Tratamento da base de dados
Após a importação das bases de dados, passamos para a etapa de tratamento, onde nos concentramos em limpar e preparar os dados para a análise exploratória, com o objetivo de gerar insights valiosos.


In [187]:
# Verificando as informações da base de dados
churn_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


In [188]:
# A coluna 'RowNumber' não será útil para nós no futuro por isso ira ser excluída
churn_df.drop(columns=['RowNumber'], inplace=True)

churn_df.head()

Unnamed: 0,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [189]:
# Nota-se que o nome das colunas estão em inglês e por isso vão ser traduzidas para o melhor entendimento. 
churn_df.rename(columns={
    'CustomerId': 'Id Cliente',
    'Surname': 'Sobrenome',
    'CreditScore': 'Pontuacao Credito',
    'Geography': 'Pais',
    'Gender': 'Genero',
    'Age': 'Idade',
    'Tenure': 'Tempo De Vinculo',
    'Balance': 'Saldo',
    'NumOfProducts': 'Numero De Produtos',
    'HasCrCard': 'Possui Cartao Credito',
    'IsActiveMember': 'Membro Ativo',
    'EstimatedSalary': 'Salario Estimado',
    'Exited': 'Saiu'
}, inplace=True)
churn_df.head()


Unnamed: 0,Id Cliente,Sobrenome,Pontuacao Credito,Pais,Genero,Idade,Tempo De Vinculo,Saldo,Numero De Produtos,Possui Cartao Credito,Membro Ativo,Salario Estimado,Saiu
0,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


### Dicionário de Dados

Id Cliente: Identificador único de cada cliente no banco.

Sobrenome: Sobrenome do cliente.

Pontuação Crédito: Pontuação de crédito atribuída ao cliente, que reflete seu histórico de crédito.

País: Localização geográfica do cliente (país de residência).

Gênero: Gênero do cliente (masculino ou feminino).

Idade: Idade do cliente.

Tempo sendo cliente: Número de anos em que o cliente mantém uma conta no banco.

Saldo: Saldo disponível na conta do cliente.

Número De Produtos: Número de produtos ou serviços financeiros que o cliente utiliza no banco.

Possui Cartão Crédito: Indica se o cliente possui um cartão de crédito emitido pelo banco (1 para sim, 0 para não).


Membro Ativo: Indica se o cliente é um membro ativo, ou seja, utiliza regularmente os serviços do banco (1 para sim, 0 para não).

Salário Estimado: Estimativa do salário anual do cliente.

Saiu: Indica se o cliente saiu do banco (1 para sim, 0 para não).

In [190]:
# Apresentação de um resumo estatístico do Dataframe.
churn_df.describe()

Unnamed: 0,Id Cliente,Pontuacao Credito,Idade,Tempo De Vinculo,Saldo,Numero De Produtos,Possui Cartao Credito,Membro Ativo,Salario Estimado,Saiu
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [191]:
# Verificaremos se há dados duplicados.
churn_df[churn_df.duplicated()]



Unnamed: 0,Id Cliente,Sobrenome,Pontuacao Credito,Pais,Genero,Idade,Tempo De Vinculo,Saldo,Numero De Produtos,Possui Cartao Credito,Membro Ativo,Salario Estimado,Saiu


Não há linhas duplicadas nesse dataframe.

In [192]:
# Verificação se há valores nulos no dataframe. Se houver é necessário o tratamento.
churn_df.isnull().sum()


Id Cliente               0
Sobrenome                0
Pontuacao Credito        0
Pais                     0
Genero                   0
Idade                    0
Tempo De Vinculo         0
Saldo                    0
Numero De Produtos       0
Possui Cartao Credito    0
Membro Ativo             0
Salario Estimado         0
Saiu                     0
dtype: int64

In [193]:
# Verificação se há valores fora dos padrões na coluna 'Genero'.
churn_df['Genero'].value_counts()


Genero
Male      5457
Female    4543
Name: count, dtype: int64

A coluna 'Genero' estão como o esperado ('Male' e 'Female')

In [194]:
# Verificação da coluna 'Pais'.
churn_df['Pais'].value_counts()

Pais
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64

Não houve necessidade de um grande tratamento da base de dados, pois, sendo proveniente de um banco com processos robustos de controle, o tratamento necessário foi mínimo. Isso nos permite focar mais na exploração e análise do comportamento dos clientes do que na correção de inconsistências ou lacunas.

Após o tratamento e a familiarização com a base de dados do banco europeu, vamos salvar o CSV tratado, que será utilizado na Análise Exploratória dos Dados, onde extrairemos insights valiosos.

In [195]:
# Aqui estamos salvando o a base de dados atualizada.
churn_df.to_csv('BASE_FINAL.csv')