# ANÁLISE E PREVISÃO DO CHURN DE CLIENTES EM UM BANCO

**POR LUCAS FONSECA MÜLLER**

### 1. INTRODUÇÃO 

O presente estudo, inspirado no trabalho de *Keldine Malit*, intitulado *Preventing bank customer churn*, foi desenvolvido para fins didáticos, buscando a assimilação dos conceitos básicos de análise exploratória e machine learning com python. Visando a análise do dataset, que contem um portfólio de clientes de um determinado banco, objetiva-se a busca de um modelo ótimo que indique, antecipadamente, quais clientes possuem mais chances de deixar de consumir os produtos bancários, para assim definir uma melhor estratégia para a retenção dos mesmos.  

Sendo assim, essa análise contem os seguintes objetivos:

<ol>
    <li> Identificar e visualizar quais os atributos que mais influenciam na perda de clientes;</li>
    <li> Construir um modelo preditivo que fará a análise das variáveis e definirá a probabilidade de um cliente deixar de utilizar os serviços bancários. Esse modelo auxiliará a empresa a focar os seus esforços na retenção dos clientes com maiores chances de perda.
</ol>

#### 1.1. Dicionário de variáveis:

<ul>
    <li>RowNumber: Corresponde ao número de linhas do dataset; </li>
    <li>CustomerId: Contem valores aleatórios e únicos para identificação do cliente; </li>
    <li>Surname: Sobrenome do Cliente; </li>
    <li>CreditScore: Pontuação de crédito do cliente; </li>
    <li>Geography: Localização do Cliente; </li>
    <li>Gender: Gênero do Cliente; </li>
    <li>Age: Idade do Cliente; </li>
    <li>Tenure: Tempo de fidelidade do Cliente; </li>
    <li>Balance: Saldo Bancário do Cliente; </li>
    <li>NumofProducts:Qtde. de produtos consumidos pelo Cliente no banco; </li>
    <li>HasCrCard: Possui cartão de crédito?; </li>
    <li>IsActiveMember: É cliente ativo?; </li>
    <li>EstimatedSalary: Salário estimado do Cliente; </li>
    <li>Exited: Cliente deixou o banco?; </li>
</ul>

### 2. SUMARIZAÇÃO E PREPARAÇÃO DO DATASET 

Nessa etapa, será realizada a exploração do conjunto de dados, visando:
    
<ol>
    <li> A descoberta das dimensões do dataset e os seus respectivos significados;</li>
    <li> A preparação destes dados para os processos de exploração e construção dos modelos preditivos, citados na primeira seção do projeto. </li>
</ol>

In [1]:
# Bibliotecas a serem utilizadas no dataset:

# Em sua preparação:
import numpy as np 
import pandas as pd 

# Em sua visualização:
import matplotlib.pyplot as plt 
%matplotlib inline 
import seaborn as sns 
pd.options.display.max_rows = None 
pd.options.display.max_columns = None 

In [2]:
# Lendo o conjunto de dados:
df = pd.read_csv('https://raw.githubusercontent.com/sharmaroshan/Churn-Modelling-Dataset/master/Churn_Modelling.csv')
df.shape

(10000, 14)

Conforme resultado obtido acima, pode-se concluir que o conjunto de dados possui 10000 registros explicados por cerca de 14 atributos. Essa noção inicial do dimensionamento do dataset é essencial para a etapa de manipulação dos dados que será realizada antes dos objetivos principais desse estudo: a análise exploratória e a construção dos modelos de predição. 

In [3]:
# Listando as features do dataset e os valores faltantes
df.isnull().sum()

RowNumber          0
CustomerId         0
Surname            0
CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
Exited             0
dtype: int64

Verificando as colunas do conjunto de dados, pode-se afirmar que não há valores faltantes.

In [4]:
# Contagem de valores distintos para cada variável
df.nunique()

RowNumber          10000
CustomerId         10000
Surname             2932
CreditScore          460
Geography              3
Gender                 2
Age                   70
Tenure                11
Balance             6382
NumOfProducts          4
HasCrCard              2
IsActiveMember         2
EstimatedSalary     9999
Exited                 2
dtype: int64

Conforme a relação acima, percebe-se que as variáveis *Rownumber* e *CustomerId* são atributos particulares de clientes e não influenciam no restante das variáveis. Ao encontro dessa lógica, pode-se citar também a variável *Surname*, sendo essas três variáveis descartáveis para a análise.

In [14]:
# Apagando colunas descitas acima:
df = df.drop(["RowNumber", "CustomerId", "Surname"], axis= 1)

# Verificando as primeiras linhas do dataset após a exclusão:
df.head()


Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


Uma vez feitas as modificações, podemos debater algumas questões que ficaram vagas:

<ol>
    <li>Os dados aparentam ser uma fotografia de algum ponto no tempo, como podemos perceber pelo saldo demonstrado para uma determinada data não citada. Sendo assim, podemos fazer alguns questionamentos, como: Que data seria essa e qual seria a sua importância na análise e construção do modelo de previsão? Seria possível obter saldos de outras datas, para termos um parâmetro de comparação?</li>
    <li>Ainda existem clientes que possuem saldo no banco, mesmo após a sua saída. Qual o significado disso? Será que realmente eles deixaram o banco, ou apenas pararam de consumir determinado produto que lhe foi oferecido pela instituição?</li>
    <li>O que realmente significa ser um membro ativo? Existem diferentes níveis para se mensurar essa variável? Será que não seria melhor a realização desse nivelamento por meio da quantidade de operações de créditos e débitos em conta?</li>
    <li>Além da quantidade de produtos bancários utilizados por cada cliente, um detalhamento dos mesmos seria de grande valia para a construção de um modelo de predição.</li>
</ol>

Dentro do contexto analisado e com os dados disponíveis, ainda é possível a análise do dataset, assim como a construção de modelos preditivos. No entanto, teremos um menor número de insights e uma potencial diminuição na eficácia de nosso modelo, uma vez que há lacunas que faltam ser explicadas.