# Análise de Churn Rate

Esse material contém uma solução para um desafio envolvendo análise de dados e é organizado de maneira detalhada e acessível, podendo ser entendida por quem está iniciando na linguagem Python.

**Desafio:** Criar um código, usando Python, que analisa os dados de uma empresa fictícia, que trabalha com telefone, internet e outros serviços, e descobrir o que pode ser feito para diminuir o Churn Rate, ou seja, a taxa de cancelamento de serviços realizado pelo clientes. Na base de dados disponibilizada, a Churn Rate é maior que 26%.

Dentro do [repositório](https://github.com/DrAdriano/Analise-de-Churn-Rate), você também encontrará: a base de dados, que contém informações dos clientes, quais planos eles assinaram e por quanto tempo; e a solução final, sem a poluição visual dos comentários.

## Sumário

1. Bibliotecas usadas
2. Passo a passo do código
    * 2.1 Importar a base de dados
    * 2.2 Visualizar a base de dados
    * 2.3 Tratar os dados
        * 2.3.1 Verificar as variáveis de cada coluna
        * 2.3.2 Excluir colunas desnecessárias
        * 2.3.2 Analisar as células vazias
    * 2.4 Analisar os dados
        * 2.4.1 Analisar Graficamente
3. Conclusões e comentários

## 1. Bibliotecas usadas 

As principais bibliotecas usadas: [Pandas](https://pandas.pydata.org/), pois estamos trabalhando com dados; e [Plotly Express](https://plotly.com/python/), para fazer a construção de gráficos. Precisamos instalar apenas o Plotly Express, pois o Jupyter já tem naturalmente o Pandas. Outras bibliotecas interessantes para trabalhar com gráficos são [Seaborn](https://seaborn.pydata.org/) e [Matplotlib](https://matplotlib.org/). 

In [2]:
!pip install plotly



## 2. Passo a passo do código 

Vamos começar organizando o passo a passo do código, ou seja, a lógica de programação. Dessa maneira, temos:

* Passo 1: Importar a base de dados
* Passo 2: Visualizar a base de dados
* Passo 3: Tratar os dados
    * 3.1 Verificar as variáveis de cada coluna
    * 3.2 Excluir colunas desnecessárias
    * 3.2 Analisar as células vazias
* Passo 4: Analisar os dados
    * 4.1 Analisar Graficamente

### 2.1 Importando a base de dados 
Importamos o arquivo, que está localizado na mesma pasta que está esse Jupyter Notebook.

In [3]:
import pandas as pd

tabela = pd.read_csv("Base de dados.csv")

### 2.2 Visualizando a base de dados

Nessa etapa, vamos imprimir a tabela para entendermos como estão organizados os dados da tabela, quais informações estão disponíveis e ter um direcionamento para o tratamento de dados.

In [4]:
display(tabela)

Unnamed: 0.1,Unnamed: 0,IDCliente,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,...,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn,Codigo
0,1869,7010-BRBUU,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,...,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao,
1,4528,9688-YGXVR,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,...,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.2,Nao,
2,6344,9286-DOJGF,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,...,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim,
3,6739,6994-KERXL,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,...,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.5,Nao,
4,432,2181-UAESM,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,...,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.5,Nao,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,3772,0684-AOSIH,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95,Sim,
5982,5191,5982-PSMKW,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,...,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.3,Nao,
5983,5226,8044-BGWPI,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,...,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao,
5984,5390,7450-NWRTR,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,...,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim,


### 2.3 Tratando os dados  

Observando a tabela do item anterior, podemos perceber que há 23 colunas, que contém desde informações dos clientes, até quais planos eles assinaram e por quanto tempo. A coluna mais importante, no nosso caso, é a "Churn", que nos dá a informação se o cliente cancelou os serviços. Mas antes de comparar essa coluna com as outras, vamos acertar alguns detalhes. 

Vamos começar usando a função "print(tabela.info())", para retornar a quantidade de valores não nulos e o tipo de variável em cada coluna, informações usadas nas próximas subseções. 

In [5]:
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Unnamed: 0              5986 non-null   int64  
 1   IDCliente               5986 non-null   object 
 2   Genero                  5986 non-null   object 
 3   Aposentado              5986 non-null   int64  
 4   Casado                  5986 non-null   object 
 5   Dependentes             5985 non-null   object 
 6   MesesComoCliente        5986 non-null   int64  
 7   ServicoTelefone         5986 non-null   object 
 8   MultiplasLinhas         5986 non-null   object 
 9   ServicoInternet         5986 non-null   object 
 10  ServicoSegurancaOnline  5986 non-null   object 
 11  ServicoBackupOnline     5986 non-null   object 
 12  ProtecaoEquipamento     5986 non-null   object 
 13  ServicoSuporteTecnico   5986 non-null   object 
 14  ServicoStreamingTV      5986 non-null   

#### 2.3.1 Verificando as variáveis de cada coluna

Observe que a coluna "TotalGasto" deveria estar sendo interpretada como "float64", ou seja, como uma coluna de números decimais, por se tratar de dinheiro. Em alguns casos, poderia até mesmo ser "int64", que representa números inteiros. Entretanto, está sendo interpretada como sendo "object". Para resolver isso, vamos usar o "to_numeric".

Após aplicar a função, perceba que aparece 10 valores nulos na coluna "TotalGasto", isso acontece pois essas células tinham letras ou caracteres especiais. Perder esses valores não são um problema, pois representam apenas cerca de 0,17% da base de dados. 

In [6]:
tabela["TotalGasto"] = pd.to_numeric(tabela["TotalGasto"], errors="coerce")
# Os colchetes são usados para indicar que está se referindo à colunas.
# "coerce" faz com que as células com letras ou caracteres especieais fiquem vazias.

print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Unnamed: 0              5986 non-null   int64  
 1   IDCliente               5986 non-null   object 
 2   Genero                  5986 non-null   object 
 3   Aposentado              5986 non-null   int64  
 4   Casado                  5986 non-null   object 
 5   Dependentes             5985 non-null   object 
 6   MesesComoCliente        5986 non-null   int64  
 7   ServicoTelefone         5986 non-null   object 
 8   MultiplasLinhas         5986 non-null   object 
 9   ServicoInternet         5986 non-null   object 
 10  ServicoSegurancaOnline  5986 non-null   object 
 11  ServicoBackupOnline     5986 non-null   object 
 12  ProtecaoEquipamento     5986 non-null   object 
 13  ServicoSuporteTecnico   5986 non-null   object 
 14  ServicoStreamingTV      5986 non-null   

#### 2.3.2 Excluindo colunas desnecessárias

Pode-se perceber, na subseção 2.3.2, que a coluna "Codigo" está totalmente vazia, ou seja, não é necessária para nossa análise. Perceba que "NaN" é a maneira que o Python completa as células vazias. Outras colunas também são inúteis para o nosso caso: "Unnamed: 0", pois não tem como saber o que os números significam, e "IDCliente".

Vamos excluí-las da análise, mas vale ressaltar que elas não são excluídas do arquivo original da base de dados. 

In [7]:
tabela = tabela.drop("Unnamed: 0", axis=1)
# O comando "tabela.drop" recebe uma célula de referência e depois a informação
# que diz para excluir a linha ou a coluna:
# axis=1 significa coluna e axis=0 significa linha.
tabela = tabela.drop("IDCliente", axis=1)
tabela = tabela.drop("Codigo", axis=1)
# Comando alternativo à esse ultimo:
# tabela = tabela.dropna(how="all", axis=1)
# "dropna" é usada para excluir células vazias.

display(tabela)

Unnamed: 0,Genero,Aposentado,Casado,Dependentes,MesesComoCliente,ServicoTelefone,MultiplasLinhas,ServicoInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,TotalGasto,Churn
0,Masculino,0,Sim,Sim,72,Sim,Sim,Nao,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,2 anos,Nao,CartaoCredito,24.10,1734.65,Nao
1,Feminino,0,Nao,Nao,44,Sim,Nao,Fibra,Nao,Sim,Sim,Nao,Sim,Nao,Mensal,Sim,CartaoCredito,88.15,3973.20,Nao
2,Feminino,1,Sim,Nao,38,Sim,Sim,Fibra,Nao,Nao,Nao,Nao,Nao,Nao,Mensal,Sim,DebitoAutomatico,74.95,2869.85,Sim
3,Masculino,0,Nao,Nao,4,Sim,Nao,DSL,Nao,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,BoletoEletronico,55.90,238.50,Nao
4,Masculino,0,Nao,Nao,2,Sim,Nao,DSL,Sim,Nao,Sim,Nao,Nao,Nao,Mensal,Nao,BoletoEletronico,53.45,119.50,Nao
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5981,Masculino,0,Sim,Nao,1,Sim,Nao,Fibra,Sim,Nao,Nao,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,95.00,95.00,Sim
5982,Feminino,0,Sim,Sim,23,Sim,Sim,DSL,Sim,Sim,Sim,Sim,Sim,Sim,2 anos,Sim,CartaoCredito,91.10,2198.30,Nao
5983,Masculino,0,Sim,Sim,12,Sim,Nao,Nao,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,SemInternet,Mensal,Sim,BoletoEletronico,21.15,306.05,Nao
5984,Masculino,1,Nao,Nao,12,Sim,Sim,Fibra,Nao,Nao,Sim,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,99.45,1200.15,Sim


#### 2.3.3 Analisando as células vazias 

Como são poucos valores vazios, podemos simplesmente excluí-los da análise sem muitos prejuízos à base de dados. 

In [8]:
tabela = tabela.dropna(how="any", axis=0)

print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5974 entries, 0 to 5985
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Genero                  5974 non-null   object 
 1   Aposentado              5974 non-null   int64  
 2   Casado                  5974 non-null   object 
 3   Dependentes             5974 non-null   object 
 4   MesesComoCliente        5974 non-null   int64  
 5   ServicoTelefone         5974 non-null   object 
 6   MultiplasLinhas         5974 non-null   object 
 7   ServicoInternet         5974 non-null   object 
 8   ServicoSegurancaOnline  5974 non-null   object 
 9   ServicoBackupOnline     5974 non-null   object 
 10  ProtecaoEquipamento     5974 non-null   object 
 11  ServicoSuporteTecnico   5974 non-null   object 
 12  ServicoStreamingTV      5974 non-null   object 
 13  ServicoFilmes           5974 non-null   object 
 14  TipoContrato            5974 non-null   

### 2.4 Analisando os dados

Podemos começar verificando a porcentagem de "sim" e "não" dentro da coluna "Churn". Para isso, usamos a função "value_counts()".

In [9]:
display(tabela["Churn"].value_counts())
display(tabela["Churn"].value_counts(normalize=True).map("{:.2%}".format))
# "map("{:.2%}".format" é usado para formatar o número.

Nao    4387
Sim    1587
Name: Churn, dtype: int64

Nao    73.43%
Sim    26.57%
Name: Churn, dtype: object

#### 2.4.1 Analisando Graficamente

Somente agora vamos começar usar a biblioteca Plotly Express, para gerar gráficos, inicialmente, em formato de histogramas, comparando a coluna "Churn" com as outras.

## 3. Conclusões e comentários 

A partir da análise dos gráficos podemos sugerir novas práticas para a empresa conseguir aumentar a fidelidade dos clientes, direcionar investigações, bem como deixar os serviços mais atrativos. Por exemplo, pode-se usar promoções e planos para direcionar o cliente para métodos que tendem a fidelizá-lo, o que acaba sendo bom para o cliente e para a empresa. Os resultados em nossa análise fazem muito sentido com o que é observado nas grandes empresas de assinaturas de serviços, como as de telecomunicações e streaming.

### Sobre as informações pessoais

Nesse tópico, vemos que ter família é um ponto relevante, pois as pessoas casadas e com dependentes tendem a manter os serviços. Outras informações, como gênero e se a pessoa é aposentada, não deram resultados significativos.

**Sugestão:** Pode-se disponibilizar serviços com planos familiares, oferecendo mais serviços por preços melhores, como uma linha adicional ou o serviço de segurança online, por exemplo. Planos familiares são usados por inúmeras empresas grandes, como Netflix e Spotfy. 

### Sobre o tempo e dinheiro investido pelo cliente

Observando as tabelas relacionadas ao tempo como cliente e o total de dinheiro gasto, é possível perceber que quanto mais tempo e quanto mais dinheiro gasto, menos clientes cancelam os serviços. Nos primeiros meses e nas menores quantidades de dinheiro investida, a desistência dos serviços é absurdamente mais alta.

**Sugestão:** É possível que a primeira experiência dos clientes com os serviços estejam sendo ruins ou, também, que a captação de clientes estar trazendo clientes desqualificados, sendo necessário mudar as estratégias de marketing. Para entender melhor os motivos, vale a pena enviar uma pesquisa de satisfação sempre que a alguém cancelar os serviços. Uma ideia interessante é criar incentivos para o clientente ficar mais tempo e ser fidelizado, como, por exemplo, dar uma promoção para os primeiros meses ou primeiro ano de uso, o que também é uma estratégia usada por grandes empresas.

### Sobre os serviços

A partir das tabelas relacionadas aos serviços, como "ServicoTelefone", "MultiplasLinhas", "ServicoSegurancaOnline", entre outros, vemos que quanto mais serviços, menores as chances de acontecer o churn. A única exeção é o "ServicoInternet", que está com uma alta taxa de cancelamento.

**Sugestão:** Oferecer planos com multiplos serviços, o que também é feito por grandes empresas, e pesquisa de satisfação para os usuários do serviço de internet.

### Sobre o pagamento

Ao observar as tabelas "TipoContrato", "FormaPagamento" e "FaturaDigital" identificar que os clientes com contrato mensal tem muito mais chance de cancelar, o mesmo acontece com quem paga usando boleto e quem recebe a fatura digitalmente.

**Sugestão:** Aparentemente os métodos em que os clientes lembram recorrentemente de pagar os serviços ou que dão mais trabalho são os que trazem maiores números de Churn Rate. Dessa forma, é necessário deixar os métodos que dão menos trabalho mais atrativos, com promoções ou outras vantagens. É possível, também, ensinar a fazer o pagamento da fatura automaticamente.