# **Análise de cancelamento de planos
---

Neste *jupyter notebook*, vamos analisar as taxas de cancelamentos de planos da ***umbrella Coprporation***, e a partir dessa análise, tentar descobrir os motivos que levaram a uma alta de cancelamentos, e reverter a situação no processo.

## Passo 1: instalar o Pandas
---

1. A primeira coisa a se fazer é abrir o *dataset* no *notebbok*. Para isso, iremos fazer uso de uma biblioteca do ***Python*** usada para análise de dados chamada **Pandas**.

Baixe o *dataset* no tema **Materias**, que se encontra no site do Google Classroom** (https://classroom.google.com) na pasta raiz do projeto.

2. Em seguida, crie um ambiente virtual do Python na raiz do rpojeto(.venv).

3. Após a criação do '.venv', instale a biblioteca Pandas no ambiente virtual usando CLI através do seguinte comando: pip install pandas. Não esqueça de ativar o ambiente virtual no **kernel do notebook no canto superior direito do notebook, em Selecione Kernel.

## **Passo 2**: abrir: abrir o *dataset*
---

Com o **Pandas** instalado no ambiente virtual do nosso projeto, agora vamos abrir o ***dataset***. Para isso, vamos criar uma **nova célula de código*** logo após essa célula de *markdown*, e digitarmos o código-fonte para abrir os dados do dataset no notebook. O código-fonte está logo abaixo:



In [68]:
# importando a biblioteca pandas
import pandas as pd

# lê os dados do dataset
tabela = pd.read_csv('cancelamentos.csv')

# mostra os dados da tabela
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


O comando 'display()' permite a eibição dos dados como se fosse uma tabela.
Só que agora que finalmente temos os dados armazenados na variável tabela, precisaremos filtrar esses dados. vamos refazer a consulta, mas desta vez iremos retirar a coluna ID, pois ela é inútil para a nossa análise de dados.

A seguir, vamos acrescentar outra célula de código para realizar a filtragem de dados:

In [69]:
# exibe novamente os dados, eliminando a coluna ID
tabela = tabela.drop('CustomerID', axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


## *Passo 3:* Tratamento de dados
---

### **Não é feitiçaria. É tecnologia...**

Graças ao ***Python***, agora temos uma poderosa ferramenta para análise de daos muito mais perfeita que muita ferramenta famosa (cof cof Excel). 

Na nosa planilha, nós temos muitas linhas, sendo que algumas delas estão com dados vazios (mas não sabemos qual, nem quantas). Portanto, vamos exibir as informações da nossa planilha para verificar quantas linhas possuem , de fato, dados, e quantas estão vazias. Veja a célula de código a seguir:


In [70]:
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Os números de linhas para cada coluna não batem, o que indicam que existem células não preenchidas poluindo nossa análise de dados, Precisaremos eliminá-los. Segue a célula de código abaixo:


In [71]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

## *Passo 4:* Análise de dados
---

Agora que os dados foram tratados, podemos iniciar a *Análise de dados* propriamente dita. Que tal começarmos com a **taxa de cancelamento da empresa**? Afinal de contas, esse é o **nosso objetivo**: diminuir a taxa de cancelamentos. 

Vamos pegar a coluna de taxa de cancelamentos e exibir para darmos uma olhada. Veja na célula de código a seguir:

In [72]:
display(tabela['cancelou'].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Repare que o número de cancelamento é maior do que o de não cancelamento, o que significa que algo de errado não está certo. Mas quanto de cancelamentos está acima do de não cancelados? Vamos refazer a análise. Observe a célula de código a seguir: 

normalize traz od dados 56.71%

values_counts = conta os valores

In [73]:
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

## **Passo 5:** Investigação do Problema

Agora sabemos que **56,71%** dos clientes cancelaram seus contratos. Um número excessivamente alto, levando em conta que mais da metade dos clientes forma perdidos. Agora precisamos investigar de onde vem essa taxa tãoo alta de cancelamentos.

**IMPORTANTE: Na parte de análise de dados, não tem uma informação correta para ser analisada logo de cara. Esse é um processo que vai tomar tempo, pois você, de fato, precisará analisar os dados e entender o que está acontecendo no seu dataset. Então pode ser que demore mais em alguns casos do que em outros para encontrar o que procura antes de propor sua aolução.**

Vamos por partes. Começaremos pela duração dos contratos. Ao verificar a coluna de duração de contratos(duracao_contrato), veremos que existem 3 tipos de contratos: Anual, Trimestral e Mensal. Vejamos a duração média de cada tipo de contrato.
Vejamos a célula de código a seguir:

# o map: gera uma nova lista.

In [74]:
# números brutos
display(tabela['duracao_contrato'].value_counts())

# procentagem
display(tabela['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

A partir dessa análise, verifico que a minoria dos meus clientes possuem contratos do tipo **mensal**. Será por que a maioria dos cacelamentos é do tipo de contrato mensal? 
Para descobrir, vamos analisar a taxa de cancelamentos por tipo de contrato. O que iremos fazer é agrupar os 3 tipos de contrato para verificar a taxa de cancelamentos de cada um.
Vejamos a célula de código abaixo:

mean: esta pegando apenas os valores numericos.

In [75]:
display(tabela.groupby('duracao_contrato').mean(numeric_only=True))

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Podemos ver que tem algo estranho na taxa de cancelamento visto na coluna **cancelou**. Vamos verificar qual a porcentagem de cancelamento de cada um dos tipos de contrato:

In [None]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map('{:.2%}'.format))

In [None]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map(lambda x: '{:.2%}'.format(x)))



Conforme análise, descobrimos que os clientes que possuem contrato do tipo mensal possuem uma taxa de 100% de cancelamento. Dessa forma, vamis re-analisar o dataset, mas desta vez, sem os contratos do tipo mensal.

In [81]:
tabela = tabela[tabela['duracao_contrato'] != 'Monthly']
display(tabela)
display(tabela['cancelou'].value_counts())
display(tb_cancelar['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
5,51.0,Male,33.0,25.0,9.0,26.0,Premium,Annual,129.00,8.0,1.0
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    381666
1.0    325788
Name: count, dtype: int64

cancelou
0.460760    33.33%
1.000000    33.33%
0.460255    33.33%
Name: proportion, dtype: object

Conseguimos diminuir a taxa de cancelamento para **46,05%**. É uma diminuição de quase 10%, mas a taxa de cancelamentos ainda está muito alta. Afinal, são quase 50% de cancelamentos, mesmo com a eliminação dos contratos do tipo mensal. Então vamos continuar investigando.

Pudemos verificar em análises anteriores que há uma alta taxa de cancelamento entre os clientes que atrasam o pagamento de seus contratos. Então o nosso próximo passo será analisar esses clientes.



**Gráficos**
---

Uma das melhores formas de se analisar dados é através de gráficos, pois fica mmuito mais fácil visualizar os dados e obter as informações necessárias.

Para o nosso caso aqui e agora, vamos usar a biblioteca ***plotly.express*** para gerar os gráficos das nossas colunas. Obviamentem precisaremos fazer sua instalação através do comando 'pip install plotly' no **CLI**.

Vamos usar o **plotly** para criar um intograma com cada uma das colunas. Assim poderemos analisar cada uma das informações e verificar como elas se comportam em relação aos cancelamentos da empresa. Vamos gerar os gráficos de todas as colunas a partir da célula de código a seguir:

In [None]:
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color='cancelou', width=600)
    grafico.show()

**Obs:** caso o código para exibição de gráficos retorne erro, instale uma biblioteca adicional que deverá corrigir isso: 'pip install nbformat.' Se mesmo após isso o gráfico não funcionar e continuar dando erro, feche o VSCode e reinicie o programa, re-executando todas as células novamente.

Após análise dos gráficos, pudemos verificar que a quantidade cancelamento de plano de clientes que atrasaram é maior do que a de quem não atrasou o pagamento.

Também pudemos verificar que a taxa de cancelamentos está diretemente ligada ao número de ligações feitas ao call center.

##### **SOLUÇÃO**: melhorar o setor de call center.

## Resultado
---

Analisando os gráficos de ligações para o call center e dos atrasos de pagamento, conseguimos chegar à raiz do problema: **os clientes que fizeram mais que 5 ligações para o call center cancelaram seus planos. Para finalizarmos, vamos refazer a análise do dataset, re-exibindo os dados, desta vez sem os planos mensais, e sem as ligações para o call center que excederam em 5 tentativas, e também vamos eliminar da exibição os clientes que passaram mais tempo sem pagar as suas assinaturas. Vejamos o código a seguir:

In [None]:
tabela = tabela[tabela['ligacoes_callcenter'] < 5]
tabela = tabela[tabela['dias_atraso'] <= 20]
display(tabela)
display(tabela['cancelou'].value_counts())
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
9,64.0,Female,3.0,25.0,2.0,11.0,Standard,Quarterly,415.00,29.0,1.0
13,48.0,Female,35.0,25.0,1.0,13.0,Basic,Annual,518.00,17.0,1.0
19,42.0,Male,15.0,16.0,2.0,14.0,Premium,Quarterly,262.00,16.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    379032
1.0    139383
Name: count, dtype: int64

cancelou
0.0    73.11%
1.0    26.89%
Name: proportion, dtype: object