# **Análise de cancelamento de planos**
---

Neste *jupyter notebook*, vamos analisar as taxas de cancelamentos de planos da ***Umbrella Corporation***, e a partir dessa análise, tentar descobrir os motivos que levaram a uma alta taxa de cancelamento, e reverter a situação no processo.

## **Passo 1**: Instalar o **Pandas**
---
A primeira coisa a se fazer é abrir o *dataset* na *notebook*. Para isso, iremos fazer o uso de uma biblioteca de ***Python*** usada para análise de dados chamada **Pandas**.

1. Baixe o *dataset* no tema **Materiais**, que se encontra no site do [Google Classroom](https://classroom.googlecom) na pasta raiz do projeto.

2. Em seguida, crie um ambiente virtual do Python na raiz do projeto(`.venv`)

3. Após a crição do projeto `.venv`, instale a biblioteca **Pandas** no ambiente virtual usando **CLI** através do seguinte comando: `pip install pandas`. Não se esqueça de ativar o ambiente virtual no ***kernel*** do *notebook* no canto superior direito, em **Selecione Kernel**.
---

## **Passo 2**: Abrir o *dataset*
---

Com o **Pandas** instalado no ambiente virtual do nosso projeto, agora vamos abrir o ***dataset***. Para isso, vamos criar uma nova **célula de código** logo após essa célula de *markdown*, e digitarmos o código-fonte para abrir os dados do *dataset* no *notebook*. O código-fonte est´a baixo:

In [None]:
# importando biblioteca pandas
import pandas as pd

# lê os dados do dataset
tabela = pd.read_csv('cancelamentos.csv')

# mostra os dados da tabela
display(tabela)

 comando `display()` permite a exibição dos dados como se fosse uma tabela.

Só que agora que finalmente temos os dados armazenados na variável `tabela`, precisaremos filtrar esses dados. Vamos refazer a consulta, mas desta vez iremos retirar a coluna do ID, pois ela é inutíl para a nossa análise de dados.

A seguir vamos acrescentar outra ceélula de código para realizar a filtragem de dados: 

In [None]:
# exibe novamente os dados, eliminando a coluna ID
tabela = tabela.drop('CustomerID', axis=1)
display(tabela)

## **Passo 3**:Tratamento de dados
---

### **Não é feitiçaria. É tecnologia...**

Graças ao ***Python***, agora temos uma poderosa ferramenta para análise de dados muito mais perfeita que muita ferramenta.

Na nossa planilha, nós temos muitas linhas, sendo que algumas delas estão com dados vazios (mas não sabemos qual, nem quantas). Portanto, vamos exibir as informações da nossa planilha para verificar quantas linhas possuem,de fato,dados, e quantas estão vazias. Veja a élula do código a seguir:

In [None]:
display(tabela.info())

Os números de linhas para cada célula não batem, o que indica que existem células não preenchidas poluindo nossa análise de dados. Precisaremos eliminá-los. Segue a célula com o código abaixo:

In [28]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

## **Passo 4**: Análise de dados
---

Agora que os dados foram tratados, podemos iniciar a *Análise de dados* propriamente dita. Que tal começarmos com a **taxa de cancelamento da empresa**? Afinal de contas, esse é o **nosso objetivo**: diminuir a taxa de cancelamentos.

Vamos pegar a coluna de taxa de cancelamentos e exibir para darmos uma olhada. Veja na célula de código a seguir:

In [None]:
display(tabela['cancelou'].value_counts())

Repare que o número de cancelamentos é maior do que o de não cancelamentos, o que significa que algo de errado não está certo. Mas quanto de cancelamentos está a cima do de não cancelados? Vamos refazer a análise. Observe a célula do código a seguir:

In [None]:
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

Agora sabemos que **56,71%** dos clientes cancelaram  seus contratos. Um número excessivamente alto, levando em conta que mais da metade dos clientes foram perdidos. Agora precisaremos investigar de onde vem essa taxa tão alta de cancelamentos.

**IMPORTANTE: Na parte de análise de dados, não tem uma informação correta para ser análisada logo de cara. Esse é um processo que vai tomar tempo, pois você, de fato precisará analisar os dados e entender o que está acontecendo no seus dataset. Então pode ser que demore mais em alguns casos do que em outros para encontrar o que procura antes de propor uma solução.

---
## **Passo 5**: Investigando o problema:
---

Vamos por partes. Começaremos pela duração dos contratos. Ao verificar a coluna de duração de contratos (`duracao_contrato`), veremos que existem 3 tipos de contratos: **Anual, Trimestral,** e **Mensal**.Vejamos a duração médi de cada tipo de contrato. Vejamos a célula de código a seguir:

In [None]:
# números brutos
display(tabela['duracao_contrato'].value_counts())

# porcentagens
display(tabela['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

A partir dessa análise, verifico que a minoria dos meus clientes possuem contrato do tipo **Mensal**. Será por que a maioria dos cancelamentos é do tipo de contrato mensal? Para descobrir, vamos analisar a taxa de cancelamentos por tipo de contrato. O que vamos fazer é agrupar os 3 tipos de contrato para verificar a taxa de cancelamentos de cada um. Vejamos a célula do nosso código abaixo:


In [None]:
display(tabela.groupby('duracao_contrato').mean(numeric_only=True))

Podemos ver que tem algo estranho na taxa de cancelmanetos visto na coluna cancelou. Vamos verifiar qual a porcentagem de cancelamentos de cada um dos tipos de contrato:

In [None]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map('{:.2%}'.format))

Conforme análise, descobrimos que os clientes que possuem contrato do tipo mensal possuem uma taxa de **100% de cancelamento**. Dessa forma, vamos re-analisar o dataset, mas desta vez, sem os contratos do tipo mensal.

In [None]:
tabela = tabela[tabela['duracao_contrato'] != 'Monthly']
display(tabela)
display(tabela['cancelou'].value_counts())
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

Conseguimos diminuir a taxa de cancelamento para **46,05%**. É uma diminuição de 10%, mas a taxa de cancelamentos ainda está muito alta. Afinal, são quase 50% de cancelamentos, mesmo com a eliminação dos contratos tipo mensal. Então vamos continuar investigando.

Pudmos verificar em análises anteriores que há uma alta taxa de cancelamento entre os clientes que atrasam o pagamento de seus contratos. Então o nosso próximo passo será analisar esses clientes.

---
### Gráficos
---

Uma das melhores formas de se analisar dados é através de gráficos, pois fica muito mais fácil visualizar os dados e obter informações necessárias. 

Para o nosso caso aqui e agora, vamos usar a biblioteca ***plotly.express*** para gerar os gráficos das nossas colunas. Obviamente, precisaremos fazer sua instalação atráves do comando `pip install plotly` no CLI.

Vamos usar o **plotly** para criar um histograma com cada uma das colunas. Assim poderemos analisar cada uma das informações e verificar como elas se comportam em relação aos cancelamentos da empresa. Vamos gerar os gráficos de todas as colunas a partir da célula de código a seguir:

In [None]:
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color='cancelou', width=600)
    grafico.show()

**Obs**: caso o código para exibição de gráficos retorne o erro, instale uma biblioteca adicional que deverá corrigir isso: `pip install nbformat`. Se mesmo após isso o gráfico não funcionar e continuar dando erro, feche o VSCode e reinicie o programa, re-executando todas as células novamente.

Após análise dos gráficos, pudermos verificar que a quantidade cancelamento de plano de clientes que atrasaram o pagamento é maior do que a de quem não atrasou o pagamento.

Também pudemos verificar que a taxa de cancelamentos está diretamente ligada ao número de ligações feitas ao call center.

**SOLUÇÃO:** Melhorar o setor no call center


---
## Resultado
---

Analisando os gráficos de ligações para o call center e dos atrasos de pagamento, conseguimoes chegar a raiz do problema: **os clientes que fizeram mais que 5 ligações para o call center cancelaram seus planos**. Para finalizarmos, vamos refazer a análise do dataset, re-exibindo os dados, desta vez sem os planos mensais, e sem as ligações para o call center que excederam as 5 tentativas, e também vamos eliminar da exibição os clientes que passaram mais tempo sem pagar as suas assinaturas. Vejamos o código a seguir:

In [None]:
tabela = tabela[tabela['ligacoes_callcenter'] < 5]
tabela = tabela[tabela['dias_atraso'] <= 20]
display(tabela)
display(tabela['cancelou'].value_counts())
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))