# **Analise de cancelamentos de planos**
---

Neste *jupyter notebook*, vamos analisar as taxas de cancelamentos dos planos da **Umbrella Corporation**, e a partit dessa analise, tentar decobrir os motibos que levaram a uma taxa de cancelamentos e reverter a situação no processamento.

## Passo 1: instalar o Pandas
---

A primeira coisa a se fazer é abrir o *dataset* no *notebook*. Para isso, iremos fazer o uso de uma biblioteca do ***Python*** usada para análise de dados chamada **Pandas**.

1. Baixe o *dataset* no tema **Materiais**, que se encontra no site do ***Google Classroom*** na pasta raiz do projeto.

2. Em seguida, crie um ambiente virtual do PY na raiz do projeto(`.venv`).

3. Após a criação do `.venv`, instale a biblioteca **Pandas** no ambiente virtual usando  **CLI** atraves do seguinte comando: `pip install pandas`. Nao se esqueça de ativasr o ambiente virtual no **kernel** do *notebook* no canto superior direito, em **Selecione Kernel > Python > .venv recomendao**.
---

## **Passo 2**: abrir o *database*

Com o **Pandas** instalado no ambiente virtual do nosso projeto, agora vamos abrir o ***dataset***. Para isso, vamos criar uma **nova célula de código** logo após essa célula de *markdown*, digitamos o código-fonte para abrir os dados do *data base* no *notebook*. O código-fonte está logo abaixo:

In [None]:
import pandas as pd

#Lê os dados do dataser
tabela = pd.read_csv('cancelamentos.csv')

#mostra os dados da tabela
display(tabela)

O comando `display()` permite a exibição dos dodos como se fosse uma tabela.

Só que agora que finalmente temos os dados armazenados na variavel `tabela`, precisamos filtrar esse dados. Vamos refazer a consulta, mas desta vez iremos retirar a coluna ID, ja que ela é inútil para a nossa analise de dados.

A seguir, vamos acrescentar outra célula de código para realizar a filtragem de dados:

In [None]:
#exibe novamente os dados, eliminando a coluna ID
tabela = tabela.drop('CustomerID', axis=1) #primeiro parâmentro é o nome da coluna(CustomerID). axis recebe a linha cabeçalho.
display(tabela)

## **Passo 3**: Tratamento de dados
---

### **Não é fetiçaria é tecnologia**

Graças ao **PY**, agora temos uma poderosa ferramenta para análise de dados e muito mais perfeita que muita ferramenta famosa como o Excel.

Na nossa planilha, temos muitas linhas e algumas delas estão com dados vazios, mas não sabemoquais e quantas são. Portanto, vamso exibir as informações da planilha para verificar quais linhas possuem daos e quantas estão vazias.

In [None]:
#verificando as linhas que estão preenchidas
display(tabela.info())

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 881666 entries, 0 to 881665
# Data columns (total 11 columns):
#  #   Column                  Non-Null Count   Dtype  
# ---  ------                  --------------   -----  
#  0   idade                   881664 non-null  float64 quantidades de linhas que tem essa célula preenchida
#  1   sexo                    881664 non-null  object 
#  2   tempo_como_cliente      881663 non-null  float64
#  3   frequencia_uso          881663 non-null  float64
#  4   ligacoes_callcenter     881664 non-null  float64
#  5   dias_atraso             881664 non-null  float64
#  6   assinatura              881661 non-null  object 
#  7   duracao_contrato        881663 non-null  object 
#  8   total_gasto             881664 non-null  float64
#  9   meses_ultima_interacao  881664 non-null  float64
#  10  cancelou                881664 non-null  float64
# dtypes: float64(8), object(3)
# memory usage: 74.0+ MB


Os números de linhas para cada coluna não batem, o que indica que existem células não preenchidas poluindo nossa analise de dados. Precisamos elimina-los. Segue a célula de código abaixo.

In [None]:
tabela = tabela.dropna() #ignora as linhas com células nulas
display(tabela.info())

# <class 'pandas.core.frame.DataFrame'>
# Index: 881659 entries, 0 to 881665
# Data columns (total 11 columns):
#  #   Column                  Non-Null Count   Dtype  
# ---  ------                  --------------   -----  
#  0   idade                   881659 non-null  float64  pegou so as linhas que estavam com todos os dados completos.
#  1   sexo                    881659 non-null  object 
#  2   tempo_como_cliente      881659 non-null  float64
#  3   frequencia_uso          881659 non-null  float64
#  4   ligacoes_callcenter     881659 non-null  float64
#  5   dias_atraso             881659 non-null  float64
#  6   assinatura              881659 non-null  object 
#  7   duracao_contrato        881659 non-null  object 
#  8   total_gasto             881659 non-null  float64
#  9   meses_ultima_interacao  881659 non-null  float64
#  10  cancelou                881659 non-null  float64
# dtypes: float64(8), object(3)
# memory usage: 80.7+ MB

## **Passo 4**: Analise do dodos

Agora que os dados foram tratados, podemos iniciar a *Analise de dados* propriamente dita. Que tal começarmos vom a *Taxa de cancelamento da empres?** Afinal de contas, esse é o nosso objetivo: diminuir a taxa de cncelamentos.

Vamos pegar a coluna de taca de cancelamentos e exibir.

In [None]:
#mostra os cancelamentos
display(tabela['cancelou'].value_counts()) 
# value_counts() faz a contagem dos valores da coluna cancelou


Repare que o numero de cancelamentos é maior que o de não cancelamentos. O que significa que algo de errado não esta certo, mas quanto de cancelamentos está acima do de não cancelados, vamos refazer as análises.

In [None]:
#Mostando os dados em porcentagem
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))
#normalize fazer uma normalização da contagem
#map transforma em porcentagem

Agora sabemos que **56.71** dos clientes cancelaram seus contratos. Um numero excessivamente alto, levando em consideração que mais da metade dos cliente foram perdidos. Agora precisamos imvestigar o porque de tantos cacelamentos.

**IMPORTANTE**: Na parte de analise de dados, não temos a informação correta de imediato. Isso leva um tempo para entender o que acontece com os dados. Entao é possivel que em alguns casos demore mais que outros a analise dos dados.
---
## **Passo 5**: Investigação do problema

- Começamos pela duração dos contratos. Veremos que existem 3 tipos de contatos: anual, trimestral e mensal. Vejamos a duração média de cada tipo de contrato.

In [None]:
#numeros brutos
display(tabela['duracao_contrato'].value_counts())

#porcentagem
display(tabela['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

A partir dessa analise, verificamos que a minoria dos cancelamentos possuem o tipo de contrato como mensal. Vamos analaisar a taxa de cancelamento por tipo de contrato.

In [None]:
display(tabela.groupby('duracao_contrato').mean(numeric_only=True))
#mean pega apenas os valores numericos

Podemos obsevar algo entrano na coluna **cancelou**. Vamos verificar a porcentagem de cancelamento de cada tipo de contrato.

In [None]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map('{:.2%}'.format))

Conforme análise , descobrimos que os clientes que possuem o contrato do tipo mensal, possuem uma taxa da cancelamento de 100%. Desta forma, vamos reanalizar o dataset. Desta forma, vamos reanalizar o dataset sem os contratos mensais.

In [None]:
tabela = tabela[tabela['duracao_contrato'] != 'Monthly'] #novo valor tabela eliminando os contratos mensais
display(tabela) #exibe a tabela atualizada
display(tabela['cancelou'].value_counts()) #numeros brutos dos cancelamentos
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format)) #mostra os numeros de cancelamentos em porcentagem


Verificamos que a taxa de cancelament diminuiu par **46%**. É uma diminuição de 10%, mas a taxa de cancelamentos ainda está muito alta, pois é ause 50%, mesmo com a eliminação dos contratos mensais.

Nas análizes anteriores verificamos que há uma alta taxa de cancelamento associada a clientes que atrasam o pagamento. Agora vamos analizar esses clientes.

## Gráficos
---

Uma das melhores formas de fazer esse tipo de análise é atravez de *gráficos*, já que estes facilitam a vizualização dos resultados para obter as informções necessárias.

Para esta ação iremos utilizar a biblioteca **plotly.express** para gerar os gráficos. A instalção é realizada através do comando `pip install plotly` no CLI.

Utilizando o *plotly* criamos um historiograma com cada uma das colunas. Assim podemos analizar cada uma das colunas e verificar como elas se comportam em relação aos cancelamentos da empresa. 

**OBS:** caso o código para exibir os gráficos retorne erro, instale uma biblioteca adicional: `pip install nbformat`. Se mesmo assim não gerar o gráfico e continuar dando erro, feche o VScode e reinicie o programa executando todas em células no botao *executar Tudo* 

In [None]:
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, y=coluna, color='cancelou', width=600)
    grafico.show()

Após análise dos gráficos, foi possivel verificar qua a quantidade de cancelamentos de plano de clientes que atrasaram o pagamento é maior do que a de quem nãi atrasou o pagamento.

Também foi possivel verificar que a taxa de cancelamento está diretamente ligada ao número de ligações ao call center.

**Solução:** melhorar o setor de call center.