# **Analise de cancelamentos de planos**
---

Neste *jupyter notebook*, vamos analisar as taxas de cancelamentos dos planos da **Umbrella Corporation**, e a partit dessa analise, tentar decobrir os motibos que levaram a uma taxa de cancelamentos e reverter a situação no processamento.

## Passo 1: instalar o Pandas
---

A primeira coisa a se fazer é abrir o *dataset* no *notebook*. Para isso, iremos fazer o uso de uma biblioteca do ***Python*** usada para análise de dados chamada **Pandas**.

1. Baixe o *dataset* no tema **Materiais**, que se encontra no site do ***Google Classroom*** na pasta raiz do projeto.

2. Em seguida, crie um ambiente virtual do PY na raiz do projeto(`.venv`).

3. Após a criação do `.venv`, instale a biblioteca **Pandas** no ambiente virtual usando  **CLI** atraves do seguinte comando: `pip install pandas`. Nao se esqueça de ativasr o ambiente virtual no **kernel** do *notebook* no canto superior direito, em **Selecione Kernel > Python > .venv recomendao**.
---

## **Passo 2**: abrir o *database*

Com o **Pandas** instalado no ambiente virtual do nosso projeto, agora vamos abrir o ***dataset***. Para isso, vamos criar uma **nova célula de código** logo após essa célula de *markdown*, digitamos o código-fonte para abrir os dados do *data base* no *notebook*. O código-fonte está logo abaixo:

In [1]:
import pandas as pd

#Lê os dados do dataser
tabela = pd.read_csv('cancelamentos.csv')

#mostra os dados da tabela
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


O comando `display()` permite a exibição dos dodos como se fosse uma tabela.

Só que agora que finalmente temos os dados armazenados na variavel `tabela`, precisamos filtrar esse dados. Vamos refazer a consulta, mas desta vez iremos retirar a coluna ID, ja que ela é inútil para a nossa analise de dados.

A seguir, vamos acrescentar outra célula de código para realizar a filtragem de dados:

In [2]:
#exibe novamente os dados, eliminando a coluna ID
tabela = tabela.drop('CustomerID', axis=1) #primeiro parâmentro é o nome da coluna(CustomerID). axis recebe a linha cabeçalho.
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


## **Passo 3**: Tratamento de dados
---

### **Não é fetiçaria é tecnologia**

Graças ao **PY**, agora temos uma poderosa ferramenta para análise de dados e muito mais perfeita que muita ferramenta famosa como o Excel.

Na nossa planilha, temos muitas linhas e algumas delas estão com dados vazios, mas não sabemoquais e quantas são. Portanto, vamso exibir as informações da planilha para verificar quais linhas possuem daos e quantas estão vazias.

In [3]:
#verificando as linhas que estão preenchidas
display(tabela.info())

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 881666 entries, 0 to 881665
# Data columns (total 11 columns):
#  #   Column                  Non-Null Count   Dtype  
# ---  ------                  --------------   -----  
#  0   idade                   881664 non-null  float64 quantidades de linhas que tem essa célula preenchida
#  1   sexo                    881664 non-null  object 
#  2   tempo_como_cliente      881663 non-null  float64
#  3   frequencia_uso          881663 non-null  float64
#  4   ligacoes_callcenter     881664 non-null  float64
#  5   dias_atraso             881664 non-null  float64
#  6   assinatura              881661 non-null  object 
#  7   duracao_contrato        881663 non-null  object 
#  8   total_gasto             881664 non-null  float64
#  9   meses_ultima_interacao  881664 non-null  float64
#  10  cancelou                881664 non-null  float64
# dtypes: float64(8), object(3)
# memory usage: 74.0+ MB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Os números de linhas para cada coluna não batem, o que indica que existem células não preenchidas poluindo nossa analise de dados. Precisamos elimina-los. Segue a célula de código abaixo.

In [4]:
tabela = tabela.dropna() #ignora as linhas com células nulas
display(tabela.info())

# <class 'pandas.core.frame.DataFrame'>
# Index: 881659 entries, 0 to 881665
# Data columns (total 11 columns):
#  #   Column                  Non-Null Count   Dtype  
# ---  ------                  --------------   -----  
#  0   idade                   881659 non-null  float64  pegou so as linhas que estavam com todos os dados completos.
#  1   sexo                    881659 non-null  object 
#  2   tempo_como_cliente      881659 non-null  float64
#  3   frequencia_uso          881659 non-null  float64
#  4   ligacoes_callcenter     881659 non-null  float64
#  5   dias_atraso             881659 non-null  float64
#  6   assinatura              881659 non-null  object 
#  7   duracao_contrato        881659 non-null  object 
#  8   total_gasto             881659 non-null  float64
#  9   meses_ultima_interacao  881659 non-null  float64
#  10  cancelou                881659 non-null  float64
# dtypes: float64(8), object(3)
# memory usage: 80.7+ MB

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

## **Passo 4**: Analise do dodos

Agora que os dados foram tratados, podemos iniciar a *Analise de dados* propriamente dita. Que tal começarmos vom a *Taxa de cancelamento da empres?** Afinal de contas, esse é o nosso objetivo: diminuir a taxa de cncelamentos.

Vamos pegar a coluna de taca de cancelamentos e exibir.

In [5]:
#mostra os cancelamentos
display(tabela['cancelou'].value_counts()) 
# value_counts() faz a contagem dos valores da coluna cancelou


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Repare que o numero de cancelamentos é maior que o de não cancelamentos. O que significa que algo de errado não esta certo, mas quanto de cancelamentos está acima do de não cancelados, vamos refazer as análises.

In [7]:
#Mostando os dados em porcentagem
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))
#normalize fazer uma normalização da contagem
#map transforma em porcentagem

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

Agora sabemos que **56.71** dos clientes cancelaram seus contratos. Um numero excessivamente alto, levando em consideração que mais da metade dos cliente foram perdidos. Agora precisamos imvestigar o porque de tantos cacelamentos.

**IMPOSTANTE**: Na parte de analise de dados, não temos a informação correta de imediato. Isso leva um tempo para entender o que acontece com os dados. Entao é possivel que em alguns casos demore mais que outros a analise dos dados.
---
## **Passo 5**: Investigação do problema

- Começamos pela duração dos contratos. Veremos que existem 3 tipos de contatos: anual, trimestral e mensal. Vejamos a duração média de cada tipo de contrato.

In [8]:
#numeros brutos
display(tabela['duracao_contrato'].value_counts())

#porcentagem
display(tabela['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

A partir dessa analise, verificamos que a minoria dos cancelamentos possuem o tipo de contrato como mensal. Vamos analaisar a taxa de cancelamento por tipo de contrato.

In [9]:
display(tabela.groupby('duracao_contrato').mean(numeric_only=True))
#mean pega apenas os valores numericos

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Podemos obsevar algo entrano na coluna **cancelou**. Vamos verificar a porcentagem de cancelamento de cada tipo de contrato.

In [14]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map('{:.2%}'.format))

duracao_contrato
Annual        46.08%
Monthly      100.00%
Quarterly     46.03%
Name: cancelou, dtype: object