#  **Análise de cancelamentos de planos**

---

Neste *jupyter Notebook*, vamos analisar as taxas de cancelamento de planos de uma empresa ***Umbrella Corporation***, e a partir dessa anáçise, tentar descobrir os motivos que levam a uma alta taxa de cancelamentos, e reverter a situação no processo.

## *Passo 1:* Instalar o `Pandas`

A primeira coia a se fazer é abrir o `Dataset` no `Notebook`. Para isso, iremos fazer uso da uma biblioteca do **Python** usada para análise de dados chamada **Pandas**.

1. Baixe o `dataset` no tema **Materiais**, que se encontra no site do [Google Classroom](https://classroom.google.com) na pasta raiz do projeto;

2. Em seguida, cie um ambiete virtual Python na raiz do projeto `.venv`.

3. Após a criação do `.venv`, instale a biblioteca **Pandas** no ambiente virtual usando o seguinte comando:
`pip install pandas`

## *Passo 2:* Abrir o `Dataset`

Com o ***Pandas*** instalado no ambiente virtual do nosso projeto, agora vamos abrir o ***dataset***. Para isso, vamos criar uma **Nova célula de código**
logo após essa célula de *markdown*, e digitarmos o código-fonte para abrir os dados do *dataset* no *notebook*:


In [26]:
#Importando a biblioteca Pandas
import pandas as pd

#Lê os dados do dataset
tabela = pd.read_csv('cancelamentos.csv')

#Mostra os dados da tabela
display(tabela)


Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


O comando `Display()` permite a exibição dos dados como se fosse uma tabela.
Agora que finalmente temos os dados armazenados na variável `tabela´, precisaremos filtrar esses dados. Vamos refazer a consulta, mas desta vez iremos retirar a coluna ID, pois ela é unútil para essa análise de dados.

A seguir, vamos acrescentar outra célula de código paa realizar a filtragem de dados:



In [27]:
#Exibe novamente os dados, eliminando a coluna ID
tabela=tabela.drop('CustomerID', axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


## *Passo 3:* `Tratamento de dados`
---
### **Não é feitiçaria. É tecnologia...**

Graças ao ***Python***, agora temos uma poderosa ferramente para análise de dados muito mais perfeita que muita ferramenta fomosa (*cof cof* Excel)

Na nossa planilha, nós temos muitas linhas, sendo que algumas delas estão com dados vazios (mas não sabemos quantas). Portanto vamos exibir as informações da nossa planilha para verificar quantas linhas possuem, de fato, dados, e quantas estão vazias. Veja a célula código a seguir:

In [28]:
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Os números de linhas para cada coluna não batem, o que indica que existem células não preenchidas poluindo nossa análise de dados. Precisatemos eliminá-los. Segue a célula código abaixo:

In [29]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

## *Passo 4:* `Análise de dados.`
---

Agora que os dados foram tratados, podemos iniciar a **Análise de dados** propriamente dita. Que tal começarmos com a **Taxa de cancelamento da empresa**? Afinal de contas, esse é o **nosso ojetivo**: Diminuir a taxa de cancelamentos.

Vamos pegar a coluna de taxa de cancelamentos e exibir para darmos uma olha, veja na célula código abaixo:

In [30]:
display(tabela['cancelou'].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Repare que o numero de cancelamento é maior que o de não cancelamentos, o que significa que algo de errado não está certo. Mas quanto de cancelmantos está acima do de não cancelados? Vamos refazer a análise:

In [31]:
display(tabela['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

Agora sabemos que **56,71%** dos clientes cancelaram seus contratos. Um numero escessivamente alto, levando em conta que mais a metade dos clientes foram perdidos.
Agora precisaremos investigar de onde vem essa taxa tão alta de cancelamentos.

**IMPORTANTE: Na parte de análise de dados, não tem ma informalçao correta para ser analisada logo de cara. Esse é um processo que vai tomar  tmepo, pois você, de fao, precisará anaisar os dados e entender o que está acontecendo no seu dataset.  Então pode ser que demore mais alguns casos do que em outros para encontrar o que procura antesde propor sua solução**

## **Passo 5:** Investigação do problema.

---

Vamos por partes, começaremos pela duração dos contratos. ao verificar a coluna Duração de contratos (`duração_contratos`), veremos que existem 3 tipos de contratos: **Anual**, **Timestra,** e **Mensal**. Vejamos a duração média de cada tipo de contrato.
Vejamos a celula de código a seguir:

In [32]:
#Numeros Brutos
display(tabela['duracao_contrato'].value_counts())

#procentagem
display(tabela['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

A partir dessa análisem verifico que a minoria dos meus clientes possuem contrato do tipo `Mensal`. Será que por que a maioria dos cancelamentos é do tipo de contrato mensal?
para descobrir, vamos analisar a taxa de cancelamentos por tipo de contrato. O ue vamos faz ré agrupar os 3 tipos de contrato para verificar a taxa de cancelamento de cada um. Vejamos a ceélula de código abaixo:

In [33]:
display(tabela.groupby('duracao_contrato').mean(numeric_only=True))

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Podemos ver que tem algo estranho na taxa de cancelmanetos visto na coluna `cancelou`. Vamos verifiar qual a porcentagem de cancelamentos de cada um dos tipos de contrato:

In [34]:
tb_cancelar = tabela.groupby('duracao_contrato').mean(numeric_only=True)
display(tb_cancelar['cancelou'].map('{:.2%}'.format))

duracao_contrato
Annual        46.08%
Monthly      100.00%
Quarterly     46.03%
Name: cancelou, dtype: object