# **Pandas**
---

O cliente é uma empresa que nos contratou como **Cientista de Dados** para fazer uma análise das **taxas de cancelamento** de seus planos ofertados para os clientes dessa empresa.

Nosso dever é fazer uma análise do *dataset* enviado pelo nosso cliente sobre os planos ofertados, verificar onde está a raiz do problema, e apresentar uma solução.

## Passo 1
---

O primeiro passo a se fazer é instalar a biblioteca do ***Pandas***, utilizada para **Análise de Dados** em **Ciência de Dados**. Isso é feito acessando o **Terminal** e instalando o Pandas através do **Gerenciador de Pacotes Pip** incluso no Python. Esse pacote deve ser instalado diretamente no **Ambiente Virtual .venv** criado espeficicamente para o projeto, através do comando `pip install pandas`.

## Passo 2
---

Após a instalação do **Pandas**, iremos importar a biblioteca e abrir o ***dataset*** no *notebook* para a melhor exibição de seus dados. Mas antes de digitarmos qualquer código Python, teremos que alterar o **kernel** do *notebook* para o ambiente virtual Python criado junto com o projeto.

Após isso, iremos criar a célula de código, mas quando executarmos a célula, o **Jupyter** irá pedir a instalação do pacote ***ipykernel***. Iremos prosseguir com a instalação para a visualização do resultado do código-fonte.

Segue a célula de código abaixo:

In [15]:
# importação da biblioteca
import pandas as pd

# lê os dados da tabela
tabela = pd.read_csv("cancelamentos.csv")

# mostra os dados da tabela no notebook
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


## Passo 3
---

Agora que puxamos os dados da tabela para o nosso notebook, precisaremos fazer um tratamento desses dados. Observe, por exemplo, que algumas colunas, como a coluna do ID é completamente inútil para a nossa análise. Portanto, iremos fazer outra célula de código para retirar essa coluna da nossa análise. Observe a célula de código abaixo:

In [16]:
tabela = tabela.drop("CustomerID", axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


A análise anterior mostra que temos um total de **881.666** linhas. Entretanto, a saída não nos mostra quais, nem quantas dessas linhas estão com espaços vazios, que não poderão ser considerados pela nossa futura análise.

Dessa forma, precisaremos contabilizar o número de linhas com algum tipo de dado, e quantas linhas possuem valor nulo.

In [17]:
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

O resultado acima mostra a quantidade de linhas de cada campo, contando inclusive com as linhas vazias. Repare que o número de linhas é diferente em algumas colunas. Na próxima célula de código, precisaremos eliminar as células com valor nulo:

In [18]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

Veja agora que o número de linhas é igual para todas as colunas, que por sua vez, são iguais ao número total de linhas da tabela inteira. Agora que fizemos o **tratamento de dados**, vamos para o mais importante: a **Análise de Dados**.

## Passo 4
---

Agora finalmente iremos iniciar a análise de dados propriamente dita. Vamos começar analisando a taxa de cancelamento dos planos de assinatura da empresa. Vamos verificar qual é a taxa de cancelamento e de onde ela vem:

In [19]:
display(tabela["cancelou"].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Temos um número. A linha com valores **1.0** representam quem cancelou. As linhas com valores **0.0** representam quem não cancelou. Mas para um leigo, fica dificil dizer se os valores são bons ou ruins. Portanto, vamos transformar esses números em porcentagem.

In [20]:
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

O `.map()` atribui à lista uma operação que transforma os valores em **porcentagem**.

Veja que, de acordo com a nossa análise, mais da metade dos clientes cancelaram o serviço. O próximo passo é tentar entender de onde vem uma taxa tão alta de cancelamento.

---
**IMPORTANTE: Na parte da análise de dados, não tem uma informação correta para ser analisada logo de cara. Esse é um processo que vai tomar tempo, pois você, de fato, precisará analiar os dados e entender o que está acontecendo no seu *dataset*. Então pode ser que demore mais em alguns casos para encontrar o que procura antes de propor sua solução.**

## Passo 5
---

Precisaremos analisar por partes. Vamos começar pela duração dos contratos. No dataset, existem 3 tipos de contratos: **Anual**, **Trimestral** e **Mensal**. Vejamos qual a duração de cada um dos tipos de contratos:

In [21]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.2%}".format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

Observe algo interessante: os contratos anuais e trimestrais tem uma divisão quase igual, mas há uma discrepância muito maior na duração dos contratos mensais.

Vamos agrupar as informações da coluna **duracao_contrato** e depois fazer a média das informações. Para isso, iremos usar a função `groupby()` e repassar o nome da coluna nela:

In [22]:
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Aqui temos uma informação alarmante: os contratos do tipo mensal tiveram **EXATOS 100%  DE CANCELAMENTO!!!**

#### O que pode ser feito?

Vamos remover as informações desse contrato e continuar analisando. Aqui vale lembrar que nem sempre que encontrar algo que seja ruim na sua análise de dados você retira e para por aí. A ideia é ir analisando até que chegue em um valor "aceitável" dentro da sua análise. Então é importante definir esse "valor aceitável" do seu objetivo para não ficar trabalhando sem ter um ponto de partida.

In [23]:
tabela = tabela[tabela["duracao_contrato"] != "monthly"]
display(tabela)
display(tabela['cancelou'].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

 A proporção de cancelamento já caiu para **46,05%**, mas esse número ainda é alto. Então, vamos continuar a análise para abaixar esse valor para algo longe dos 50%.
 
 Vmaos agora fazer uma análise das assinaturas para verificar se podemos tirar alguma conclusão para melhorar o índice de cancelamentos. Primeiro, vamos fazer a contagem dos valores na coluna de assinaturas para saber quantas assinaturas temos em cada um dos planos. Em seguida, vamos agrupar as informações por assinaturas e obter a média das linhas para cada uma das colunas. 

In [24]:
display(tabela["assinatura"].value_counts(normalize=True).map("{:.2%}".format))
display(tabela.groupby("assinatura").mean(numeric_only=True))

assinatura
Standard    33.83%
Premium     33.73%
Basic       32.44%
Name: proportion, dtype: object

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
assinatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Basic,39.458756,31.935347,15.808678,3.652196,13.02631,628.673496,14.488492,0.581782
Premium,39.323023,30.883415,15.809341,3.577677,12.916779,632.9273,14.475566,0.559413
Standard,39.341109,30.976879,15.804613,3.585303,12.956423,633.13436,14.478837,0.560697


## Passo 6
---

UMa das melhores formas para de se analisar dados é atarvés de gráficos, pois fica muito mais fácil visualizar os dados e obter as informações necessárias.

O **Python** é extremamente rico em bibliotecas que geram gráficos. Para o nosso caso específico, iremos instalar e importar a biblioteca **plotly.express**, usando, é claro, o comando `pip install plotly.`

**OBS:**Caso tenha problemas na visualização dos gráficos depois de instalar a biblioteca, volte ao terminal e digite o comando `pip install nbformat`. Se mesmo após isso não funcionar, renecie o **VSCODE** e rode todos os códigos novamente em **EXECUTE TUDO**.

Vamos usar o **plotly** para criar um histrograma com cada uma das colunas, assim podemos analisar cada uma das informações e verificar como elas se comportam em relação aos cancelamentos da empresa.

In [None]:
import plotly.express as px 

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou", width=600)
    grafico.show()

## PASSO 7
---

Conseguimos identificar os problemas: número alto de ligações para o call center por parte do cliente, e atraso no pagamento das assinaturas. Chegamos a conclusão de que fizeram mais que 5 ligações para o call center acabram cancelando seus planos, e também quem atrasou mais de 20 dias o pagamentos do plano, também acabou cancelando suas assinaturas. 

Vamos refazer e análise retirando da equação os clientes que fizeram mais de 5 ligações para o call center e também retirando os clientes que atrasaram mais de 20 dias o pagamento de seus planos.

In [27]:
tabela = tabela[tabela['ligacoes_callcenter'] < 5]
tabela = tabela[tabela['dias_atraso'] <= 20]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela['cancelou'].value_counts(normalize=True).map("{:.2%}".format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
9,64.0,Female,3.0,25.0,2.0,11.0,Standard,Quarterly,415.00,29.0,1.0
13,48.0,Female,35.0,25.0,1.0,13.0,Basic,Annual,518.00,17.0,1.0
19,42.0,Male,15.0,16.0,2.0,14.0,Premium,Quarterly,262.00,16.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    379032
1.0    139383
Name: count, dtype: int64

cancelou
0.0    73.11%
1.0    26.89%
Name: proportion, dtype: object