# Análise de dados da cyberdyne Systems
---

A cyberdyne Systems contratou cientistas de dados do SENAI "experts" em na linguagem de programação em python para analisar o auto índice de cancelamentos de contraros por parte dos clientes da empresa. O desafio aqui é tentar descobrir a causa do alto índice de cancelamento e indice de cancelamento de contratos por parte dos clientes da empresa. O desafio aqui é tentar descobrir a causa do alto índice de cancelamentos e indicar a melhor solução para a empresa.

Para isso, a cyberdyne Systems forneceu um *dataset* com os detalhes dos cancelamentos. Os cientistas devem "dataset" atráves da biblioteca ***Pandas***.

Vamos começar trazendo todos os dados do *dataset* e fazenda o tratamento dos dados

In [None]:
# Importa da biblioteca pandas
import pandas as pd

# lê os dados do dataset no notebook
tabela = pd.read_csv("cancelamentos.csv")

# imprime os dados do dataset no notebook
display(tabela)

Agora vamos eliminar a coluna de ID e mandar re-exibir a tabela 

In [None]:
tabela = tabela.drop("CustomerID", axis=1)
display(tabela)

Vamos pedir para que o Python nos retorne o número de linhas preenchidas da tabela.

In [None]:
display(tabela.info())

Veja que temos em cada uma das colunas um número diferente de linhas. Isso acontece porque temos dados nulos na tabela, e que devemos eliminar. 

In [None]:
tabela = tabela.dropna()
display(tabela.info())

Agora, a análise de dados propriamente dita vai começar. Vamos verificar o número de clientes que cancelaram.

In [None]:
display(tabela["cancelou"].value_counts())

Sabemos que o número do cancelamentos é maior que o de clientes que não cancelaram, mas quanto que isso dá em porcetagem? Vamos descobrir.

In [None]:
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

Sabemos agora que aproximadamente 56% dos clientes cancelaram, o que é um número muito alto. 
Vamos descobrir o por quê.

Vamos analisar a taxa de cancelamentos por duração de contrato:

In [None]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("(:.2%)".format))


Podemos perceber que existe uma discrepância entre os contratos do tipo mensal e dos outros tipos. Vamos analisar a taxa de cancelamentos de cada tipo de contrato.

In [None]:
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

Logo de cara, podemos ver que todos os clientes que optaram pelo tipo de contrato mensal cancelaram o serviço. Em outras palavras, contrato do tipo mensal teve 100% de cancelamentos.

O que pode ser feito 

In [None]:
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))


Pudemos verificar que sem o contrato do tipo mensal, a taxa de cancelamentos diminuiu para 46,05%, ou seja, uma queda de mais de 10% na taxa de cancelamentos. O problema é que a taxa de cancelamentos continua muito alta, afinal, nenhuma empresa quer uma taxa de cancelamentos perto da metade, então precisamos continuar com a análise para verificar outras possíveis razões para a alta taxa de cancelamentos.

Vamos anaçosar graficamente falando cada uma das colunas. Ou seja vamos criar gráficos de cada coluna para verificar se há discrepâncias muito grandes nas taxas de cancelamentos em algumas dessas colunas

In [None]:
import plotly.express as px 

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou", width=600)
    grafico.show()

Os gráficos indicam problemas com os usuários que fazem mais de 5 ligações para o call center, e também cancelamentos por parte dos usuários que passam mais de 20 dias inadimplentes. Portanto, deveremos eliminar esses clientes da análise a fim de verificar a nova taxa de cancelamentos sem esses clientes.

In [None]:
tabela = tabela[tabela["ligacoes_callcenter"] < 5]
tabela = tabela[tabela["dias_atraso"] <= 20]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))