In [None]:
# Passo 1: Importar biblioteca e base de dados 

import pandas

# Passo 2: Visualizar a base de dados
tabela = pandas.read_csv("cancelamentos.csv")
display(tabela)


In [None]:
# Passo 3: Visualização e Tratamento dos erros 

display(tabela.info())

# Dropna o python deleta *tudo* o que estiver vazio
tabela = tabela.dropna()
display(tabela.info())

"""
DROP: precisamos dropar as colunas que não irão acrescentar em nada na nossa base de dados

1º: Não sobrecarregar a base
2º: Não acumular dados irrelevantes
3º: Te confunde

É necessário informar ao comando drop o EIXO
Linha: axis = 0
Coluna: axis = 1
"""

tabela = tabela.drop("CustomerID", axis = 1)
display(tabela)

In [None]:
# Passo 4: Análise inicial dos dados (entender quantos cancelamentos)

display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
display(tabela["sexo"].value_counts())
display(tabela["sexo"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# Exibimos a média agrupada por tipo de assinatura, é possível visualizar qual foi o plano que mais teve cancelamentos

# Primeiro insight: Contrato mensal tem a maior taxa de cancelamento
# Com o groupby podemos determinar como a contagem de valores será exibida (soma, média, contando) diferente do values.count

display(tabela.groupby("duracao_contrato").mean(numeric_only=True))


In [None]:

# Remover contrato mensal e descobrir outras causas de cancelamento
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]

display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


In [None]:
# Criação de gráfico para melhor visualização
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    grafico.show()

In [None]:
# Com os graficos descobrimos novos insights: 
# 2º: Atrasos acima de 20 dias, 100% cancelam
# 3º: Mais de 5 ligações para o Call Center, 100% cancelam

tabela = tabela[tabela["ligacoes_callcenter"]<5]
tabela = tabela[tabela["dias_atraso"]<=20]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

# Resolvendo os problemas identificados eliminamos quase 30% das taxas de cancelamento
# - forma de contrato mensal
# - necessidade de ligações no call center
# - atraso no pagamento