In [None]:
# objetivo do projeto
# analisar uma base de dados e reduzir o percentual de cancelamento dessa base
# passo a passo do projeto
# ler a base de dados de cancelamentos
# tratar os dados para obter somente dados uteis para analise
# visualizar os dados tratado em um grafico
# entregar uma base limpa e com o percentual de cancelamento aceitavel

# necessario instalação das bibliotecas
# pip install pandas
# pip install plotly
# pip install nbformat

In [None]:
# import de biblioteca
import pandas as pd

# leitura da base de dados cancelamentos
df = pd.read_csv("cancelamentos.csv")
df = df.drop("CustomerID", axis=1) # remoçao de campo desnecessario para analise

# visualição da tabela
display(df)

In [None]:
# verificar informações da tabela
display(df.info())
df = df.dropna() # apagar valores nulos
display(df.info()) # verificar informações da tabela

In [None]:
# quantas pessoas cancelaram e não cancelaram
display(df["cancelou"].value_counts()) # valor de clientes que cancelaram o serviço
display(df["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # percentual de clientes que cancelaram o serviço

In [None]:
# proporção de contratos na base
display(df["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format))
display(df["duracao_contrato"].value_counts())

In [None]:
# analise de cancelamentos por contratos
display(df.groupby("duracao_contrato").mean(numeric_only=True))
# media dos contratos mensais é igual a 1 ou seja todos os contratos mensais foram cancelados

In [None]:
# descobrimos que os contratos mensais são ruins então iremos remover ele da nossa base 
df = df[df["duracao_contrato"] != "Monthly"]
display(df)

# percentual de cancelamentos sem contrato mensal
display(df["cancelou"].value_counts())
display(df["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# percetual de cancelamento esta alto, vamos verificar a assinatura nessa analise
display(df["assinatura"].value_counts(normalize=True).map("{:.1%}".format))
display(df.groupby("assinatura").mean(numeric_only=True))

In [None]:
# as 3 assinaturas estão quase em 1/3 da base
# criaremos um grafico histograma para consultar os dados de cancelamentos
import plotly.express as px

# criar um grafico comparativo para cada coluna baseado na coluna de cancelou
for coluna in df.columns:
  grafico = px.histogram(df, x=coluna, color="cancelou", width=600)
  grafico.show()

In [None]:
# com os graficos descobirmos muitas coisas
# dias atraso acima de 20 dias, 100% cancelam
# ligações de call center acima de 5, 100% cancelam
# idade acima de 50 anos, 100% cancelam

# com base nas informações dos graficos passaremos os filtros a seguir
df = df[df["ligacoes_callcenter"] < 5] # filtrar ligações menores que 5
df = df[df["dias_atraso"]<= 20] # filtrar dias de atraso menor igual a 20
df = df[df["idade"] <= 50] # filtrar idade menor igual a 50

display(df)
# quantidade de cancelamento após os filtros
display(df["cancelou"].value_counts())
display(df["cancelou"].value_counts(normalize=True).map("{:.1%}".format))