In [None]:
# Passo 1: Importar
import pandas
base_dados = pandas.read_csv("cancelamentos_sample.csv")

# Passo 2: Visualizar e filtrar dados
    #Remover coluna inútil (não interferem nos dados a serem analisados)
base_dados = base_dados.drop(columns=["CustomerID"])
    # Remover valores vazios (pode ser tratado dessa forma devido a quantidade desconsiderável de valores nulos)
base_dados = base_dados.dropna()

display(base_dados)
base_dados.info()

# Passo 3: Analisar 
base_dados["cancelou"].value_counts(normalize=True) # .map("{:.1%}".format)

In [None]:
# Passo 4: Interpretar 
import plotly.express as px

for coluna in base_dados.columns:
    if coluna != "cancelou":
        grafico = px.histogram(base_dados, x=coluna, color="cancelou")
        grafico.show()

In [None]:
#Após a visualição superficial dos gráficos, é possível descartar alguns para melhorar a visualização:
# Gráficos desconsideráveis:
base_dados = base_dados.drop(columns=["sexo", "tempo_como_cliente", "frequencia_uso", "assinatura", "meses_ultima_interacao"])

for coluna in base_dados.columns:
    if coluna != "cancelou":
        grafico = px.histogram(base_dados, x=coluna, color="cancelou")
        grafico.show()

In [None]:
# Passo 5: Solucionar e filtrar o problema

# 1- Duração de contrato: Clientes do contrato mensal cancelam:
# Possível medida: Dar desconto nos planos anuais e trimestrais;
# limitar prestação de serviço ao fim do período mensal a fim de convencer a renovação do plano.
filtro_duracao_contrato = base_dados["duracao_contrato"]!="monthly"
base_dados_filtrada = base_dados[filtro_duracao_contrato]

# 2- Dias de atraso: Clientes com mais de 20 dias de atraso cancelam:
# Possível medida: Entrar em contato com o cliente inadimplente para possíveis negociações após 15 dias de atraso.  
filtro_dias_atraso = base_dados_filtrada["dias_atraso"]<20
base_dados_filtrada = base_dados_filtrada[filtro_dias_atraso]

# 3- Ligações ao callcenter: Clientes começam a cancelar após 4 ligações ao callcenter:
# Possível medida: Contabilizar a quantidade de ligações dos clientes e dar prioridade aqueles que ligarem mais vezes.
filtro_callcenter = base_dados_filtrada["ligacoes_callcenter"]<4
base_dados_filtrada = base_dados_filtrada[filtro_callcenter]

# 4- Idade: Clientes acima de 50 anos cancelam:
# OBS: Analisar o serviço prestado para geração de projetos inclusivos.

# 5- Total gasto: Clientes que gastam menos de R$500 totais cancelam:
# OBS: Analisar o serviço prestado para desenvolver estratégias de marketing.

display(base_dados["cancelou"].value_counts(normalize=True))
display(base_dados_filtrada["cancelou"].value_counts(normalize=True))

melhoras_previstas = (base_dados_filtrada["cancelou"].value_counts(normalize=True) - base_dados["cancelou"].value_counts(normalize=True))
display(melhoras_previstas)