In [None]:
# Instalação de bibliotecas necessárias (caso ainda não estejam instaladas)
# !pip install pandas openpyxl numpy nbformat plotly ipykernel

# Passo a passo:
# 1. Importar a base de dados
# 2. pandas -> Para análise de dados
# 3. plotly -> Para criação de gráficos
# 4. numpy -> Para cálculos matemáticos

import pandas as pd

# Carregando a base de dados a partir de um arquivo CSV
tabela = pd.read_csv("cancelamentos_sample.csv")

# Removendo a coluna "CustomerID", pois não é relevante para a análise
tabela = tabela.drop(columns="CustomerID")
display(tabela)

In [None]:
# Visualizar a base de dados para dois objetivos:
# 1. Entender a estrutura da base de dados
# 2. Identificar o problema a ser resolvido

In [None]:
# Resolver problemas na base de dados (limpeza, tratamento, engenharia de features)
# Informação irrelevante ou incorreta pode atrapalhar a análise!

# Removendo linhas com valores ausentes (NaN)
tabela = tabela.dropna()
display(tabela.info())

In [None]:
# Realizar uma análise inicial para responder perguntas como:
# - Quantos clientes cancelaram?
# - Qual a porcentagem de cancelamentos?

# Contagem de valores na coluna "cancelou"
tabela["cancelou"].value_counts()

# Contagem em percentual
tabela["cancelou"].value_counts(normalize=True)

In [None]:
# Análise detalhada para cruzar variáveis e entender o comportamento dos clientes
# Objetivo: Identificar como cada coluna influencia no cancelamento

import plotly.express as px

# Criando gráficos para cada coluna da tabela
for coluna in tabela.columns:
   grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
   grafico.show()

In [None]:
# Insights obtidos:
# 1. Clientes com contrato mensal têm maior taxa de cancelamento
#    -> Estratégia: Oferecer descontos em planos anuais e trimestrais
# 2. Clientes que ligam mais de 4 vezes para o call center cancelam mais
#    -> Estratégia: Resolver problemas em até 3 ligações
# 3. Clientes com mais de 20 dias de atraso cancelam mais
#    -> Estratégia: Resolver atrasos em até 10 dias (equipe financeira)

# Aplicando filtros para simular as estratégias
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]
tabela = tabela[tabela["dias_atraso"] <= 20]

# Verificando os resultados após aplicar as estratégias
display(tabela["cancelou"].value_counts())

# Resultados em percentual
display(tabela["cancelou"].value_counts(normalize=True))