In [None]:
# Objetivo é avaliar as causas de cancelamento de uma empresa de call center
# Utilizando a biblioteca pandas para manipulação de dados
# Utilizando a biblioteca plotli express para visualização de dados em gráficos
import pandas as pd
# Carregar o dataset
tabela = pd.read_csv('cancelamentos_sample.csv')

tabela = tabela.drop(columns='CustomerID')

display(tabela)

In [None]:
# passo 2 - Ver os tipos de dados e se há dados faltantes
display(tabela.info())

In [None]:
# Passo 3 - Tratar os problemas

# Verificar se há dados faltantes ou nulos
tabela = tabela.dropna()  # Remove linhas com dados nulos
display(tabela.info())

# Se tem dado inútil
# Foi retirar a coluna CustomerID

# Verificar se os tipos de dados estão corretos
# Tudo corretinho


In [None]:
# Passo 4 - Análise inicial dos dados

# Ver a quantidade de cancelamentos total

display(tabela['cancelou'].value_counts(normalize=True))

# Ver a quantidade de cancelamentos por motivo

import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color='cancelou', text_auto=True)
    # Mostrar o gráfico
    grafico.show()

In [None]:
# Passo 5 - Análise detalhada dos dados

# Analisar as colunas que mais impactam no cancelamento - Hipóteses

# Hipótese 1 - Clientes que lingam mais de 4x p o Call Center tendem a cancelar mais

# Hipótese 2 - Clientes que tem a assinatura mensal tendem a cancelar mais

# Hipótese 3 - Clientes que tem mais de 20 dias de atraso no pagamento tendem a cancelar mais

# Passo 6 - Testar as hipóteses - Exlcuir elas da tabela e avaliar a redução de cancelamentos

# Excluir a hipótese 1
tabela = tabela[tabela['ligacoes_callcenter'] <= 4] # Filtrando a tabela para manter apenas os clientes que ligaram 4 vezes ou menos
display(tabela['cancelou'].value_counts(normalize=True))

# Excluir a hipótese 2
tabela = tabela[tabela['duracao_contrato'] != 'Monthly'] # Filtrando a tabela para retirar os clientes com a assinatura mensal
display(tabela['cancelou'].value_counts(normalize=True))

# Excluir a hipótese 3
tabela = tabela[tabela['dias_atraso'] <= 20] # Filtrando a tabela para manter apenas os clientes com menos de 20 dias de atraso
display(tabela['cancelou'].value_counts(normalize=True))