In [None]:
# Instalando bibliotecas
!pip install pandas plotly ipykernel nbformat --user

In [None]:
# Passo 1: Importar a base de dados
import pandas as pd

usuarios = pd.read_csv('cancelamentos.csv')

In [None]:
# Passo 2: Visualizar a base de dados
# Visualizando a tabela
display(usuarios)

# Descrição das colunas (Contagem, média, desvio padrão, min, quartis, max)
display(usuarios.describe())

# Informações da tabela (Tipos das colunas e números não-nulos)
usuarios.info()

In [None]:
# Passo 3: Tratamento dos dados

In [None]:
# Colunas que não serão utilizadas
# - Customer ID

# Removendo colunas inúteis
usuarios = usuarios.drop(columns="CustomerID")
display(usuarios)

In [None]:
# Informações no formato errado - As colunas já estão com os tipos corretos

In [None]:
# Valores vazios
# Como são poucos valores vazios (), excluir as linhas com valores vazios
usuarios = usuarios.dropna()
usuarios.info()

In [None]:
# Valores duplicados - Não utilizado na aula pois foram duplicados de propósito
# Checando quantidade de linhas duplicadas
duplicados = usuarios.duplicated().sum()
print(duplicados)

# Removendo linhas duplicadas
#usuarios = usuarios.drop_duplicates()

In [None]:
# Passo 4: Análise inicial
# Descobrir o percentual e quantidade de clientes que cancelaram e que não cancelaram
# Pegando a coluna cancelou e contando os valores
qtd_cancelamento = usuarios['cancelou'].value_counts()

qtd_cancelamento_percentual = usuarios['cancelou'].value_counts(normalize=True).map('{:.2%}'.format)

display(qtd_cancelamento)
display(qtd_cancelamento_percentual)


In [None]:
usuarios.head()

In [None]:
# Passo 5: Análise da causa dos cancelamentos

# Impacto das colunas na quantidade de cancelamentos
# Importar biblioteca de gráficos plotly
import plotly.express as px

In [None]:
# Criando os gráficos de histograma das colunas, separando por cor com base se cancelou ou não
# Pegando as colunas da tabela
colunas = [x for x in usuarios.columns]

# Percorrendo a lista das colunas e criando os gráficos com base na coluna
for coluna in colunas:
    hist = px.histogram(usuarios, x=coluna, color='cancelou')

    # Exibindo o gráfico
    hist.show()

In [None]:
# todos os clientes que ligaram mais de 4x para o call center, cancelaram
    # Criar um processo interno para resolver os problemas dos clientes em no máximo 4 ligações

# todos os clientes que atrasaram mais de 20 dias no pagamento, cancelaram
    # Criar um processo que quando bate 10 dias de atraso no pagamento

# todos os clientes de contrato mensal, cancelaram
    # Oferecer desconto nos contratos anuais e trimestrais

# Filtrando a base de dados
# se eu resolver o problema de ligações ao call center, pra quanto cai o cancelamento?
filtro = usuarios['ligacoes_callcenter'] <= 4
usuarios = usuarios[filtro]

# e o atraso?
filtro = usuarios['dias_atraso'] <= 20
usuarios = usuarios[filtro]

# e o contrato mensal?
filtro = usuarios['duracao_contrato'] != 'Monthly'
usuarios = usuarios[filtro]

display(usuarios['cancelou'].value_counts(normalize=True))

In [None]:
# Criando gráfico de correlação com o seaborn para verificar relações lineares
!pip install seaborn matplotlib --user

import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Copiando a tabela
usuarios_final = usuarios.copy()

# Transformando dados em string para float
# Sexo
mapeamento_sexo = {'Male': 1.0, 'Female':0.0}
usuarios_final['sexo'] = usuarios_final['sexo'].replace(mapeamento_sexo)

# Assinatura
mapeamento_assinatura = {'Basic': 0.0, 'Standard': 1.0, 'Premium': 2.0}
usuarios_final['assinatura'] = usuarios_final['assinatura'].replace(mapeamento_assinatura)

# Duração contrato
mapeamento_duracao = {'Monthly': 0.0, 'Quarterly': 1.0, 'Annual': 2.0}
usuarios_final['duracao_contrato'] = usuarios_final['duracao_contrato'].replace(mapeamento_duracao)

# Calcula a matriz de correlação
matriz_correlacao = usuarios_final.corr()

# Cria um heatmap com Seaborn
plt.figure(figsize=(10, 8))
sns.heatmap(matriz_correlacao, annot=True, fmt=".2f", cmap='coolwarm')

# Mostra o gráfico
plt.show()