In [2]:
# Bibliotecas utilizadas:
# pandas - análise de dados
# plotly - gráficos
# openpyxl - dados do excel
# ipykernel
# nbformat
# numpy

# Passo a passo do projeto
# PASSO 1: Importar a base de dados
import pandas as pd

# para usar a base de dados cancelamento - armazena na tabela
tabela = pd.read_csv("cancelamentos_sample.csv")

# para exibir a tabela de forma mais organizada usa-se o display(tabela), mas pode ser usado print(tabela)
# obs: o display só pode ser usado em arquivos .ipynb

# PASSO 2: Visualizar a base de dados (linhas, colunas, informações - 
# entender o que há dentro dela e seus erros)

# considerado "erro":
    # colunas inuteis - informações que não ajudam, atrapalham
    # informações no formato errado 
    # valores vazios

# tirando a coluna de CustomerID
tabela = tabela.drop(columns="CustomerID")
display(tabela)


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
49995,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [7]:
# PASSO 3: Tratamento de dados - corrigir a base de dados

# informações no formato errado:
# irá mostrar o informações da base dos dados:
display(tabela.info())

# valores vazios - excluir as linhas vazias, pois usando o comando acima verificamos que há 5 valores nulos
# essa quantidade de valores nulos não impactaria a análise, pois ao todo temos 50000 linhas

# para excluir linhas nulas:
tabela = tabela.dropna()

# para adicionar dados em linhas vazias: tabela = tabela.fillna()

display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [11]:
# PASSO 4: Análise inicial dos cancelamentos

# para selecionar uma coluna da tabela usa-se tabela["coluna"];

# para contar quantas vezes os valores da coluna aparecem:
display(tabela["cancelou"].value_counts())

# para visualizar em porcentagem:
display(tabela["cancelou"].value_counts(normalize=True))

# para formatar a porcentagem:
# display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64

cancelou
1.0    56.8%
0.0    43.2%
Name: proportion, dtype: object

In [13]:
# PASSO 5: Análise de causas dos cancelamentos dos clientes

# para construção de gráficos:
import plotly.express as px 

# criar o gráfico px.tipografico(base de dados, x="coluna para o grafico")
grafico = px.histogram(tabela, x="duracao_contrato", color="cancelou")

# exibe o gráfico
grafico.show()

In [3]:
# clientes do contrato mensal TODOS cancelam
    # ofercer desconto nos planos anuais e trimestrais
# clientes que ligam mais do que 4 vezes para o call center, cancelam
    # criar um processo para resolver o problema do cliente em no máximo 3 ligações
# clientes que atrasaram mais de 20 dias, cancelaram
    # política de resolver atrasos em até 10 dias (equipe financeira)

tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
tabela = tabela[tabela["ligacoes_callcenter"]<=4]
tabela = tabela[tabela["dias_atraso"]<=20]

display(tabela["cancelou"].value_counts())
# em percentual
display(tabela["cancelou"].value_counts(normalize=True))

cancelou
0.0    21449
1.0     4822
Name: count, dtype: int64

cancelou
0.0    0.816452
1.0    0.183548
Name: proportion, dtype: float64