Python Insights - Analisando dados com Python

Case - Cancelamento de clientes

Você foi contratado por uma emresa com mais de 800 mil clientes para um projeto de dados. Recentemente a empresa percebeu que sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais ações mais eficientes para reduzir esse número.

In [None]:
# passo a passo
# passo 1: importar a base de dados
# passo 2: visualizar a base de dados (2 objetivos: entender as informações e encontrar problemas)
# passo 3: resolver os problemas da base de dados
# 3 principais problemas: informações inúteis (que nao ajudam, atrapalham), informações o formato errado e informações vazias

# passo 4: análise inicial (quantos clientes cancelaram, qual o % de clientes)
# passo 5: análise detalhada (causa dos cancelamentos dos clientes, quais os fatores que fazem o cliente cancelar, identificar padrão)

In [3]:
# 1 - importando a base de dados
import pandas as pd

tabela = pd.read_csv('cancelamentos_sample.csv')

#removendo a coluna CustomerID que está atrapalhando
tabela = tabela.drop(columns="CustomerID")

# 2 - visualizando a base de dados
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
49995,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [8]:
# identificando se as informações estão no formato correto e se tem valores nulos
# quando falta alguma informação do cliente, fica difícil realizar a análise, é mais viável excluir
display(tabela.info())
tabela = tabela.dropna() # exclui as linhas com informações vazias
display(tabela.info())

# tabela.fillna(0) -> preenche todos valores vazios
#tabela.ffill() -> preenche valores vazios com o valor anterior

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [9]:
# 4 - contar na coluna cancelou os valores 
display(tabela["cancelou"].value_counts())

# em percentual
display(tabela["cancelou"].value_counts(normalize=True))

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

In [2]:
# 5 - analisar a causa dos cancelamentos dos clientes
# quero entender como cada coluna da base  de dados impacta no cancelamento do cluente
# para criar gráficos: cria o gráfico e exibe 
import plotly.express as px

grafico = px.histogram(tabela, x = "idade", color="cancelou")

grafico.show()

NameError: name 'tabela' is not defined