# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [2]:
%pip install pandas numpy openpyxl nbformat ipykernel plotly

Note: you may need to restart the kernel to use updated packages.


In [3]:
#1 Importar a base de dados
#2 Visualizar a base de dados e remover colunas inúteis
#3 Corrigir erros da bd
#4 Analisar os cancelamentos dos clientes
#5 Analisar causas de cancelamentos

In [4]:
#1 Importar a base de dados
import pandas as pd
import numpy

tabela = pd.read_csv("cancelamentos.csv")
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [5]:
#2 Visualizar a base de dados e remover colunas inúteis

tabela = tabela.drop(columns="CustomerID")
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [6]:
#3 Corrigir erros da base de dados
    #valores vazios/erros de preenchimento, quando a quantidade de linhas vazias é irrelevante para a análise pode-se excluí-las

print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB
None


In [7]:
#3 Corrigir erros da base de dados
    #valores vazios/erros de preenchimento, quando a quantidade de linhas vazias é irrelevante para a análise pode-se excluí-las

tabela = tabela.dropna()
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB
None


In [8]:
#4 Analisar os cancelamentos dos clientes
    #antes, para melhor visualização vou transformar os 0 e 1 da coluna "cancelou" em Sim e Não

tabela['cancelou'] = tabela['cancelou'].map({0: 'Não', 1: 'Sim'})

print(tabela["cancelou"])

    

0         Sim
1         Sim
2         Sim
3         Sim
4         Sim
         ... 
881661    Não
881662    Não
881663    Não
881664    Não
881665    Não
Name: cancelou, Length: 881659, dtype: object


In [9]:
#4 Analisar os cancelamentos dos clientes
    #depois vou fazer a contagem de quantos clientes cancelaram ou não
        #normalize define que vai mostrar o percentual, que no caso é 56% para os que SIM cancelaram e 43% para os que NÃO cancelaram

display(tabela['cancelou'].value_counts(normalize=True))

cancelou
Sim    0.567105
Não    0.432895
Name: proportion, dtype: float64

In [10]:
#5 Analisar causas de cancelamentos
    #preciso entender como as colunas impactam no cancelamento das assinaturas

import plotly.express as px

#para cada coluna da tabela
#for coluna in tabela.columns:
    #criar o gráfico 
 #   grafico = px.histogram(tabela, x=coluna, color='cancelou')

    #exibir o gráfico
  #  grafico.show()

In [11]:
#Identificação de causas:

    #se um cliente ligar mais de 4 vezes para o callcenter é certo que ele cancela
        #criar um processo pra chamar atenção a clientes que liguem 3 vezes

    #se um cliente atrasar o pagamento mais de 20 dias ele cancela
        #criar uma política no financeiro que o cliente deva pagar em até 10 dias

    #se o cliente está com assinatura mensal, ele cancela
        #criar descontos para pacotes semestrais ou anuais


In [15]:
#Embasamento estatístico das causas
    #se um cliente ligar mais de 4 vezes para o callcenter é certo que ele cancela
tabela = tabela[tabela["duracao_contrato"]!="Monthly"] #tabela que vai mostrar o caso em que não há clientes com o plano mensal

    #se um cliente atrasar o pagamento mais de 20 dias ele cancela
tabela = tabela[tabela["ligacoes_callcenter"]<=4] #tabela que vai mostrar o caso em que os clientes só ligaram até 3 vezes ao callcenter

    #se o cliente está com assinatura mensal, ele cancela
tabela = tabela[tabela["dias_atraso"]<=10] #tabela que vai mostrar o caso em que os clientes só estiverem com 10 dias de atraso no pagamento

display(tabela['cancelou'].value_counts(normalize=True))


cancelou
Não    0.816294
Sim    0.183706
Name: proportion, dtype: float64

In [None]:
#Pode-se verificar que ao resolver as possíveis causas analisadas, a quantidade de clientes que cancelam a assinatura diminui, saindo de 56% para 18% dos 
#clientes