# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.


In [None]:
#passo a passo em português 
#Passo 1: Importar a base de dados 
#Passo 2: Visualizar a base de dados (2 objetivos -> entender as informações + encontrar problemas)
#Passo 3: Resolver os problemas da base de dados (excluir colunas, preencher valores nulos, etc)
#Passo 4: Análise Inicial (quantos clientes cancelaram, qual o % de clientes)
#Passo 5: Análise a causa dos cancelamentos dos clientes 


In [None]:
#!pip install pandas openpyxl plotly numpy nbformat ipykernel
#Passo 1: Importar a base de dados 
#pandas principal ferramenta de análise de dados
#plotly graficos dinamicos 
#openpyxl
#numpy
#nbformat
#ipykernel


In [2]:
import pandas as pd
tabela = pd.read_csv("cancelamentos.csv")

print(tabela)



        CustomerID  idade    sexo  tempo_como_cliente  frequencia_uso  \
0              2.0   30.0  Female                39.0            14.0   
1              3.0   65.0  Female                49.0             1.0   
2              4.0   55.0  Female                14.0             4.0   
3              5.0   58.0    Male                38.0            21.0   
4              6.0   23.0    Male                32.0            20.0   
...            ...    ...     ...                 ...             ...   
881661    449995.0   42.0    Male                54.0            15.0   
881662    449996.0   25.0  Female                 8.0            13.0   
881663    449997.0   26.0    Male                35.0            27.0   
881664    449998.0   28.0    Male                55.0            14.0   
881665    449999.0   31.0    Male                48.0            20.0   

        ligacoes_callcenter  dias_atraso assinatura duracao_contrato  \
0                       5.0         18.0   Standard

In [3]:
#Passo 2: Visualizar a base de dados (2 objetivos -> entender as informações + encontrar problemas)
display(tabela)
# informações inuteis - informações que não te ajudam, te atrapalham
#tirar informações que não são relevantes para a análise para não deixar lento
#dataframe = tabelas
tabela = tabela.drop(columns="CustomerID")
#tabela = tabela.drop(columns=["CustomerID", "meses_ultima_interacao"])

display(tabela)


Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [4]:
#Passo 3: Resolver os problemas da base de dados (excluir colunas, preencher valores nulos, etc)
#informações no formato errado
#informações vazias
#para ver inf para ter um resumo
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

In [5]:
#informações vazias
#nesse caso, para essa base de dados, não tem problema se jogarmos fora - excluir as linhas que estao vazias, pq são são um numero espressivo
tabela = tabela.dropna()
#tabela = tabela.fillna(0) #preencher com 0 os valores vazios
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

In [6]:
#Passo 4: Análise Inicial (quantos clientes cancelaram, qual o % de clientes)
#Pergunta 1 - tenho uma base aqui e quero saber quantos desses clientes cancelaram "Cara nossos clientes cancelaram tudo
display(tabela["cancelou"].value_counts()) #contar quantos cancelaram e quantos não cancelaram
#percentual 
display(tabela["cancelou"].value_counts(normalize=True)) #contar quantos cancelaram e quantos não cancelaram
#normalizar = calcular a proporção
# para formatar o percentual, multiplicar por 100
#display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) 

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    0.567105
0.0    0.432895
Name: proportion, dtype: float64

In [7]:
#aging -> filtrando as informações excluindo linhas em que dias traso é 0
# #condicao = tabela["dias_atraso"] != 0
#tabela = tabela[condicao]

tabela = tabela[tabela["dias_atraso"] != 0]
display(tabela["cancelou"].value_counts())                 
#display(tabela["cancelou"].value_counts(normalize=True))

tabela = tabela[tabela["dias_atraso"] <= 10]
display(tabela["cancelou"].value_counts())                 
#display(tabela["cancelou"].value_counts(normalize=True))

tabela = tabela[tabela["dias_atraso"] <= 20]
display(tabela["cancelou"].value_counts())                 
#display(tabela["cancelou"].value_counts(normalize=True))

tabela = tabela[tabela["dias_atraso"] <= 30]
display(tabela["cancelou"].value_counts())                 
#display(tabela["cancelou"].value_counts(normalize=True))

cancelou
1.0    484215
0.0    363636
Name: count, dtype: int64

cancelou
0.0    181214
1.0    157469
Name: count, dtype: int64

cancelou
0.0    181214
1.0    157469
Name: count, dtype: int64

cancelou
0.0    181214
1.0    157469
Name: count, dtype: int64

In [None]:
#Passo 5: Análise a causa dos cancelamentos dos clientes 
#entender como cada coluna impacta no cancelamento 
#criando graficos 
import plotly.express as px  
   
grafico = px.histogram(tabela, x="idade", color="cancelou")
#grafico = px.histogram(tabela, x="idade", color="cancelou", barmode="group")
#barmode = "group" - para mostrar os dois juntos

In [None]:
grafico = px.histogram(tabela, x="idade", color="cancelou")
grafico.show()

In [None]:
#grafico = px.histogram(tabela, x="assinatura", color="cancelou")
grafico = px.histogram(tabela, x="assinatura", color="cancelou", text_auto=True)

grafico.show()

In [None]:
#todas as colunas 
for coluna in tabela.columns:
    #cria um grafico 
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    grafico.show()




In [None]:
#1 -> clientes que ligaram mais de 4 vezes pro callcenter cancelaram mais
    #criar um alerta no callcenter quando o cliente ligar 3x para resolver o problema dele

#2 -> todos os clientes que atrasam mais de 20 dias cancelam mais
    #ligar um alerta pro time de cobrança que o cliente bater 10 dias de atraso

#3 -> todos o clientes do contrato mensal cancelaram mais
    #dar desconto nos outros planos de contrato

#>> se eu resolver esses 3 problemas, como fica a taxa de cancelamento?


In [None]:
#problema 1 - callcenter
condicao = (tabela["ligacoes_callcenter"]<= 4) #& (tabela["cancelou"] == 1)
tabela = tabela[condicao]
#tabela = tabela[tabela["ligacoes_callcenter"]<= 4]

display(tabela["cancelou"].value_counts(normalize=True))

In [None]:
grafico = px.histogram(tabela, x="ligacoes_callcenter", color="cancelou", text_auto=True)

grafico.show()

In [None]:
#problema 2 - atraso
#olhar a minha base excluindo o problma de dias_atraso
condicao = tabela["dias_atraso"] <= 20
tabela = tabela[condicao]
#tabela = tabela[tabela["dias_atraso"] <= 20]
display(tabela["cancelou"].value_counts(normalize=True))

In [None]:
grafico = px.histogram(tabela, x="dias_atraso", color="cancelou", text_auto=True)

grafico.show()

In [None]:
#problema 3 - contrato/plano mensal
#quero olhar minha base excluindo o problema de plano mensal
condicao = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao]
#tabela = tabela[tabela["duracao_contrato"] != "Monthly"]    
display(tabela["cancelou"].value_counts(normalize=True))

In [None]:
grafico = px.histogram(tabela, x="duracao_contrato", color="cancelou", text_auto=True)

grafico.show()