# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [1]:
#Passo a passo
# 1 - Importar a base de dados

import pandas as pd

tabela = pd.read_csv("cancelamentos_sample.csv") #lê a base de dados e armazena na variável tabela.

# 2 - Visualizar a base de dados e entender as informações e procurar possíveis problemas.

# Informações inuteis - que só atrapalham
tabela = tabela.drop(columns="CustomerID") #Vai exibir a tabela no próximo comando mas sem essa coluna que foi excluida.

display(tabela) # é como se fosse o print, nesse formato ipynb... usado pra mostrar algo na tela mais bonita.



Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
49995,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [2]:
# 3 - Resolver os problemas da base de dados

# Informações no formato errado
# Informações vazias

display(tabela.info()) #Mostrará informações sobre a tabela.
tabela = tabela.dropna() #Exclui as informações vazias.
display(tabela.info()) #Mostra a tabela sem as informações vazias.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [3]:
# 4 - Análise inicial, quantos clientes cancelaram, qual é a % de clientes.

display(tabela["cancelou"].value_counts()) #seleciona uma coluna da tabela e conta os valores dela.

display(tabela["cancelou"].value_counts(normalize=True)) #mostra o percentual % de quantos cancelaram e quantos não

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64

In [None]:
# 5 Analisar a causa de cancelamento dos clientes.
# Quero entender como cada coluna da base de dados impacta no cancelamento do cliente
# Criando gráficos

import plotly.express as px     #Pra criar graficos
import plotly.io as pio     #Pra ser exibido no navegador

# Para abrir o gráfico no navegador
pio.renderers.default = "browser"

# Pra criar um gráfico pra cada coluna da tabela de dados.
for coluna in tabela.columns:
    # Cria um gráfico que mostra a quantidade de clientes em cada situação.
    # O parâmetro text_auto=True faz com que os valores sejam exibidos automaticamente nas barras do gráfico.
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)


    grafico.show() # Mostra o gráfico, nesse caso, no navegador.


In [5]:
#Clientes que ligaram 4x ou mais cancelaram
    #Criar um alerta pra quando o cliente ligar terceira vez pro call center

#Todos os clientes do contrato mensal cancelaram
    #vamos dar desconto no contrato anual

#Todos os clientes que atrasaram mais de 20 dias cancelaram
    #Ligar um alerta pro time de cobrança quando o cliente bater 10 dias de atraso.

#Se eu resolver esses 3 problemas, como fica a taxa de cancelamento?

#Pra pegar base de dados pra treinar: Kaggle


#Callcenter - Olhar a minha base excluindo o problema do call center
# Filtra os clientes que receberam 4 ou menos ligações do call center
condicao = tabela["ligacoes_callcenter"] <= 4
tabela = tabela[condicao]

#Dias de atraso
# Filtra os clientes que tiveram no máximo 20 dias de atraso
condicao = tabela["dias_atraso"] <= 20
tabela = tabela[condicao]

#Duração Contrato
# Remove os clientes com contrato do tipo "Monthly", mantendo apenas contratos mais longos
condicao = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao]

display(tabela["cancelou"].value_counts(normalize=True))


cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64