# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [23]:
# Passo 1: Importar a base de dados
#!pip install pandas numpy openpyxl nbformat ipykernel plotly
import pandas as pd
tabela = pd.read_csv("cancelamentos.csv")

# Passo 2: Visualizar a base de dados
    # entender quais informações eu tenho disponiveis
    # procurar os problemas/as besteiras da base de dados

# colunas inuteis - informação que não ajuda, atrapalha
tabela = tabela.drop(columns="CustomerID") # para desfazer, basta tirar a linha e rodar o codigo novamente

# Passo 3: Corrigir as besteiras da base de dados

# informacoes vazias ou no formato errado
    # int - numero inteiro
    # float - numero que pode ter casas decimais
    # object - texto
display(tabela.info()) 
tabela = tabela.dropna() # Exclui toda informação vazia    NaN - Not a number - informação vazia
tabela = tabela.drop_duplicates() # Exclui informação duplicada
display(tabela.info())

display(tabela)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 440832 entries, 0 to 440856
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   440832 non-null  float64
 1   sexo                    440832 non-null  object 
 2   tempo_como_cliente      440832 non-null  float64
 3   frequencia_uso          440832 non-null  float64
 4   ligacoes_callcenter     440832 non-null  float64
 5   dias_atraso             440832 non-null  float64
 6   assinatura              440832 non-null  object 
 7   duracao_contrato        440832 non-null  object 
 8   total_gasto             440832 non-null  float64
 9   meses_ultima_interacao  440832 non-null  float64
 10  cancelou                440832 non-null  float64
dtypes: float64(8), object(3)
memory usage: 40.4+ MB


None

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.0,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.0,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.0,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.0,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.0,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
440844,52.0,Female,21.0,6.0,3.0,26.0,Premium,Monthly,830.0,19.0,1.0
440847,24.0,Male,4.0,9.0,4.0,22.0,Standard,Quarterly,204.0,4.0,1.0
440850,47.0,Male,41.0,14.0,1.0,5.0,Premium,Annual,151.0,19.0,1.0
440851,24.0,Male,44.0,13.0,5.0,4.0,Premium,Monthly,669.0,13.0,1.0


In [25]:
# passo 4: Analise do cancelamentos
    # quantos clientes cancelaram, quantos não cancelaram, qual o %

display(tabela["cancelou"].value_counts())

# em percentual = normalizado
display(tabela["cancelou"].value_counts(normalize=True))

# display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
1.0    249999
0.0    190833
Name: count, dtype: int64

cancelou
1.0    0.567107
0.0    0.432893
Name: proportion, dtype: float64

In [38]:
# Passo 5: Analise das causas dos cancelamentos do clientes (como as colunas impactam no cancelamento)
import plotly.express as px

# para cada coluna da nossa tabela
for coluna in tabela.columns:
    # cria o grafico
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    # exibe o grafico
    grafico.show()

# causas de cancelamento

# todos os clientes de contrato mensal, cancelaram
    # vamos dar desconto nos contratos anuais e trimestrais
# todos os clientes com mais 20 dias de atraso cancelaram o serviço
    # criar um sistema de cobrança dos clientes que, com 10 dias de atraso sera feita uma comunicação diaria com cliente
# todos os clientes que ligaram mais de 4x para o call center, cancelaram o serviço
    # criar um alerta para um cliente que ligou mais de 2x para o call center
# analisar, se resolver esses 3 problemas, quanto cai o cancelamento?

# duração do contrato não pode ser mensal
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]

# atrasos no maximo de 20 dias
tabela = tabela[tabela["dias_atraso"]<=20]

# ligações no call center no maximo até 4 
tabela = tabela[tabela["ligacoes_callcenter"]<=4]



# em percentual = normalizado
display(tabela["cancelou"].value_counts(normalize=True))



ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed