# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [1]:
# !pip install pandas numpy openpyxl nbformat ipykernel plotly

# Passo 1: importar base de dados de clientes
import pandas as pd

tabela = pd.read_csv("cancelamentos_sample.csv")

# Passo 2: Visualizar a base de dados
# print(tabela)
tabela = tabela.drop(columns="CustomerID") # retirar uma coluna que não faz sentido para análise
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
368,42.0,Male,35.0,9.0,2.0,15.0,Basic,Quarterly,709.27,8.0,0.0
369,25.0,Male,60.0,26.0,2.0,4.0,Standard,Quarterly,975.03,17.0,0.0
370,45.0,Female,29.0,1.0,4.0,18.0,Standard,Quarterly,638.49,6.0,0.0
371,49.0,Male,55.0,2.0,4.0,10.0,Basic,Quarterly,864.91,23.0,0.0


In [2]:
# Passo 3: corrigir os problemas da base de dados
# Retirar dados vazios com 'dropna', que serve para apagar linhas com valores vazios
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 369 entries, 0 to 372
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   369 non-null    float64
 1   sexo                    369 non-null    object 
 2   tempo_como_cliente      369 non-null    float64
 3   frequencia_uso          369 non-null    float64
 4   ligacoes_callcenter     369 non-null    float64
 5   dias_atraso             369 non-null    float64
 6   assinatura              369 non-null    object 
 7   duracao_contrato        369 non-null    object 
 8   total_gasto             369 non-null    float64
 9   meses_ultima_interacao  369 non-null    float64
 10  cancelou                369 non-null    float64
dtypes: float64(8), object(3)
memory usage: 34.6+ KB


None

In [3]:
# Passo 4: análise dos dados (cancelamentos)

display(tabela["cancelou"].value_counts())
# display(tabela["cancelou"].value_counts(normalize=True))  #normalize pra mostrar em %
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))  #função map pra formatar exibir em %

cancelou
1.0    201
0.0    168
Name: count, dtype: int64

cancelou
1.0    54.5%
0.0    45.5%
Name: proportion, dtype: object

In [4]:
# Passo 5: Análise da causa de cancelamentos
import plotly.express as px
# https://plotly.com/

for coluna in tabela.columns:
    #criar o gráfico
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    # exibe gráfico
    grafico.show() 

In [5]:
# Análise das causas de cancelamento

# Dados iniciais
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

# Motivos analisados nos gráficos acima
    # clientes do contrato mensal TODOS cancelaram
    # clientes que ligam mais do que 4 vezes para o call center, cancelaram
    # clientes que atrasaram mais de 20 dias, cancelaram

# Prevendo como os dados identificados ficariam com a resolução de cada cenário
# tabela = tabela[condição]
tabela = tabela[tabela["duracao_contrato"]!="Monthly"] # sem duração do contrato mensal
tabela = tabela[tabela["ligacoes_callcenter"]<=4] # sem ligação call center acima de 4 vezes
tabela = tabela[tabela["dias_atraso"]<=20] # sem atraso de pagamento maior que 20 dias

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
1.0    54.5%
0.0    45.5%
Name: proportion, dtype: object

cancelou
0.0    84.0%
1.0    16.0%
Name: proportion, dtype: object