# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [18]:
# Steps for the analysis
# Step 1 - Importar a base de dados de clientes
# Step 2 - Visualizar a base de dados
# Step 3 - Realizar a limpeza da base de dados
# Step 4 - Analise dos cancelamentos
# Step 5 - Analise da causa dos cancelamentos

In [19]:
# Projetos ipynb podem instalar os pacotes diretamente dentro
# !pip install pandas numpy openpyxl nbformat ipykernel plotly

In [20]:
# Step 1 - Importar a base de dados de clientes

import pandas as pd
tabela = pd.read_csv("cancelamentos_sample.csv")

# Step 2 - Visualizar a base de dados

#Para visualizar a tabela
#print(tabela) -> Printa a tabela de forma crua
display(tabela) #-> printa de forma bem organizada

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
49995,195680.0,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,43477.0,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,169273.0,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,310693.0,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [21]:
# Step 3 - Realizar a limpeza da base de dados
# Busca as informações da tabela - colunas, tipo, qtd. Registros
display(tabela.info())

tabela = tabela.dropna() # Retira as linhas vazias
display(tabela.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CustomerID              50000 non-null  float64
 1   idade                   50000 non-null  float64
 2   sexo                    49997 non-null  object 
 3   tempo_como_cliente      49998 non-null  float64
 4   frequencia_uso          50000 non-null  float64
 5   ligacoes_callcenter     50000 non-null  float64
 6   dias_atraso             50000 non-null  float64
 7   assinatura              50000 non-null  object 
 8   duracao_contrato        50000 non-null  object 
 9   total_gasto             50000 non-null  float64
 10  meses_ultima_interacao  50000 non-null  float64
 11  cancelou                50000 non-null  float64
dtypes: float64(9), object(3)
memory usage: 4.6+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CustomerID              49996 non-null  float64
 1   idade                   49996 non-null  float64
 2   sexo                    49996 non-null  object 
 3   tempo_como_cliente      49996 non-null  float64
 4   frequencia_uso          49996 non-null  float64
 5   ligacoes_callcenter     49996 non-null  float64
 6   dias_atraso             49996 non-null  float64
 7   assinatura              49996 non-null  object 
 8   duracao_contrato        49996 non-null  object 
 9   total_gasto             49996 non-null  float64
 10  meses_ultima_interacao  49996 non-null  float64
 11  cancelou                49996 non-null  float64
dtypes: float64(9), object(3)
memory usage: 5.0+ MB


None

In [22]:
# Step 4 - Analise dos cancelamentos
display(tabela)

display(tabela["cancelou"].value_counts())

# Normalizar - Exibir com percentuais
display(tabela["cancelou"].value_counts(normalize=True)) 
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))


Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
49995,195680.0,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,43477.0,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,169273.0,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,310693.0,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64

cancelou
1.0    56.79%
0.0    43.21%
Name: proportion, dtype: object

In [27]:
# Step 5 - Analise da causa dos cancelamentos
import plotly.express as px

# Criar o Gráfico
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
      grafico.show()
# Exibe o Gráfico


IndentationError: unindent does not match any outer indentation level (<string>, line 9)

In [24]:
# clientes do contrato mensal TODOS cancelam
    # ofercer desconto nos planos anuais e trimestrais
# clientes que ligam mais do que 4 vezes para o call center, cancelam
    # criar um processo para resolver o problema do cliente em no máximo 3 ligações
# clientes que atrasaram mais de 20 dias, cancelaram
    # política de resolver atrasos em até 10 dias (equipe financeira)

tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
tabela = tabela[tabela["ligacoes_callcenter"]<=4]
tabela = tabela[tabela["dias_atraso"]<=20]

display(tabela["cancelou"].value_counts())
# em percentual
display(tabela["cancelou"].value_counts(normalize=True))

cancelou
0.0    21446
1.0     4821
Name: count, dtype: int64

cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64