# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

In [5]:
# !pip install pandas openpxly numpy nbformat plotly ipykernel

# PASSO 1: Importar a base de dados
import pandas as pd

tabela = pandas.read_csv("cancelamentos.csv")

# PASSO 2: Visualizar a base de dados (compreender as infos e encontrar os problemas)
    # Informações inúteis atrapalham

tabela = tabela.drop(columns = "CustomerID")
display(tabela)



Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [None]:
# PASSO 3: Resolver os problemas da base de dados
    # Informações no formato errado
    # Informações vazias...
display(tabela.info())
tabela = tabela.dropna()
tabela = tabela.fillna(0)
display(tabela.info())


<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

In [None]:
# PASSO 4: Análise Inicial (quantos clientes cancelaram, qual o % de clientes)
    # contar na coluna cancelou: os valores
display(tabela["cancelou"].value_counts())

#  Agora, em percentual:
display(tabela["cancelou"].value_counts(normalize = True)
    # Em formato para apresentar a porcentagem com formatação certa:
# display(tabela["cancelou"].value_counts(normalize = True).map("{:.1%}".format))


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

In [34]:
# PASSO 5: Análise da causa dos cancelamentos dos clientes

    # Entender como cada coluna da base de dados impacta no cancelamento do cliente
    # Criando gráficos
#!pip install plotly
#!pip install --upgrade nbformat

import plotly.express as px
#import plotly.io as pio

# Força o Plotly a abrir no navegador
#pio.renderers.default = 'browser'

for coluna in tabela.columns:
    # Cria o gráfico:
    grafico = px.histogram(tabela, x = coluna, color = "cancelou", text_auto = True)
    # Exibe o gráfico:
    grafico.show()


KeyboardInterrupt: 

In [None]:
# Os clientes que ligaram mais de 4x pro callcenter cancelaram
  # Criar alerta quando o cliente ligar na 3ª vez pro callcenter

# Todos os clientes do contrato mensal cancelaram
  # Tem que dar desconto nos outros planos/contratos

# Todos os clientes que atrasaram a mensalidade mais de 20 dias, cancelaram
  # Tem que ligar um alerta para o time de cobrança quando o ciente ficar 10 dias de atraso


# ENCONTRADO AS SOLUÇÕES PARA OS PROBLEMAS:

# Callcenter - olhar a minha base excluindo o problema do call center
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]

# dias_atraso - Olhar a minha base excluindo o problema de dias_atraso
tabela = tabela[tabela["dias_atraso"] <= 20]

# duracao_contrato - olhar a minha base excluindo contratos mensais (Monthly)
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]

display(tabela["cancelou"].value_counts(normalize = True))

cancelou
0.0    0.816037
1.0    0.183963
Name: proportion, dtype: float64