# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [171]:
# Os arquivos csv possuem as mesmas informações só o tamanho deles que é diferente.

In [172]:
# Passo a passo
# 1 - Importar a base de dados
# 2 - Visualizar a base ( entender a base e identificar problemas )
# 3 - Corrigir os problemas da base (Tratamento da base de dados)
# 4 - Analise inicial -> quantos clientes cancelaram e qual o % de clientes
# *** Dica (sempre fazer uma analise inicial primeiro e não correr) ***
# 5 - Analise da causa de cancelamento dos clientes (comparar as outras colunas com a coluna de cancelamento)

In [173]:
# !pip install pandas numpy openpyxl nbformat ipykernel plotly

In [174]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np 

## 1 - Importando a base de dados

In [175]:
df = pd.read_csv("cancelamentos_sample.csv")

## 2 - Visualizando a base

In [176]:
df

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
49995,195680.0,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,43477.0,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,169273.0,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,310693.0,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


## 3 - Corrigindo os problemas da base

In [177]:
# Colunas inuteis
# Visualizar os valores nulos 

df.drop(columns= "CustomerID")

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
49995,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [178]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CustomerID              50000 non-null  float64
 1   idade                   50000 non-null  float64
 2   sexo                    49997 non-null  object 
 3   tempo_como_cliente      49998 non-null  float64
 4   frequencia_uso          50000 non-null  float64
 5   ligacoes_callcenter     50000 non-null  float64
 6   dias_atraso             50000 non-null  float64
 7   assinatura              50000 non-null  object 
 8   duracao_contrato        50000 non-null  object 
 9   total_gasto             50000 non-null  float64
 10  meses_ultima_interacao  50000 non-null  float64
 11  cancelou                50000 non-null  float64
dtypes: float64(9), object(3)
memory usage: 4.6+ MB


In [179]:
df.dropna()

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
49995,195680.0,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,43477.0,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,169273.0,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,310693.0,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


## 4 - Analise inicial - quantos clientes cancelaram e qual o % de clientes

In [180]:
contagem_cancelamento = df['cancelou'].value_counts()
contagem_cancelamento

cancelou
1.0    28394
0.0    21606
Name: count, dtype: int64

In [181]:
# Forma manual (Mostrando apenas a porcentagem dos que cancelaram)

Percentil_Cancelamento_1= (28394/50000)*100
Percentil_Cancelamento = round(Percentil_Cancelamento_1, 2)
percentil_cancelamento = print(Percentil_Cancelamento, "%")

56.79 %


In [182]:
#Percentual

print(df["cancelou"].value_counts(normalize=True))

cancelou
1.0    0.56788
0.0    0.43212
Name: proportion, dtype: float64


## 5 - Analise da causa de cancelamento dos clientes ( Comparar colunas da tabela com a coluna de cancelamento  )

In [183]:
df.columns

Index(['CustomerID', 'idade', 'sexo', 'tempo_como_cliente', 'frequencia_uso',
       'ligacoes_callcenter', 'dias_atraso', 'assinatura', 'duracao_contrato',
       'total_gasto', 'meses_ultima_interacao', 'cancelou'],
      dtype='object')

In [184]:
import plotly.express as px

# Criar o grafico

for coluna in df.columns:
    grafico = px.histogram(df, x=coluna, color="cancelou", text_auto = True)

    # Exibir o grafico
    grafico.show()

## Formular uma ideia para resolver o problema, e descobrir aproximandamente quanto irá melhorar após a decisão tomada

In [185]:
# Usuários do contrato mensal SEMPRE cancelam
    # Evitar o contrato mensal incentivando outros planos com desconto

# Todos os Usuários com mais de 50 anos cancelaram 
    # Poupar recursos em propagandas para pessoas acima de 50 anos

# Quase todos os usuários que ligaram mais de 4 vezes para o call center cancelaram
    # Alerta de prioridade quando o usuário atingir 3 ligações para o call-center

# Todos os usuários com mais de 20 dias de pagamento atrasado cancelaram 
    # Alerta para negociação de divida ou entrar em contato quando o usuário atingir 15 dias de atraso 

### Necessário para diminuir cancelamentos

In [195]:
# duracao_contrato -> diferente de mensal
df = df[df['duracao_contrato']!= "Monthly"]
# Redução de 56% para 46% (10% de redução de cancelamentos)


# ligacoes_callcenter -> menor ou igual a 4
df= df[df["ligacoes_callcenter"]<=3]
# Redução de 46% para 23% (23% de redução de cancelamentos)


# atraso_pagamento -> menor ou igual a 20 dias
df= df[df['dias_atraso'] <= 20]
# Redução de 23% para 15% (8%¨de redução nos cancelamentos)


# idade -> menor ou igual a 50
df= df[df['idade'] <= 50]
# Redução de 15% para 10% (5% de redução nos cancelamentos)

In [196]:
print(df["cancelou"].value_counts(normalize=True))

cancelou
0.0    0.897271
1.0    0.102729
Name: proportion, dtype: float64


É possível identificar uma redução de aproximadamente 46% dos usuários que cancelaram,<br><br> - Com incentivos para reduzir os contratos mensais<br> - Reduzir a quantidade de ligações ao call center<br> - Comunicar quando o cliente está com o pagamento atrasado de até 15 dias<br> - Focar na faixa etária de 20 a 50 anos