# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [1]:
# Passo a passo:
# Passo 1: Importar base de dados
import pandas as pd
table = pd.read_csv('cancelamentos.csv')
# Remove a coluna CustomerID que não vai servir
table = table.drop(columns="CustomerID")
display(table)

# Passo 2: Visualizar base de dados
# !pip install pandas numpy openpyxl nbformat ipykernel plotly
# Passo a passo do projeto


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [2]:
# Passo 3: Corrigir cagadas da base de dados
# Valores vazios na base de dados e formatos corretos na base de dados
# Valores vazios NaN =  Not a Number
table = table.dropna()
display(table.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

In [3]:
# Passo 4: Análise dos cancelamentos
display(table["cancelou"].value_counts())
# Calcula o percentual
display(table["cancelou"].value_counts(normalize=True))


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    0.567105
0.0    0.432895
Name: proportion, dtype: float64

In [None]:
#   # Passo 5: Análise da causa dos cancelamentos (como as colunas impactam no cancelamento?)
#   # Gráficos
#   # Importar a biblioteca de gráficos
#   import plotly.express as px
#   # Criar os gráficos
#   for column in table.columns:
#       graph = px.histogram(table, x=column, color="cancelou")
#       # Exibir o gráfico
#       graph.show()

# Descomentar essa célula antes da execução (Os gráficos interativos que ela gera faz o github ter um derrame)




# Eu: 
    # tento dar push nesse arquivo
# Github:
    # É muintu grandi >_< 

# Pse, descobri que eram os gráficos ಠ_ಠ
# ¯\_(ツ)_/¯

In [5]:
# Clientes do contrato mensal sempre cancelam
    # Solução: Desconto para contratos anuais e trimestrais
# Se co cliente liga mais de 4 vezes, ele vai cancelar
    # Solução: Acionar um alerta para quando o cliente ligar 3 vezes e resolver o problema dele
# Clientes acima de 50 anos cancelam
# Clientes com mais de 20 dias de atraso cancelam
    # Solução: Cobrar o cliente veaco caloteiro quando atingir 10 dias de atraso

# Criar filtros na tabela

# Caso eu não tenha clientes de contrato mensal, como seria?
table = table[table["duracao_contrato"] != "Monthly"]

# Caso eu não tenha clientes com mais de 4 ligações pro call center, como seria?
table = table[table["ligacoes_callcenter"] <=4]

# Caso eu não tenha clientes com mais de 20 dias de atraso, como seria?
table = table[table["dias_atraso"] <=20]

# Formata os valores colando a %:
# display(table["cancelou"].value_counts(normalize=True).map("{:1%}".format))
display(table["cancelou"].value_counts(normalize=True))

cancelou
0.0    0.816037
1.0    0.183963
Name: proportion, dtype: float64