# Analisando Dados com Python
**Case** - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.


In [None]:
import pandas as pd

In [None]:
#Importar base de dados
dados_df=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Python Insigths/cancelamentos.csv')
display(dados_df)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [None]:
#Retirei as colunas que não servem para analise

dados_df=dados_df.drop(columns='CustomerID')
display(dados_df)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [None]:
#Retirei as linhas vazias
dados_df.info()
dados_df = dados_df.dropna()
dados_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


In [None]:
#Analisar quantas pessoas cancelaram

display(dados_df['cancelou'].value_counts())
display(dados_df['cancelou'].value_counts(normalize=True))

Unnamed: 0_level_0,count
cancelou,Unnamed: 1_level_1
1.0,499993
0.0,381666


Unnamed: 0_level_0,proportion
cancelou,Unnamed: 1_level_1
1.0,0.567105
0.0,0.432895


**Cancelamentos**: 499993 = **56.7**%

**Não cancelaram**: 381666 = **43.2**%

In [None]:
#Importando o Plotly

#Histogramas Atuais

import plotly.express as px

for coluna in dados_df.columns:
  tabela = px.histogram(dados_df, x= coluna, color='cancelou')
  tabela.show()

Output hidden; open in https://colab.research.google.com to view.

Os clientes mensais cancelaram mais (coluna= duracao_contrato)

Os clientes que ligaram mais de 4 vezes cancelaram imediatamente (coluna= ligacoes_call center)

Os clientes que atrasaram mais de 20 dias pra pagar cancelaram (coluna= dias_atraso)  

# **O que podemos fazer?**
**Contrato:**

Dar descontos maiores para os outros planos assim fazendo os clientes escolherem eles.

**Call Center:**

Resolver os probblemas dos clientes em até duas ligações.

**Dias de Atraso:**

Assim que os clientes baterem 20 dias de atraso mandar avisos todos os dias sobre o pagamento.





In [None]:
#Solucionando os problemas

dados_df = dados_df[dados_df['duracao_contrato']!='Monthly']
dados_df = dados_df[dados_df['ligacoes_callcenter']<=4]
dados_df = dados_df[dados_df['dias_atraso']<=20]

#Quantas pessoas cancelaram depois das mudanças
display(dados_df['cancelou'].value_counts())

#Em percentual
display(dados_df['cancelou'].value_counts(normalize=True))

Unnamed: 0_level_0,count
cancelou,Unnamed: 1_level_1
0.0,379032
1.0,85447


Unnamed: 0_level_0,proportion
cancelou,Unnamed: 1_level_1
0.0,0.816037
1.0,0.183963


Depois das mudanças os cancelamentos cairam para: 85447 = **18**%

As assinaturas subiram para: 379032 = **81**%

In [None]:
#Histogramas com os dados novos
for coluna in dados_df.columns:
  tabela = px.histogram(dados_df, x= coluna, color='cancelou')
  tabela.show()

Output hidden; open in https://colab.research.google.com to view.