# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.



In [1]:
# Passo a passo do seu projeto
# Passo 1:Importar a base de dados

import pandas 

tabela = pandas.read_csv("cancelamentos.csv")
# Passo 2: Visualizar a base de dados
#Infomação qu enão te ajuda, te atrapalha
# linha -> axis = 0 
# coluna -> axis = 1
# Para excluir mais colunas abrir couxete

tabela = tabela.drop("CustomerID", axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [2]:
# Passo 3: Tratamento de erros (resolver as cagadas da base de dados)
display(tabela.info())
# tratar valores vazios
tabela = tabela.dropna()    # O dropna ele deleta linhas automaticamente 
display(tabela.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

In [3]:
# Passo 4: Análise inicial dos dados (entender como estão os cancelamentos)
# Mostrar quatos clientes cancelou

display(tabela["cancelou"].value_counts()) # Aqui vamos contar os valores
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Aqui vamos contar em porcentagem

# se usar o normalize=true ele vai colocar os numeros em % e se colocar igual a false vai colocar os numeros igual o 1° resultado
# Numero 1 é o cliente que cancelou e numero 0 é o cliente que não cancelou
# 56 % dos clientes cancelaram e 43% dos clientes não cancelaram


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

In [4]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.2%
Quarterly    40.0%
Monthly      19.8%
Name: proportion, dtype: object

In [5]:
display(tabela.groupby("duracao_contrato").count())

Unnamed: 0_level_0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Annual,354395,354395,354395,354395,354395,354395,354395,354395,354395,354395
Monthly,174205,174205,174205,174205,174205,174205,174205,174205,174205,174205
Quarterly,353059,353059,353059,353059,353059,353059,353059,353059,353059,353059


In [6]:
display(tabela.groupby("duracao_contrato").mean("duracao_contrato"))

# Media de cancelados por mês é de 100% ou seja o contrato mensal sempre cancela
# A media de cancelados por ano é de 46%
# A media de cancelados por trimestre é de 46%

display(tabela.groupby("assinatura").mean("assinatura"))

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
assinatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Basic,39.458756,31.935347,15.808678,3.652196,13.02631,628.673496,14.488492,0.581782
Premium,39.323023,30.883415,15.809341,3.577677,12.916779,632.9273,14.475566,0.559413
Standard,39.341109,30.976879,15.804613,3.585303,12.956423,633.13436,14.478837,0.560697


In [7]:
#Descartar uma tabela
tabela = tabela[tabela["duracao_contrato"]!= "Monthly"]
# Vamos ver o cancelamento tirando os clientes do mensal
# Fazendo isso o nosso cancelamento caiu em 10%
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
0.0    381666
1.0    325788
Name: count, dtype: int64

cancelou
0.0    53.9%
1.0    46.1%
Name: proportion, dtype: object

In [8]:
# GERANDO GRÁFICOS

# Passo 5: Ánalise profunda da base de dados (encontrados a causa dos cancelamento)
#import plotly.express as px 

#for coluna in tabela.columns:
    #grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    #grafico.show()

# O numero é a quantidade que tem em cada uma das tabelas


In [9]:
# Ligações call center apartir de 5, cancelam 
tabela = tabela[tabela["ligacoes_callcenter"]<5]

# dias de atraso, a partir de 21, cancelam 
tabela = tabela[tabela["dias_atraso"]<=20]

# total maior de gasto> 500 
tabela = tabela[tabela["total_gasto"]>=500]

#idade do Maior que 50
tabela = tabela[tabela["idade"]<50]

# Vamos ver o cancelamento tirando os clientes do mensal
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
0.0    364286
1.0     18722
Name: count, dtype: int64

cancelou
0.0    95.1%
1.0     4.9%
Name: proportion, dtype: object

In [10]:
# Possiveis razões para a queda do faturamento 

# forma de pagamento -mensal 
# dais de atraso > 20
# ligações do call center >=5 
# gastos < 500
# Idade maior que 50 são mais suscetiveis a cancelar 
