# Análise de dados da Cyberdyne Systems
---

A Cyberdyne Systems contratou cientistas de dados do SENAI *experts* na linguagem de programação Python para analisar o alto indice de cancelamentos de contratos por parte dos clientes da empresa. O desafio aqui é tentar descobrir a causa desse alto índice de cancelamento e indicar a melhor solução para a empresa. 

Para isso a Cyberdyne Systems forneceu um *dataset* com os detalhes dos cancelamentos. Os cientistas devem analisar o *dataset* através da biblioteca ***Pandas***.

Vamos começar trazendo todos os dados do *dataset* e fazendo o tratamento dos dados.

In [3]:
# importa da biblioteca pandas
import pandas as pd

# Lê os dados do dataset
tabela = pd.read_csv("cancelamentos.csv")

# imprime os dados do dataset no notebook
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Agora vamos eliminar a coluna de ID e mandar re-exibir a tabela

In [2]:
tabela = tabela.drop("CustomerID", axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Vamos pedir para que o python nos retorne o numero de linhas preenchidas da tabela.

In [3]:
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Veja que temos em cada uma das colunas um número diferente de linhas. Isso acontece porque temops dados nulos na tabela, e que devemos eliminar.


In [4]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

Agora, a análise de dados propriamente dita vai começar. Vamos verificar o número de clientes que cancelaram o contrato e o número de clientes que não cancelou.

In [6]:
display(tabela["cancelou"].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Sabemos que o número de cancelamentos é maior que o de clientes que não cancelaram, mas quanto que isso dá em porcentagem? Vamos descobrir.

In [7]:
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

Sabemos agora que aproximadamente 56% dos clientes cancelaram, o que é um número muito alto. Vamos descobrir o por quê.

Vamos analisar a taxa de cancelamento por duração de contrato:


In [10]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:2%}".format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.196380%
Quarterly    40.044847%
Monthly      19.758773%
Name: proportion, dtype: object

Podemos perceber que existe uma discrepância entre os contratos do tipo mensal e dos outros tipos. Vamos analisar a taxa de cancelamento de cada tipo de duração de contratos.


In [4]:
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

Unnamed: 0_level_0,CustomerID,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Annual,248547.842605,38.842188,31.446213,15.880213,3.263395,12.465135,651.696325,14.23612,0.460761
Monthly,130596.685656,41.552222,30.538632,15.499216,4.985661,15.007135,550.616445,15.478018,1.0
Quarterly,248939.764131,38.830896,31.419838,15.886642,3.265247,12.460891,651.426516,14.234515,0.460256
