# Análise de dados da Cyberdyne Systems
---

A Cyberdyne Systems contratou cientistas de dados do SENAI *experts* em na linguagem de programação em Python para analisar o auto índice de cancelamentos de contratos por parte dos clientes da empresa. O desafio aqui é tentar descobrir a causa do alto índice de cancelamentos e indicar a melhor solução para a empresa.

Para isso, a Cyberdyne Systems forneceu um *dataset* com os detalhes dos cancelamentos. Os cientistas devem analisar o *dataset* através da biblioteca ***Pandas***.

Vamos começar trazendo todos os dados do *dataset* e fazendo o tratamento dos dados.

In [1]:
# importa da biblioteca pandas
import pandas as pd

# lê os dados do dataset
tabela = pd.read_csv("cancelamentos.csv")

# imprime os dados do dataset no notebook
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Agora vamos eliminar a coluna de ID e mandar re-exibir a tabela.

In [2]:
tabela = tabela.drop("CustomerID", axis=1)
display(tabela)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Vamos pedir para que o Python nos retorne o número de linhas preenchidas da tabela.

In [3]:
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Veja que temos em cada uma das colunas um número diferente de linhas. Isso acontece porque temos dados nulos na tabela, e que devemos eliminar.

In [4]:
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

Agora, a análise de dados propriamente dita vai começar. Vamos verificar o número de clientes que cancelaram o contrato e o número de clientes que não cancelaram.

In [5]:
display(tabela["cancelou"].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Sabemos que o número de cancelamentos é maior que o de clientes que não cancelaram, mas quanto que isso dá em porcentagem? Vamos descobrir:

In [6]:
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

Sabemos agora que aproximadamente 56% dos clientes cancelaram, o que é um número muito alto. Vamos descobrir o por quê.

Vamos analisar a taxa de cancelamentos por duração de contrato:

In [7]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.2%}".format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

Podemos perceber que existe uma discrepância entre os contratos do tipo mensal e dos outros tipos. Vamos analisar a taxa de cancelamentos de cada tipo de contrato.

In [8]:
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


In [9]:
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
5,51.0,Male,33.0,25.0,9.0,26.0,Premium,Annual,129.00,8.0,1.0
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    381666
1.0    325788
Name: count, dtype: int64

cancelou
0.0    53.95%
1.0    46.05%
Name: proportion, dtype: object

Pudemos verificar que o contrato do tipo mensal, taxa de calcelamentos dominui para 46,05%,ous eja, uam queda de mais de 10% na taxa de cancelamento. O problemna é que a taxa de cancelamentos continua muito alta, afinal, nehuma empresa quer uma taxa de cancelamento perto da metade, então prescisamos continuar com a a analise para verificar outras possíveis razõesss para a alta taxa de cancelamentos.

Vamos analisar graficamente falando cada umas das colunas, ou seja, vamos criar gráficos de cada coluna para verificar se há discrepancias nas taxas de cancelamentos em algumas dessas colunas.

In [None]:
import plotly.express as px

# Filtrar apenas colunas numéricas para evitar erros (ex: datas, strings)
colunas_numericas = tabela.select_dtypes(include='number').columns

for coluna in colunas_numericas:
    fig = px.histogram(
        tabela,
        x=coluna,
        color='cancelou',
        nbins=20,                 # número de "caixas" do histograma
        barmode='overlay',        # ou 'stack' para empilhado
        opacity=0.7,              # transparência
        width=700,
        height=400,
        title=f"Histograma de {coluna}"
    )
    fig.update_layout(
        xaxis_title=coluna,
        yaxis_title='Frequência',
        legend_title='Cancelou'
    )
    fig.show()


Os graficos indicam problemas com os usuários que fazem mais de 5 ligações para o *call center*, e também cancelamentos por parte dos usuários  que ´passam mais de 20 dias inadimplentes. Portanto, deveremos elimiar esses clientes da analise e afim de verificar a nova taxa de cancelamentos sem esses clientes.

In [16]:
tabela = tabela[tabela["ligacoes_callcenter"] < 5]
tabela = tabela[tabela["dias_atraso"] <=20]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
9,64.0,Female,3.0,25.0,2.0,11.0,Standard,Quarterly,415.00,29.0,1.0
13,48.0,Female,35.0,25.0,1.0,13.0,Basic,Annual,518.00,17.0,1.0
19,42.0,Male,15.0,16.0,2.0,14.0,Premium,Quarterly,262.00,16.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    379032
1.0     85447
Name: count, dtype: int64

cancelou
0.0    81.60%
1.0    18.40%
Name: proportion, dtype: object

Finalmente conseguimos diminuir para 18,4%