## **Analise de dados, utilizando a bibilioteca pandas**
---

Uma empresa contratou uma equipe para anaçlisar uma planilha de cancelamentos de planos dessa empresa. O objetivo da equipe é analisar a planilha para verificar o por que dos cancelamentos, e o que pode ser feito a respeito para diminuri o numero de cancelamentos.

In [1]:
# instalando a biblioteca pandas
#pip install pandas

In [2]:
import pandas as pd

dataframe_cancelamentos = pd.read_csv('datasets/cancelamentos.csv')

In [3]:
# Exibindo as 5 primeiras linhas
display(dataframe_cancelamentos)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


#### Tratamento dos dados

In [4]:
# removendo a coluna de id
dataframe_cancelamentos = dataframe_cancelamentos.drop(columns=['CustomerID'])

display(dataframe_cancelamentos)

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [5]:
# exibindo informações gerais do dataframe
dataframe_cancelamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


In [6]:
# verificando se existe colunas com valores nulos
dataframe_cancelamentos.isnull().sum()

idade                     2
sexo                      2
tempo_como_cliente        3
frequencia_uso            3
ligacoes_callcenter       2
dias_atraso               2
assinatura                5
duracao_contrato          3
total_gasto               2
meses_ultima_interacao    2
cancelou                  2
dtype: int64

In [7]:
# eliminando as linhas que possuem alguma coluna com valor nulo
dataframe_cancelamentos = dataframe_cancelamentos.dropna()

dataframe_cancelamentos.isnull().sum()

idade                     0
sexo                      0
tempo_como_cliente        0
frequencia_uso            0
ligacoes_callcenter       0
dias_atraso               0
assinatura                0
duracao_contrato          0
total_gasto               0
meses_ultima_interacao    0
cancelou                  0
dtype: int64

#### Analisando os dados

In [8]:
# quantidade total de cancelamentos
display(dataframe_cancelamentos['cancelou'].value_counts())

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

Observa-se que o numero de cancelamentos 499.993 é maior que o numero de contratos ativos 391.666, sendo assim a empresa perdeu mais da metade de seus clientes.

In [9]:
# quantidade total de cancelamentos em porcentagem
display(dataframe_cancelamentos['cancelou'].value_counts(normalize=True).map('{:.2%}'.format)) #formatando para porcentagem com duas casas decimais


cancelou
1.0    56.71%
0.0    43.29%
Name: proportion, dtype: object

Analisando e montando o perfil dos clientes que realizaram o cancelamento

In [10]:
# analisando os tipos de contratos
display(dataframe_cancelamentos['duracao_contrato'].value_counts())
display(dataframe_cancelamentos['duracao_contrato'].value_counts(normalize=True).map('{:.2%}'.format))

duracao_contrato
Annual       354395
Quarterly    353059
Monthly      174205
Name: count, dtype: int64

duracao_contrato
Annual       40.20%
Quarterly    40.04%
Monthly      19.76%
Name: proportion, dtype: object

In [11]:
# Agrupando os dados pela coluna duracao_contrato e gerar a media das outras informações
display(dataframe_cancelamentos.groupby('duracao_contrato').mean(numeric_only=True))


Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


Observa-se na saida anterior, que 100% dos contratos do tipo "Monthly" foram cancelados.

In [12]:
# criando outro dataframe sem os contratos mensais
dataframe_cancelamentos = dataframe_cancelamentos[dataframe_cancelamentos["duracao_contrato"] != "Monthly"]

display(dataframe_cancelamentos["cancelou"].value_counts())
display(dataframe_cancelamentos["cancelou"].value_counts(normalize=True).map('{:.2%}'.format))

cancelou
0.0    381666
1.0    325788
Name: count, dtype: int64

cancelou
0.0    53.95%
1.0    46.05%
Name: proportion, dtype: object

Observa-se que sem os contratos mensais, a taxa de cancelamentos cairam de 56,71% para 46,05%. Consequentemente a taxa de cancelamento dos contratos anuais e trimestrais ainda é alta, o que pode indicar que esses contratos não estão atendendo às expectativas dos clientes. 


##### Plotando graficos com a biblioteca plotly

In [None]:
# instalando a biblioteca plotly
# pip install plotly
# pip install nbformat

import plotly.express as px

for coluna in dataframe_cancelamentos.columns:
    grafico = px.histogram(dataframe_cancelamentos, x=coluna, color='cancelou', width=600)
    grafico.show()

Observa-se que as colunas "ligacoes para o callcenter" e "dias de atraso" estao influenciando na taxa de cancelementos.

Os clientes cancelam o contrato:
1. quando precisam ligar para o call center mais de 5 vezes.
2. quando atrasam o pagamento por mais de 20 dias.

In [14]:
# criando um novo dataframe sem os registros com mais de 5 ligações para o call center e com mais de 20 dias de atraso
dataframe_cancelamentos = dataframe_cancelamentos[dataframe_cancelamentos['ligacoes_callcenter'] < 5]
dataframe_cancelamentos = dataframe_cancelamentos[dataframe_cancelamentos['dias_atraso'] <= 20]

display(dataframe_cancelamentos['cancelou'].value_counts())
display(dataframe_cancelamentos['cancelou'].value_counts(normalize=True).map('{:.2%}'.format))

cancelou
0.0    379032
1.0     85447
Name: count, dtype: int64

cancelou
0.0    81.60%
1.0    18.40%
Name: proportion, dtype: object

Observa-se que a taxa de cancelamentos sem os clientes que ligaram mais de 5 vezes para o callcenter e sem os clientes que atrasaram por mais de 20 dias o pagamento, a taxa de cancelamentos cai para 18,40% do total.