### Passo 1 e 2: Importar a base de dados dos clientes e fazer uma observação macro dos dados

In [2]:
import pandas as pd
import plotly.express as px

tabela = pd.read_csv("cancelamentos.csv")
#print(tabela)
display(tabela)


Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


### Passo 3: Tratamento de dados para analize
- coluna ID não impacta no problema de canecelamento de clientes.
- tratar valores vazios (tabela.info( ) mostra quais linhas tem buracos)


In [3]:
tabela = tabela.drop(columns="CustomerID")
display(tabela.info())

tabela = tabela.dropna()
display(tabela.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

### Passo 4: Analisar os cancelamentos

In [4]:
display(tabela["cancelou"].value_counts())

display(tabela["cancelou"].value_counts(normalize=True))

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    0.567105
0.0    0.432895
Name: proportion, dtype: float64

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

### Passo 5: Analisar possiveis razões para os cancelamentos
- usamos grafos para visualizar os dados e obter informações sobre eles
- graficos funcionam em dois passo: criar o grafico e exibir o grafico
- um gráfico mais simples e com a informação clara é sempre melhor

In [None]:
grafico = px.histogram(tabela, x="idade", color="cancelou")
#grafico.show
display(grafico)


In [None]:
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x= coluna, color="cancelou")
    display(grafico)

### Analises das causas de cancelamento:


![Alt text](graficos/idade-cancelou)
- O gráfico de idade mostra que a partir de 51 anos haverá cancelamento.
    - Solução: criar um processo para manter clientes com mais de 51 anos.
    - Sugestão: Identificar a causa central desses cancelamentos (existe um serviço para essa faixa etária que a empresa não oferece? Existe um serviço concorrente para pessoas acima de 50 anos que o fazem mudar de ideia e cancelar?).


![Alt text](graficos/ligacoes_callcenter-cancelou)
- O gráfico de ligacoes_callcenter mostra que a partir de 4 ligações é quase uma certeza que haverá cancelamento.
    - Solução: criar um processo para resolver o problema do cliente antes de 4 ligações.
    - Sugestão: criar um sinalizador de prioridade para cada vez que o cliente ligar e não deixar passar de 3 ligações.


![Alt text](graficos/dias_atraso-cancelou)
- O gráfico de dias_atraso mostra que a partir de 20 dias de atraso é certeza que haverá cancelamento.
    - Solução: criar uma estratégia para não deixar o cliente atrasar mais de 20 dias.
    - Sugestão: criar uma regra para contactar clientes com atraso superior a 10 dias e negociar o atraso.


![Alt text](graficos/duracao_contrato-cancelou)
- O gráfico de duracao_contrato mostra que clientes com plano mensal cancelam.
    - Solução: criar uma estratégia para fazer o cliente mudar de plano.
    - Sugestão: Oferecer descontos e vantagens para clientes que optem por assinar os planos trimestrais e anuais.



### Simulando a resolução desses problemas e visualizando o seu impacto


In [13]:
# sem contratos mensais
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]

# sem ligações para callcenter mais de 4 vezes
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]

# sem atrasar o pagamento mais de 20 dias
tabela = tabela[tabela["dias_atraso"] <= 20]

display(tabela["cancelou"].value_counts(normalize="True"))

cancelou
0.0    0.816037
1.0    0.183963
Name: proportion, dtype: float64