# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

Passo 1: Importar bibliotecas necessárias e armazenar a base de dados

In [15]:
# Import de libs
import pandas as pd
import numpy as np

# Estas libs foram instaladas antes do import
# pip install plotly
# pip install nbformat
import plotly.express as px
import nbformat

In [16]:

tab_1 = pd.read_csv('cancelamentos_sample.csv')


Passo 2: Visualizar a base de dados

In [None]:
# Obtendo insights

tab_1.info() # Ver tipos de dados da tabela
display(tab_1) # Visualizar tabela
tab_1.head(10) # Ver as primeiras 10 linhas
tab_1.duplicated() # Ver se há duplicidade de dados
tab_1.nunique() # Ver quantidade de valores distintos
tab_1.isnull().sum() # Quantidade de nulos por coluna

Passo 3: Realizar o tratamento necessário para adequar a base de dados à análise

In [18]:
# Excluir colunas consideradas desnecessárias
tab_1 = tab_1.drop(columns='CustomerID')

In [19]:
# Excluir linhas com dados nulos: neste caso isso foi feito por se tratar de apenas 5 linhas
tab_1 = tab_1.dropna()

Passo 4: Realizar análise exploratória acerca dos cancelamentos

In [None]:
# Verificando qde. de cancelamentos (1 = Sim, 0 = Não)
	# Selecionar coluna "cancelou"
tab_1['cancelou'].value_counts()

In [None]:
# Verificando % de clientes por tipo de contrato
	# Selecionar coluna "duracao_contrato"
tab_1['duracao_contrato'].value_counts(normalize=True)

In [23]:
# Realizando agrupamento pela coluna "duracao_contrato" para obter novos insights
	# Exibindo média das colunas numéricas (há colunas de texto)
agrupamento = tab_1.groupby('duracao_contrato').mean(numeric_only=True)

- Ao realizar uma análise exploratória da base verificou-se que, todos os pedidos de cancelamento feitos por clientes do tipo de contrato "Mensal", foram executados. Ou seja, clientes com este tipo de contrato são os mais propensos à cancelamento.

In [None]:
# Excluindo da base as linhas dos clientes com tipo de contrato "Mensal", afim de verificar o % de cancelamento sem este tipo.

tab_1 = tab_1[tab_1["duracao_contrato"] != "Monthly"]
tab_1['cancelou'].value_counts(normalize=True)

- Após a exclusão dos clientes com tipo de contrato "Mensal", o cancelamento reduziu cerca de 10 p.p. Saiu de 56% para 46%. Ou seja, esse tipo de contrato tem uma parcela significativa na base de cancelamentos, representando cerca de 20%.
  
- Levando em consideração que a base analisada representa todos os clientes atuais da empresa, então seria necessário rever a estratégia de vendas desse tipo de contrato (mensal), visto que todos os clientes que assinam, cancelam posteriormente.

In [None]:
# Média dos indicadores sem os clientes do tipo de contrato "Mensal"
agrupamento = tab_1.groupby('duracao_contrato').mean(numeric_only=True)
display(agrupamento)

Passo 5: Análise explanatória do cancelamento

In [36]:
	# Criação de gráficos
		# Criando o mesmo tipo de gráfico para diversas variáveis (por idade, número de ligações, tipo de contrato...)

for coluna in tab_1.columns:
	grafico = px.histogram(tab_1, x=coluna, color='cancelou')
		# Exibir gráfico
	grafico.show()

IndentationError: expected an indented block after 'for' statement on line 4 (343481176.py, line 5)

# Conclusão

- Todos os clientes com tipo de contrato "Mensal", realizaram cancelamento.

- Os clientes que ligaram, em média, a partir de 4 vezes para o call center (reparo, dúvidas, etc), foram os que mais cancelaram posteriormente.

- Clientes com inadimplência a partir de 20 dias, são mais propensos ao cancelamento. Aqui caberia identificar se o cancelamento é por parte da empresa ou por decisão do cliente. De qualquer forma, seria importante incrementar a política de cobrança.

- Na hipótese de que os 3 itens acima fossem 100% eliminados da base, o % de cancelamento cairia para 18.

In [37]:
tab_1 = tab_1[tab_1['ligacoes_callcenter'] < 5]
tab_1 = tab_1[tab_1['dias_atraso'] <= 20]

In [38]:
display(tab_1['cancelou'].value_counts(normalize=True))

cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64