# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
import pandas as pd

In [None]:
# passo 1 - importar a base de dados
clientes_df = pd.read_csv("cancelamentos.csv")
# excluir colunas desnecessárias (dados desnecessários não ajudam e atrapalham)
clientes_df = clientes_df.drop('CustomerID', axis=1)

# passo 2 - visualizar a base de dados
display(clientes_df)

In [None]:
# passo 3 - tratar os dados

# identificando e removendo valores vazios
display(clientes_df.info())
clientes_df = clientes_df.dropna()
display(clientes_df.info())

In [None]:
# passo 4 - análise inicial
# Quantos clientes cancelaram o serviço?
display(clientes_df['cancelou'].value_counts())
display(clientes_df['cancelou'].value_counts(normalize=True).map("{:.1%}".format))


In [None]:
# quantos clientes cada assinatura possui?
# podemos ver que a distribuição está equilibrada
display(clientes_df['assinatura'].value_counts())
display(clientes_df['assinatura'].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
#Qual a distribuição de clientes por duração do contrato
# a assinatura mensal está com um percentual um pouco menor que as outras
display(clientes_df['duracao_contrato'].value_counts())
display(clientes_df['duracao_contrato'].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# qual a média de cancelamentos por assinatura?
# percebe-se que a média da assinatura mensal é de 1, o que indica que praticamente todos os clientes que assinam mensalmente cancelam
display(clientes_df.groupby("duracao_contrato").mean(numeric_only=True))

In [None]:
# vamos analisar os dados após a retirada de registros de assinatura mensal
# a porcentagem de clientes que cancelaram o serviço saiu de 56,7% para 46,1%
clientes_df = clientes_df[clientes_df['duracao_contrato'] != 'Monthly']
display(clientes_df['cancelou'].value_counts())
display(clientes_df['cancelou'].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
import plotly.express as px

# vamos analisar os histogramas de cada coluna do nosso dataframe para entendermos o motivo dos cancelamentos
for coluna in clientes_df.columns:
    grafico = px.histogram(clientes_df, x=coluna, color='cancelou', width=600)
    grafico.show()

In [None]:
# Com base nos gráficos, cheguei aos seguintes pontos:
# mais de 50 anos, 100% cancela (Público alvo? Dificuldade de acessar o serviço?)
# mais de 5 ligações de call center, 100% cancela (Entender os problemas comuns ou motivos da ligação com a finalidade de reduzir o número de chamadas)
# mais de 20 dias de atraso, 100% cancela (Facilitar a forma de pagamento e oferecer suporte necessário para entender o motivo do atraso)

clientes_df = clientes_df[clientes_df['idade'] <= 50]
clientes_df = clientes_df[clientes_df['ligacoes_callcenter'] <= 5]
clientes_df = clientes_df[clientes_df['dias_atraso'] <= 20]

display(clientes_df['cancelou'].value_counts())
display(clientes_df['cancelou'].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# ao analisar os dados e verificar formas viáveis de contornar o grande número de cancelamentos, partimos de 56,7% para 14,9%