# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
import pandas as pd

# importando a base de dados
tabela = pd.read_csv("cancelamentos.csv")

tabela = tabela.drop("CustomerID", axis = 1)
display(tabela)

In [None]:
#identificar e remover valores vazios
display(tabela.info())
tabela = tabela.dropna() #remove campos vazios
display(tabela.info())

In [None]:
#analisar taxa de cancelamento da empresa
#quantas pessoas cancelaram e não cancelaram
display(tabela["cancelou"].value_counts()) #verifica a quantidade de valores que temos na coluna "cancelou"
display(tabela["cancelou"].value_counts(normalize = True).map("{:.1%}".format))#normalize e formata o resultado em percentual

In [None]:
#analisar a duração de contrato mensal dos clientes
display(tabela["duracao_contrato"].value_counts())
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))#agrupa as informaçoes da coluna duraçao_contrato e depois faz a media das informaçoes da tabela

#podemos visualizar que a média de cancelamento de contrato é 1, ou que seja quase todos os contratos mensais foram cancelados

In [None]:
#removendo o contrato mensal para continuar analisando
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize = True).map("{:.1%}".format))

In [None]:
#analisar as assinaturas dos clientes
display(tabela["assinatura"].value_counts(normalize=True))
display(tabela.groupby("assinatura").mean(numeric_only=True))#agrupar informaçoes por assinatura e fazer a media

#dados praticamente iguais em cada assinatura

In [None]:
#criar gráficos para melhoras visualizar e analisar os dados
import plotly.express as px

for coluna in tabela.columns: #percorre todas as colunas da tabela
    grafico = px.histogram(tabela, x=coluna, color="cancelou", width=600)#cria um grafico de histograma para cada uma das colunas da tabela
    grafico.show()
    

In [None]:
#Analisando os graficos Dias de atraso e ligações ao call center, podemos notar que clientes com 
#mais de 20 dias de atraso cancelam sua assinatura, clientes com mais de 5 ligações realizadas 
#cancelam suas assinaturas

tabela = tabela[tabela["ligacoes_callcenter"]<5]
tabela = tabela[tabela["dias_atraso"]<=20]
display(tabela)

display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize = True).map("{:.1%}".format))

#removendo essas duas informaçoes podemos notar a queda do percentual de cancelamentopara 18,4%