# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [9]:
# Passo a passo do projeto
# 1°: Importar base de dados

import pandas

tabela = pandas.read_csv("cancelamentos.csv").dropna()
tabela = tabela.drop("CustomerID", axis=1) 
# Excluir linha -> axis = 0
# Excluir coluna -> axis = 1


In [None]:
# 2°: Visualizar a base de dados

display(tabela)


In [None]:
# 3°: Tratamento de erros (resolver as cagadas da base de dados)

display(tabela.info())

In [None]:
# 4°: Análise inicial de dados (entender como estão os cancelamentos)
print('Número de pessoas que cancelaram ou não')
display(tabela["cancelou"].value_counts())
print('Porcentagem de cancelamentos')
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


In [None]:
display(tabela.groupby(['duracao_contrato'])['cancelou'].mean())

In [None]:
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
print('Número de pessoas que cancelaram ou não')
display(tabela["cancelou"].value_counts())
print('Porcentagem de cancelamentos')
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


In [None]:
# 5°: Análise profunda da base de dados (encontrando a causa dos cancelamentos)
import plotly.express as px

for coluna in tabela.columns:
    gráfico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    gráfico.show()

In [None]:
# ligações call center a partir de 5, cancelam
tabela = tabela[tabela["ligacoes_callcenter"]<5]

# dias de atraso, a partir de 21, cancelam
tabela = tabela[tabela["dias_atraso"]<=20]

print('Número de pessoas que cancelaram ou não')
display(tabela["cancelou"].value_counts())
print('Porcentagem de cancelamentos')
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


In [None]:
# Principais causas de cancelamento
# forma de pagamento - mensal
# dias de atraso do pagamento > 20
# ligações do call center >= 5