# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
# Passo a passo do projeto:
# Passo 1: Importar a base de dados

import pandas

tabela = pandas.read_csv("cancelamentos.csv")

# Passo 2: Visualizar a base de dados
# Linha: axis = 0
# Coluna: axis = 1
tabela = tabela.drop("CustomerID", axis=1)
# Remove a coluna de ID do cliente (dado indiferente para análise)
display(tabela)


In [None]:
# Passo 3: Tratamento de erros (resolver erros da base de dados)
display(tabela.info())
# tratar valores vazios
tabela = tabela.dropna()
display(tabela.info())


In [None]:
# Passo 4: Análise inicial dos dados (entender os cancelamentos)
display(tabela["cancelou"].value_counts())
# pra ver como porcentual, usar normalize=True dentro do counts: 

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))



In [None]:
display(tabela["duracao_contrato"].value_counts())
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format))




In [None]:

display(tabela.groupby("duracao_contrato").count())
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))


In [None]:
# Contrato mensal sempre cancela

tabela = tabela[tabela["duracao_contrato"]!="Monthly"]


# Ver cancelamentos sem o mensal
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))



In [8]:
# Passo 5: Análise profunda da bd
import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    grafico.show()

In [None]:
# ligacoes call center a partir de 5, cancelam

tabela = tabela[tabela["ligacoes_callcenter"]<5]

# dias de atraso a partir de 21, cancelam
tabela = tabela[tabela["dias_atraso"]<=20]


# Ver cancelamentos sem o mensal
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))



In [None]:
# Maiores motivos de cancelamento:
    
# Forma de pagamento Mensal;
# Mais de 20 dias de atraso;
# Mais de 5 Ligacoes do call center.