# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
# Passo a passo do projeto
# Passo 1: Importar a base de dados
# Passo 2: Visualizar a base de dados
# Passo 3: Tratamento de erros
# Passo 4: Análise inicial dos dados
# Paso 5: Análise profunda da base de dados (encontrar a causa)

In [1]:
# Passo 1:
import pandas #Serve para acessar uma base de dados

tabela = pandas.read_csv("cancelamentos.csv") # Ler a base de dados passada


In [None]:
# Passo 2: Visualizar a base de dados
display(tabela) # Mostra a base de dados

In [None]:
# Passo 3: Tratamento de erros
display(tabela.info()) # Mostra a base de dados detalhado

tabela = tabela.dropna() # Deletar valores vazios
display(tabela.info()) # Mostra a base de dados detalhado
tabela = tabela.drop("CustomerID", axis=1) # Exluir linha ou coluna. para linha o axis= 0; para coluna axis= 1. Neste caso esta excluindo a coluna CustomerID
# Pode excluir mais de uma ao mesmo tempo usando lista. exemplo: ["CustomerID", "idade"]

In [None]:
# Passo 4: Análise inicial dos dados (entendendo como estão os cancelamentos)

display(tabela["cancelou"].value_counts()) # Conta os valores da coluna
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Conta os valores da coluna e mostra em percentual


In [None]:
# Passo 4: Análise inicial dos dados (entendendo como estão os cancelamentos)

display(tabela["duracao_contrato"].value_counts()) # Conta os valores da coluna
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format)) # Conta os valores da coluna e mostra em percentual

In [None]:
display(tabela.groupby("duracao_contrato").count()) # count faz conta e mean faz média
display(tabela.groupby("duracao_contrato").mean(numeric_only=True))

In [None]:
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
# Ver a base de cancelamento sem o mensal
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format)) # Conta os valores da coluna e mostra em percentual

In [None]:
# Paso 5: Análise profunda da base de dados (encontrar a causa)
import plotly.express as px #Biblioteca para exibir graficos

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou") # cria as colunas separadas
    grafico.show()

In [None]:
# ligacoes de call center
# dias de atraso

tabela = tabela[tabela["ligacoes_callcenter"]<5]

tabela = tabela[tabela["dias_atraso"]<20]

# Ver a base de cancelamento 
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Conta os valores da coluna e mostra em percentual

In [None]:
# Após essa analise, é evidente que existe um problema para os clientes que ligam mais de 5 vezes no callcenter e para os clientes que estao com atraso maior de 20