# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
# !pip install pandas openpyxl numpy nbformat plotly ipykernel

# Passo a Passo:

# Passo 1: Importar a Base de Dados
import pandas as pd # pd é um apelido da biblioteca Pandas

tabela = pd.read_csv("cancelamentos.csv")

# Passo 2: Visualizar a Base de Dados (2 Objetivos: Entender as Informações + Encontrar Problemas)
# Devemos Excluir Informações Inúteis - "Informações que não te ajudam, te atrapalham";
tabela = tabela.drop(columns="CustomerID")
display(tabela)

In [None]:
# Passo 3: Resolver os Problemas da Base de Dados.  
    
# Informações no Formato Errado;
display(tabela.info()) # Esse formato .info(), nos ajuda a detectar em qual formato cada linha está (int, float ou object) e se há células/linhas/colunas vazias.

# Informações Vazias;
tabela = tabela.dropna() #Diferente do .drop(), o .dropna() joga fora todas as linhas/colunas vazias
display(tabela.info())

    

In [None]:
# Passo 4: Análise Inicial ("Quantos Clientes Cancelaram?", "Qual a % (Porcentagem) de clientes?")

# Contar na coluna "cancelou", quantos cancelaram e quantos não cancelaram.
display(tabela["cancelou"].value_counts())

# Mostrar o valores em % (Percentual)
display(tabela["cancelou"].value_counts(normalize=True))


In [None]:
# Passo 5: Analisar a Causa dos Cancelamentos dos Clientes.

# Quero entender como cada coluna da Base de Dados impacta no cancelamento do Cliente
# Criando gráficos
import plotly.express as px

# Criar o gráfico

# Utilizando o "for" para mostrar os gráficos para cada coluna na tabela
for coluna in tabela.columns:

    # Usaremos o Gráfico de Histograma, ele mostra a quantidade de valores em cada situação
    grafico = px.histogram(tabela, x=coluna, color="cancelou")

    # Exibe o gráfico
    grafico.show()

In [None]:
# Informações Interessantes

    # Ponto 1. Clientes que ligaram mais de 4x pro callcenter cancelaram
        # Vamos criar um alerta para quando o cliente ligar pela 3° vez pro callcenter

    # Ponto 2. Todos os clientes do plano mensal cancelaram
        # Vamos dar desconto nos outros contratos

    # Ponto 3. Todos os clientes que atrasaram mais de 20 dias o pagamento cancelaram
        # Ligar um alerta pra equipe de cobrança para quando o cliente bater 10 dias de atraso

# Se eu resolver esses problemas, como vai ficar a média de cancelamento?

# Callcenter - Tirando o problema dos clientes que ligaram mais 4x que cancelaram
condicao = tabela["ligacoes_callcenter"]<=4
tabela = tabela[condicao]

# Mostrar o valores em % (Percentual)
display(tabela["cancelou"].value_counts(normalize=True))


# Dias de Atraso no Pagamento - Tirando o problema dos clientes que atrasaram no pagamento mais de 20
condicao = tabela["dias_atraso"]<=20
tabela = tabela[condicao]

# Mostrar o valores em % (Percentual)
display(tabela["cancelou"].value_counts(normalize=True))


# Dias de Atraso no Pagamento - Tirando o problema dos clientes que atrasaram no pagamento mais de 20
condicao = tabela["duracao_contrato"]!="Monthly"
tabela = tabela[condicao]

# Mostrar o valores em % (Percentual)
display(tabela["cancelou"].value_counts(normalize=True))


# Site com Base de Dados Gratuitos pra treinar
# Kaggle