# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
#Passo 1: IMPORTAR BASE DE DADOS
#!pip install pandas numpy openpyxl nbformat ipykernel plotly

import pandas as pd

tabela = pd.read_csv("auxiliares/cancelamentos_sample.csv")
#display(tabela)

#---------------------------------#

#Passo 2: visualizar a base de dados
    #entender quais infos tenho disponíveis
    #procurar os problemas da base de dados (valores errados, colunas e linhas vazias)
display(tabela)
display(tabela.info())

#---------------------------------#

#Passo 3: corrigir os erros acima
#3.1 - Colunas inúteis - Info que não ajuda, atrapalha.
tabela = tabela.drop(columns="CustomerID")
#display(tabela)

#3.2 - Informações Vazias ou no formato errado.
tabela = tabela.dropna() #Remove todas linhas que possuem valores vazios. (#NAN)

#3.3 - Remover informações duplicadas
#tabela = tabela.drop_duplicates()
display(tabela.info())


In [None]:
#Passo 4: análise dos cancelamentos (quantos cancelara, quantos não e percentual)
#lista entre colchetes - tabela["cliente", "nome"] - apenas para exemplo
#tabela["cancelou"].min()
#tabela["cancelou"].sum()
#tabela["cancelou"].max()
display(tabela["cancelou"].value_counts())
#exibir em percentual: - normalizado = percentual
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
#Passo 5: buscar causas dos cancelamentos- - como as colunas impactam no cancelamento

import plotly.express as px

#dividido em 2 etapas:
#criar os gráficos
#exibir os gráficos

#criar
#grafico = px.histogram(tabela, x="duracao_contrato", color="cancelou", text_auto=True)
#grafico = px.histogram(tabela, x="idade", color="cancelou", text_auto=True)
#grafico = px.histogram(tabela, x="dias_atraso", color="cancelou", text_auto=True)
#para cada coluna, quero criar e exibir o gráfico
for coluna in tabela.columns:
    #x define o eixo x.
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    grafico.show()
#show é utilizado para imagem. Display para texto.
#para mais detalhes, procurar por histograms in python
#melhor utilizar mais gráficos simples doque menos gráficos completos


In [None]:
#PASSO 6 - tratar os dados

#causas de cancelamento

#todos os clientes de contrato mensal, cancelaram.
    #dar descontos nos contratos anuais e trimestrais
#todos os clientes com mais de 20 dias cancelaram o serviço
    #criar um sistema de cobrança dos clientes com mais de 10 dias
#Todos os clientes que ligaram mais de 4 vezes para o call center cancelaram
    #criar alerta para clientes que ligaram mais de 2x para o call center

#analisar se, resolvendo estes problemas, quanto cai o cancelamento?

#duração do contrato não pode ser mensal
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
tabela = tabela[tabela["dias_atraso"] <= 20]
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

#atrasos só podem ser de até 20 dias
#ligações no call center só podem ser até 4 ligações