# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
#!pip install pandas openpyxl numpy nbformat plotly ipykernel
# pandas -> base de dados
# plotly -> criar gráficos dinâmicos

### Passo 1: Importar a base de dados ###
import pandas as pd

tabela = pd.read_csv("cancelamentos.csv")


### Passo 2: Visualizar a base de dados ###
## entender as informações ##
## encontrar problemas ##

# informações inúteis
tabela = tabela.drop(columns = "CustomerID") #tirando ID que não traz nenhuma informação relevante | linha = index

display(tabela) # display = print, porém mais visual (apenas .ipynb)




In [None]:


### Passo 3: resolver problemas da base de dados ###
display(tabela.info()) # informações sobre

# informações no formato errado

# informações vazias  | 
    #tabela = tabela.fillna() preenche vazios com algo / ffill() preenche com valor anterior
tabela = tabela.dropna() #exclui linhas que tem alguma info vazia
display(tabela.info())



In [None]:
### Passo 4: Análise Inicial ###
## quantos clientes cancelaram | qual o % de clientes cancelaram ##

# contar na coluna 'cancelou' os valores
#coluna de tabela =[]
display(tabela["cancelou"].value_counts())

#em percentual | normalizar -> proporção (0 a 1 geralmente)
display(tabela["cancelou"].value_counts(normalize = True))
display(tabela["cancelou"].value_counts(normalize = True).map("{:.2%}".format))


In [None]:
### Passo 5: Análise Detalhada ###
## analisar a causa dos cancelamentos dos clientes ##

# entender como cada coluna da base de dados impacta no cancelamento do cliente
# Gráficos!
import plotly.express as px

for coluna in tabela.columns:
    #criar gráfico
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True, color_discrete_map={1.0:"red", 0.0:"green"})
    #exibir gráfico
    grafico.show()

In [None]:
# Clientes que ligaram mais de 4x para o callcenter cancelam
    # criar alerta para quando o cliente ligar a 3ª vez para o callcenter, subir o nível do atendimento

# Todos os clientes do contrato Mensal cancelaram
    # criar estratégias para facilitar a migração do contrato Mensal para outras modalidades

# Todos os clientes que atrasaram o pagamento, por mais de 20 dias, cancelaram
    # alerta para o time de cobrança quando o cliente bater 10 dias de atraso


### Se eu resolver os 3 problemas acima, como fica a taxa de cancelamento? ###


## Problema 1: Callcenter | olhar a base excluindo o problema do callcenter
tabela = tabela[tabela["ligacoes_callcenter"] <=4] #coluna ligacoes_callcenter menor ou igual a 4

## Problema 2: Dias de Atraso no Pagamento | olhar a base excluindo o problema do atraso no pagamento
tabela = tabela[tabela["dias_atraso"] <=20] #coluna dias_atraso com menos de 20 dias

## Problema 3: Duração do Contrato | olhar a base excluindo contratos mensais (Monthly)
tabela = tabela[tabela["duracao_contrato"] != "Monthly"] # 


display(tabela["cancelou"].value_counts(normalize = True))