# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
!pip install pandas openpyxl numpy nbformat plotly ipkernel tabulate


import pandas as pd
import plotly.express as px

tabela = pd.read_csv("cancelamentos.csv")

tabela = tabela.drop(columns="CustomerID")

display(tabela)

In [None]:
tabela = tabela.dropna()

display(tabela.info())


In [None]:
# ANÁLISE INICIAL
# Quantos clientes cancelaram, qual a % de clientes

counts = tabela["cancelou"].value_counts(normalize=True)
display(counts)

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# A IDADE TEM INFLUÊNCIA NO CANCELAMENTO?
for coluna in tabela.columns:
    
    graficos = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)

    graficos.show()

### clinetes que ligaram mais de 4x pro callcenter cancelam
    - vamos criar um alerta quando o cliente ligar na 3º vez pro callcenter

### todos os clientes do contrato mensal cancelaram
    - vamos dar desconto nos outros contratos
    
### todos os clientes que atrasaram mais de 20 dia, cancelaram
    - ligar um alerta pro time de cobrança quando cliente bater 10 dias de atraso
    
### se eu resolver esses 3 problemas, como fica a taxa de cancelamento

In [None]:
condicao = tabela["ligacoes_callcenter"] <= 4
tabela = tabela[condicao]

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
condicao = tabela["dias_atraso"] <= 20
tabela = tabela[condicao]


display(tabela["cancelou"].value_counts(normalize=True))

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
condicao = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao]


display(tabela["cancelou"].value_counts(normalize=True))

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

### Se eu resolver esses 3 problemas, como fica a taxa de cancelamento

In [None]:
# Aplicando filtro
from tabulate import tabulate


condicao = (tabela["ligacoes_callcenter"] <= 4) + (tabela["dias_atraso"] <= 20) + (tabela["duracao_contrato"] != "Monthly")
nova_tabela = tabela[condicao]

# Percentual depois
novos_counts = nova_tabela["cancelou"].value_counts(normalize=True)


tabela_resultados = [
    ["Status", "Antes (%)", "Depois (%)", "Diferença (%)"]
]
for status in sorted(counts.index):
    antes = counts[status] * 100
    depois = novos_counts[status] * 100
    diff = depois - antes
    tabela_resultados.append([
        f"{status:.1f}", f"{antes:.1f}%", f"{depois:.1f}%", f"{diff:+.1f}%"
    ])

print("A direferença da taxa após resolver os problemas identificados que era motivo de cancelamento, a diferença foi de:")
print(tabulate(tabela_resultados, headers="firstrow", tablefmt="grid"))
