# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
#pip install pandas numpy openpyxl nbformat ipykernel plotly

# Passo 1: Importar base de dados
import pandas as pd

tabela = pd.read_csv("cancelamentos_sample.csv")

# Passo 2: visualizar a base de dados
tabela = tabela.drop(columns="CustomerID") # tira coluna "CustomerID"

display(tabela)


In [None]:
# Passo 3: Corrigir os problemas da base de dados (tratamento de dados)
# valores vazios
# tirar colunas que atrapalham
display(tabela.info())

tabela = tabela.dropna() # NaN -> Not a number: valores vazios

display(tabela.info())


In [None]:
# Passo 4: Análise inicial: quantos clientes cancelaram e % dos clientes

# quantidade em número
display(tabela["cancelou"].value_counts()) 

# percentual
display(tabela["cancelou"].value_counts(normalize=True))


In [None]:
# Passo 5: Análise da causa de cancelamento dos clientes
# (comparar as outras colunas da tabela com a coluna de cancelamento)

import plotly.express as px

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)

    grafico.show()

In [None]:
# usuários do contrato mensal sempre cancelam

# todos os usuários que ligaram mais de 4x para o call center, cancelaram

# usuários que atrasaram pagamento mais de 20 dias, cancelaram

# duracao_contrato -> diferente de mensal
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]

# ligações call center -> menor ou igual a 4
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]

# atraso no pagamento -> menor igual 20 dias
tabela = tabela[tabela["dias_atraso"] <= 20]

# Resultados após tirar aqueles que tiveram mais cancelamentos
# e que impactariam diretamente em uma pesquisa
display(tabela["cancelou"].value_counts())

display(tabela["cancelou"].value_counts(normalize=True))

