# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

# Python Insights -  Analisando Dados com Python

### **Case - Análise de Cancelamento de Clientes**

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente, a empresa notou que grande parte de sua base de clientes está inativa, indicando um alto índice de cancelamentos.

Para melhorar seus resultados, o objetivo é entender os principais motivos por trás desses cancelamentos e identificar as ações mais eficientes para reduzir essa taxa.

---

**Base de Dados:**

Os arquivos necessários para a análise estão disponíveis na pasta do Google Drive:
[Base de dados e arquivos:](https://drive.google.com/drive/folders/1uDes7ePdkHiraJmiyeZ-w5lfc8K6NYFZ?usp=drive_link)

# Projeto de Análise: Fatores de Cancelamento de Clientes

### **Passo a Passo da Análise**

1.  **Importação e Visualização:** Carregar os dados e fazer um primeiro diagnóstico.
2.  **Tratamento de Dados:** Corrigir inconsistências e valores ausentes.
3.  **Análise Exploratória:** Entender as principais características dos clientes.
4.  **Análise de Cancelamentos:** Investigar a relação entre as colunas e o cancelamento.

In [None]:
# Instalar bibliotecas necessárias:
# Instalados via Terminal - pip install pandas numpy openpyxl nbformat ipykernel plotly

# Passo 1: Importar a base de dados
import pandas as pd

# O código a seguir assume que o arquivo 'cancelamentos_sample.csv' foi carregado para o ambiente do Colab.
# Se o arquivo estiver no seu Google Drive, você precisará montá-lo primeiro.
tabela = pd.read_csv("cancelamentos_sample.csv")

# Passo 2: Pré-processamento e visualização inicial
# Remover a coluna 'CustomerID', que é um identificador único e não contribui para a análise
tabela = tabela.drop(columns="CustomerID")

# Exibir as primeiras 5 linhas para verificar o carregamento
print("Visualização das primeiras 5 linhas da tabela:")
display(tabela.head())

# Exibir informações sobre a tabela (tipos de dados, valores não nulos)
print("\nInformações sobre a tabela (tipos de dados e valores nulos):")
tabela.info()

In [None]:
# Passo 3: Análise inicial dos cancelamentos

# quantas pessoas cancelaram e quantas não cancelaram
display(tabela["cancelou"].value_counts())

# em percentual
display(tabela["cancelou"].value_counts(normalize=True))
# display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

In [None]:
# Passo 4: Análise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)
# gráficos/dashboards

import plotly.express as px

# criar o grafico

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    # exibir o grafico
    grafico.show()

### **Passo 5: Simulação de Melhorias e Impacto**

Nesta etapa, vamos simular o impacto de aplicar as ações sugeridas para reduzir os cancelamentos. Vamos filtrar a base de dados para remover os clientes que, segundo nossa análise inicial, tendem a cancelar.

* **Contrato Mensal:** Clientes com contrato mensal serão removidos, já que tendem a cancelar com alta frequência.
* **Ligações ao Call Center:** Clientes com mais de 4 ligações serão removidos, simulando uma resolução mais eficiente dos problemas.
* **Atrasos no Pagamento:** Clientes com atraso superior a 20 dias serão removidos, simulando uma ação proativa da equipe financeira.

In [None]:
# Passo 5: Simular o impacto das ações de melhoria

# Filtra a tabela para remover os clientes com contrato mensal
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]

# Filtra a tabela para remover os clientes com mais de 4 ligações para o call center
tabela = tabela[tabela["ligacoes_callcenter"]<=4]

# Filtra a tabela para remover os clientes com mais de 20 dias de atraso no pagamento
tabela = tabela[tabela["dias_atraso"]<=20]

# Exibe a nova contagem de cancelamentos e o percentual
print("Contagem de clientes cancelados após a simulação:")
display(tabela["cancelou"].value_counts())

print("\nPercentual de clientes cancelados após a simulação:")
display(tabela["cancelou"].value_counts(normalize=True))

# Importar o nbformat
# Instalado via Terminal - pip install nbformat --upgrade

In [None]:
# Passo 6 (adicional): Calcular a taxa de cancelamento original
print("Taxa de cancelamento original:")
# Calcula e exibe a taxa de cancelamento na tabela original, antes de qualquer filtro
display(tabela["cancelou"].value_counts(normalize=True))

In [None]:
# Instalando uma versão Compatível do Plotly:
!pip install plotly==5.24.0 

import plotly.express as px
import pandas as pd

# Supondo que você já carregou sua tabela original aqui
# Make sure to load the original table again after restarting the runtime
tabela_original = pd.read_csv("cancelamentos_sample.csv")

# ... Seu código de simulação viria aqui ...
# The result of the simulation should be stored in the 'tabela' variable before running this cell

# Gráfico 1: Taxa de Cancelamento Original
contagem_original = tabela_original["cancelou"].value_counts().reset_index()
contagem_original.columns = ["Cancelou", "Total"]
fig1 = px.pie(contagem_original, values='Total', names='Cancelou', title='Taxa de Cancelamento Original')
fig1.show()


# Gráfico 2: Taxa de Cancelamento Após a Simulação
contagem_filtrada = tabela["cancelou"].value_counts().reset_index()
contagem_filtrada.columns = ["Cancelou", "Total"]
fig2 = px.pie(contagem_filtrada, values='Total', names='Cancelou', title='Taxa de Cancelamento Após a Simulação')
fig2.show()