# Python Insights - Análise de Cancelamento de Clientes

Este projeto tem como objetivo analisar uma base de dados com mais de 800 mil registros de clientes, a fim de identificar padrões relacionados ao cancelamento de serviços. 

A análise busca responder perguntas como:
- Quais são os principais fatores associados ao cancelamento?
- Existem perfis de clientes com maior propensão ao churn?
- Quais ações podem ser tomadas para reduzir a taxa de cancelamento?

As etapas incluem exploração da base, tratamento de dados, visualização de métricas-chave e geração de insights para suporte à tomada de decisão estratégica.

### 🔍 Etapa 1 - Importação e Carregamento da Base de Dados

Nesta primeira etapa, realizamos a importação das bibliotecas necessárias para análise, com destaque para o `pandas`, que será usado para manipulação dos dados.

Em seguida, carregamos a base de dados `cancelamentos.csv` utilizando a função `read_csv()`. A coluna `CustomerID` é removida por não ser relevante para a análise, já que representa apenas um identificador único e não contribui com informações analíticas.

Ao final, a base é exibida para verificação inicial dos dados disponíveis.

In [None]:
# Etapa 1: Importação e carregamento da base de dados
# !pip install pandas numpy openpyxl nbformat ipykernel plotly

import pandas as pd

# Carregando a base de dados
tabela = pd.read_csv("cancelamentos.csv")

# Excluindo colunas desnecessárias para análise
tabela = tabela.drop(columns="CustomerID")

# Visualizando a base de dados
display(tabela)

### 🧹 Etapa 2 - Tratamento de Dados

Nesta etapa, é feita uma análise da estrutura da base de dados utilizando o método `.info()`, que permite visualizar o número de entradas, tipos de dados e a presença de valores nulos.

Após a verificação, são removidas todas as linhas que contêm valores ausentes (`NaN`) com o método `dropna()`. Essa limpeza garante que apenas registros completos sejam utilizados nas análises subsequentes, evitando inconsistências nos resultados.

Por fim, é feita uma nova inspeção com `.info()` para confirmar que os dados faltantes foram eliminados com sucesso.

In [None]:
# Etapa 2: Tratamento de dados
display(tabela.info())

# Excluindo linhas que possuem valores vazios
tabela = tabela.dropna()

# Visualização para conferir a exclusão
display(tabela.info())

### 📊 Etapa 3 - Análise Inicial dos Cancelamentos

Antes de aprofundar a análise, é importante entender a proporção de clientes que cancelaram o serviço.

Nesta etapa, utilizamos o método `value_counts()` para contar quantos clientes cancelaram (`1`) e quantos permaneceram ativos (`0`). Em seguida, usamos o parâmetro `normalize=True` para obter os valores em percentual, facilitando a interpretação da taxa de cancelamento.

Essas informações são fundamentais para termos uma noção geral do problema e da gravidade do churn na base analisada.

In [None]:
# Etapa 3: Análise inicial dos cancelamentos

# Contar quantas pessoas cancelaram e quantas não cancelaram
display(tabela["cancelou"].value_counts())

# Mostrar em percentual %
display(tabela["cancelou"].value_counts(normalize=True))

### 📈 Etapa 4 - Análise das Causas dos Cancelamentos

Nesta etapa, o objetivo é identificar quais variáveis da base de dados possuem maior impacto na decisão dos clientes de cancelar o serviço.

Utilizamos a biblioteca `plotly.express` para gerar **gráficos interativos de histograma**, que mostram a distribuição dos valores de cada coluna segmentada por status de cancelamento.

Para facilitar a interpretação dos gráficos:
- Foi criado um **mapeamento de legenda** para a coluna `cancelou`, substituindo `0` por "Clientes ativos" e `1` por "Clientes que cancelaram".
- As cores dos gráficos foram personalizadas com o `color_discrete_map`, destacando clientes ativos em **azul escuro** e cancelados em **vermelho**.

Esses gráficos permitem identificar padrões visuais importantes entre características dos clientes (como tipo de contrato, número de ligações ao call center, dias de atraso, etc.) e sua propensão ao cancelamento, gerando insights valiosos para direcionar ações estratégicas.

In [None]:
# Etapa 4: Análise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)

# !pip install plotly

import plotly.express as px

cor_mapa = {
    'Clientes ativos': 'darkblue',
    'Clientes que cancelaram': 'red'
}

mapeamento_legenda = {0: 'Clientes ativos', 1: 'Clientes que cancelaram'}

tabela['cancelou_legenda'] = tabela['cancelou'].map(mapeamento_legenda)

# criar o grafico
for coluna in tabela.columns:
    if coluna not in ["cancelou"]:
        grafico = px.histogram(tabela, x=coluna, color="cancelou_legenda", color_discrete_map = cor_mapa)
    # exibir o grafico
    grafico.show()

### 💡 Etapa 5 - Geração de Insights e Propostas de Ação

A partir da análise exploratória dos dados, foi possível identificar padrões claros relacionados ao cancelamento dos clientes. Com base nesses padrões, foram definidos três principais insights, acompanhados de sugestões práticas de ações:

1. **Clientes com contrato mensal tendem a cancelar mais.**  
   🔧 *Ação proposta:* Oferecer incentivos, como descontos, para migração para planos trimestrais ou anuais.

2. **Clientes que entram em contato com o call center mais de 4 vezes estão mais propensos a cancelar.**  
   🔧 *Ação proposta:* Implementar melhorias no atendimento para resolver problemas em até 3 ligações.

3. **Clientes com mais de 20 dias de atraso no pagamento apresentam alto índice de cancelamento.**  
   🔧 *Ação proposta:* Criar políticas e campanhas para resolução de atrasos em até 10 dias, envolvendo a equipe financeira.

Com base nesses três cenários, aplicamos filtros na base de dados para simular o impacto dessas ações. Após a filtragem, observamos novamente os dados da coluna `cancelou`, tanto em números absolutos quanto em percentual, a fim de avaliar a efetividade das estratégias sugeridas.

Essa abordagem simula uma possível **redução da taxa de churn** ao atacar diretamente os principais fatores identificados.

In [None]:
# Etapa 5: Geração de insights e propostas de ação

# INSIGHTS
#1. TODOS os clientes que possuem contrato Mensal cancelam
    # Plano de ação: oferecer desconto nos planos anuais e trimestrais

#2. Clientes que ligam MAIS DO QUE 4 VEZES para o call center, cancelam
    # Plano de ação: Plano de melhoria para resolver o problema do cliente em no máximo 3 ligações

#3. Clientes que atrasaram o pagamento por mais de 20 dias, cancelaram
    # Rever política para resolver atrasos em até 10 dias (equipe financeira)

# Mantendo apenas duração do contrato anual e trimestral, pois clientes com contrato Mensal tendem à cancelar.
condicao = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao]

# Mantendo apenas clientes que ligaram até 4 vezes, pois acima disso a chance de cancelamento aumenta.
condicao = tabela["ligacoes_callcenter"] <= 4
tabela = tabela[condicao]

# Mantendo apenas clientes com atraso até 20 dias, pois acima disso a chance de cancelamento aumenta.
condicao = tabela["dias_atraso"] <= 20
tabela = tabela[condicao]

# Resultado 
display(tabela["cancelou"].value_counts())
# em percentual %
display(tabela["cancelou"].value_counts(normalize=True))

### 📉 Etapa 6 - Comparação da Taxa de Cancelamento: Antes vs. Depois

Nesta etapa, comparamos a taxa de cancelamento **antes e depois da aplicação das ações estratégicas** definidas a partir dos insights obtidos na análise dos dados.

As taxas são calculadas da seguinte forma:
- **Antes das ações**: usando a base de dados original (apenas com limpeza básica).
- **Depois das ações**: utilizando a base de dados com os filtros aplicados (clientes com plano mensal removidos, número excessivo de ligações e grandes atrasos no pagamento filtrados).

As taxas são convertidas em percentual e exibidas lado a lado em um gráfico de barras. Isso permite visualizar de forma clara o impacto potencial das decisões tomadas na retenção de clientes.

Essa comparação é fundamental para comunicar resultados de maneira objetiva e visual em projetos de dados.

In [None]:
import plotly.graph_objects as go

# Taxa de cancelamento ANTES das ações
tabela_original = pd.read_csv("cancelamentos.csv")
tabela_original = tabela_original.drop(columns="CustomerID")
tabela_original = tabela_original.dropna()
taxa_antes = tabela_original["cancelou"].mean()

# Taxa de cancelamento DEPOIS das ações já aplicadas (tabela filtrada)
taxa_depois = tabela["cancelou"].mean()

# Converter as taxas para porcentagem
taxa_antes_pct = round(taxa_antes * 100, 2)
taxa_depois_pct = round(taxa_depois * 100, 2)

# Gerar gráfico de comparação
fig = go.Figure(data=[
    go.Bar(name='Antes das Ações', x=['Taxa de Cancelamento'], y=[taxa_antes_pct], marker_color='red'),
    go.Bar(name='Após as Ações', x=['Taxa de Cancelamento'], y=[taxa_depois_pct], marker_color='darkblue')
])
fig.update_layout(
    title=
        {
        'text': 'Impacto das Ações na Taxa de Cancelamento',
        'x': 0.5,  # Centraliza horizontalmente
        'xanchor': 'center'
        },
    yaxis_title='Taxa de Cancelamento (%)',
    barmode='group'
)

fig.show()

# Para salvar a imagem do gráfico (Opcional)
# !pip install -U kaleido
# fig.write_image("grafico_taxa_cancelamento.png")

### ✅ Conclusão

Com base na análise realizada, foi possível identificar fatores-chave associados ao cancelamento de clientes, como tipo de contrato, frequência de contato com o suporte e atrasos no pagamento. 

Após aplicar filtros simulando ações estratégicas, a taxa de cancelamento caiu de **56.71% para 18.4%**, o que demonstra que medidas simples podem ter um impacto significativo na retenção de clientes.

Como próximos passos, seria interessante:
- Criar um modelo preditivo de churn.
- Automatizar alertas para clientes em risco.
- Implementar dashboards dinâmicos para acompanhamento em tempo real.