# Python Insights - An√°lise de Cancelamento de Clientes

Este projeto tem como objetivo analisar uma base de dados com mais de 800 mil registros de clientes, a fim de identificar padr√µes relacionados ao cancelamento de servi√ßos. 

A an√°lise busca responder perguntas como:
- Quais s√£o os principais fatores associados ao cancelamento?
- Existem perfis de clientes com maior propens√£o ao churn?
- Quais a√ß√µes podem ser tomadas para reduzir a taxa de cancelamento?

As etapas incluem explora√ß√£o da base, tratamento de dados, visualiza√ß√£o de m√©tricas-chave e gera√ß√£o de insights para suporte √† tomada de decis√£o estrat√©gica.

### üîç Etapa 1 - Importa√ß√£o e Carregamento da Base de Dados

Nesta primeira etapa, realizamos a importa√ß√£o das bibliotecas necess√°rias para an√°lise, com destaque para o `pandas`, que ser√° usado para manipula√ß√£o dos dados.

Em seguida, carregamos a base de dados `cancelamentos.csv` utilizando a fun√ß√£o `read_csv()`. A coluna `CustomerID` √© removida por n√£o ser relevante para a an√°lise, j√° que representa apenas um identificador √∫nico e n√£o contribui com informa√ß√µes anal√≠ticas.

Ao final, a base √© exibida para verifica√ß√£o inicial dos dados dispon√≠veis.

In [None]:
# Etapa 1: Importa√ß√£o e carregamento da base de dados
# !pip install pandas numpy openpyxl nbformat ipykernel plotly

import pandas as pd

# Carregando a base de dados
tabela = pd.read_csv("cancelamentos.csv")

# Excluindo colunas desnecess√°rias para an√°lise
tabela = tabela.drop(columns="CustomerID")

# Visualizando a base de dados
display(tabela)

### üßπ Etapa 2 - Tratamento de Dados

Nesta etapa, √© feita uma an√°lise da estrutura da base de dados utilizando o m√©todo `.info()`, que permite visualizar o n√∫mero de entradas, tipos de dados e a presen√ßa de valores nulos.

Ap√≥s a verifica√ß√£o, s√£o removidas todas as linhas que cont√™m valores ausentes (`NaN`) com o m√©todo `dropna()`. Essa limpeza garante que apenas registros completos sejam utilizados nas an√°lises subsequentes, evitando inconsist√™ncias nos resultados.

Por fim, √© feita uma nova inspe√ß√£o com `.info()` para confirmar que os dados faltantes foram eliminados com sucesso.

In [None]:
# Etapa 2: Tratamento de dados
display(tabela.info())

# Excluindo linhas que possuem valores vazios
tabela = tabela.dropna()

# Visualiza√ß√£o para conferir a exclus√£o
display(tabela.info())

### üìä Etapa 3 - An√°lise Inicial dos Cancelamentos

Antes de aprofundar a an√°lise, √© importante entender a propor√ß√£o de clientes que cancelaram o servi√ßo.

Nesta etapa, utilizamos o m√©todo `value_counts()` para contar quantos clientes cancelaram (`1`) e quantos permaneceram ativos (`0`). Em seguida, usamos o par√¢metro `normalize=True` para obter os valores em percentual, facilitando a interpreta√ß√£o da taxa de cancelamento.

Essas informa√ß√µes s√£o fundamentais para termos uma no√ß√£o geral do problema e da gravidade do churn na base analisada.

In [None]:
# Etapa 3: An√°lise inicial dos cancelamentos

# Contar quantas pessoas cancelaram e quantas n√£o cancelaram
display(tabela["cancelou"].value_counts())

# Mostrar em percentual %
display(tabela["cancelou"].value_counts(normalize=True))

### üìà Etapa 4 - An√°lise das Causas dos Cancelamentos

Nesta etapa, o objetivo √© identificar quais vari√°veis da base de dados possuem maior impacto na decis√£o dos clientes de cancelar o servi√ßo.

Utilizamos a biblioteca `plotly.express` para gerar **gr√°ficos interativos de histograma**, que mostram a distribui√ß√£o dos valores de cada coluna segmentada por status de cancelamento.

Para facilitar a interpreta√ß√£o dos gr√°ficos:
- Foi criado um **mapeamento de legenda** para a coluna `cancelou`, substituindo `0` por "Clientes ativos" e `1` por "Clientes que cancelaram".
- As cores dos gr√°ficos foram personalizadas com o `color_discrete_map`, destacando clientes ativos em **azul escuro** e cancelados em **vermelho**.

Esses gr√°ficos permitem identificar padr√µes visuais importantes entre caracter√≠sticas dos clientes (como tipo de contrato, n√∫mero de liga√ß√µes ao call center, dias de atraso, etc.) e sua propens√£o ao cancelamento, gerando insights valiosos para direcionar a√ß√µes estrat√©gicas.

In [None]:
# Etapa 4: An√°lise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)

# !pip install plotly

import plotly.express as px

cor_mapa = {
    'Clientes ativos': 'darkblue',
    'Clientes que cancelaram': 'red'
}

mapeamento_legenda = {0: 'Clientes ativos', 1: 'Clientes que cancelaram'}

tabela['cancelou_legenda'] = tabela['cancelou'].map(mapeamento_legenda)

# criar o grafico
for coluna in tabela.columns:
    if coluna not in ["cancelou"]:
        grafico = px.histogram(tabela, x=coluna, color="cancelou_legenda", color_discrete_map = cor_mapa)
    # exibir o grafico
    grafico.show()

### üí° Etapa 5 - Gera√ß√£o de Insights e Propostas de A√ß√£o

A partir da an√°lise explorat√≥ria dos dados, foi poss√≠vel identificar padr√µes claros relacionados ao cancelamento dos clientes. Com base nesses padr√µes, foram definidos tr√™s principais insights, acompanhados de sugest√µes pr√°ticas de a√ß√µes:

1. **Clientes com contrato mensal tendem a cancelar mais.**  
   üîß *A√ß√£o proposta:* Oferecer incentivos, como descontos, para migra√ß√£o para planos trimestrais ou anuais.

2. **Clientes que entram em contato com o call center mais de 4 vezes est√£o mais propensos a cancelar.**  
   üîß *A√ß√£o proposta:* Implementar melhorias no atendimento para resolver problemas em at√© 3 liga√ß√µes.

3. **Clientes com mais de 20 dias de atraso no pagamento apresentam alto √≠ndice de cancelamento.**  
   üîß *A√ß√£o proposta:* Criar pol√≠ticas e campanhas para resolu√ß√£o de atrasos em at√© 10 dias, envolvendo a equipe financeira.

Com base nesses tr√™s cen√°rios, aplicamos filtros na base de dados para simular o impacto dessas a√ß√µes. Ap√≥s a filtragem, observamos novamente os dados da coluna `cancelou`, tanto em n√∫meros absolutos quanto em percentual, a fim de avaliar a efetividade das estrat√©gias sugeridas.

Essa abordagem simula uma poss√≠vel **redu√ß√£o da taxa de churn** ao atacar diretamente os principais fatores identificados.

In [None]:
# Etapa 5: Gera√ß√£o de insights e propostas de a√ß√£o

# INSIGHTS
#1. TODOS os clientes que possuem contrato Mensal cancelam
    # Plano de a√ß√£o: oferecer desconto nos planos anuais e trimestrais

#2. Clientes que ligam MAIS DO QUE 4 VEZES para o call center, cancelam
    # Plano de a√ß√£o: Plano de melhoria para resolver o problema do cliente em no m√°ximo 3 liga√ß√µes

#3. Clientes que atrasaram o pagamento por mais de 20 dias, cancelaram
    # Rever pol√≠tica para resolver atrasos em at√© 10 dias (equipe financeira)

# Mantendo apenas dura√ß√£o do contrato anual e trimestral, pois clientes com contrato Mensal tendem √† cancelar.
condicao = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao]

# Mantendo apenas clientes que ligaram at√© 4 vezes, pois acima disso a chance de cancelamento aumenta.
condicao = tabela["ligacoes_callcenter"] <= 4
tabela = tabela[condicao]

# Mantendo apenas clientes com atraso at√© 20 dias, pois acima disso a chance de cancelamento aumenta.
condicao = tabela["dias_atraso"] <= 20
tabela = tabela[condicao]

# Resultado 
display(tabela["cancelou"].value_counts())
# em percentual %
display(tabela["cancelou"].value_counts(normalize=True))

### üìâ Etapa 6 - Compara√ß√£o da Taxa de Cancelamento: Antes vs. Depois

Nesta etapa, comparamos a taxa de cancelamento **antes e depois da aplica√ß√£o das a√ß√µes estrat√©gicas** definidas a partir dos insights obtidos na an√°lise dos dados.

As taxas s√£o calculadas da seguinte forma:
- **Antes das a√ß√µes**: usando a base de dados original (apenas com limpeza b√°sica).
- **Depois das a√ß√µes**: utilizando a base de dados com os filtros aplicados (clientes com plano mensal removidos, n√∫mero excessivo de liga√ß√µes e grandes atrasos no pagamento filtrados).

As taxas s√£o convertidas em percentual e exibidas lado a lado em um gr√°fico de barras. Isso permite visualizar de forma clara o impacto potencial das decis√µes tomadas na reten√ß√£o de clientes.

Essa compara√ß√£o √© fundamental para comunicar resultados de maneira objetiva e visual em projetos de dados.

In [None]:
import plotly.graph_objects as go

# Taxa de cancelamento ANTES das a√ß√µes
tabela_original = pd.read_csv("cancelamentos.csv")
tabela_original = tabela_original.drop(columns="CustomerID")
tabela_original = tabela_original.dropna()
taxa_antes = tabela_original["cancelou"].mean()

# Taxa de cancelamento DEPOIS das a√ß√µes j√° aplicadas (tabela filtrada)
taxa_depois = tabela["cancelou"].mean()

# Converter as taxas para porcentagem
taxa_antes_pct = round(taxa_antes * 100, 2)
taxa_depois_pct = round(taxa_depois * 100, 2)

# Gerar gr√°fico de compara√ß√£o
fig = go.Figure(data=[
    go.Bar(name='Antes das A√ß√µes', x=['Taxa de Cancelamento'], y=[taxa_antes_pct], marker_color='red'),
    go.Bar(name='Ap√≥s as A√ß√µes', x=['Taxa de Cancelamento'], y=[taxa_depois_pct], marker_color='darkblue')
])
fig.update_layout(
    title=
        {
        'text': 'Impacto das A√ß√µes na Taxa de Cancelamento',
        'x': 0.5,  # Centraliza horizontalmente
        'xanchor': 'center'
        },
    yaxis_title='Taxa de Cancelamento (%)',
    barmode='group'
)

fig.show()

# Para salvar a imagem do gr√°fico (Opcional)
# !pip install -U kaleido
# fig.write_image("grafico_taxa_cancelamento.png")

### ‚úÖ Conclus√£o

Com base na an√°lise realizada, foi poss√≠vel identificar fatores-chave associados ao cancelamento de clientes, como tipo de contrato, frequ√™ncia de contato com o suporte e atrasos no pagamento. 

Ap√≥s aplicar filtros simulando a√ß√µes estrat√©gicas, a taxa de cancelamento caiu de **56.71% para 18.4%**, o que demonstra que medidas simples podem ter um impacto significativo na reten√ß√£o de clientes.

Como pr√≥ximos passos, seria interessante:
- Criar um modelo preditivo de churn.
- Automatizar alertas para clientes em risco.
- Implementar dashboards din√¢micos para acompanhamento em tempo real.