# Relatório de Análise de Churn – Empresa de Telecomunicações

## 1. Introdução e Objetivos

### 1.1 Introdução e Definição do Problema

O mercado de telecomunicações é altamente competitivo. A aquisição de novos clientes possui um custo significativamente maior do que a retenção dos clientes existentes. Nesse contexto, a taxa de evasão de clientes, conhecida como "Churn", é uma métrica vital para a saúde financeira e estratégica da empresa.

Este trabalho explora uma base de dados clássica da IBM, "Telco Customer Churn", para identificar os principais fatores que levam um cliente a cancelar seu contrato.

### 1.2 Descrição do Problema e Objetivos

O problema central deste estudo é diagnosticar as causas-raiz da taxa de churn. A empresa precisa de respostas claras para direcionar seus esforços de retenção de forma eficaz.

Os objetivos específicos deste projeto são:

* **Identificar** os fatores predominantes que influenciam a alta taxa de churn.
* **Traçar o perfil** (demográfico, de plano, de serviços) dos clientes que mais cancelam.
* **Analisar** a correlação entre a contratação de serviços de suporte técnico e a taxa de cancelamento.
* **Propor** estratégias de retenção baseadas em dados.

## 2. Metodologia e Dicionário de Dados

### 2.1 Metodologia

A análise foi realizada utilizando a linguagem de programação Python e as bibliotecas `pandas` (para manipulação e tratamento dos dados), `matplotlib` e `seaborn` (para a geração de visualizações). A abordagem consiste em uma **análise exploratória e diagnóstica**.

### 2.2 Base de Dados

Utilizamos o dataset "WA_Fn-UseC_-Telco-Customer-Churn.csv", carregado diretamente do repositório GitHub do projeto.

### 2.3 Dicionário de Dados (Principais Colunas)

* `gender`, `SeniorCitizen`, `Partner`, `Dependents`: Dados demográficos.
* `tenure`: Número de meses que o cliente permaneceu na empresa.
* `Contract`: Tipo de contrato (Mês a mês, Um ano, Dois anos).
* `PaymentMethod`: Método de pagamento.
* `InternetService`: Tipo de serviço de internet (DSL, Fibra Ótica, Não).
* `TechSupport`, `OnlineSecurity`: Serviços de valor agregado.
* **`Churn` (Variável-Alvo)**: Se o cliente cancelou ou não (Yes/No).

## 3. Tratamento e Limpeza dos Dados

Esta etapa foi crucial para garantir a qualidade da análise.

### 3.1 Inspeção Inicial e Limpeza

Os dados foram carregados e inspecionados com `df.info()`. A coluna `TotalCharges` foi identificada como tipo `object` (texto) por conter valores em branco.

**Output do Código (Limpeza):**
```
--- Limpeza de Dados: 'TotalCharges' ---
Número de valores nulos (NaN) em 'TotalCharges' após coerção: 11
Clientes com TotalCharges nulo (provavelmente tenure=0):
      customerID  tenure  MonthlyCharges  TotalCharges
488   4472-LVYGI       0           52.55           NaN
... (e outros 10 clientes)
Linhas com NaNs em 'TotalCharges' removidas.
```
**Ação:** Os 11 clientes com `tenure` (tempo de casa) igual a 0 foram removidos, pois não tiveram tempo de contrato para serem analisados quanto ao churn.

### 3.2 Resumo Pós-Limpeza

**Output do Código (Resumo):**
```
--- Resumo dos Dados Após Limpeza ---
Shape final do DataFrame: (7032, 23)
Taxa de Churn Geral: 26.58%
```
**Conclusão da Limpeza:** A base de dados final para análise contém **7032 clientes** e a taxa de churn geral é de **26.58%**.

## 4. Análise Exploratória dos Dados (AED)

Com os dados limpos, cruzamos a variável `Churn` com as demais.

### 4.1 Análise por Perfil Demográfico

**Output - Churn por `Cliente Idoso` (SeniorCitizen):**
| Cliente Idoso | Taxa de Churn |
|:---|---:|
| Sim | 41.68% |
| Não | 23.65% |

**Output - Churn por `Partner` (Possui Parceiro):**
| Partner | Taxa de Churn |
|:---|---:|
| No | 32.98% |
| Yes | 19.72% |

**Output - Churn por `Dependents` (Possui Dependentes):**
| Dependents | Taxa de Churn |
|:---|---:|
| No | 31.28% |
| Yes | 15.53% |

**Insights Demográficos:** Clientes idosos, solteiros (sem parceiro) e sem dependentes têm uma propensão significativamente maior a cancelar.

### 4.2 Análise por Contrato e Faturamento (Fatores Predominantes)

**Output - Churn por `Contract` (Tipo de Contrato):**
| Contract | Taxa de Churn |
|:---|---:|
| Month-to-month | 42.71% |
| One year | 11.28% |
| Two year | 2.85% |

**Output - Churn por `PaymentMethod` (Método de Pagamento):**
| PaymentMethod | Taxa de Churn |
|:---|---:|
| Electronic check | 45.29% |
| Mailed check | 19.20% |
| Bank transfer (automatic) | 16.73% |
| Credit card (automatic) | 15.25% |

**Insights de Contrato:** O tipo de contrato é o fator mais crítico. O contrato "Mês a Mês" (flexível) e o método de pagamento "Cheque Eletrônico" (alto atrito) estão fortemente correlacionados com altas taxas de cancelamento.

### 4.3 Análise por Serviços Contratados (Respondendo à Pergunta 3)

**Output - Churn por `InternetService` (Tipo de Internet):**
| InternetService | Taxa de Churn |
|:---|---:|
| Fibra Ótica | 41.89% |
| DSL | 19.00% |
| Sem Internet | 7.43% |

**Output - Churn por `TechSupport` (Suporte Técnico):**
| TechSupport | Taxa de Churn |
|:---|---:|
| Não | 41.65% |
| Sim | 15.20% |
| Sem Internet | 7.43% |

**Output - Churn por `OnlineSecurity` (Segurança Online):**
| OnlineSecurity | Taxa de Churn |
|:---|---:|
| Não | 41.78% |
| Sim | 14.64% |
| Sem Internet | 7.43% |

**Insights de Serviços:** Clientes com "Fibra Ótica" (serviço mais caro) que **NÃO** contratam serviços de proteção (como `TechSupport` ou `OnlineSecurity`) são os que mais cancelam.

### 4.4 Análise de Variáveis Numéricas (`tenure`, `MonthlyCharges`)

Os gráficos de densidade e boxplots (gerados pelo código) confirmam:
* **Tenure (Tempo de Casa):** O churn é massivamente concentrado em clientes novos (pico nos primeiros 12 meses).
* **MonthlyCharges (Cobrança Mensal):** Clientes que cancelam tendem a ter cobranças mensais mais altas.

## 5. Resposta às Perguntas de Negócio e Conclusões

#### 1. Quais são os fatores predominantes?
Os fatores predominantes são (como visto nas tabelas):
1.  **Tipo de Contrato:** Ser "Mês a Mês" (42.7% de churn).
2.  **Método de Pagamento:** Usar "Cheque Eletrônico" (45.3% de churn).
3.  **Falta de Serviços de Proteção:** Não ter "Suporte Técnico" (41.7%) ou "Segurança Online" (41.8%).

#### 2. Qual é o perfil dos clientes que mais cancelam?
* Um **Cliente Idoso** (41.7% de churn).
* Sem parceiro (33.0%) ou dependentes (31.3%).
* Possui contrato **Mês a Mês** (42.7%) e paga com **Cheque Eletrônico** (45.3%).
* É um cliente **novo** (baixo `tenure`).
* Contrata **Fibra Ótica** (41.9%) mas **NÃO** contrata `TechSupport` (41.7%).

#### 3. Existem correlações entre suporte técnico e cancelamento?
Sim. A **ausência** da assinatura do serviço de Suporte Técnico está ligada a uma taxa de churn (41.65%) quase 3 vezes maior do que a de clientes que possuem o serviço (15.20%).

## 6. Considerações Finais e Recomendações Estratégicas

1.  **Ação Imediata em Contratos:** Focar agressivamente na migração de clientes "Mês a Mês" para contratos de "1 Ano".
2.  **Redução de Atrito no Pagamento:** Desencorajar ativamente o "Cheque Eletrônico", oferecendo descontos para migração para métodos automáticos.
3.  **Bundle de Proteção para Fibra Ótica:** Para justificar o preço da Fibra, oferecer "Suporte Técnico" e "Segurança Online" como pacote gratuito nos primeiros meses.
4.  **Foco da Equipe de Retenção:** Criar um "score de risco" focado em clientes novos, idosos, com contrato Mês a Mês e sem serviços de suporte.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import warnings

# --- Configurações Iniciais ---
# Ignorar avisos futuros
warnings.filterwarnings("ignore", category=FutureWarning)
# Definir o tema dos gráficos
sns.set_theme(style="whitegrid")

print("Iniciando a Análise de Churn da Telco...")

# --- 1. Carga e Limpeza de Dados ---

print("\n--- Etapa 1: Carga e Limpeza de Dados ---")

# Carregar o dataset diretamente do GitHub (link raw)
file_url = 'https://raw.githubusercontent.com/rodolphomh/MVP-Engenharia-de-Dados/main/WA_Fn-UseC_-Telco-Customer-Churn.csv'

try:
    df = pd.read_csv(file_url)
    print(f"Arquivo carregado com sucesso da URL. Shape inicial: {df.shape}")
except Exception as e:
    print(f"ERRO ao carregar o arquivo da URL: {e}")
    exit()

# Inspecionar os dados
print("\n--- Informações Iniciais (df.info()) ---")
df.info()

# Converter 'TotalCharges' para numérico, forçando erros (espaços) para NaN
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Verificar NaNs. Eles correspondem a clientes com tenure=0.
nan_count = df['TotalCharges'].isnull().sum()
print(f"\nNúmero de valores nulos (NaN) em 'TotalCharges' após coerção: {nan_count}")

if nan_count > 0:
    print("Investigando clientes com TotalCharges nulo (tenure=0):")
    print(df[df['TotalCharges'].isnull()][['customerID', 'tenure', 'MonthlyCharges', 'TotalCharges']].head())
    
    print(f"Removendo {nan_count} linhas com TotalCharges nulo.")
    df.dropna(subset=['TotalCharges'], inplace=True)
else:
    print("Nenhum valor nulo encontrado em 'TotalCharges'.")

# Criar colunas auxiliares para facilitar a análise
df['Churn_Numeric'] = df['Churn'].map({'Yes': 1, 'No': 0})
df['Churn_Label'] = df['Churn'].map({'Yes': 'Sim', 'No': 'Não'})
df['SeniorCitizen_Label'] = df['SeniorCitizen'].map({0: 'Não', 1: 'Sim'})

print(f"\nLimpeza concluída. Shape final: {df.shape}")
taxa_churn_geral = df['Churn_Numeric'].mean()
print(f"Taxa de Churn Geral: {taxa_churn_geral:.2%}")


# --- Funções Auxiliares de Plotagem ---

def formatar_eixo_pct(ax):
    """Função auxiliar para formatar o eixo Y como porcentagem."""
    ax.yaxis.set_major_formatter(mtick.PercentFormatter(1.0))

def adicionar_rotulos_barras(ax):
    """Função auxiliar para adicionar rótulos de % no topo das barras."""
    for p in ax.patches:
        height = p.get_height()
        if height > 0:
            ax.annotate(f'{height:.1%}',
                        (p.get_x() + p.get_width() / 2., height),
                        ha='center', va='center',
                        xytext=(0, 9),
                        textcoords='offset points',
                        fontsize=11,
                        color='black')

# --- 2. Análise: Perfil Demográfico e Contrato ---

print("\n\n--- Etapa 2: Análise por Perfil Demográfico e Contrato ---")
print("Gerando tabelas e gráficos para Perfil Demográfico...")

# Renomear para o gráfico ficar melhor
df.rename(columns={'SeniorCitizen_Label': 'Cliente Idoso'}, inplace=True)

colunas_perfil = [
    'gender', 'Cliente Idoso', 'Partner', 'Dependents',
    'Contract', 'PaymentMethod', 'PaperlessBilling'
]

titulos_perfil = {
    'gender': 'Gênero',
    'Cliente Idoso': 'Cliente Idoso (SeniorCitizen)',
    'Partner': 'Possui Parceiro(a)',
    'Dependents': 'Possui Dependentes',
    'Contract': 'Tipo de Contrato',
    'PaymentMethod': 'Método de Pagamento',
    'PaperlessBilling': 'Fatura Digital (Paperless Billing)'
}

for col in colunas_perfil:
    titulo_amigavel = titulos_perfil.get(col, col)
    print(f"\n--- Taxa de Churn por: {titulo_amigavel} ---")
    
    churn_rate_group = df.groupby(col)['Churn_Numeric'].mean().reset_index()
    churn_rate_group = churn_rate_group.sort_values(by='Churn_Numeric', ascending=False)
    churn_rate_group.rename(columns={'Churn_Numeric': 'Taxa de Churn'}, inplace=True)

    # Imprimir a tabela (ótimo para o notebook)
    print(churn_rate_group.to_markdown(index=False, floatfmt=".2%"))

    # Gerar o gráfico
    plt.figure(figsize=(12, 7))
    ax = sns.barplot(data=churn_rate_group, x=col, y='Taxa de Churn', palette='viridis')
    
    ax.set_title(f'Taxa de Churn por {titulo_amigavel}', fontsize=16, pad=20)
    ax.set_xlabel(titulo_amigavel, fontsize=12)
    ax.set_ylabel('Taxa de Churn', fontsize=12)
    
    formatar_eixo_pct(ax)
    adicionar_rotulos_barras(ax)
    
    if col == 'PaymentMethod':
        plt.xticks(rotation=15, ha='right')
    
    plt.tight_layout()
    # plt.show() exibe o gráfico no notebook
    plt.show() 
    plt.close()

# --- 3. Análise: Serviços Contratados (Tech Support, etc.) ---

print("\n\n--- Etapa 3: Análise por Serviços Contratados ---")
print("Gerando tabelas e gráficos para Serviços Contratados...")

# Mapear valores em inglês para português para os gráficos
map_yes_no = {'Yes': 'Sim', 'No': 'Não'}
df['PhoneService'] = df['PhoneService'].map(map_yes_no)
df['MultipleLines'] = df['MultipleLines'].map({**map_yes_no, 'No phone service': 'Sem serviço tel.'})
df['InternetService'] = df['InternetService'].map({'DSL': 'DSL', 'Fiber optic': 'Fibra Ótica', 'No': 'Sem Internet'})
map_internet_services = {**map_yes_no, 'No internet service': 'Sem Internet'}
servicos_internet_cols = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']
for col in servicos_internet_cols:
    df[col] = df[col].map(map_internet_services)

colunas_servicos = [
    'PhoneService', 'MultipleLines', 'InternetService', 
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 
    'TechSupport', 'StreamingTV', 'StreamingMovies'
]

titulos_servicos = {
    'PhoneService': 'Serviço de Telefone',
    'MultipleLines': 'Múltiplas Linhas',
    'InternetService': 'Tipo de Serviço de Internet',
    'OnlineSecurity': 'Segurança Online',
    'OnlineBackup': 'Backup Online',
    'DeviceProtection': 'Proteção de Dispositivo',
    'TechSupport': 'Suporte Técnico',
    'StreamingTV': 'Streaming de TV',
    'StreamingMovies': 'Streaming de Filmes'
}

for col in colunas_servicos:
    titulo_amigavel = titulos_servicos.get(col, col)
    print(f"\n--- Taxa de Churn por: {titulo_amigavel} ---")
    
    churn_rate_group = df.groupby(col)['Churn_Numeric'].mean().reset_index()
    churn_rate_group = churn_rate_group.sort_values(by='Churn_Numeric', ascending=False)
    churn_rate_group.rename(columns={'Churn_Numeric': 'Taxa de Churn'}, inplace=True)
    
    # Imprimir a tabela
    print(churn_rate_group.to_markdown(index=False, floatfmt=".2%"))

    # Gerar o gráfico
    plt.figure(figsize=(10, 6))
    ax = sns.barplot(data=churn_rate_group, x=col, y='Taxa de Churn', palette='plasma')
    
    ax.set_title(f'Taxa de Churn por {titulo_amigavel}', fontsize=16, pad=20)
    ax.set_xlabel(titulo_amigavel, fontsize=12)
    ax.set_ylabel('Taxa de Churn', fontsize=12)
    
    formatar_eixo_pct(ax)
    adicionar_rotulos_barras(ax)
    
    plt.tight_layout()
    plt.show()
    plt.close()

# --- 4. Análise: Variáveis Numéricas (Tenure, Cobranças) ---

print("\n\n--- Etapa 4: Análise por Variáveis Numéricas ---")

colunas_numericas = ['tenure', 'MonthlyCharges', 'TotalCharges']
titulos_numericos = {
    'tenure': 'Tempo como Cliente (Meses)',
    'MonthlyCharges': 'Cobrança Mensal ($)',
    'TotalCharges': 'Cobrança Total ($)'
}

# Gráficos de Densidade (KDE)
print("--- Gerando gráficos de densidade (KDE) ---")
for col in colunas_numericas:
    plt.figure(figsize=(10, 6))
    titulo_grafico = titulos_numericos.get(col, col)
    
    sns.kdeplot(data=df, x=col, hue='Churn_Label', fill=True, common_norm=False, palette="Set1", alpha=0.5)
    
    plt.title(f'Distribuição de {titulo_grafico} por Churn', fontsize=16, pad=20)
    plt.xlabel(titulo_gdafico, fontsize=12)
    plt.ylabel('Densidade', fontsize=12)
    plt.legend(title='Churn', loc='best', labels=['Sim', 'Não'])
    
    plt.tight_layout()
    plt.show()
    plt.close()

# Gráficos de Boxplot
print("\n--- Gerando gráficos de boxplot ---")
colunas_boxplot = ['tenure', 'MonthlyCharges']
for col in colunas_boxplot:
    plt.figure(figsize=(8, 6))
    titulo_grafico = titulos_numericos.get(col, col)
    
    sns.boxplot(data=df, x='Churn_Label', y=col, palette="Set1", order=['Não', 'Sim'])
    
    plt.title(f'Boxplot de {titulo_grafico} por Churn', fontsize=16, pad=20)
    plt.xlabel('Cliente Cancelou (Churn)', fontsize=12)
    plt.ylabel(titulo_grafico, fontsize=12)
    
    plt.tight_layout()
    plt.show()
    plt.close()

print("\n\n--- ANÁLISE COMPLETA ---")
print("Todos os outputs e gráficos foram gerados no notebook.")
print("Agora você pode usar a função 'Imprimir para PDF' do seu navegador.")