# Notebook 03 - AN√ÅLISE E VISUALIZA√á√ÉO
# Pipeline de Big Data - An√°lise de Churn Telecom
# Equipe: [NOMES DOS MEMBROS]

## üéØ Objetivo
Este notebook implementa a etapa final do pipeline de Big Data, realizando **an√°lise explorat√≥ria** e **visualiza√ß√µes** dos dados transformados para gerar insights acion√°veis sobre churn de clientes.

## üìã Etapas:
1. Carregamento dos dados transformados (Silver)
2. An√°lise explorat√≥ria de dados
3. Cria√ß√£o de visualiza√ß√µes
4. Gera√ß√£o de insights e m√©tricas
5. Salvamento na camada Gold


In [None]:
# ============================================================
# ETAPA 1: CONFIGURA√á√ÉO DO AMBIENTE
# ============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os
import warnings
warnings.filterwarnings('ignore')

# Configurar visualiza√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("‚úÖ Ambiente configurado com sucesso!")
print(f"üìÖ Data/Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("üìä Bibliotecas carregadas: pandas, numpy, matplotlib, seaborn")


In [None]:
# ============================================================
# ETAPA 2: CARREGAMENTO DOS DADOS TRANSFORMADOS (SILVER)
# ============================================================

print("\n" + "="*60)
print("üì• CARREGANDO DADOS DA CAMADA SILVER")
print("="*60)

# Carregar dados transformados
caminho_silver = 'dados/silver/telco_churn_transformed.csv'

if os.path.exists(caminho_silver):
    df = pd.read_csv(caminho_silver)
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   üìä Registros: {len(df):,}")
    print(f"   üìã Colunas: {df.shape[1]}")
else:
    raise FileNotFoundError(f"‚ùå Arquivo n√£o encontrado: {caminho_silver}")

# Verificar estrutura dos dados
print(f"\nüìä Informa√ß√µes gerais:")
print(f"   - Dimens√µes: {df.shape}")
print(f"   - Mem√≥ria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   - Valores ausentes: {df.isnull().sum().sum()}")

# Verificar vari√°vel alvo
print(f"\nüéØ Distribui√ß√£o da vari√°vel alvo:")
churn_dist = df['Churn_numeric'].value_counts()
print(f"   - Churn (1): {churn_dist[1]:,} ({churn_dist[1]/len(df)*100:.1f}%)")
print(f"   - N√£o Churn (0): {churn_dist[0]:,} ({churn_dist[0]/len(df)*100:.1f}%)")


In [None]:
# ============================================================
# ETAPA 3: VISUALIZA√á√ÉO 1 - DISTRIBUI√á√ÉO GERAL DO CHURN
# ============================================================

print("\n" + "="*60)
print("üìä VISUALIZA√á√ÉO 1: DISTRIBUI√á√ÉO GERAL DO CHURN")
print("="*60)

# Criar figura com subplots
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Distribui√ß√£o absoluta
churn_counts = df['Churn'].value_counts()
axes[0].pie(churn_counts.values, labels=churn_counts.index, autopct='%1.1f%%', 
           colors=['#ff9999', '#66b3ff'], startangle=90)
axes[0].set_title('Distribui√ß√£o do Churn', fontsize=14, fontweight='bold')

# Gr√°fico 2: Distribui√ß√£o com valores
sns.countplot(data=df, x='Churn', ax=axes[1], palette=['#ff9999', '#66b3ff'])
axes[1].set_title('Contagem de Churn', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Status do Cliente')
axes[1].set_ylabel('N√∫mero de Clientes')

# Adicionar valores nas barras
for i, v in enumerate(churn_counts.values):
    axes[1].text(i, v + 50, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.savefig('dados/gold/viz_01_distribuicao_churn.png', dpi=300, bbox_inches='tight')
plt.show()

# Estat√≠sticas
taxa_churn = (df['Churn'] == 'Yes').mean() * 100
print(f"\nüìà Taxa geral de churn: {taxa_churn:.2f}%")
print(f"üìä Total de clientes: {len(df):,}")
print(f"üî¥ Clientes que cancelaram: {(df['Churn'] == 'Yes').sum():,}")
print(f"üü¢ Clientes ativos: {(df['Churn'] == 'No').sum():,}")


In [None]:
# ============================================================
# ETAPA 4: VISUALIZA√á√ÉO 2 - CHURN POR TIPO DE CONTRATO
# ============================================================

print("\n" + "="*60)
print("üìä VISUALIZA√á√ÉO 2: CHURN POR TIPO DE CONTRATO")
print("="*60)

# An√°lise de churn por contrato
churn_por_contrato = df.groupby('Contract')['Churn_numeric'].agg(['count', 'sum', 'mean']).round(3)
churn_por_contrato.columns = ['Total_Clientes', 'Churn_Count', 'Taxa_Churn']
churn_por_contrato['Taxa_Churn_Pct'] = churn_por_contrato['Taxa_Churn'] * 100

print("üìã Resumo por tipo de contrato:")
print(churn_por_contrato)

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Taxa de churn por contrato
contract_order = ['Month-to-month', 'One year', 'Two year']
churn_rates = [churn_por_contrato.loc[contract, 'Taxa_Churn_Pct'] for contract in contract_order]

bars1 = axes[0].bar(contract_order, churn_rates, color=['#ff6b6b', '#4ecdc4', '#45b7d1'])
axes[0].set_title('Taxa de Churn por Tipo de Contrato', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Taxa de Churn (%)')
axes[0].set_xlabel('Tipo de Contrato')

# Adicionar valores nas barras
for i, v in enumerate(churn_rates):
    axes[0].text(i, v + 1, f'{v:.1f}%', ha='center', fontweight='bold')

# Gr√°fico 2: Distribui√ß√£o de contratos
contract_counts = df['Contract'].value_counts()
axes[1].pie(contract_counts.values, labels=contract_counts.index, autopct='%1.1f%%',
           colors=['#ff6b6b', '#4ecdc4', '#45b7d1'], startangle=90)
axes[1].set_title('Distribui√ß√£o de Contratos', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.savefig('dados/gold/viz_02_churn_por_contrato.png', dpi=300, bbox_inches='tight')
plt.show()

# Insights
print(f"\nüí° INSIGHTS:")
print(f"   üî¥ Contratos mensais t√™m a MAIOR taxa de churn: {churn_rates[0]:.1f}%")
print(f"   üü° Contratos anuais t√™m taxa INTERMEDI√ÅRIA: {churn_rates[1]:.1f}%")
print(f"   üü¢ Contratos bienais t√™m a MENOR taxa de churn: {churn_rates[2]:.1f}%")
print(f"   üìä Diferen√ßa entre mensal e bienal: {churn_rates[0] - churn_rates[2]:.1f} pontos percentuais")


In [None]:
# ============================================================
# ETAPA 5: VISUALIZA√á√ÉO 3 - AN√ÅLISE DE TENURE (PERMAN√äNCIA)
# ============================================================

print("\n" + "="*60)
print("üìä VISUALIZA√á√ÉO 3: AN√ÅLISE DE TENURE (PERMAN√äNCIA)")
print("="*60)

# Criar grupos de tenure
df['TenureGroup'] = pd.cut(df['tenure'], 
                          bins=[0, 12, 24, 36, 48, 60, 72], 
                          labels=['0-12m', '13-24m', '25-36m', '37-48m', '49-60m', '61-72m'])

# An√°lise de churn por grupo de tenure
churn_por_tenure = df.groupby('TenureGroup')['Churn_numeric'].agg(['count', 'sum', 'mean']).round(3)
churn_por_tenure.columns = ['Total_Clientes', 'Churn_Count', 'Taxa_Churn']
churn_por_tenure['Taxa_Churn_Pct'] = churn_por_tenure['Taxa_Churn'] * 100

print("üìã Resumo por grupo de perman√™ncia:")
print(churn_por_tenure)

# Visualiza√ß√£o
fig, axes = plt.subplots(2, 1, figsize=(14, 12))

# Gr√°fico 1: Taxa de churn por tenure
tenure_groups = churn_por_tenure.index.tolist()
churn_rates_tenure = churn_por_tenure['Taxa_Churn_Pct'].tolist()

bars = axes[0].bar(tenure_groups, churn_rates_tenure, color='skyblue', edgecolor='navy', alpha=0.7)
axes[0].set_title('Taxa de Churn por Tempo de Perman√™ncia', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Taxa de Churn (%)')
axes[0].set_xlabel('Grupo de Perman√™ncia (meses)')

# Adicionar valores nas barras
for i, v in enumerate(churn_rates_tenure):
    axes[0].text(i, v + 0.5, f'{v:.1f}%', ha='center', fontweight='bold')

# Gr√°fico 2: Distribui√ß√£o de tenure
axes[1].hist(df['tenure'], bins=20, color='lightcoral', edgecolor='darkred', alpha=0.7)
axes[1].set_title('Distribui√ß√£o do Tempo de Perman√™ncia', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Tempo de Perman√™ncia (meses)')
axes[1].set_ylabel('N√∫mero de Clientes')

# Adicionar linha de m√©dia
media_tenure = df['tenure'].mean()
axes[1].axvline(media_tenure, color='red', linestyle='--', linewidth=2, 
                label=f'M√©dia: {media_tenure:.1f} meses')
axes[1].legend()

plt.tight_layout()
plt.savefig('dados/gold/viz_03_analise_tenure.png', dpi=300, bbox_inches='tight')
plt.show()

# Insights
print(f"\nüí° INSIGHTS:")
print(f"   üî¥ Clientes novos (0-12m) t√™m maior risco de churn")
print(f"   üü¢ Clientes antigos (37m+) t√™m menor risco de churn")
print(f"   üìä Tempo m√©dio de perman√™ncia: {media_tenure:.1f} meses")
print(f"   ‚ö†Ô∏è Primeiros 12 meses s√£o cr√≠ticos para reten√ß√£o")


In [None]:
# ============================================================
# ETAPA 6: SALVAMENTO NA CAMADA GOLD E RELAT√ìRIO FINAL
# ============================================================

print("\n" + "="*60)
print("üíæ SALVAMENTO NA CAMADA GOLD")
print("="*60)

# Criar datasets agregados para an√°lise
print("\nüìä Criando datasets agregados...")

# 1. M√©tricas por contrato
metricas_contrato = df.groupby('Contract').agg({
    'Churn_numeric': ['count', 'sum', 'mean'],
    'MonthlyCharges': 'mean',
    'TotalCharges': 'mean',
    'tenure': 'mean'
}).round(2)

metricas_contrato.columns = ['Total_Clientes', 'Churn_Count', 'Taxa_Churn', 
                            'Cobranca_Mensal_Media', 'Cobranca_Total_Media', 'Tenure_Medio']
metricas_contrato['Taxa_Churn_Pct'] = metricas_contrato['Taxa_Churn'] * 100

metricas_contrato.to_csv('dados/gold/metricas_por_contrato.csv')
print("   ‚úÖ metricas_por_contrato.csv")

# 2. Perfil de clientes de alto risco
alto_risco = df[(df['Contract'] == 'Month-to-month') & (df['tenure'] <= 12)]
perfil_alto_risco = alto_risco.groupby(['Contract', 'TenureGroup']).agg({
    'Churn_numeric': ['count', 'sum', 'mean'],
    'MonthlyCharges': 'mean',
    'TotalServices': 'mean'
}).round(2)

perfil_alto_risco.columns = ['Total_Clientes', 'Churn_Count', 'Taxa_Churn', 
                            'Cobranca_Mensal_Media', 'Servicos_Medios']
perfil_alto_risco['Taxa_Churn_Pct'] = perfil_alto_risco['Taxa_Churn'] * 100

perfil_alto_risco.to_csv('dados/gold/perfil_alto_risco.csv')
print("   ‚úÖ perfil_alto_risco.csv")

# 3. An√°lise por segmento de valor
segmento_valor = df.groupby('ValueSegment').agg({
    'Churn_numeric': ['count', 'sum', 'mean'],
    'MonthlyCharges': 'mean',
    'tenure': 'mean'
}).round(2)

segmento_valor.columns = ['Total_Clientes', 'Churn_Count', 'Taxa_Churn', 
                         'Cobranca_Mensal_Media', 'Tenure_Medio']
segmento_valor['Taxa_Churn_Pct'] = segmento_valor['Taxa_Churn'] * 100

segmento_valor.to_csv('dados/gold/churn_por_segmento.csv')
print("   ‚úÖ churn_por_segmento.csv")

# Criar relat√≥rio final
relatorio_final = f"""
RELAT√ìRIO FINAL - AN√ÅLISE DE CHURN TELECOM
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
RESUMO EXECUTIVO
==========================================
Total de clientes analisados: {len(df):,}
Taxa geral de churn: {(df['Churn'] == 'Yes').mean()*100:.2f}%
Clientes que cancelaram: {(df['Churn'] == 'Yes').sum():,}
Clientes ativos: {(df['Churn'] == 'No').sum():,}

PRINCIPAIS DESCOBERTAS
==========================================
1. TIPO DE CONTRATO √â O FATOR MAIS CR√çTICO:
   - Contratos mensais: {churn_por_contrato.loc['Month-to-month', 'Taxa_Churn_Pct']:.1f}% de churn
   - Contratos anuais: {churn_por_contrato.loc['One year', 'Taxa_Churn_Pct']:.1f}% de churn  
   - Contratos bienais: {churn_por_contrato.loc['Two year', 'Taxa_Churn_Pct']:.1f}% de churn

2. TEMPO DE PERMAN√äNCIA IMPACTA SIGNIFICATIVAMENTE:
   - Clientes novos (0-12m): Alto risco
   - Clientes antigos (37m+): Baixo risco
   - Tempo m√©dio de perman√™ncia: {df['tenure'].mean():.1f} meses

3. PERFIL DE ALTO RISCO:
   - Contrato mensal + tenure <= 12 meses
   - Cobran√ßa mensal m√©dia: R$ {alto_risco['MonthlyCharges'].mean():.2f}
   - Taxa de churn: {(alto_risco['Churn'] == 'Yes').mean()*100:.1f}%

RECOMENDA√á√ïES ESTRAT√âGICAS
==========================================
1. MIGRA√á√ÉO PARA CONTRATOS LONGOS:
   - Oferecer desconto de 15-20% em contratos anuais
   - Criar programa de fidelidade para contratos bienais

2. ONBOARDING INTENSIVO:
   - Acompanhamento especial nos primeiros 90 dias
   - Suporte proativo para clientes novos

3. BUNDLING DE SERVI√áOS:
   - Pacotes com 4+ servi√ßos para aumentar reten√ß√£o
   - Descontos progressivos por n√∫mero de servi√ßos

4. PROGRAMA DE SEGURAN√áA:
   - Trial gratuito de 30 dias para servi√ßos de seguran√ßa
   - Educa√ß√£o sobre benef√≠cios de prote√ß√£o

M√âTRICAS DE SUCESSO
==========================================
- Reduzir taxa de churn de contratos mensais em 10%
- Aumentar convers√£o para contratos anuais em 25%
- Melhorar reten√ß√£o de clientes novos em 15%
- Aumentar n√∫mero m√©dio de servi√ßos por cliente

==========================================
Pipeline de Big Data - Fundamentos de Big Data
Equipe: [NOMES DOS MEMBROS]
Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
==========================================
"""

with open('dados/gold/relatorio_final.txt', 'w', encoding='utf-8') as f:
    f.write(relatorio_final)

print("   ‚úÖ relatorio_final.txt")

print(f"\n" + "="*60)
print("‚úÖ AN√ÅLISE COMPLETA - Pipeline de Big Data Finalizado!")
print("="*60)

print(f"\nüìÅ Arquivos gerados na camada Gold:")
print(f"   üìä metricas_por_contrato.csv")
print(f"   üìä perfil_alto_risco.csv") 
print(f"   üìä churn_por_segmento.csv")
print(f"   üìÑ relatorio_final.txt")
print(f"   üñºÔ∏è viz_01_distribuicao_churn.png")
print(f"   üñºÔ∏è viz_02_churn_por_contrato.png")
print(f"   üñºÔ∏è viz_03_analise_tenure.png")

print(f"\nüéØ PR√ìXIMOS PASSOS (AV2):")
print(f"   - Implementar modelo de Machine Learning preditivo")
print(f"   - Criar dashboard interativo")
print(f"   - Desenvolver sistema de alertas automatizados")
print(f"   - Implementar A/B testing de estrat√©gias de reten√ß√£o")

print(f"\nüèÜ PROJETO AV1 CONCLU√çDO COM SUCESSO!")
