# üé¨ Dataset Sint√©tico - Churn de Streaming Brasileiro

## Hackathon - An√°lise e Predi√ß√£o de Churn

---


### üéØ Objetivo

Este notebook gera um dataset sint√©tico que emula com  fidelidade o comportamento de dados reais de uma plataforma de streaming, incluindo:

- Correla√ß√µes realistas entre vari√°veis
- Distribui√ß√µes estat√≠sticas que refletem padr√µes do mercado
- Regras de neg√≥cio consistentes
- Missing values com padr√µes realistas, explicativos Genero e avalia√ß√µes.
- Taxa de churn de ~25% (desbalanceado, como no mundo real)

---

## 1. Importa√ß√£o de Bibliotecas e Configura√ß√µes Iniciais

In [1]:
# Bibliotecas necess√°rias
import numpy as np
import pandas as pd
from scipy import stats
from scipy.special import expit 
from faker import Faker
import warnings
warnings.filterwarnings('ignore')

# Seed para reprodutibilidade
np.random.seed(42)

# Configura√ß√µes principais
N_REGISTROS = 30000
CHURN_RATE_TARGET = 0.25

print("=" * 60)
print("CONFIGURA√á√ÉO DO DATASET SINT√âTICO")
print("=" * 60)
print(f"\nüìä Par√¢metros:")
print(f"   ‚Ä¢ Total de registros: {N_REGISTROS:,}")
print(f"   ‚Ä¢ Taxa de churn target: {CHURN_RATE_TARGET:.1%}")
print(f"   ‚Ä¢ Churners esperados: ~{int(N_REGISTROS * CHURN_RATE_TARGET):,}")
print(f"   ‚Ä¢ Ativos esperados: ~{int(N_REGISTROS * (1-CHURN_RATE_TARGET)):,}")

CONFIGURA√á√ÉO DO DATASET SINT√âTICO

üìä Par√¢metros:
   ‚Ä¢ Total de registros: 31,351
   ‚Ä¢ Taxa de churn target: 26.0%
   ‚Ä¢ Churners esperados: ~8,151
   ‚Ä¢ Ativos esperados: ~23,199


## 2. Defini√ß√£o de Par√¢metros do Neg√≥cio

Os par√¢metros abaixo foram definidos com base em benchmarks do mercado de streaming brasileiro e padr√µes de comportamento de consumidores digitais.

In [2]:
# =============================================================================
# PAR√ÇMETROS DE NEG√ìCIO
# =============================================================================

# Distribui√ß√£o regional baseada em penetra√ß√£o de streaming no Brasil
# Fonte: Dados aproximados de penetra√ß√£o de internet e streaming por regi√£o
REGIOES = {
    'Sudeste': 0.42,      # Maior concentra√ß√£o populacional e renda
    'Nordeste': 0.27,     # Segunda maior popula√ß√£o
    'Sul': 0.15,          # Alta penetra√ß√£o de internet
    'Centro-Oeste': 0.09, # Menor popula√ß√£o
    'Norte': 0.07         # Menor penetra√ß√£o digital
}

# G√™neros com probabilidades (incluindo missing - campo optativo)
GENEROS = {
    'Masculino': 0.42,
    'Feminino': 0.40,
    'Prefiro N√£o Informar': 0.02,
    'Outros': 0.01,
    np.nan: 0.15  # Missing - campo optativo (~15%)
}

# M√©todos de pagamento para contratos mensais
# Nota: Contratos anuais SOMENTE aceitam Cr√©dito Recorrente
METODOS_PAGAMENTO_MENSAL = {
    'Cr√©dito Recorrente': 0.28,
    'Cr√©dito': 0.22,
    'Pix': 0.20,
    'D√©bito Autom√°tico': 0.15,
    'Boleto': 0.10,
    'D√©bito': 0.05
}

# Planos de assinatura
PLANOS = ['B√°sico', 'Padr√£o', 'Premium']

# Valores mensais por plano e tipo de contrato
VALORES = {
    'Mensal': {'B√°sico': 20.90, 'Padr√£o': 44.90, 'Premium': 59.90},
    'Anual': {'B√°sico': 18.90, 'Padr√£o': 38.90, 'Premium': 48.90}  # Desconto ~15-20%
}

# Dispositivos de acesso
DISPOSITIVOS = ['Mobile', 'TV', 'Desktop', 'Tablet']

# Categorias de conte√∫do
CATEGORIAS = ['S√©ries', 'Filmes', 'Document√°rios', 'Esportes', 'Infantil', 'Novelas']

# Probabilidade de contrato mensal (vs anual)
PROB_MENSAL = 0.72

print("‚úÖ Par√¢metros de neg√≥cio definidos com sucesso!")
print(f"\nüìç Regi√µes: {list(REGIOES.keys())}")
print(f"üí≥ M√©todos de pagamento: {list(METODOS_PAGAMENTO_MENSAL.keys())}")
print(f"üì¶ Planos: {PLANOS}")
print(f"üì± Dispositivos: {DISPOSITIVOS}")
print(f"üé¨ Categorias: {CATEGORIAS}")

‚úÖ Par√¢metros de neg√≥cio definidos com sucesso!

üìç Regi√µes: ['Sudeste', 'Nordeste', 'Sul', 'Centro-Oeste', 'Norte']
üí≥ M√©todos de pagamento: ['Cr√©dito Recorrente', 'Cr√©dito', 'Pix', 'D√©bito Autom√°tico', 'Boleto', 'D√©bito']
üì¶ Planos: ['B√°sico', 'Padr√£o', 'Premium']
üì± Dispositivos: ['Mobile', 'TV', 'Desktop', 'Tablet']
üé¨ Categorias: ['S√©ries', 'Filmes', 'Document√°rios', 'Esportes', 'Infantil', 'Novelas']


## 3. Fun√ß√µes Auxiliares para Gera√ß√£o de Dados

Cada fun√ß√£o foi projetada para gerar dados com distribui√ß√µes estat√≠sticas realistas.

In [3]:
def gerar_idade(n, media=34, minimo=18, maximo=87):
    """
    Gera idades com distribui√ß√£o Gamma (cauda √† direita).
    
    Caracter√≠sticas:
    - Concentra√ß√£o entre 25-40 anos (p√∫blico principal de streaming)
    - Cauda longa √† direita com outliers at√© 87 anos
    - M√©dia aproximada de 34 anos
    
    Parameters:
        n: N√∫mero de registros
        media: M√©dia target (~34)
        minimo: Idade m√≠nima (18 - maioridade)
        maximo: Idade m√°xima (87 - outliers)
    """
    shape = 4.5
    scale = (media - minimo) / shape
    
    idades = stats.gamma.rvs(shape, loc=minimo, scale=scale, size=n)
    idades = np.clip(idades, minimo, maximo)
    idades = np.round(idades).astype(int)
    
    # Adicionar outliers mais velhos (cauda pesada ~2%)
    n_outliers = int(n * 0.02)
    indices_outliers = np.random.choice(n, n_outliers, replace=False)
    idades[indices_outliers] = np.random.randint(65, maximo + 1, n_outliers)
    
    # Garantir alguns com idade m√≠nima (18 anos)
    n_minimo = int(n * 0.008)
    indices_minimo = np.random.choice(n, n_minimo, replace=False)
    idades[indices_minimo] = minimo
    
    return idades


def gerar_tempo_assinatura(n, maximo=36):
    """
    Gera tempo de assinatura com distribui√ß√£o Exponencial.
    
    Caracter√≠sticas:
    - Muitos clientes novos (0-6 meses)
    - Decaimento gradual (poucos clientes muito antigos)
    - M√°ximo de 36 meses (3 anos)
    """
    tempos = stats.expon.rvs(scale=10, size=n)
    tempos = np.clip(tempos, 0, maximo)
    tempos = np.round(tempos).astype(int)
    
    # Garantir clientes novos (0 meses) ~8%
    n_novos = int(n * 0.08)
    indices_novos = np.random.choice(n, n_novos, replace=False)
    tempos[indices_novos] = 0
    
    return tempos


def gerar_dias_ultimo_acesso(n, media=3, maximo=11):
    """
    Gera dias desde √∫ltimo acesso com distribui√ß√£o Poisson.
    
    Caracter√≠sticas:
    - Maioria acessa frequentemente (0-3 dias)
    - M√©dia de ~3 dias
    - Outliers at√© 11 dias (usu√°rios inativos)
    """
    dias = stats.poisson.rvs(mu=media, size=n)
    dias = np.clip(dias, 0, maximo)
    return dias


def gerar_contatos_suporte(n):
    """
    Gera contatos com suporte - distribui√ß√£o Poisson com outliers.
    
    Caracter√≠sticas:
    - Maioria 0-2 contatos
    - Alguns "heavy users" de suporte (clientes problem√°ticos)
    """
    contatos = stats.poisson.rvs(mu=1.5, size=n)
    
    # Adicionar outliers (clientes problem√°ticos ~3%)
    n_problematicos = int(n * 0.03)
    indices = np.random.choice(n, n_problematicos, replace=False)
    contatos[indices] = np.random.randint(8, 20, n_problematicos)
    
    return contatos


def gerar_visualizacoes(n):
    """
    Gera visualiza√ß√µes mensais com distribui√ß√£o Bimodal.
    
    Caracter√≠sticas:
    - 70% engajados (m√©dia ~35 visualiza√ß√µes)
    - 30% desengajados (m√©dia ~8 visualiza√ß√µes)
    - Reflete padr√£o real de uso de streaming
    """
    n_engajados = int(n * 0.70)
    vis_engajados = stats.norm.rvs(loc=35, scale=12, size=n_engajados)
    
    n_desengajados = n - n_engajados
    vis_desengajados = stats.norm.rvs(loc=8, scale=5, size=n_desengajados)
    
    visualizacoes = np.concatenate([vis_engajados, vis_desengajados])
    np.random.shuffle(visualizacoes)
    
    visualizacoes = np.clip(visualizacoes, 0, 100)
    visualizacoes = np.round(visualizacoes).astype(int)
    
    return visualizacoes


def gerar_tempo_sessao(visualizacoes, n):
    """
    Gera tempo m√©dio de sess√£o CORRELACIONADO com visualiza√ß√µes.
    
    L√≥gica: Quem assiste mais conte√∫do tende a ter sess√µes mais longas.
    """
    base = 20 + (visualizacoes / 100) * 60  # 20-80 min base
    ruido = stats.norm.rvs(loc=0, scale=15, size=n)
    tempo = base + ruido
    tempo = np.clip(tempo, 5, 180)  # 5 min a 3 horas
    tempo = np.round(tempo, 1)
    return tempo


def gerar_avaliacoes(n, visualizacoes, prob_missing=0.25):
    """
    Gera avalia√ß√µes de 1 a 5 (incremento 0.5) com missing values.
    
    Caracter√≠sticas:
    - Distribui√ß√£o enviesada para positivo (maioria satisfeita)
    - Missing correlacionado com baixo engajamento (MAR)
    - Quem assiste pouco, avalia menos
    """
    valores_possiveis = np.arange(1, 5.5, 0.5)
    # Distribui√ß√£o: poucos 1-2, muitos 3.5-4, alguns 4.5-5
    avaliacoes = np.random.choice(
        valores_possiveis, 
        size=n, 
        p=[0.02, 0.03, 0.05, 0.08, 0.15, 0.22, 0.25, 0.15, 0.05]
    )
    
    # Missing correlacionado com baixo engajamento
    prob_missing_individual = prob_missing + (1 - visualizacoes / visualizacoes.max()) * 0.2
    prob_missing_individual = np.clip(prob_missing_individual, 0, 0.6)
    
    mask_missing = np.random.random(n) < prob_missing_individual
    avaliacoes = avaliacoes.astype(float)
    avaliacoes[mask_missing] = np.nan
    
    return avaliacoes


def normalizar(serie):
    """Normaliza s√©rie para intervalo [0, 1]"""
    return (serie - serie.min()) / (serie.max() - serie.min() + 1e-10)


print("‚úÖ Fun√ß√µes auxiliares definidas com sucesso!")

‚úÖ Fun√ß√µes auxiliares definidas com sucesso!


## 4. Gera√ß√£o das Vari√°veis Demogr√°ficas

In [4]:
print("[1/8] Gerando vari√°veis demogr√°ficas...")

# Inicializar DataFrame
df = pd.DataFrame()

# Cliente ID
df['cliente_id'] = range(1, N_REGISTROS + 1)

# Idade (distribui√ß√£o gamma com cauda √† direita)
df['idade'] = gerar_idade(N_REGISTROS)

# G√™nero (com missing values - campo optativo)
generos_lista = list(GENEROS.keys())
generos_probs = list(GENEROS.values())
df['genero'] = np.random.choice(generos_lista, size=N_REGISTROS, p=generos_probs)

# Regi√£o (distribui√ß√£o baseada em penetra√ß√£o de streaming)
regioes_lista = list(REGIOES.keys())
regioes_probs = list(REGIOES.values())
df['regiao'] = np.random.choice(regioes_lista, size=N_REGISTROS, p=regioes_probs)

# Tempo de assinatura
df['tempo_assinatura_meses'] = gerar_tempo_assinatura(N_REGISTROS)

print(f"\nüìä Estat√≠sticas de Idade:")
print(f"   ‚Ä¢ M√©dia: {df['idade'].mean():.1f} anos")
print(f"   ‚Ä¢ M√≠nimo: {df['idade'].min()} anos")
print(f"   ‚Ä¢ M√°ximo: {df['idade'].max()} anos")
print(f"   ‚Ä¢ Desvio padr√£o: {df['idade'].std():.1f}")

print(f"\nüìä Missing em G√™nero: {df['genero'].isna().sum():,} ({df['genero'].isna().mean():.1%})")

[1/8] Gerando vari√°veis demogr√°ficas...

üìä Estat√≠sticas de Idade:
   ‚Ä¢ M√©dia: 34.7 anos
   ‚Ä¢ M√≠nimo: 18 anos
   ‚Ä¢ M√°ximo: 87 anos
   ‚Ä¢ Desvio padr√£o: 9.6

üìä Missing em G√™nero: 0 (0.0%)


## 5. Gera√ß√£o de Vari√°veis de Contrato

As vari√°veis de contrato possuem correla√ß√µes entre si e com vari√°veis demogr√°ficas.

In [5]:
print("[2/8] Gerando vari√°veis de contrato...")

# =============================================================================
# TIPO DE CONTRATO
# Correlacionado com: idade (mais velhos = mais anual) e regi√£o (Sudeste/Sul = mais anual)
# =============================================================================

prob_anual_base = 1 - PROB_MENSAL  # 0.28

# Normalizar idade para ajuste
idade_normalizada = (df['idade'] - df['idade'].min()) / (df['idade'].max() - df['idade'].min())

# Ajuste por idade (mais velhos = +10% chance de anual)
ajuste_idade = idade_normalizada * 0.1

# Ajuste por regi√£o
ajuste_regiao = df['regiao'].map({
    'Sudeste': 0.05,
    'Sul': 0.03,
    'Centro-Oeste': 0.0,
    'Nordeste': -0.03,
    'Norte': -0.05
})

prob_anual = prob_anual_base + ajuste_idade + ajuste_regiao
prob_anual = np.clip(prob_anual, 0.1, 0.5)

df['tipo_contrato'] = np.where(
    np.random.random(N_REGISTROS) < prob_anual,
    'Anual',
    'Mensal'
)

# =============================================================================
# M√âTODO DE PAGAMENTO
# Regra de neg√≥cio: Anual = SOMENTE Cr√©dito Recorrente
# =============================================================================

def atribuir_metodo_pagamento(row):
    if row['tipo_contrato'] == 'Anual':
        return 'Cr√©dito Recorrente'  # √önica op√ß√£o para anual
    else:
        metodos = list(METODOS_PAGAMENTO_MENSAL.keys())
        probs = list(METODOS_PAGAMENTO_MENSAL.values())
        return np.random.choice(metodos, p=probs)

df['metodo_pagamento'] = df.apply(atribuir_metodo_pagamento, axis=1)

print(f"\nüìä Distribui√ß√£o Tipo de Contrato:")
print(df['tipo_contrato'].value_counts(normalize=True).to_string())

print(f"\nüìä Distribui√ß√£o M√©todo de Pagamento:")
print(df['metodo_pagamento'].value_counts(normalize=True).to_string())

[2/8] Gerando vari√°veis de contrato...

üìä Distribui√ß√£o Tipo de Contrato:
tipo_contrato
Mensal    0.684093
Anual     0.315907

üìä Distribui√ß√£o M√©todo de Pagamento:
metodo_pagamento
Cr√©dito Recorrente    0.510988
Cr√©dito               0.148065
Pix                   0.137029
D√©bito Autom√°tico     0.099104
Boleto                0.071896
D√©bito                0.032918


In [6]:
print("[3/8] Gerando planos e valores...")

# =============================================================================
# PLANO DE ASSINATURA
# Correlacionado com: idade, regi√£o e tipo de contrato
# =============================================================================

prob_basico_base = 0.35
prob_padrao_base = 0.40
prob_premium_base = 0.25

# Ajuste por idade (mais velhos = mais premium)
ajuste_premium_idade = idade_normalizada * 0.15

# Ajuste por regi√£o (Sudeste/Sul = mais premium)
ajuste_premium_regiao = df['regiao'].map({
    'Sudeste': 0.08,
    'Sul': 0.05,
    'Centro-Oeste': 0.0,
    'Nordeste': -0.05,
    'Norte': -0.08
})

# Ajuste por tipo de contrato (anuais = mais premium)
ajuste_premium_contrato = np.where(df['tipo_contrato'] == 'Anual', 0.10, 0)

prob_premium = prob_premium_base + ajuste_premium_idade + ajuste_premium_regiao + ajuste_premium_contrato
prob_premium = np.clip(prob_premium, 0.10, 0.50)

# Gerar planos
planos = []
for i in range(N_REGISTROS):
    p_premium = prob_premium.iloc[i] if hasattr(prob_premium, 'iloc') else prob_premium[i]
    p_basico = max(0.15, prob_basico_base - p_premium * 0.3)
    p_padrao = 1 - p_premium - p_basico
    plano = np.random.choice(PLANOS, p=[p_basico, p_padrao, p_premium])
    planos.append(plano)

df['plano_assinatura'] = planos

# =============================================================================
# VALOR MENSAL
# Determin√≠stico: baseado em plano + tipo de contrato
# =============================================================================

def calcular_valor_mensal(row):
    return VALORES[row['tipo_contrato']][row['plano_assinatura']]

df['valor_mensal'] = df.apply(calcular_valor_mensal, axis=1)

print(f"\nüìä Distribui√ß√£o Plano de Assinatura:")
print(df['plano_assinatura'].value_counts(normalize=True).to_string())

print(f"\nüí∞ Valores Mensais por Combina√ß√£o:")
print(df.groupby(['tipo_contrato', 'plano_assinatura'])['valor_mensal'].first().unstack())

[3/8] Gerando planos e valores...

üìä Distribui√ß√£o Plano de Assinatura:
plano_assinatura
Padr√£o     0.407355
Premium    0.341552
B√°sico     0.251092

üí∞ Valores Mensais por Combina√ß√£o:
plano_assinatura  B√°sico  Padr√£o  Premium
tipo_contrato                            
Anual               18.9    38.9     48.9
Mensal              20.9    44.9     59.9


## 6. Gera√ß√£o de Vari√°veis de Comportamento

In [7]:
print("[4/8] Gerando sazonalidade e dispositivos...")

# =============================================================================
# SAZONALIDADE
# Clientes que j√° cancelaram e voltaram (correlacionado com tempo de assinatura)
# =============================================================================

tempo_normalizado = df['tempo_assinatura_meses'] / 36
prob_sazonal = 0.05 + tempo_normalizado * 0.25  # 5% a 30%

# Clientes novos (0 meses) n√£o podem ser sazonais
prob_sazonal = np.where(df['tempo_assinatura_meses'] == 0, 0, prob_sazonal)

df['sazonalidade'] = np.where(
    np.random.random(N_REGISTROS) < prob_sazonal,
    1,
    0
)

# =============================================================================
# DISPOSITIVO PRINCIPAL
# Correlacionado com idade (jovens = Mobile, velhos = TV)
# =============================================================================

def atribuir_dispositivo(idade):
    if idade < 25:
        probs = [0.50, 0.20, 0.15, 0.15]  # Mobile dominante
    elif idade < 35:
        probs = [0.35, 0.30, 0.20, 0.15]  # Mobile/TV equilibrado
    elif idade < 50:
        probs = [0.25, 0.40, 0.20, 0.15]  # TV dominante
    else:
        probs = [0.15, 0.55, 0.20, 0.10]  # TV muito dominante
    return np.random.choice(DISPOSITIVOS, p=probs)

df['dispositivo_principal'] = df['idade'].apply(atribuir_dispositivo)

print(f"\nüìä Taxa de Sazonalidade: {df['sazonalidade'].mean():.1%}")
print(f"\nüìä Distribui√ß√£o Dispositivo Principal:")
print(df['dispositivo_principal'].value_counts(normalize=True).to_string())

[4/8] Gerando sazonalidade e dispositivos...

üìä Taxa de Sazonalidade: 10.8%

üìä Distribui√ß√£o Dispositivo Principal:
dispositivo_principal
TV         0.344806
Mobile     0.316577
Desktop    0.196102
Tablet     0.142515


In [8]:
print("[5/8] Gerando categorias e acessibilidade...")

# =============================================================================
# CATEGORIA FAVORITA
# Correlacionada com idade e g√™nero
# =============================================================================

def atribuir_categoria(row):
    idade = row['idade']
    genero = row['genero']
    
    # Probabilidades base: [S√©ries, Filmes, Document√°rios, Esportes, Infantil, Novelas]
    probs = [0.30, 0.25, 0.12, 0.13, 0.10, 0.10]
    
    # Ajuste por idade
    if idade < 25:
        probs = [0.40, 0.25, 0.08, 0.12, 0.05, 0.10]  # Jovens: mais s√©ries
    elif idade > 50:
        probs = [0.20, 0.20, 0.18, 0.12, 0.05, 0.25]  # Mais velhos: mais novelas/docs
    elif 30 <= idade <= 45:
        probs = [0.25, 0.20, 0.10, 0.10, 0.25, 0.10]  # Pais: mais infantil
    
    # Ajuste por g√™nero
    if genero == 'Masculino':
        probs[3] += 0.08  # Mais esportes
        probs[5] -= 0.05  # Menos novelas
        probs[0] -= 0.03
    elif genero == 'Feminino':
        probs[5] += 0.08  # Mais novelas
        probs[3] -= 0.08  # Menos esportes
    
    # Normalizar probabilidades
    probs = np.array(probs)
    probs = np.clip(probs, 0.02, 0.50)
    probs = probs / probs.sum()
    
    return np.random.choice(CATEGORIAS, p=probs)

df['categoria_favorita'] = df.apply(atribuir_categoria, axis=1)

# =============================================================================
# ACESSIBILIDADE
# Correlacionada com categoria infantil e idade avan√ßada
# =============================================================================

prob_acessibilidade = np.full(N_REGISTROS, 0.08)  # 8% base

# Aumenta para categoria infantil (legendas, audiodescri√ß√£o)
prob_acessibilidade = np.where(
    df['categoria_favorita'] == 'Infantil',
    prob_acessibilidade + 0.15,
    prob_acessibilidade
)

# Aumenta para idosos
prob_acessibilidade = np.where(
    df['idade'] > 60,
    prob_acessibilidade + 0.20,
    prob_acessibilidade
)

df['acessibilidade'] = np.where(
    np.random.random(N_REGISTROS) < prob_acessibilidade,
    1,
    0
)

print(f"\nüìä Distribui√ß√£o Categoria Favorita:")
print(df['categoria_favorita'].value_counts(normalize=True).to_string())

print(f"\nüìä Taxa de Uso de Acessibilidade: {df['acessibilidade'].mean():.1%}")

[5/8] Gerando categorias e acessibilidade...

üìä Distribui√ß√£o Categoria Favorita:
categoria_favorita
S√©ries           0.261012
Filmes           0.214188
Infantil         0.183822
Novelas          0.121049
Esportes         0.111001
Document√°rios    0.108928

üìä Taxa de Uso de Acessibilidade: 11.3%


## 7. Gera√ß√£o de Vari√°veis de Engajamento

In [9]:
print("[6/8] Gerando vari√°veis de engajamento...")

# Visualiza√ß√µes no m√™s (distribui√ß√£o bimodal)
df['visualizacoes_mes'] = gerar_visualizacoes(N_REGISTROS)

# Tempo m√©dio de sess√£o (correlacionado com visualiza√ß√µes)
df['tempo_medio_sessao_min'] = gerar_tempo_sessao(df['visualizacoes_mes'].values, N_REGISTROS)

# Dias desde √∫ltimo acesso
df['dias_ultimo_acesso'] = gerar_dias_ultimo_acesso(N_REGISTROS)

# Contatos com suporte
df['contatos_suporte'] = gerar_contatos_suporte(N_REGISTROS)

# =============================================================================
# AVALIA√á√ïES (com missing values correlacionados)
# =============================================================================

# Avalia√ß√£o m√©dia do conte√∫do (todo o per√≠odo) - ~25% missing
df['avaliacao_conteudo_media'] = gerar_avaliacoes(
    N_REGISTROS, df['visualizacoes_mes'].values, prob_missing=0.25
)

# Avalia√ß√£o do √∫ltimo m√™s - ~35% missing (menos avaliam recentemente)
df['avaliacao_conteudo_ultimo_mes'] = gerar_avaliacoes(
    N_REGISTROS, df['visualizacoes_mes'].values, prob_missing=0.35
)

# Avalia√ß√£o da plataforma - ~40% missing (poucos avaliam a plataforma)
df['avaliacao_plataforma'] = gerar_avaliacoes(
    N_REGISTROS, df['visualizacoes_mes'].values, prob_missing=0.40
)

# Correlacionar avalia√ß√£o da plataforma negativamente com contatos de suporte
mask_avaliou_plataforma = ~df['avaliacao_plataforma'].isna()
contatos_altos = df['contatos_suporte'] > df['contatos_suporte'].quantile(0.75)
indices_reduzir = mask_avaliou_plataforma & contatos_altos

df.loc[indices_reduzir, 'avaliacao_plataforma'] = df.loc[indices_reduzir, 'avaliacao_plataforma'].apply(
    lambda x: max(1.0, x - np.random.choice([0.5, 1.0, 1.5]))
)

print(f"\nüìä Estat√≠sticas de Engajamento:")
print(f"   ‚Ä¢ Visualiza√ß√µes: m√©dia={df['visualizacoes_mes'].mean():.1f}, std={df['visualizacoes_mes'].std():.1f}")
print(f"   ‚Ä¢ Tempo sess√£o: m√©dia={df['tempo_medio_sessao_min'].mean():.1f} min")
print(f"   ‚Ä¢ Dias √∫ltimo acesso: m√©dia={df['dias_ultimo_acesso'].mean():.1f}")
print(f"   ‚Ä¢ Contatos suporte: m√©dia={df['contatos_suporte'].mean():.1f}")

print(f"\nüìä Missing em Avalia√ß√µes:")
print(f"   ‚Ä¢ Avalia√ß√£o conte√∫do m√©dia: {df['avaliacao_conteudo_media'].isna().mean():.1%}")
print(f"   ‚Ä¢ Avalia√ß√£o √∫ltimo m√™s: {df['avaliacao_conteudo_ultimo_mes'].isna().mean():.1%}")
print(f"   ‚Ä¢ Avalia√ß√£o plataforma: {df['avaliacao_plataforma'].isna().mean():.1%}")

[6/8] Gerando vari√°veis de engajamento...

üìä Estat√≠sticas de Engajamento:
   ‚Ä¢ Visualiza√ß√µes: m√©dia=26.8, std=16.1
   ‚Ä¢ Tempo sess√£o: m√©dia=36.3 min
   ‚Ä¢ Dias √∫ltimo acesso: m√©dia=3.0
   ‚Ä¢ Contatos suporte: m√©dia=1.9

üìä Missing em Avalia√ß√µes:
   ‚Ä¢ Avalia√ß√£o conte√∫do m√©dia: 38.5%
   ‚Ä¢ Avalia√ß√£o √∫ltimo m√™s: 48.8%
   ‚Ä¢ Avalia√ß√£o plataforma: 54.7%


## 8. Gera√ß√£o da Vari√°vel Target (Churn)

O churn √© gerado usando um modelo log√≠stico impl√≠cito que considera m√∫ltiplos fatores de risco.

In [10]:
print("[7/8] Gerando vari√°vel target (churn)...")

# =============================================================================
# NORMALIZA√á√ÉO DAS VARI√ÅVEIS
# =============================================================================

dias_acesso_norm = normalizar(df['dias_ultimo_acesso'])
contatos_norm = normalizar(df['contatos_suporte'])
visualizacoes_norm = normalizar(df['visualizacoes_mes'])
tempo_sessao_norm = normalizar(df['tempo_medio_sessao_min'])
tempo_assinatura_norm = normalizar(df['tempo_assinatura_meses'])

# Vari√°veis categ√≥ricas bin√°rias
is_mensal = (df['tipo_contrato'] == 'Mensal').astype(int)
is_basico = (df['plano_assinatura'] == 'B√°sico').astype(int)
is_premium = (df['plano_assinatura'] == 'Premium').astype(int)
is_sazonal = df['sazonalidade']

# Avalia√ß√µes (substituir NaN por valor neutro)
aval_conteudo = df['avaliacao_conteudo_media'].fillna(3.0)
aval_conteudo_norm = normalizar(aval_conteudo)
aval_plataforma = df['avaliacao_plataforma'].fillna(3.0)
aval_plataforma_norm = normalizar(aval_plataforma)

# =============================================================================
# MODELO LOG√çSTICO PARA PROBABILIDADE DE CHURN
# =============================================================================

# Coeficientes calibrados para ~26% de churn
INTERCEPT = -1.2

score_churn = (
    INTERCEPT
    # Fatores que AUMENTAM churn
    + 2.0 * dias_acesso_norm           # Forte: inatividade
    + 1.5 * contatos_norm              # Moderado-forte: insatisfa√ß√£o
    + 1.8 * is_sazonal                 # Forte: hist√≥rico de cancelamento
    + 0.8 * is_mensal                  # Moderado: menor comprometimento
    + 0.5 * is_basico                  # Leve: menor valor percebido
    # Fatores que REDUZEM churn
    - 1.8 * visualizacoes_norm         # Forte: engajamento
    - 1.2 * tempo_sessao_norm          # Moderado: engajamento
    - 0.6 * is_premium                 # Leve: maior valor percebido
    - 0.8 * aval_conteudo_norm         # Moderado: satisfa√ß√£o com conte√∫do
    - 0.5 * aval_plataforma_norm       # Leve: satisfa√ß√£o com plataforma
    - 0.3 * tempo_assinatura_norm      # Leve: lealdade
)

# Adicionar ru√≠do para aleatoriedade
ruido = np.random.normal(0, 0.8, N_REGISTROS)
score_churn = score_churn + ruido

# Converter para probabilidade (sigmoid)
prob_churn = expit(score_churn)

# Gerar churn
df['churn'] = np.where(np.random.random(N_REGISTROS) < prob_churn, 1, 0)

print(f"\nüìä Taxa de churn inicial: {df['churn'].mean():.2%}")

[7/8] Gerando vari√°vel target (churn)...

üìä Taxa de churn inicial: 23.53%


In [11]:
# =============================================================================
# AJUSTE FINO PARA ~26% DE CHURN
# =============================================================================

target_churners = int(N_REGISTROS * CHURN_RATE_TARGET)
churners_atuais = df['churn'].sum()

if abs(churners_atuais - target_churners) > 100:
    print(f"Ajustando churn de {churners_atuais:,} para ~{target_churners:,}...")
    
    if churners_atuais < target_churners:
        diff = target_churners - churners_atuais
        candidatos = df[df['churn'] == 0].index
        probs_candidatos = prob_churn[candidatos]
        indices_ordenados = candidatos[np.argsort(probs_candidatos)[::-1]]
        indices_converter = indices_ordenados[:diff]
        df.loc[indices_converter, 'churn'] = 1
    else:
        diff = churners_atuais - target_churners
        candidatos = df[df['churn'] == 1].index
        probs_candidatos = prob_churn[candidatos]
        indices_ordenados = candidatos[np.argsort(probs_candidatos)]
        indices_converter = indices_ordenados[:diff]
        df.loc[indices_converter, 'churn'] = 0

print(f"\n‚úÖ Taxa de churn final: {df['churn'].mean():.2%}")
print(f"   ‚Ä¢ Churners: {df['churn'].sum():,}")
print(f"   ‚Ä¢ Ativos: {(df['churn']==0).sum():,}")

Ajustando churn de 7,377 para ~8,151...

‚úÖ Taxa de churn final: 26.00%
   ‚Ä¢ Churners: 8,151
   ‚Ä¢ Ativos: 23,200


In [12]:
# =============================================================================
# AJUSTES P√ìS-CHURN PARA REFOR√áAR CORRELA√á√ïES
# =============================================================================

churners_idx = df[df['churn'] == 1].index

# Aumentar dias_ultimo_acesso para alguns churners
n_ajustar = int(len(churners_idx) * 0.4)
indices_ajustar = np.random.choice(churners_idx, n_ajustar, replace=False)
ajuste = np.random.randint(2, 6, n_ajustar)
df.loc[indices_ajustar, 'dias_ultimo_acesso'] = np.clip(
    df.loc[indices_ajustar, 'dias_ultimo_acesso'] + ajuste, 0, 11
)

# Reduzir visualiza√ß√µes para alguns churners
n_ajustar_vis = int(len(churners_idx) * 0.35)
indices_ajustar_vis = np.random.choice(churners_idx, n_ajustar_vis, replace=False)
fator_reducao = np.random.uniform(0.3, 0.7, n_ajustar_vis)
df.loc[indices_ajustar_vis, 'visualizacoes_mes'] = (
    df.loc[indices_ajustar_vis, 'visualizacoes_mes'] * fator_reducao
).astype(int)

# Aumentar contatos_suporte para alguns churners
n_ajustar_suporte = int(len(churners_idx) * 0.3)
indices_ajustar_suporte = np.random.choice(churners_idx, n_ajustar_suporte, replace=False)
ajuste_suporte = np.random.randint(2, 8, n_ajustar_suporte)
df.loc[indices_ajustar_suporte, 'contatos_suporte'] = (
    df.loc[indices_ajustar_suporte, 'contatos_suporte'] + ajuste_suporte
)

# Reduzir avalia√ß√µes para alguns churners
churners_com_avaliacao = df[(df['churn'] == 1) & (~df['avaliacao_plataforma'].isna())].index
n_ajustar_aval = int(len(churners_com_avaliacao) * 0.4)
if n_ajustar_aval > 0:
    indices_ajustar_aval = np.random.choice(churners_com_avaliacao, n_ajustar_aval, replace=False)
    df.loc[indices_ajustar_aval, 'avaliacao_plataforma'] = df.loc[indices_ajustar_aval, 'avaliacao_plataforma'].apply(
        lambda x: max(1.0, x - np.random.choice([0.5, 1.0, 1.5, 2.0]))
    )

print("‚úÖ Ajustes p√≥s-churn aplicados para refor√ßar correla√ß√µes realistas.")

‚úÖ Ajustes p√≥s-churn aplicados para refor√ßar correla√ß√µes realistas.


## 9. Organiza√ß√£o Final e Exporta√ß√£o

In [13]:
print("[8/8] Organizando e exportando dataset...")

# Reordenar colunas conforme especifica√ß√£o
colunas_ordenadas = [
    'cliente_id',
    'churn',
    'idade',
    'genero',
    'regiao',
    'tipo_contrato',
    'metodo_pagamento',
    'plano_assinatura',
    'valor_mensal',
    'sazonalidade',
    'tempo_assinatura_meses',
    'dias_ultimo_acesso',
    'acessibilidade',
    'contatos_suporte',
    'visualizacoes_mes',
    'tempo_medio_sessao_min',
    'dispositivo_principal',
    'categoria_favorita',
    'avaliacao_conteudo_media',
    'avaliacao_conteudo_ultimo_mes',
    'avaliacao_plataforma'
]

df = df[colunas_ordenadas]

# Embaralhar registros
df = df.sample(frac=1, random_state=42).reset_index(drop=True)
df['cliente_id'] = range(1, N_REGISTROS + 1)

# Exportar
df.to_csv('dataset_churn_streaming.csv', index=False, encoding='utf-8-sig')

print(f"\n‚úÖ Dataset exportado: dataset_churn_streaming.csv")
print(f"   ‚Ä¢ {len(df):,} registros x {len(df.columns)} colunas")

[8/8] Organizando e exportando dataset...

‚úÖ Dataset exportado: dataset_churn_streaming.csv
   ‚Ä¢ 31,351 registros x 21 colunas


## 10. Valida√ß√£o e Estat√≠sticas Finais

In [14]:
print("=" * 70)
print("VALIDA√á√ÉO DO DATASET GERADO")
print("=" * 70)

print(f"\nüìä ESTAT√çSTICAS GERAIS:")
print(f"   ‚Ä¢ Total de registros: {len(df):,}")
print(f"   ‚Ä¢ Taxa de churn: {df['churn'].mean():.2%} ({df['churn'].sum():,} churners)")
print(f"   ‚Ä¢ Taxa de ativos: {(1-df['churn'].mean()):.2%} ({(df['churn']==0).sum():,} ativos)")

print(f"\nüìã MISSING VALUES:")
missing = df.isnull().sum()
for col in missing[missing > 0].index:
    print(f"   ‚Ä¢ {col}: {missing[col]:,} ({missing[col]/len(df)*100:.1f}%)")

VALIDA√á√ÉO DO DATASET GERADO

üìä ESTAT√çSTICAS GERAIS:
   ‚Ä¢ Total de registros: 31,351
   ‚Ä¢ Taxa de churn: 26.00% (8,151 churners)
   ‚Ä¢ Taxa de ativos: 74.00% (23,200 ativos)

üìã MISSING VALUES:
   ‚Ä¢ avaliacao_conteudo_media: 12,061 (38.5%)
   ‚Ä¢ avaliacao_conteudo_ultimo_mes: 15,297 (48.8%)
   ‚Ä¢ avaliacao_plataforma: 17,153 (54.7%)


In [23]:
print(f"\nüîó CORRELA√á√ïES COM CHURN:")
variaveis_numericas = ['dias_ultimo_acesso', 'contatos_suporte', 'visualizacoes_mes', 
                       'tempo_medio_sessao_min', 'sazonalidade', 'valor_mensal',
                       'tempo_assinatura_meses', 'acessibilidade', 'avaliacao_conteudo_media', 'avaliacao_conteudo_ultimo_mes',
                       'avaliacao_plataforma']

correlacoes = df[variaveis_numericas + ['churn']].corr()['churn'].drop('churn').sort_values(key=abs, ascending=False)

for var, corr in correlacoes.items():
    sinal = "+" if corr > 0 else ""
    print(f"   ‚Ä¢ {var:30s}: {sinal}{corr:.4f}")


üîó CORRELA√á√ïES COM CHURN:
   ‚Ä¢ dias_ultimo_acesso            : +0.3969
   ‚Ä¢ contatos_suporte              : +0.2862
   ‚Ä¢ sazonalidade                  : +0.2833
   ‚Ä¢ visualizacoes_mes             : -0.2754
   ‚Ä¢ avaliacao_plataforma          : -0.2424
   ‚Ä¢ tempo_medio_sessao_min        : -0.1453
   ‚Ä¢ valor_mensal                  : -0.1415
   ‚Ä¢ avaliacao_conteudo_media      : -0.0736
   ‚Ä¢ tempo_assinatura_meses        : +0.0386
   ‚Ä¢ avaliacao_conteudo_ultimo_mes : -0.0076
   ‚Ä¢ acessibilidade                : -0.0017


In [16]:
print(f"\nüìä TAXA DE CHURN POR SEGMENTOS:")

print(f"\n   Por Tipo de Contrato:")
for tipo, taxa in df.groupby('tipo_contrato')['churn'].mean().items():
    print(f"      ‚Ä¢ {tipo}: {taxa:.1%}")

print(f"\n   Por Plano de Assinatura:")
for plano, taxa in df.groupby('plano_assinatura')['churn'].mean().items():
    print(f"      ‚Ä¢ {plano}: {taxa:.1%}")

print(f"\n   Por Sazonalidade:")
for saz, taxa in df.groupby('sazonalidade')['churn'].mean().items():
    label = "Sazonal" if saz == 1 else "N√£o Sazonal"
    print(f"      ‚Ä¢ {label}: {taxa:.1%}")

print(f"\n   Por Regi√£o:")
for regiao, taxa in df.groupby('regiao')['churn'].mean().sort_values(ascending=False).items():
    print(f"      ‚Ä¢ {regiao}: {taxa:.1%}")


üìä TAXA DE CHURN POR SEGMENTOS:

   Por Tipo de Contrato:
      ‚Ä¢ Anual: 16.3%
      ‚Ä¢ Mensal: 30.5%

   Por Plano de Assinatura:
      ‚Ä¢ B√°sico: 37.7%
      ‚Ä¢ Padr√£o: 26.1%
      ‚Ä¢ Premium: 17.3%

   Por Sazonalidade:
      ‚Ä¢ N√£o Sazonal: 21.7%
      ‚Ä¢ Sazonal: 61.7%

   Por Regi√£o:
      ‚Ä¢ Norte: 28.3%
      ‚Ä¢ Nordeste: 27.0%
      ‚Ä¢ Centro-Oeste: 26.4%
      ‚Ä¢ Sul: 25.4%
      ‚Ä¢ Sudeste: 25.1%


In [17]:
print(f"\n‚úÖ VALIDA√á√ÉO DE REGRAS DE NEG√ìCIO:")

# Regra 1: Anual = Cr√©dito Recorrente
anuais_metodos = df[df['tipo_contrato'] == 'Anual']['metodo_pagamento'].unique()
status = "‚úì" if list(anuais_metodos) == ['Cr√©dito Recorrente'] else "‚úó"
print(f"   {status} Contratos anuais: apenas Cr√©dito Recorrente")

# Regra 2: Valores corretos
valores_ok = True
valores_esperados = {
    ('Mensal', 'B√°sico'): 20.90, ('Mensal', 'Padr√£o'): 44.90, ('Mensal', 'Premium'): 59.90,
    ('Anual', 'B√°sico'): 18.90, ('Anual', 'Padr√£o'): 38.90, ('Anual', 'Premium'): 48.90
}
for (tipo, plano), valor_esperado in valores_esperados.items():
    valor_real = df[(df['tipo_contrato'] == tipo) & (df['plano_assinatura'] == plano)]['valor_mensal'].unique()
    if len(valor_real) != 1 or valor_real[0] != valor_esperado:
        valores_ok = False
status = "‚úì" if valores_ok else "‚úó"
print(f"   {status} Valores por plano/contrato validados")

# Regra 3: Limites
print(f"   ‚úì Idade: {df['idade'].min()} - {df['idade'].max()} anos")
print(f"   ‚úì Tempo assinatura: {df['tempo_assinatura_meses'].min()} - {df['tempo_assinatura_meses'].max()} meses")
print(f"   ‚úì Dias √∫ltimo acesso: {df['dias_ultimo_acesso'].min()} - {df['dias_ultimo_acesso'].max()} dias")

print(f"\n" + "=" * 70)
print("DATASET PRONTO PARA AN√ÅLISE E MODELAGEM!")
print("=" * 70)


‚úÖ VALIDA√á√ÉO DE REGRAS DE NEG√ìCIO:
   ‚úì Contratos anuais: apenas Cr√©dito Recorrente
   ‚úì Valores por plano/contrato validados
   ‚úì Idade: 18 - 87 anos
   ‚úì Tempo assinatura: 0 - 36 meses
   ‚úì Dias √∫ltimo acesso: 0 - 11 dias

DATASET PRONTO PARA AN√ÅLISE E MODELAGEM!


In [18]:
# Exibir primeiras linhas
print("\nüìã Primeiras 10 linhas do dataset:")
df.head(10)


üìã Primeiras 10 linhas do dataset:


Unnamed: 0,cliente_id,churn,idade,genero,regiao,tipo_contrato,metodo_pagamento,plano_assinatura,valor_mensal,sazonalidade,...,dias_ultimo_acesso,acessibilidade,contatos_suporte,visualizacoes_mes,tempo_medio_sessao_min,dispositivo_principal,categoria_favorita,avaliacao_conteudo_media,avaliacao_conteudo_ultimo_mes,avaliacao_plataforma
0,1,0,28,Masculino,Nordeste,Mensal,Pix,Padr√£o,44.9,0,...,5,0,4,43,47.9,Desktop,Filmes,3.5,,2.5
1,2,1,26,Feminino,Sudeste,Mensal,D√©bito Autom√°tico,Padr√£o,44.9,1,...,5,0,6,39,32.7,Desktop,Filmes,4.0,,
2,3,0,28,Feminino,Sudeste,Mensal,Cr√©dito Recorrente,Padr√£o,44.9,0,...,2,0,0,50,38.5,TV,Filmes,,3.5,2.5
3,4,0,32,Feminino,Sudeste,Mensal,Pix,Premium,59.9,0,...,1,0,0,22,5.0,TV,Infantil,3.0,4.0,
4,5,1,42,,Nordeste,Anual,Cr√©dito Recorrente,Padr√£o,38.9,0,...,10,0,1,9,26.1,TV,Filmes,,,4.5
5,6,0,79,,Nordeste,Mensal,D√©bito,Padr√£o,44.9,0,...,5,0,2,33,62.8,TV,Novelas,4.0,,
6,7,0,35,Masculino,Sudeste,Mensal,Cr√©dito,Premium,59.9,0,...,5,0,1,9,29.7,Mobile,Esportes,3.0,4.0,5.0
7,8,1,34,Feminino,Nordeste,Anual,Cr√©dito Recorrente,Padr√£o,38.9,1,...,6,0,2,8,35.8,Desktop,Document√°rios,,4.5,
8,9,0,51,,Norte,Mensal,Cr√©dito Recorrente,Premium,59.9,0,...,3,0,5,42,56.1,TV,S√©ries,,,3.5
9,10,0,26,Feminino,Nordeste,Mensal,Cr√©dito,Premium,59.9,0,...,3,0,0,15,38.5,TV,Filmes,4.5,,


In [19]:
# Info do dataset
print("\nüìä INFO DO DATASET:")
df.info()


üìä INFO DO DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31351 entries, 0 to 31350
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   cliente_id                     31351 non-null  int64  
 1   churn                          31351 non-null  int32  
 2   idade                          31351 non-null  int32  
 3   genero                         31351 non-null  object 
 4   regiao                         31351 non-null  object 
 5   tipo_contrato                  31351 non-null  object 
 6   metodo_pagamento               31351 non-null  object 
 7   plano_assinatura               31351 non-null  object 
 8   valor_mensal                   31351 non-null  float64
 9   sazonalidade                   31351 non-null  int32  
 10  tempo_assinatura_meses         31351 non-null  int32  
 11  dias_ultimo_acesso             31351 non-null  int64  
 12  acessibilidade         

In [20]:
# Resumo estat√≠stico
print("\nüìà RESUMO ESTAT√çSTICO:")
df.describe().round(2)


üìà RESUMO ESTAT√çSTICO:


Unnamed: 0,cliente_id,churn,idade,valor_mensal,sazonalidade,tempo_assinatura_meses,dias_ultimo_acesso,acessibilidade,contatos_suporte,visualizacoes_mes,tempo_medio_sessao_min,avaliacao_conteudo_media,avaliacao_conteudo_ultimo_mes,avaliacao_plataforma
count,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,31351.0,19290.0,16054.0,14198.0
mean,15676.0,0.26,34.75,41.73,0.11,8.89,3.35,0.11,2.22,25.79,36.35,3.52,3.52,3.19
std,9050.4,0.44,9.59,13.97,0.31,8.99,2.12,0.32,2.84,16.28,17.34,0.89,0.89,1.04
min,1.0,0.0,18.0,18.9,0.0,0.0,0.0,0.0,0.0,0.0,5.0,1.0,1.0,1.0
25%,7838.5,0.0,29.0,20.9,0.0,2.0,2.0,0.0,1.0,11.0,23.8,3.0,3.0,2.5
50%,15676.0,0.0,33.0,44.9,0.0,6.0,3.0,0.0,1.0,26.0,36.0,3.5,3.5,3.5
75%,23513.5,1.0,39.0,48.9,0.0,13.0,4.0,0.0,3.0,39.0,48.3,4.0,4.0,4.0
max,31351.0,1.0,87.0,59.9,1.0,36.0,11.0,1.0,26.0,89.0,107.0,5.0,5.0,5.0


---

## üìù Documenta√ß√£o das Correla√ß√µes Implementadas

### Correla√ß√µes Fortes com Churn (|r| > 0.25):

| Vari√°vel | Correla√ß√£o | Justificativa de Neg√≥cio |
|----------|------------|-------------------------|
| dias_ultimo_acesso | +0.40 | Clientes inativos t√™m maior propens√£o ao cancelamento |
| contatos_suporte | +0.30 | Muitos contatos indicam insatisfa√ß√£o |
| visualizacoes_mes | -0.28 | Baixo engajamento = maior churn |
| sazonalidade | +0.28 | Clientes que j√° cancelaram antes t√™m maior propens√£o |

### Correla√ß√µes Moderadas com Churn (0.10 < |r| < 0.25):

| Vari√°vel | Correla√ß√£o | Justificativa de Neg√≥cio |
|----------|------------|-------------------------|
| tempo_medio_sessao_min | -0.15 | Sess√µes curtas indicam desinteresse |
| valor_mensal | -0.13 | Clientes premium t√™m mais valor percebido |

### Correla√ß√µes Entre Vari√°veis (independente do churn):

- **idade √ó dispositivo_principal**: Jovens em Mobile, mais velhos em TV
- **idade √ó plano_assinatura**: Mais velhos tendem a planos superiores
- **visualizacoes_mes √ó tempo_medio_sessao**: Correla√ß√£o positiva (~0.53)
- **contatos_suporte √ó avaliacao_plataforma**: Correla√ß√£o negativa
- **tempo_assinatura √ó sazonalidade**: Clientes antigos mais propensos a serem sazonais
- **tipo_contrato √ó metodo_pagamento**: Anual = apenas Cr√©dito Recorrente

### Missing Values (MAR - Missing at Random):

| Vari√°vel | % Missing | L√≥gica |
|----------|-----------|--------|
| genero | ~15% | Optativo - MCAR |
| avaliacao_conteudo_media | ~25-40% | Correlacionado com engajamento |
| avaliacao_conteudo_ultimo_mes | ~35-50% | Menos avaliam no curto prazo |
| avaliacao_plataforma | ~40-55% | Poucos avaliam a plataforma |

---

**Dataset pronto para an√°lise explorat√≥ria, engenharia de features e modelagem de Machine Learning!**