

LIGHTER TRACKER - SISTEMA DE PREDI√á√ÉO DE PERDA DE ISQUEIROS
=============================================================================

* Projeto: Sistema de Machine Learning para prever perda de isqueiros
* Algoritmo: Regress√£o Log√≠stica (Classifica√ß√£o Bin√°ria)
* Target: perdeu (True/False)
* Objetivo: Fornecer recomenda√ß√µes aos usu√°rios sobre probabilidade de perda

#### Autor: Murilo Souza, Cientista de Dados em Transi√ß√£o
============================================================================


# 1. IMPORTA√á√ÉO DAS BIBLIOTECAS

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import random
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de exibi√ß√£o
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# 2. GERA√á√ÉO DA BASE SINT√âTICA DE DADOS

In [2]:

def gerar_base_sintetica(n_registros=1200, seed=42):
    """
    Gera uma base sint√©tica de dados para o sistema Lighter Tracker

    Par√¢metros:
    - n_registros: N√∫mero de registros a serem gerados (padr√£o: 1200)
    - seed: Seed para reprodutibilidade (padr√£o: 42)

    Retorna:
    - DataFrame com dados sint√©ticos de uso de isqueiros
    """

    np.random.seed(seed)
    random.seed(seed)

    print(f"üîÑ Gerando {n_registros} registros sint√©ticos...")

    # Definindo as op√ß√µes categ√≥ricas baseadas no contexto real de uso
    opcoes = {
        'genero': ['M', 'F'],
        'marcas': ['Bic', 'Zippo', 'Clipper', 'Cricket', 'Ronson', 'Generico'],
        'cores': ['Azul', 'Preto', 'Branco', 'Vermelho', 'Verde', 'Amarelo', 'Prata', 'Dourado'],
        'contextos_uso': ['Casa', 'Rua', 'Trabalho', 'Bar', 'Parque', 'Social', 'Festa', 'Carro'],
        'propositos_uso': ['Cigarro', 'Tabaco', 'Vela', 'Incenso', 'Fogao', 'Camping', 'Charuto', 'Outro'],
        'perfil_fumante': ['Pesado', 'Moderado', 'Social', 'Esporadico', 'Nao_fumante']
    }

    dados = []

    # Data de in√≠cio: 1 ano atr√°s
    data_inicio = datetime.now() - timedelta(days=365)

    for i in range(n_registros):
        # Caracter√≠sticas do usu√°rio
        usuario_id = f"USER_{i+1:04d}"
        nome = f"Usuario_{i+1}"
        genero = np.random.choice(opcoes['genero'])
        idade = np.random.randint(18, 65)

        # Faixa et√°ria baseada na idade
        if idade <= 25:
            faixa_idade = '18-25'
        elif idade <= 35:
            faixa_idade = '26-35'
        elif idade <= 50:
            faixa_idade = '36-50'
        else:
            faixa_idade = '51+'

        # Perfil de fumante (influencia no padr√£o de uso)
        perfil_fumante = np.random.choice(opcoes['perfil_fumante'],
                                        p=[0.15, 0.25, 0.30, 0.20, 0.10])

        # Caracter√≠sticas do isqueiro
        marca = np.random.choice(opcoes['marcas'],
                               p=[0.35, 0.15, 0.20, 0.15, 0.10, 0.05])  # Bic √© mais comum
        cor = np.random.choice(opcoes['cores'])
        tipo_isqueiro = 'Descartavel' if marca in ['Bic', 'Cricket', 'Generico'] else 'Recarregavel'

        # Pre√ßo baseado na marca
        preco_base = {'Bic': 2.5, 'Zippo': 50.0, 'Clipper': 8.0,
                     'Cricket': 1.5, 'Ronson': 15.0, 'Generico': 1.0}
        preco_compra = preco_base[marca] + np.random.uniform(-0.5, 1.5)
        preco_compra = max(preco_compra, 0.5)  # Pre√ßo m√≠nimo

        # Datas
        data_compra = data_inicio + timedelta(days=np.random.randint(0, 330))

        # Tempo de posse (dias desde a compra at√© uso/perda)
        # Isqueiros mais caros tendem a ser mantidos por mais tempo
        if marca in ['Zippo', 'Ronson']:
            tempo_posse = np.random.randint(30, 200)
        else:
            tempo_posse = np.random.randint(5, 120)

        data_uso = data_compra + timedelta(days=tempo_posse)

        # Padr√µes de uso baseados no perfil
        multiplicador_uso = {'Pesado': 3.0, 'Moderado': 2.0, 'Social': 1.5,
                           'Esporadico': 0.8, 'Nao_fumante': 0.3}

        # N√∫mero de ascendimentos baseado no tempo de posse e perfil
        ascendimentos_base = tempo_posse * multiplicador_uso[perfil_fumante]
        num_ascendimentos = int(max(1, np.random.poisson(ascendimentos_base)))

        # Frequ√™ncia de uso (ascendimentos por dia)
        frequencia_uso = num_ascendimentos / max(tempo_posse, 1)

        # Contexto e prop√≥sito de uso (com l√≥gica de probabilidade)
        # Fumantes pesados usam mais na rua, n√£o fumantes mais em casa
        if perfil_fumante in ['Pesado', 'Moderado']:
            contexto_uso = np.random.choice(opcoes['contextos_uso'],
                                          p=[0.20, 0.25, 0.15, 0.15, 0.10, 0.10, 0.03, 0.02])
            proposito_uso = np.random.choice(opcoes['propositos_uso'],
                                           p=[0.60, 0.25, 0.05, 0.05, 0.02, 0.02, 0.01, 0.00])
        else:
            contexto_uso = np.random.choice(opcoes['contextos_uso'],
                                          p=[0.50, 0.10, 0.20, 0.05, 0.05, 0.05, 0.03, 0.02])
            proposito_uso = np.random.choice(opcoes['propositos_uso'],
                                           p=[0.20, 0.10, 0.25, 0.20, 0.15, 0.05, 0.03, 0.02])

        # L√ìGICA PARA DEFINIR SE O ISQUEIRO FOI PERDIDO
        # Fatores que aumentam a probabilidade de perda:
        prob_perda = 0.2  # Base: 20%

        # Contexto de uso (rua, bar, festa = maior risco)
        if contexto_uso in ['Rua', 'Bar', 'Festa', 'Social']:
            prob_perda += 0.25
        elif contexto_uso in ['Parque', 'Carro']:
            prob_perda += 0.15
        elif contexto_uso in ['Trabalho']:
            prob_perda += 0.10
        # Casa mant√©m a probabilidade base

        # Perfil do fumante (sociais e espor√°dicos perdem mais)
        if perfil_fumante in ['Social', 'Esporadico']:
            prob_perda += 0.15
        elif perfil_fumante == 'Nao_fumante':
            prob_perda += 0.10

        # Tipo de isqueiro (descart√°veis s√£o perdidos mais facilmente)
        if tipo_isqueiro == 'Descartavel':
            prob_perda += 0.10

        # Idade (jovens perdem mais)
        if idade <= 25:
            prob_perda += 0.10
        elif idade <= 35:
            prob_perda += 0.05

        # Frequ√™ncia alta de uso (usa muito = leva para muitos lugares = maior risco)
        if frequencia_uso > 3.0:
            prob_perda += 0.10

        # G√™nero (ajuste sutil baseado em padr√µes comportamentais)
        if genero == 'M':
            prob_perda += 0.05

        # Limitar probabilidade entre 0 e 0.8 (m√°ximo 80% de chance)
        prob_perda = min(0.8, max(0.05, prob_perda))

        # Decidir se perdeu ou n√£o
        perdeu = np.random.random() < prob_perda

        # Se perdeu, definir data e local da perda
        if perdeu:
            dias_ate_perda = np.random.randint(1, tempo_posse + 1)
            data_perda = data_compra + timedelta(days=dias_ate_perda)

            # Local de perda baseado no contexto de uso
            locais_perda = {
                'Rua': ['Na_rua', 'Ponto_onibus', 'Calcada', 'Praca'],
                'Bar': ['Bar', 'Restaurante', 'Balada', 'Mesa_bar'],
                'Festa': ['Casa_amigo', 'Festa', 'Evento', 'Churrasco'],
                'Social': ['Encontro_amigos', 'Social', 'Reuniao'],
                'Trabalho': ['Escritorio', 'Trabalho', 'Cafeteria'],
                'Parque': ['Parque', 'Praca', 'Area_verde'],
                'Carro': ['Carro', 'Veiculo', 'Estacionamento'],
                'Casa': ['Casa', 'Quarto', 'Cozinha', 'Sala']
            }

            local_perda = np.random.choice(locais_perda.get(contexto_uso, ['Desconhecido']))
        else:
            dias_ate_perda = 0
            data_perda = None
            local_perda = 'N/A'

        # M√™s/ano para an√°lises temporais
        mes_ano = data_uso.strftime('%Y-%m')

        # Adicionar ao dataset
        registro = {
            'id_usuario': usuario_id,
            'nome': nome,
            'genero': genero,
            'idade': idade,
            'faixa_idade': faixa_idade,
            'perfil_fumante': perfil_fumante,
            'marca_isqueiro': marca,
            'cor_isqueiro': cor,
            'tipo_isqueiro': tipo_isqueiro,
            'preco_compra': round(preco_compra, 2),
            'data_compra': data_compra,
            'data_uso': data_uso,
            'tempo_posse': tempo_posse,
            'contexto_uso': contexto_uso,
            'proposito_uso': proposito_uso,
            'num_ascendimentos': num_ascendimentos,
            'frequencia_uso': round(frequencia_uso, 2),
            'mes_ano': mes_ano,
            'perdeu': perdeu,
            'dias_ate_perda': dias_ate_perda,
            'data_perda': data_perda,
            'local_perda': local_perda
        }

        dados.append(registro)

    # Criar DataFrame
    df = pd.DataFrame(dados)

    # Ajustar tipos de dados
    df['data_compra'] = pd.to_datetime(df['data_compra'])
    df['data_uso'] = pd.to_datetime(df['data_uso'])
    df['data_perda'] = pd.to_datetime(df['data_perda'])
    df['perdeu'] = df['perdeu'].astype(bool)

    print(f"‚úÖ Base sint√©tica gerada com sucesso!")
    print(f"üìä Total de registros: {len(df)}")
    print(f"üéØ Distribui√ß√£o da target:")
    print(f"   - Perdidos: {df['perdeu'].sum()} ({df['perdeu'].mean()*100:.1f}%)")
    print(f"   - N√£o perdidos: {(~df['perdeu']).sum()} ({(1-df['perdeu'].mean())*100:.1f}%)")

    return df

# Gerar a base de dados
df = gerar_base_sintetica(n_registros=1200, seed=42)

# Salvar a base bruta
df.to_csv('lighter_tracker_dados_brutos.csv', index=False, encoding='utf-8')
print(f"\nüíæ Base salva como 'lighter_tracker_dados_brutos.csv'")


üîÑ Gerando 1200 registros sint√©ticos...
‚úÖ Base sint√©tica gerada com sucesso!
üìä Total de registros: 1200
üéØ Distribui√ß√£o da target:
   - Perdidos: 606 (50.5%)
   - N√£o perdidos: 594 (49.5%)

üíæ Base salva como 'lighter_tracker_dados_brutos.csv'


# 3. AN√ÅLISE EXPLORAT√ìRIA DOS DADOS (EDA)

In [3]:

print("\n" + "="*60)
print("üìä AN√ÅLISE EXPLORAT√ìRIA DOS DADOS")
print("="*60)

# Informa√ß√µes gerais sobre a base
print("\nüîç INFORMA√á√ïES GERAIS DA BASE:")
print(f"Dimens√µes: {df.shape}")
print(f"Per√≠odo dos dados: {df['data_compra'].min().strftime('%Y-%m-%d')} a {df['data_uso'].max().strftime('%Y-%m-%d')}")

# Verificar valores nulos
print(f"\nüîç VALORES NULOS:")
valores_nulos = df.isnull().sum()
print(valores_nulos[valores_nulos > 0])

# Estat√≠sticas descritivas das vari√°veis num√©ricas
print(f"\nüîç ESTAT√çSTICAS DAS VARI√ÅVEIS NUM√âRICAS:")
print(df[['idade', 'preco_compra', 'tempo_posse', 'num_ascendimentos', 'frequencia_uso']].describe())

# Distribui√ß√£o da vari√°vel target
print(f"\nüéØ DISTRIBUI√á√ÉO DA VARI√ÅVEL TARGET (perdeu):")
target_dist = df['perdeu'].value_counts()
print(target_dist)
print(f"Percentual de perdas: {df['perdeu'].mean()*100:.2f}%")

# An√°lise por contexto de uso
print(f"\nüè¢ PERDAS POR CONTEXTO DE USO:")
perdas_contexto = df.groupby('contexto_uso')['perdeu'].agg(['count', 'sum', 'mean']).round(3)
perdas_contexto.columns = ['Total', 'Perdidos', 'Taxa_Perda']
perdas_contexto = perdas_contexto.sort_values('Taxa_Perda', ascending=False)
print(perdas_contexto)

# An√°lise por perfil de fumante
print(f"\nüö¨ PERDAS POR PERFIL DE FUMANTE:")
perdas_perfil = df.groupby('perfil_fumante')['perdeu'].agg(['count', 'sum', 'mean']).round(3)
perdas_perfil.columns = ['Total', 'Perdidos', 'Taxa_Perda']
perdas_perfil = perdas_perfil.sort_values('Taxa_Perda', ascending=False)
print(perdas_perfil)

# An√°lise por marca
print(f"\nüè∑Ô∏è PERDAS POR MARCA:")
perdas_marca = df.groupby('marca_isqueiro')['perdeu'].agg(['count', 'sum', 'mean']).round(3)
perdas_marca.columns = ['Total', 'Perdidos', 'Taxa_Perda']
perdas_marca = perdas_marca.sort_values('Taxa_Perda', ascending=False)
print(perdas_marca)


üìä AN√ÅLISE EXPLORAT√ìRIA DOS DADOS

üîç INFORMA√á√ïES GERAIS DA BASE:
Dimens√µes: (1200, 22)
Per√≠odo dos dados: 2024-09-17 a 2026-02-22

üîç VALORES NULOS:
data_perda    594
dtype: int64

üîç ESTAT√çSTICAS DAS VARI√ÅVEIS NUM√âRICAS:
             idade  preco_compra  tempo_posse  num_ascendimentos  \
count  1200.000000   1200.000000  1200.000000        1200.000000   
mean     40.797500     12.428958    75.285833         120.417500   
std      13.686402     16.904736    44.694822         102.153574   
min      18.000000      0.520000     5.000000           1.000000   
25%      29.000000      2.480000    40.000000          40.000000   
50%      41.000000      3.690000    72.000000          96.000000   
75%      52.000000      9.490000   103.000000         167.250000   
max      64.000000     51.500000   199.000000         591.000000   

       frequencia_uso  
count     1200.000000  
mean         1.585883  
std          0.834748  
min          0.080000  
25%          0.890000  
50

# 4. PR√â-PROCESSAMENTO DOS DADOS PARA MACHINE LEARNING

In [7]:

print("\n" + "="*60)
print("üîß PR√â-PROCESSAMENTO DOS DADOS")
print("="*60)

def preparar_dados_ml(df):
    """
    Prepara os dados para Machine Learning
    - Seleciona features relevantes
    - Trata valores categ√≥ricos
    - Cria features derivadas
    """

    print("üîß Iniciando pr√©-processamento...")

    # Criar uma c√≥pia para n√£o modificar o original
    df_ml = df.copy()

    # Features que ser√£o utilizadas no modelo
    features_numericas = [
        'idade',
        'preco_compra',
        'tempo_posse',
        'num_ascendimentos',
        'frequencia_uso'
    ]

    features_categoricas = [
        'genero',
        'faixa_idade',
        'perfil_fumante',
        'marca_isqueiro',
        'tipo_isqueiro',
        'contexto_uso',
        'proposito_uso'
    ]

    # Criar features derivadas
    print("üîß Criando features derivadas...")

    # Feature: Intensidade de uso (ascendimentos por dia de posse)
    df_ml['intensidade_uso'] = df_ml['num_ascendimentos'] / df_ml['tempo_posse']
    df_ml['intensidade_uso'] = df_ml['intensidade_uso'].fillna(0)

    # Feature: Categoria de pre√ßo
    df_ml['categoria_preco'] = pd.cut(df_ml['preco_compra'],
                                    bins=[0, 5, 15, 100],
                                    labels=['Barato', 'Medio', 'Caro'])

    # Feature: Categoria de idade
    df_ml['categoria_idade'] = pd.cut(df_ml['idade'],
                                    bins=[17, 25, 35, 50, 70],
                                    labels=['Jovem', 'Adulto_Jovem', 'Adulto', 'Maduro'])

    # Feature: M√™s da compra (sazonalidade)
    df_ml['mes_compra'] = df_ml['data_compra'].dt.month

    # Atualizar listas de features
    features_numericas.extend(['intensidade_uso', 'mes_compra'])
    features_categoricas.extend(['categoria_preco', 'categoria_idade'])

    # Selecionar todas as features para o modelo
    all_features = features_numericas + features_categoricas

    print(f"‚úÖ Features num√©ricas ({len(features_numericas)}): {features_numericas}")
    print(f"‚úÖ Features categ√≥ricas ({len(features_categoricas)}): {features_categoricas}")

    return df_ml, all_features, features_numericas, features_categoricas

# Preparar dados
df_ml, all_features, features_numericas, features_categoricas = preparar_dados_ml(df)

# Definir X e y
X = df_ml[all_features]
y = df_ml['perdeu']

print(f"\nüéØ Dataset final para ML:")
print(f"   - Shape: {X.shape}")
print(f"   - Target distribution: {y.value_counts().to_dict()}")



üîß PR√â-PROCESSAMENTO DOS DADOS
üîß Iniciando pr√©-processamento...
üîß Criando features derivadas...
‚úÖ Features num√©ricas (7): ['idade', 'preco_compra', 'tempo_posse', 'num_ascendimentos', 'frequencia_uso', 'intensidade_uso', 'mes_compra']
‚úÖ Features categ√≥ricas (9): ['genero', 'faixa_idade', 'perfil_fumante', 'marca_isqueiro', 'tipo_isqueiro', 'contexto_uso', 'proposito_uso', 'categoria_preco', 'categoria_idade']

üéØ Dataset final para ML:
   - Shape: (1200, 16)
   - Target distribution: {True: 606, False: 594}


# 5. DIVIS√ÉO DOS DADOS (TREINO/TESTE)

## Bibliotecas de Machine Learning

In [8]:


from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import (classification_report, roc_auc_score, confusion_matrix,
                           accuracy_score, precision_score, recall_score, f1_score, roc_curve)


In [9]:
print("\nüîÄ Dividindo dados em treino e teste...")

# Divis√£o estratificada para manter propor√ß√£o da target
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,           # 20% para teste
    stratify=y,              # Manter propor√ß√£o da target
    random_state=42          # Reprodutibilidade
)

print(f"‚úÖ Divis√£o conclu√≠da:")
print(f"   - Treino: {X_train.shape[0]} amostras ({y_train.mean()*100:.1f}% perdas)")
print(f"   - Teste: {X_test.shape[0]} amostras ({y_test.mean()*100:.1f}% perdas)")


üîÄ Dividindo dados em treino e teste...
‚úÖ Divis√£o conclu√≠da:
   - Treino: 960 amostras (50.5% perdas)
   - Teste: 240 amostras (50.4% perdas)


# 6. PIPELINE DE PR√â-PROCESSAMENTO

In [10]:

print("\nüîß Criando pipeline de pr√©-processamento...")

# Definir transforma√ß√µes para cada tipo de vari√°vel
preprocessor = ColumnTransformer(
    transformers=[
        # Vari√°veis num√©ricas: padroniza√ß√£o (m√©dia=0, desvio=1)
        ('num', StandardScaler(), features_numericas),

        # Vari√°veis categ√≥ricas: One-Hot Encoding
        ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), features_categoricas)
    ],
    remainder='drop'  # Descartar colunas n√£o especificadas
)

print("‚úÖ Pipeline de pr√©-processamento criado:")
print(f"   - Padroniza√ß√£o para: {features_numericas}")
print(f"   - One-Hot Encoding para: {features_categoricas}")



üîß Criando pipeline de pr√©-processamento...
‚úÖ Pipeline de pr√©-processamento criado:
   - Padroniza√ß√£o para: ['idade', 'preco_compra', 'tempo_posse', 'num_ascendimentos', 'frequencia_uso', 'intensidade_uso', 'mes_compra']
   - One-Hot Encoding para: ['genero', 'faixa_idade', 'perfil_fumante', 'marca_isqueiro', 'tipo_isqueiro', 'contexto_uso', 'proposito_uso', 'categoria_preco', 'categoria_idade']


# 7. MODELO DE REGRESS√ÉO LOG√çSTICA


In [11]:

print("\n" + "="*60)
print("ü§ñ TREINAMENTO DO MODELO DE REGRESS√ÉO LOG√çSTICA")
print("="*60)

# Criar pipeline completo (pr√©-processamento + modelo)
pipeline_lr = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(
        class_weight='balanced',    # Lidar com desbalanceamento
        random_state=42,           # Reprodutibilidade
        max_iter=1000             # Evitar warnings de converg√™ncia
    ))
])

print("ü§ñ Pipeline criado com:")
print("   - Pr√©-processamento autom√°tico")
print("   - Regress√£o Log√≠stica com class_weight='balanced'")
print("   - Tratamento autom√°tico de desbalanceamento")


ü§ñ TREINAMENTO DO MODELO DE REGRESS√ÉO LOG√çSTICA
ü§ñ Pipeline criado com:
   - Pr√©-processamento autom√°tico
   - Regress√£o Log√≠stica com class_weight='balanced'
   - Tratamento autom√°tico de desbalanceamento


# 8. OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS

In [12]:

print("\nüéØ Otimizando hiperpar√¢metros com GridSearchCV...")

# Definir grade de hiperpar√¢metros para testar
param_grid = {
    'classifier__C': [0.01, 0.1, 1, 10, 100],           # For√ßa da regulariza√ß√£o
    'classifier__penalty': ['l1', 'l2'],                 # Tipo de regulariza√ß√£o
    'classifier__solver': ['liblinear', 'saga']          # Algoritmo de otimiza√ß√£o
}

# GridSearchCV com valida√ß√£o cruzada
grid_search = GridSearchCV(
    pipeline_lr,
    param_grid,
    cv=5,                      # 5-fold cross-validation
    scoring='f1',              # M√©trica para otimiza√ß√£o (boa para desbalanceamento)
    n_jobs=-1,                 # Usar todos os cores
    verbose=1                  # Mostrar progresso
)

# Treinar com otimiza√ß√£o
print("‚è≥ Treinando modelo com diferentes combina√ß√µes de hiperpar√¢metros...")
grid_search.fit(X_train, y_train)

# Melhor modelo encontrado
best_model = grid_search.best_estimator_

print(f"\n‚úÖ Otimiza√ß√£o conclu√≠da!")
print(f"üèÜ Melhores hiperpar√¢metros: {grid_search.best_params_}")
print(f"üìä Melhor F1-Score (CV): {grid_search.best_score_:.4f}")


üéØ Otimizando hiperpar√¢metros com GridSearchCV...
‚è≥ Treinando modelo com diferentes combina√ß√µes de hiperpar√¢metros...
Fitting 5 folds for each of 20 candidates, totalling 100 fits

‚úÖ Otimiza√ß√£o conclu√≠da!
üèÜ Melhores hiperpar√¢metros: {'classifier__C': 10, 'classifier__penalty': 'l2', 'classifier__solver': 'liblinear'}
üìä Melhor F1-Score (CV): 0.5665


# 9. AVALIA√á√ÉO DO MODELO

In [13]:

print("\n" + "="*60)
print("üìä AVALIA√á√ÉO DO MODELO")
print("="*60)

# Fazer predi√ß√µes no conjunto de teste
y_pred = best_model.predict(X_test)
y_pred_proba = best_model.predict_proba(X_test)[:, 1]  # Probabilidades da classe positiva

# Calcular m√©tricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc_roc = roc_auc_score(y_test, y_pred_proba)

print("üéØ M√âTRICAS DE AVALIA√á√ÉO:")
print(f"   - Acur√°cia:  {accuracy:.4f} ({accuracy*100:.2f}%)")
print(f"   - Precis√£o:  {precision:.4f} ({precision*100:.2f}%)")
print(f"   - Recall:    {recall:.4f} ({recall*100:.2f}%)")
print(f"   - F1-Score:  {f1:.4f} ({f1*100:.2f}%)")
print(f"   - AUC-ROC:   {auc_roc:.4f} ({auc_roc*100:.2f}%)")

print(f"\nüìã RELAT√ìRIO DETALHADO:")
print(classification_report(y_test, y_pred, target_names=['N√£o Perdeu', 'Perdeu']))

print(f"\nüîç MATRIZ DE CONFUS√ÉO:")
cm = confusion_matrix(y_test, y_pred)
print(f"                 Predito")
print(f"              N√£o  |  Sim")
print(f"Real N√£o  [{cm[0,0]:4d}  |  {cm[0,1]:3d}]")
print(f"     Sim  [{cm[1,0]:4d}  |  {cm[1,1]:3d}]")


üìä AVALIA√á√ÉO DO MODELO
üéØ M√âTRICAS DE AVALIA√á√ÉO:
   - Acur√°cia:  0.5833 (58.33%)
   - Precis√£o:  0.5882 (58.82%)
   - Recall:    0.5785 (57.85%)
   - F1-Score:  0.5833 (58.33%)
   - AUC-ROC:   0.6222 (62.22%)

üìã RELAT√ìRIO DETALHADO:
              precision    recall  f1-score   support

  N√£o Perdeu       0.58      0.59      0.58       119
      Perdeu       0.59      0.58      0.58       121

    accuracy                           0.58       240
   macro avg       0.58      0.58      0.58       240
weighted avg       0.58      0.58      0.58       240


üîç MATRIZ DE CONFUS√ÉO:
                 Predito
              N√£o  |  Sim
Real N√£o  [  70  |   49]
     Sim  [  51  |   70]


# 10. INTERPRETA√á√ÉO DO MODELO (FEATURE IMPORTANCE)

In [14]:

print("\n" + "="*60)
print("üîç INTERPRETA√á√ÉO DO MODELO")
print("="*60)

# Obter nomes das features ap√≥s pr√©-processamento
feature_names = (
    features_numericas +
    list(best_model.named_steps['preprocessor']
         .named_transformers_['cat']
         .get_feature_names_out(features_categoricas))
)

# Obter coeficientes do modelo
coeficientes = best_model.named_steps['classifier'].coef_[0]

# Criar DataFrame com feature importance
feature_importance = pd.DataFrame({
    'Feature': feature_names,
    'Coeficiente': coeficientes,
    'Importancia_Abs': np.abs(coeficientes)
}).sort_values('Importancia_Abs', ascending=False)

print("üîç TOP 15 FEATURES MAIS IMPORTANTES:")
print("(Coeficientes positivos aumentam probabilidade de perda)")
print("(Coeficientes negativos diminuem probabilidade de perda)")
print("-" * 60)
for idx, row in feature_importance.head(15).iterrows():
    sinal = "‚Üë" if row['Coeficiente'] > 0 else "‚Üì"
    print(f"{sinal} {row['Feature']:<35} | {row['Coeficiente']:>8.4f}")


üîç INTERPRETA√á√ÉO DO MODELO
üîç TOP 15 FEATURES MAIS IMPORTANTES:
(Coeficientes positivos aumentam probabilidade de perda)
(Coeficientes negativos diminuem probabilidade de perda)
------------------------------------------------------------
‚Üì marca_isqueiro_Zippo                |  -1.1393
‚Üì contexto_uso_Casa                   |  -1.0691
‚Üì contexto_uso_Trabalho               |  -1.0142
‚Üì contexto_uso_Carro                  |  -0.9783
‚Üì perfil_fumante_Pesado               |  -0.9483
‚Üì perfil_fumante_Moderado             |  -0.8240
‚Üì contexto_uso_Parque                 |  -0.6839
‚Üì proposito_uso_Charuto               |  -0.6680
‚Üì categoria_preco_Medio               |  -0.6534
‚Üì perfil_fumante_Social               |  -0.6162
‚Üì marca_isqueiro_Generico             |  -0.6098
‚Üë marca_isqueiro_Clipper              |   0.5646
‚Üì proposito_uso_Incenso               |  -0.5624
‚Üë categoria_idade_Jovem               |   0.5301
‚Üì proposito_uso_Tabaco                

# 11. VALIDA√á√ÉO CRUZADA COMPLETA

In [15]:

print("\nüîÑ Valida√ß√£o cruzada completa (5-fold)...")

# Valida√ß√£o cruzada com m√∫ltiplas m√©tricas
scoring = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']
cv_results = {}

for score in scoring:
    scores = cross_val_score(best_model, X, y, cv=5, scoring=score, n_jobs=-1)
    cv_results[score] = {
        'mean': scores.mean(),
        'std': scores.std(),
        'scores': scores
    }

print("üìä RESULTADOS DA VALIDA√á√ÉO CRUZADA (5-fold):")
for metric, results in cv_results.items():
    print(f"   - {metric.upper():<12}: {results['mean']:.4f} (¬±{results['std']:.4f})")


üîÑ Valida√ß√£o cruzada completa (5-fold)...
üìä RESULTADOS DA VALIDA√á√ÉO CRUZADA (5-fold):
   - ACCURACY    : 0.5767 (¬±0.0341)
   - PRECISION   : 0.5843 (¬±0.0359)
   - RECALL      : 0.5694 (¬±0.0346)
   - F1          : 0.5761 (¬±0.0289)
   - ROC_AUC     : 0.6082 (¬±0.0403)


# 12. PREDI√á√ïES NA BASE COMPLETA

In [16]:

print("\nüîÆ Gerando predi√ß√µes para toda a base...")

# Fazer predi√ß√µes para toda a base de dados
X_full = df_ml[all_features]
y_full = df_ml['perdeu']

probabilidades_completas = best_model.predict_proba(X_full)[:, 1]
predicoes_completas = best_model.predict(X_full)

# Adicionar predi√ß√µes ao DataFrame original
df_final = df_ml.copy()
df_final['probabilidade_perda'] = probabilidades_completas
df_final['predicao_perda'] = predicoes_completas
df_final['acerto_modelo'] = (df_final['predicao_perda'] == df_final['perdeu'])

print(f"‚úÖ Predi√ß√µes geradas para {len(df_final)} registros")
print(f"üìä Acur√°cia geral: {df_final['acerto_modelo'].mean()*100:.2f}%")

# Salvar base com predi√ß√µes
df_final.to_csv('lighter_tracker_com_predicoes.csv', index=False, encoding='utf-8')
print("üíæ Base com predi√ß√µes salva como 'lighter_tracker_com_predicoes.csv'")


üîÆ Gerando predi√ß√µes para toda a base...
‚úÖ Predi√ß√µes geradas para 1200 registros
üìä Acur√°cia geral: 60.83%
üíæ Base com predi√ß√µes salva como 'lighter_tracker_com_predicoes.csv'


# 13. AN√ÅLISE DE CASOS EXTREMOS

In [17]:

print("\nüîç Analisando casos extremos...")

# Casos com maior probabilidade de perda
print("üî¥ TOP 5 CASOS COM MAIOR RISCO DE PERDA:")
top_risco = df_final.nlargest(5, 'probabilidade_perda')[
    ['nome', 'contexto_uso', 'proposito_uso', 'perfil_fumante',
     'marca_isqueiro', 'probabilidade_perda', 'perdeu']
]
print(top_risco.to_string(index=False))

# Casos com menor probabilidade de perda
print("\nüü¢ TOP 5 CASOS COM MENOR RISCO DE PERDA:")
baixo_risco = df_final.nsmallest(5, 'probabilidade_perda')[
    ['nome', 'contexto_uso', 'proposito_uso', 'perfil_fumante',
     'marca_isqueiro', 'probabilidade_perda', 'perdeu']
]
print(baixo_risco.to_string(index=False))


üîç Analisando casos extremos...
üî¥ TOP 5 CASOS COM MAIOR RISCO DE PERDA:
        nome contexto_uso proposito_uso perfil_fumante marca_isqueiro  probabilidade_perda  perdeu
Usuario_1128          Bar         Fogao     Esporadico         Ronson             0.935948    True
 Usuario_935          Rua          Vela     Esporadico         Ronson             0.872025    True
 Usuario_396          Rua         Fogao         Social         Ronson             0.869770    True
 Usuario_650          Rua       Cigarro     Esporadico         Ronson             0.858746    True
 Usuario_925          Rua          Vela     Esporadico            Bic             0.852782    True

üü¢ TOP 5 CASOS COM MENOR RISCO DE PERDA:
        nome contexto_uso proposito_uso perfil_fumante marca_isqueiro  probabilidade_perda  perdeu
Usuario_1145         Casa        Tabaco    Nao_fumante          Zippo             0.188125   False
Usuario_1069         Casa       Incenso       Moderado       Generico             0.19

# 14. PREPARA√á√ÉO PARA DEPLOY

## Para deploy do modelo


In [18]:
import pickle
import joblib
import json


In [19]:

print("\n" + "="*60)
print("üöÄ PREPARA√á√ÉO PARA DEPLOY")
print("="*60)

# Salvar o modelo treinado
model_filename = 'lighter_tracker_model.pkl'
joblib.dump(best_model, model_filename)
print(f"üíæ Modelo salvo como '{model_filename}'")

# Salvar informa√ß√µes do modelo
model_info = {
    'model_type': 'Logistic Regression',
    'features': all_features,
    'features_numericas': features_numericas,
    'features_categoricas': features_categoricas,
    'target': 'perdeu',
    'accuracy': accuracy,
    'precision': precision,
    'recall': recall,
    'f1_score': f1,
    'auc_roc': auc_roc,
    'best_params': grid_search.best_params_,
    'cv_f1_mean': cv_results['f1']['mean'],
    'training_date': datetime.now().isoformat(),
    'total_samples': len(df_final),
    'positive_class_ratio': y.mean()
}

with open('model_info.json', 'w', encoding='utf-8') as f:
    json.dump(model_info, f, indent=2, ensure_ascii=False)

print("üíæ Informa√ß√µes do modelo salvas como 'model_info.json'")

# Criar fun√ß√£o para predi√ß√£o em produ√ß√£o
def criar_funcao_predicao():
    """
    Cria fun√ß√£o para ser usada em produ√ß√£o
    """
    codigo_producao = '''
import joblib
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

def carregar_modelo():
    """Carrega o modelo treinado"""
    try:
        model = joblib.load('lighter_tracker_model.pkl')
        return model
    except Exception as e:
        raise Exception(f"Erro ao carregar modelo: {e}")

def preparar_entrada(dados_usuario):
    """
    Prepara os dados de entrada para predi√ß√£o

    Par√¢metros esperados no dicion√°rio dados_usuario:
    - genero: 'M' ou 'F'
    - idade: int (18-65)
    - perfil_fumante: 'Pesado', 'Moderado', 'Social', 'Esporadico', 'Nao_fumante'
    - marca_isqueiro: 'Bic', 'Zippo', 'Clipper', 'Cricket', 'Ronson', 'Generico'
    - tipo_isqueiro: 'Descartavel' ou 'Recarregavel'
    - preco_compra: float (0.5-100.0)
    - tempo_posse: int (dias)
    - contexto_uso: 'Casa', 'Rua', 'Trabalho', 'Bar', 'Parque', 'Social', 'Festa', 'Carro'
    - proposito_uso: 'Cigarro', 'Tabaco', 'Vela', 'Incenso', 'Fogao', 'Camping', 'Charuto', 'Outro'
    - num_ascendimentos: int
    - frequencia_uso: float (ascendimentos por dia)
    """

    # Criar features derivadas
    intensidade_uso = dados_usuario['num_ascendimentos'] / max(dados_usuario['tempo_posse'], 1)

    # Categoria de pre√ßo
    if dados_usuario['preco_compra'] <= 5:
        categoria_preco = 'Barato'
    elif dados_usuario['preco_compra'] <= 15:
        categoria_preco = 'Medio'
    else:
        categoria_preco = 'Caro'

    # Categoria de idade
    idade = dados_usuario['idade']
    if idade <= 25:
        categoria_idade = 'Jovem'
    elif idade <= 35:
        categoria_idade = 'Adulto_Jovem'
    elif idade <= 50:
        categoria_idade = 'Adulto'
    else:
        categoria_idade = 'Maduro'

    # Faixa et√°ria
    if idade <= 25:
        faixa_idade = '18-25'
    elif idade <= 35:
        faixa_idade = '26-35'
    elif idade <= 50:
        faixa_idade = '36-50'
    else:
        faixa_idade = '51+'

    # M√™s atual
    mes_compra = datetime.now().month

    # Criar DataFrame com todas as features necess√°rias
    features_dict = {
        'idade': dados_usuario['idade'],
        'preco_compra': dados_usuario['preco_compra'],
        'tempo_posse': dados_usuario['tempo_posse'],
        'num_ascendimentos': dados_usuario['num_ascendimentos'],
        'frequencia_uso': dados_usuario['frequencia_uso'],
        'intensidade_uso': intensidade_uso,
        'mes_compra': mes_compra,
        'genero': dados_usuario['genero'],
        'faixa_idade': faixa_idade,
        'perfil_fumante': dados_usuario['perfil_fumante'],
        'marca_isqueiro': dados_usuario['marca_isqueiro'],
        'tipo_isqueiro': dados_usuario['tipo_isqueiro'],
        'contexto_uso': dados_usuario['contexto_uso'],
        'proposito_uso': dados_usuario['proposito_uso'],
        'categoria_preco': categoria_preco,
        'categoria_idade': categoria_idade
    }

    return pd.DataFrame([features_dict])

def prever_perda_isqueiro(dados_usuario):
    """
    Fun√ß√£o principal para prever perda de isqueiro

    Retorna:
    - probabilidade: float (0-1) - Probabilidade de perda
    - categoria_risco: str - Categoria do risco
    - recomendacao: str - Recomenda√ß√£o para o usu√°rio
    """

    try:
        # Carregar modelo
        model = carregar_modelo()

        # Preparar dados
        df_input = preparar_entrada(dados_usuario)

        # Fazer predi√ß√£o
        probabilidade = model.predict_proba(df_input)[0, 1]
        predicao = model.predict(df_input)[0]

        # Categorizar risco
        if probabilidade < 0.3:
            categoria_risco = "Baixo"
            emoji_risco = "üü¢"
        elif probabilidade < 0.6:
            categoria_risco = "M√©dio"
            emoji_risco = "üü°"
        else:
            categoria_risco = "Alto"
            emoji_risco = "üî¥"

        # Gerar recomenda√ß√µes baseadas nos fatores de risco
        recomendacoes = []

        if dados_usuario['contexto_uso'] in ['Rua', 'Bar', 'Festa', 'Social']:
            recomendacoes.append("‚ö†Ô∏è Evite levar seu isqueiro para locais p√∫blicos se poss√≠vel")

        if dados_usuario['perfil_fumante'] in ['Social', 'Esporadico']:
            recomendacoes.append("üí° Considere manter seu isqueiro sempre no mesmo bolso")

        if dados_usuario['tipo_isqueiro'] == 'Descartavel':
            recomendacoes.append("üîÑ Isqueiros descart√°veis s√£o perdidos mais facilmente - considere um recarreg√°vel")

        if dados_usuario['frequencia_uso'] > 3.0:
            recomendacoes.append("üì± Alto uso = alto risco. Configure lembretes para verificar seu isqueiro")

        if dados_usuario['idade'] <= 25:
            recomendacoes.append("üë§ Jovens tendem a perder mais - tenha aten√ß√£o extra!")

        if not recomendacoes:
            recomendacoes.append("‚úÖ Continue com seus h√°bitos atuais - baixo risco de perda!")

        resultado = {
            'probabilidade': round(probabilidade * 100, 2),
            'categoria_risco': categoria_risco,
            'emoji_risco': emoji_risco,
            'predicao_binaria': 'Sim' if predicao else 'N√£o',
            'recomendacoes': recomendacoes,
            'fatores_risco': {
                'contexto_uso': dados_usuario['contexto_uso'],
                'perfil_fumante': dados_usuario['perfil_fumante'],
                'tipo_isqueiro': dados_usuario['tipo_isqueiro'],
                'frequencia_uso': dados_usuario['frequencia_uso'],
                'idade': dados_usuario['idade']
            }
        }

        return resultado

    except Exception as e:
        return {
            'erro': f"Erro na predi√ß√£o: {str(e)}",
            'probabilidade': None,
            'categoria_risco': None,
            'recomendacao': "Erro no processamento"
        }

# EXEMPLO DE USO:
if __name__ == "__main__":
    # Exemplo 1: Alto risco
    exemplo_alto_risco = {
        'genero': 'M',
        'idade': 22,
        'perfil_fumante': 'Social',
        'marca_isqueiro': 'Bic',
        'tipo_isqueiro': 'Descartavel',
        'preco_compra': 2.50,
        'tempo_posse': 15,
        'contexto_uso': 'Bar',
        'proposito_uso': 'Cigarro',
        'num_ascendimentos': 50,
        'frequencia_uso': 3.33
    }

    # Exemplo 2: Baixo risco
    exemplo_baixo_risco = {
        'genero': 'F',
        'idade': 45,
        'perfil_fumante': 'Nao_fumante',
        'marca_isqueiro': 'Zippo',
        'tipo_isqueiro': 'Recarregavel',
        'preco_compra': 55.00,
        'tempo_posse': 90,
        'contexto_uso': 'Casa',
        'proposito_uso': 'Vela',
        'num_ascendimentos': 25,
        'frequencia_uso': 0.28
    }

    print("=== TESTE DO MODELO ===")
    print("\\nüî¥ EXEMPLO ALTO RISCO:")
    resultado1 = prever_perda_isqueiro(exemplo_alto_risco)
    print(f"Probabilidade: {resultado1['probabilidade']:.1f}%")
    print(f"Categoria: {resultado1['emoji_risco']} {resultado1['categoria_risco']}")
    print("Recomenda√ß√µes:")
    for rec in resultado1['recomendacoes']:
        print(f"  {rec}")

    print("\\nüü¢ EXEMPLO BAIXO RISCO:")
    resultado2 = prever_perda_isqueiro(exemplo_baixo_risco)
    print(f"Probabilidade: {resultado2['probabilidade']:.1f}%")
    print(f"Categoria: {resultado2['emoji_risco']} {resultado2['categoria_risco']}")
    print("Recomenda√ß√µes:")
    for rec in resultado2['recomendacoes']:
        print(f"  {rec}")
'''

    return codigo_producao

# Salvar c√≥digo de produ√ß√£o
codigo_producao = criar_funcao_predicao()
with open('lighter_tracker_predicao.py', 'w', encoding='utf-8') as f:
    f.write(codigo_producao)

print("üíæ C√≥digo para produ√ß√£o salvo como 'lighter_tracker_predicao.py'")


üöÄ PREPARA√á√ÉO PARA DEPLOY
üíæ Modelo salvo como 'lighter_tracker_model.pkl'
üíæ Informa√ß√µes do modelo salvas como 'model_info.json'
üíæ C√≥digo para produ√ß√£o salvo como 'lighter_tracker_predicao.py'


# 15. TESTE DA FUN√á√ÉO DE PRODU√á√ÉO

In [21]:

print("\nüß™ Testando fun√ß√£o de produ√ß√£o...")

# Simular exemplos para teste
exemplo_alto_risco = {
    'genero': 'M',
    'idade': 22,
    'perfil_fumante': 'Social',
    'marca_isqueiro': 'Bic',
    'tipo_isqueiro': 'Descartavel',
    'preco_compra': 2.50,
    'tempo_posse': 15,
    'contexto_uso': 'Bar',
    'proposito_uso': 'Cigarro',
    'num_ascendimentos': 50,
    'frequencia_uso': 3.33
}

exemplo_baixo_risco = {
    'genero': 'F',
    'idade': 45,
    'perfil_fumante': 'Nao_fumante',
    'marca_isqueiro': 'Zippo',
    'tipo_isqueiro': 'Recarregavel',
    'preco_compra': 55.00,
    'tempo_posse': 90,
    'contexto_uso': 'Casa',
    'proposito_uso': 'Vela',
    'num_ascendimentos': 25,
    'frequencia_uso': 0.28
}

# Fun√ß√£o de teste (simula√ß√£o da fun√ß√£o de produ√ß√£o)
def testar_predicao(dados_usuario, nome_caso):
    """Testa a predi√ß√£o com os dados fornecidos"""

    # Preparar dados igual √† fun√ß√£o de produ√ß√£o
    df_test = pd.DataFrame([dados_usuario])

    # Criar features derivadas
    df_test['intensidade_uso'] = df_test['num_ascendimentos'] / df_test['tempo_posse']

    # Categorias
    df_test['categoria_preco'] = pd.cut(df_test['preco_compra'],
                                       bins=[0, 5, 15, 100],
                                       labels=['Barato', 'Medio', 'Caro'])

    df_test['categoria_idade'] = pd.cut(df_test['idade'],
                                       bins=[17, 25, 35, 50, 70],
                                       labels=['Jovem', 'Adulto_Jovem', 'Adulto', 'Maduro'])

    # Faixa et√°ria
    idade = df_test['idade'].iloc[0]
    if idade <= 25:
        faixa_idade = '18-25'
    elif idade <= 35:
        faixa_idade = '26-35'
    elif idade <= 50:
        faixa_idade = '36-50'
    else:
        faixa_idade = '51+'

    df_test['faixa_idade'] = faixa_idade
    df_test['mes_compra'] = datetime.now().month

    # Selecionar features na ordem correta
    df_test = df_test[all_features]

    # Fazer predi√ß√£o
    probabilidade = best_model.predict_proba(df_test)[0, 1]

    # Categorizar risco
    if probabilidade < 0.3:
        categoria_risco = "Baixo üü¢"
    elif probabilidade < 0.6:
        categoria_risco = "M√©dio üü°"
    else:
        categoria_risco = "Alto üî¥"

    print(f"\n{nome_caso}:")
    print(f"  Probabilidade de perda: {probabilidade*100:.1f}%")
    print(f"  Categoria de risco: {categoria_risco}")

    return probabilidade

# Testar exemplos
prob_alto = testar_predicao(exemplo_alto_risco, "üî¥ EXEMPLO ALTO RISCO")
prob_baixo = testar_predicao(exemplo_baixo_risco, "üü¢ EXEMPLO BAIXO RISCO")


üß™ Testando fun√ß√£o de produ√ß√£o...

üî¥ EXEMPLO ALTO RISCO:
  Probabilidade de perda: 81.0%
  Categoria de risco: Alto üî¥

üü¢ EXEMPLO BAIXO RISCO:
  Probabilidade de perda: 29.8%
  Categoria de risco: Baixo üü¢


# 16. RESUMO FINAL E M√âTRICAS DO PROJETO


In [22]:

print("\n" + "="*60)
print("üìã RESUMO FINAL DO PROJETO")
print("="*60)

print(f"""
üéØ PROJETO LIGHTER TRACKER - SISTEMA DE PREDI√á√ÉO DE PERDA DE ISQUEIROS
================================================================

üìä DADOS:
   ‚Ä¢ Base sint√©tica gerada: {len(df)} registros
   ‚Ä¢ Per√≠odo: {df['data_compra'].min().strftime('%Y-%m-%d')} a {df['data_uso'].max().strftime('%Y-%m-%d')}
   ‚Ä¢ Taxa de perda real: {df['perdeu'].mean()*100:.1f}%
   ‚Ä¢ Features utilizadas: {len(all_features)} ({len(features_numericas)} num√©ricas + {len(features_categoricas)} categ√≥ricas)

ü§ñ MODELO:
   ‚Ä¢ Algoritmo: Regress√£o Log√≠stica
   ‚Ä¢ Pr√©-processamento: StandardScaler + OneHotEncoder
   ‚Ä¢ Balanceamento: class_weight='balanced'
   ‚Ä¢ Otimiza√ß√£o: GridSearchCV (5-fold CV)

üìà PERFORMANCE:
   ‚Ä¢ Acur√°cia:     {accuracy*100:.2f}%
   ‚Ä¢ Precis√£o:     {precision*100:.2f}%
   ‚Ä¢ Recall:       {recall*100:.2f}%
   ‚Ä¢ F1-Score:     {f1*100:.2f}%
   ‚Ä¢ AUC-ROC:      {auc_roc*100:.2f}%

üîç PRINCIPAIS INSIGHTS:
   ‚Ä¢ Contextos de maior risco: Rua, Bar, Festa, Social
   ‚Ä¢ Perfis de maior risco: Social, Espor√°dico
   ‚Ä¢ Isqueiros descart√°veis s√£o perdidos mais facilmente
   ‚Ä¢ Jovens (18-25) t√™m maior tend√™ncia √† perda
   ‚Ä¢ Uso frequente aumenta risco (mais lugares = mais risco)

üìÅ ARQUIVOS GERADOS:
   ‚úÖ lighter_tracker_dados_brutos.csv - Base sint√©tica original
   ‚úÖ lighter_tracker_com_predicoes.csv - Base com predi√ß√µes
   ‚úÖ lighter_tracker_model.pkl - Modelo treinado para deploy
   ‚úÖ model_info.json - Informa√ß√µes e m√©tricas do modelo
   ‚úÖ lighter_tracker_predicao.py - C√≥digo para produ√ß√£o

üöÄ APLICA√á√ÉO PR√ÅTICA:
   ‚Ä¢ Sistema de recomenda√ß√µes em tempo real
   ‚Ä¢ Alertas preventivos baseados em comportamento
   ‚Ä¢ Insights para melhorar reten√ß√£o de isqueiros
   ‚Ä¢ Interface amig√°vel com categoriza√ß√£o de risco

üîÆ EXEMPLO DE PREDI√á√ÉO:
   ‚Ä¢ Alto risco (jovem, bar, descart√°vel): {prob_alto*100:.1f}%
   ‚Ä¢ Baixo risco (adulto, casa, recarreg√°vel): {prob_baixo*100:.1f}%

================================================================
‚úÖ PROJETO CONCLU√çDO COM SUCESSO!
üí° Pronto para integra√ß√£o em sistema web/mobile
üì± C√≥digo otimizado para deploy em produ√ß√£o
""")

print("\nüéâ FIM DO NOTEBOOK - LIGHTER TRACKER ML PIPELINE")
print("=" * 60)


üìã RESUMO FINAL DO PROJETO

üéØ PROJETO LIGHTER TRACKER - SISTEMA DE PREDI√á√ÉO DE PERDA DE ISQUEIROS

üìä DADOS:
   ‚Ä¢ Base sint√©tica gerada: 1200 registros
   ‚Ä¢ Per√≠odo: 2024-09-17 a 2026-02-22
   ‚Ä¢ Taxa de perda real: 50.5%
   ‚Ä¢ Features utilizadas: 16 (7 num√©ricas + 9 categ√≥ricas)

ü§ñ MODELO:
   ‚Ä¢ Algoritmo: Regress√£o Log√≠stica
   ‚Ä¢ Pr√©-processamento: StandardScaler + OneHotEncoder
   ‚Ä¢ Balanceamento: class_weight='balanced'
   ‚Ä¢ Otimiza√ß√£o: GridSearchCV (5-fold CV)

üìà PERFORMANCE:
   ‚Ä¢ Acur√°cia:     58.33%
   ‚Ä¢ Precis√£o:     58.82%
   ‚Ä¢ Recall:       57.85%
   ‚Ä¢ F1-Score:     58.33%
   ‚Ä¢ AUC-ROC:      62.22%

üîç PRINCIPAIS INSIGHTS:
   ‚Ä¢ Contextos de maior risco: Rua, Bar, Festa, Social
   ‚Ä¢ Perfis de maior risco: Social, Espor√°dico
   ‚Ä¢ Isqueiros descart√°veis s√£o perdidos mais facilmente
   ‚Ä¢ Jovens (18-25) t√™m maior tend√™ncia √† perda
   ‚Ä¢ Uso frequente aumenta risco (mais lugares = mais risco)

üìÅ ARQUIVOS GERADOS