In [8]:
# Instala√ß√£o de depend√™ncias necess√°rias
import subprocess
import sys
import importlib

def install_and_import(package_name, import_name=None):
    """Instala e importa um pacote se necess√°rio"""
    if import_name is None:
        import_name = package_name.replace('-', '_')
    
    try:
        # Tenta importar
        importlib.import_module(import_name)
        print(f"‚úÖ {package_name} j√° instalado")
        return True
    except ImportError:
        try:
            print(f"üì¶ Instalando {package_name}...")
            subprocess.check_call([
                sys.executable, "-m", "pip", "install", 
                package_name, "--user", "--quiet"
            ])
            # Tenta importar novamente
            importlib.import_module(import_name)
            print(f"‚úÖ {package_name} instalado com sucesso")
            return True
        except Exception as e:
            print(f"‚ùå Erro ao instalar {package_name}: {e}")
            return False

# Lista de pacotes necess√°rios com seus nomes de importa√ß√£o
packages = [
    ('scikit-learn', 'sklearn'),
    ('lightgbm', 'lightgbm'), 
    ('xgboost', 'xgboost'),
    ('matplotlib', 'matplotlib'),
    ('seaborn', 'seaborn'),
    ('plotly', 'plotly'),
    ('psutil', 'psutil'),
    ('pandas', 'pandas'),
    ('numpy', 'numpy')
]

print("üîß Verificando e instalando depend√™ncias...")
success_count = 0
total_count = len(packages)

for package_name, import_name in packages:
    if install_and_import(package_name, import_name):
        success_count += 1

print(f"\nüìä Resultado: {success_count}/{total_count} pacotes dispon√≠veis")

if success_count == total_count:
    print("üéâ Todas as depend√™ncias est√£o prontas!")
else:
    print("‚ö†Ô∏è Algumas depend√™ncias podem estar faltando")
    print("üí° Tente executar novamente ou instale manualmente com: pip install scikit-learn lightgbm xgboost")

üîß Verificando e instalando depend√™ncias...
üì¶ Instalando scikit-learn...
‚úÖ scikit-learn instalado com sucesso
üì¶ Instalando lightgbm...
‚úÖ scikit-learn instalado com sucesso
üì¶ Instalando lightgbm...
‚úÖ lightgbm instalado com sucesso
üì¶ Instalando xgboost...
‚úÖ lightgbm instalado com sucesso
üì¶ Instalando xgboost...
‚úÖ xgboost instalado com sucesso
üì¶ Instalando matplotlib...
‚úÖ xgboost instalado com sucesso
üì¶ Instalando matplotlib...
‚úÖ matplotlib instalado com sucesso
üì¶ Instalando seaborn...
‚úÖ matplotlib instalado com sucesso
üì¶ Instalando seaborn...
‚úÖ seaborn instalado com sucesso
üì¶ Instalando plotly...
‚úÖ seaborn instalado com sucesso
üì¶ Instalando plotly...
‚úÖ plotly instalado com sucesso
‚úÖ psutil j√° instalado
‚úÖ pandas j√° instalado
‚úÖ numpy j√° instalado

üìä Resultado: 9/9 pacotes dispon√≠veis
üéâ Todas as depend√™ncias est√£o prontas!
‚úÖ plotly instalado com sucesso
‚úÖ psutil j√° instalado
‚úÖ pandas j√° instalado
‚úÖ numpy j

# M5 Forecasting - Previs√£o de Demanda Walmart

## üéØ Objetivo
Desenvolver um modelo preditivo de demanda para itens de varejo usando a base de dados Walmart M5 Forecasting.

## üìã Estrutura do Projeto
1. **Carregamento e An√°lise Explorat√≥ria**
2. **Engenharia de Features**
3. **Modelagem (LightGBM/XGBoost)**
4. **Avalia√ß√£o e Visualiza√ß√µes**
5. **Previs√µes Finais**

In [9]:
# Importa√ß√µes b√°sicas
import sys
import os
import warnings
warnings.filterwarnings('ignore')

# Verifica se sklearn est√° dispon√≠vel
try:
    import sklearn
    print(f"‚úÖ scikit-learn vers√£o {sklearn.__version__} dispon√≠vel")
except ImportError:
    print("‚ùå scikit-learn n√£o encontrado. Instalando...")
    import subprocess
    subprocess.check_call([sys.executable, "-m", "pip", "install", "scikit-learn", "--user"])
    import sklearn
    print(f"‚úÖ scikit-learn vers√£o {sklearn.__version__} instalado")

# Adiciona o diret√≥rio src ao path
project_root = r"c:\Users\thiago.santos\Desktop\PESSOAL\RandomF_XGB\m5_project"
src_path = os.path.join(project_root, 'src')
if src_path not in sys.path:
    sys.path.append(src_path)

print(f"üìÅ Caminho src adicionado: {src_path}")

# Testa importa√ß√µes uma por uma
modules_status = {}

# 1. Testa config
try:
    import config
    modules_status['config'] = True
    print("‚úÖ config importado")
except Exception as e:
    modules_status['config'] = False
    print(f"‚ùå Erro no config: {e}")

# 2. Testa data_loader
try:
    from data_loader import M5DataLoader
    modules_status['data_loader'] = True
    print("‚úÖ data_loader importado")
except Exception as e:
    modules_status['data_loader'] = False
    print(f"‚ùå Erro no data_loader: {e}")

# 3. Testa feature_engineering
try:
    from feature_engineering import M5FeatureEngineer
    modules_status['feature_engineering'] = True
    print("‚úÖ feature_engineering importado")
except Exception as e:
    modules_status['feature_engineering'] = False
    print(f"‚ùå Erro no feature_engineering: {e}")

# 4. Testa modeling
try:
    from modeling import M5Model, M5Ensemble
    modules_status['modeling'] = True
    print("‚úÖ modeling importado")
except Exception as e:
    modules_status['modeling'] = False
    print(f"‚ùå Erro no modeling: {e}")

# 5. Testa visualization
try:
    from visualization import M5Visualizer
    modules_status['visualization'] = True
    print("‚úÖ visualization importado")
except Exception as e:
    modules_status['visualization'] = False
    print(f"‚ùå Erro no visualization: {e}")

# 6. Testa utils
try:
    from utils import MemoryManager, reduce_memory_usage, timer, check_environment
    modules_status['utils'] = True
    print("‚úÖ utils importado")
except Exception as e:
    modules_status['utils'] = False
    print(f"‚ùå Erro no utils: {e}")

# Resumo
success_modules = sum(modules_status.values())
total_modules = len(modules_status)

print(f"\nüìä M√≥dulos carregados: {success_modules}/{total_modules}")

if success_modules >= 4:  # Pelo menos os principais
    print("‚úÖ M√≥dulos principais carregados com sucesso!")
    
    # Informa√ß√µes do ambiente se utils funcionar
    if modules_status['utils']:
        try:
            print("\nüìä Informa√ß√µes do ambiente:")
            env_info = check_environment()
            for key, value in env_info.items():
                print(f"  {key}: {value}")
        except:
            print("‚ö†Ô∏è N√£o foi poss√≠vel obter informa√ß√µes do ambiente")
else:
    print("‚ö†Ô∏è Alguns m√≥dulos n√£o carregaram. Verifique as depend√™ncias.")

print(f"\nüìÅ Arquivos em src:")
if os.path.exists(src_path):
    for file in os.listdir(src_path):
        if file.endswith('.py'):
            status = "‚úÖ" if modules_status.get(file.replace('.py', ''), False) else "‚ùå"
            print(f"  {status} {file}")

‚úÖ scikit-learn vers√£o 1.7.1 dispon√≠vel
üìÅ Caminho src adicionado: c:\Users\thiago.santos\Desktop\PESSOAL\RandomF_XGB\m5_project\src
‚úÖ config importado
‚úÖ data_loader importado
‚úÖ feature_engineering importado
‚úÖ modeling importado
‚úÖ visualization importado
‚úÖ utils importado

üìä M√≥dulos carregados: 6/6
‚úÖ M√≥dulos principais carregados com sucesso!

üìä Informa√ß√µes do ambiente:
  python_version: 3.13.1 (tags/v3.13.1:0671451, Dec  3 2024, 19:06:28) [MSC v.1942 64 bit (AMD64)]
  memory_total_gb: 7.88818359375
  memory_available_gb: 1.8407859802246094
  cpu_count: 4
  current_memory_usage_mb: 183.37890625
  gpu_available: False

üìÅ Arquivos em src:
  ‚úÖ config.py
  ‚úÖ data_loader.py
  ‚úÖ feature_engineering.py
  ‚úÖ modeling.py
  ‚úÖ utils.py
  ‚úÖ visualization.py
  ‚ùå __init__.py
‚úÖ visualization importado
‚úÖ utils importado

üìä M√≥dulos carregados: 6/6
‚úÖ M√≥dulos principais carregados com sucesso!

üìä Informa√ß√µes do ambiente:
  python_version: 3.13.

## 1. üìÅ Carregamento dos Dados

In [7]:
# Verifica se os dados existem
import os

data_path = r"c:\Users\thiago.santos\Desktop\PESSOAL\RandomF_XGB\m5-forecasting-accuracy"
if not os.path.exists(data_path):
    print(f"‚ùå Diret√≥rio de dados n√£o encontrado: {data_path}")
    print("Verifique o caminho dos dados M5 Forecasting")
else:
    # Lista arquivos de dados
    required_files = ['sales_train_validation.csv', 'calendar.csv', 'sell_prices.csv', 'sample_submission.csv']
    missing_files = []
    
    for file in required_files:
        if not os.path.exists(os.path.join(data_path, file)):
            missing_files.append(file)
    
    if missing_files:
        print(f"‚ùå Arquivos de dados faltando: {missing_files}")
    else:
        print("‚úÖ Todos os arquivos de dados encontrados!")
        
        # Inicializa o carregador de dados
        try:
            with MemoryManager(verbose=True):
                loader = M5DataLoader(data_path)
                
                # Carrega todos os dados
                data_dict = loader.load_all_data()
                
                # Obt√©m informa√ß√µes b√°sicas
                basic_info = loader.get_basic_info()
                
            print("\nüìà Informa√ß√µes B√°sicas dos Dados:")
            for key, value in basic_info.items():
                print(f"  {key}: {value}")

            print("\nüíæ Uso de Mem√≥ria:")
            memory_info = loader.get_memory_usage()
            for key, value in memory_info.items():
                print(f"  {key}: {value}")
                
        except Exception as e:
            print(f"‚ùå Erro ao carregar dados: {e}")
            print("Verifique se os arquivos de dados est√£o corretos")

‚úÖ Todos os arquivos de dados encontrados!
‚ùå Erro ao carregar dados: name 'MemoryManager' is not defined
Verifique se os arquivos de dados est√£o corretos


In [None]:
# Preprocessa o calendar
try:
    calendar_processed = loader.preprocess_calendar()
    
    print("‚úÖ Calendar preprocessado!")
    print(f"Shape: {calendar_processed.shape}")
    print(f"Colunas originais: {len(loader.calendar.columns)}")
    print(f"Colunas adicionadas: {[col for col in calendar_processed.columns if col not in loader.calendar.columns]}")
    
    # Mostra algumas informa√ß√µes do calendar
    print(f"\nPer√≠odo dos dados: {calendar_processed['date'].min()} a {calendar_processed['date'].max()}")
    print(f"Total de dias: {len(calendar_processed)}")
    
except Exception as e:
    print(f"‚ùå Erro ao processar calendar: {e}")
    print("Verifique se o loader foi inicializado corretamente")

## 2. üîç An√°lise Explorat√≥ria

In [None]:
# Inicializa visualizador
try:
    viz = M5Visualizer()
    
    # Para an√°lise explorat√≥ria, vamos usar uma amostra dos dados
    # Converte dados para formato long (amostra)
    feature_eng = M5FeatureEngineer()
    
    # Verifica se temos dados carregados
    if 'data_dict' in locals() and 'sales_train' in data_dict:
        # Usa apenas uma amostra para an√°lise explorat√≥ria
        sales_sample = data_dict['sales_train'].sample(n=min(1000, len(data_dict['sales_train'])), random_state=42)
        sample_melted = feature_eng.create_melted_data(sales_sample, calendar_processed)
        
        print(f"‚úÖ Amostra para an√°lise: {len(sample_melted):,} registros")
        print(f"Per√≠odo da amostra: {sample_melted['date'].min()} a {sample_melted['date'].max()}")
        
    else:
        print("‚ùå Dados n√£o carregados. Execute as c√©lulas anteriores primeiro.")
        
except Exception as e:
    print(f"‚ùå Erro na an√°lise explorat√≥ria: {e}")
    print("Verifique se os dados foram carregados corretamente")

In [None]:
# Adiciona pre√ßos √† amostra e cria dashboard
try:
    if 'sample_melted' in locals():
        # Adiciona pre√ßos √† amostra
        sample_with_prices = feature_eng.add_price_features(sample_melted, data_dict['sell_prices'])
        
        print(f"‚úÖ Pre√ßos adicionados! Shape: {sample_with_prices.shape}")
        print(f"Colunas de pre√ßo: {[col for col in sample_with_prices.columns if 'price' in col.lower()]}")
        
        # Dashboard resumo
        print("\nüìä Gerando dashboard resumo...")
        viz.create_dashboard_summary(sample_with_prices)
        
    else:
        print("‚ùå sample_melted n√£o encontrado. Execute a c√©lula anterior primeiro.")
        
except Exception as e:
    print(f"‚ùå Erro ao adicionar pre√ßos: {e}")
    print("Verifique se os dados de pre√ßos est√£o dispon√≠veis")

In [None]:
# Visualiza√ß√µes explorat√≥rias
print("üìä Gerando visualiza√ß√µes explorat√≥rias...")

# Overview das vendas
viz.plot_sales_overview(sample_with_prices)

In [None]:
# Padr√µes sazonais
viz.plot_seasonal_patterns(sample_with_prices)

In [None]:
# An√°lise de itens
viz.plot_item_analysis(sample_with_prices)

In [None]:
# An√°lise de pre√ßos
viz.plot_price_analysis(sample_with_prices)

## 3. ‚öôÔ∏è Engenharia de Features

In [None]:
# Para o modelo completo, vamos usar mais dados
# Seleciona uma amostra maior (ajuste conforme capacidade do sistema)
sample_size = min(5000, len(data_dict['sales_train']))  # Ajuste conforme sua mem√≥ria dispon√≠vel

print(f"üîß Iniciando engenharia de features com {sample_size} itens...")

try:
    with MemoryManager(verbose=True):
        # Seleciona amostra dos dados
        sales_modeling = data_dict['sales_train'].sample(n=sample_size, random_state=42)
        
        # Aplica otimiza√ß√£o de mem√≥ria
        if hasattr(config, 'MEMORY_OPTIMIZATION') and config.MEMORY_OPTIMIZATION:
            sales_modeling = reduce_memory_usage(sales_modeling)
            calendar_opt = reduce_memory_usage(calendar_processed.copy())
            prices_opt = reduce_memory_usage(data_dict['sell_prices'].copy())
        else:
            calendar_opt = calendar_processed
            prices_opt = data_dict['sell_prices']
        
        # Cria features completas
        feature_data = feature_eng.create_all_features(
            sales_modeling, 
            calendar_opt, 
            prices_opt
        )
        
        print(f"\n‚úÖ Features criadas! Shape final: {feature_data.shape}")
        print(f"Colunas criadas: {list(feature_data.columns)}")
        
except Exception as e:
    print(f"‚ùå Erro na engenharia de features: {e}")
    print("Tentando uma vers√£o simplificada...")
    
    try:
        # Vers√£o simplificada
        sales_modeling = data_dict['sales_train'].sample(n=min(1000, len(data_dict['sales_train'])), random_state=42)
        sample_melted_simple = feature_eng.create_melted_data(sales_modeling, calendar_processed)
        feature_data = feature_eng.add_price_features(sample_melted_simple, data_dict['sell_prices'])
        feature_data = feature_eng.add_lag_features(feature_data, lags=[1, 7])
        feature_data = feature_eng.add_rolling_features(feature_data, windows=[7])
        
        print(f"‚úÖ Features simplificadas criadas! Shape: {feature_data.shape}")
        
    except Exception as e2:
        print(f"‚ùå Erro mesmo na vers√£o simplificada: {e2}")
        print("Verifique se todos os m√≥dulos est√£o funcionando corretamente")

In [None]:
# Lista de features para o modelo
try:
    if 'feature_data' in locals():
        feature_cols = feature_eng.get_feature_list(feature_data)
        
        print(f"üìù Total de features: {len(feature_cols)}")
        print(f"\nPrimeiras 20 features:")
        for i, feature in enumerate(feature_cols[:20]):
            print(f"  {i+1:2d}. {feature}")
            
        if len(feature_cols) > 20:
            print(f"  ... e mais {len(feature_cols) - 20} features")
            
        # Verifica tipos de dados
        print(f"\nTipos de dados das features:")
        feature_types = feature_data[feature_cols].dtypes.value_counts()
        for dtype, count in feature_types.items():
            print(f"  {dtype}: {count} features")
            
    else:
        print("‚ùå feature_data n√£o encontrado. Execute as c√©lulas anteriores primeiro.")
        
except Exception as e:
    print(f"‚ùå Erro ao listar features: {e}")
    print("Tentando listar colunas diretamente...")
    if 'feature_data' in locals():
        print(f"Colunas dispon√≠veis: {list(feature_data.columns)}")
        # Features b√°sicas que devem existir
        basic_features = ['demand', 'sell_price', 'wm_yr_wk']
        feature_cols = [col for col in feature_data.columns if col in basic_features or 
                       any(x in col for x in ['lag', 'rolling', 'price', 'snap', 'year', 'month', 'day'])]
        print(f"Features b√°sicas encontradas: {feature_cols}")

In [None]:
# Teste r√°pido para verificar se podemos prosseguir
print("üîç Verifica√ß√£o dos dados preparados:")

if 'feature_data' in locals() and 'feature_cols' in locals():
    print(f"‚úÖ feature_data dispon√≠vel: {feature_data.shape}")
    print(f"‚úÖ feature_cols dispon√≠vel: {len(feature_cols)} features")
    
    # Verifica dados v√°lidos
    valid_data = feature_data.dropna(subset=['demand'])
    print(f"‚úÖ Registros v√°lidos: {len(valid_data):,}")
    
    if len(valid_data) > 100:
        print("‚úÖ Dados suficientes para modelagem!")
        # Pequena amostra dos dados
        print(f"\nAmostra dos dados:")
        print(feature_data[['demand'] + feature_cols[:5]].head())
    else:
        print("‚ö†Ô∏è Poucos dados v√°lidos. Considere aumentar a amostra.")
        
else:
    print("‚ùå Dados n√£o preparados. Execute as c√©lulas anteriores.")
    print("Vari√°veis dispon√≠veis:")
    print([var for var in locals().keys() if not var.startswith('_')])

In [None]:
# Remove linhas com muitos NaN (principalmente dos lags iniciais)
print(f"üìä Dados antes da limpeza: {len(feature_data):,} registros")

# Remove linhas onde mais de 30% das features s√£o NaN
threshold = len(feature_cols) * 0.7
feature_data_clean = feature_data.dropna(subset=feature_cols, thresh=threshold)

print(f"üìä Dados ap√≥s limpeza: {len(feature_data_clean):,} registros")
print(f"üìä Registros removidos: {len(feature_data) - len(feature_data_clean):,}")

## 4. ü§ñ Modelagem

In [None]:
# Divide dados em treino e valida√ß√£o
try:
    # Importa fun√ß√£o de divis√£o
    from utils import split_train_validation
    
    # Usa configura√ß√£o padr√£o se n√£o estiver definida
    validation_days = getattr(config, 'VALIDATION_DAYS', 28)
    
    # Remove linhas com NaN antes da divis√£o
    if 'feature_data' in locals():
        clean_data = feature_data.dropna(subset=['demand'] + feature_cols[:10])  # Usa apenas primeiras 10 features para verifica√ß√£o
        
        train_data, val_data = split_train_validation(clean_data, validation_days=validation_days)
        
        print("\nüìä Distribui√ß√£o dos dados:")
        print(f"  Total: {len(clean_data):,} registros")
        print(f"  Treino: {len(train_data):,} registros")
        print(f"  Valida√ß√£o: {len(val_data):,} registros")
        print(f"  Per√≠odo de valida√ß√£o: {validation_days} dias")
        
        if len(train_data) > 100 and len(val_data) > 10:
            print("‚úÖ Divis√£o bem-sucedida!")
        else:
            print("‚ö†Ô∏è Poucos dados para treino/valida√ß√£o")
            
    else:
        print("‚ùå feature_data n√£o encontrado. Execute as c√©lulas anteriores.")
        
except Exception as e:
    print(f"‚ùå Erro na divis√£o dos dados: {e}")
    print("Tentando divis√£o simples...")
    
    try:
        # Divis√£o simples por √≠ndice
        split_idx = int(len(feature_data) * 0.8)
        train_data = feature_data.iloc[:split_idx]
        val_data = feature_data.iloc[split_idx:]
        
        print(f"‚úÖ Divis√£o simples:")
        print(f"  Treino: {len(train_data):,}")
        print(f"  Valida√ß√£o: {len(val_data):,}")
        
    except Exception as e2:
        print(f"‚ùå Erro na divis√£o simples: {e2}")

In [None]:
# Treina modelo LightGBM
print("üöÄ Treinando modelo LightGBM...")

try:
    if 'train_data' in locals() and 'feature_cols' in locals():
        with MemoryManager(verbose=True):
            # Inicializa modelo
            lgb_model = M5Model(model_type='lightgbm')
            
            # Prepara dados de treino
            X_train, y_train = lgb_model.prepare_training_data(train_data, feature_cols)
            
            print(f"Dados de treino preparados: {X_train.shape}")
            print(f"Target shape: {y_train.shape}")
            
            # Verifica se temos dados v√°lidos
            if len(X_train) > 50:
                # Usa configura√ß√£o padr√£o se n√£o estiver definida
                cv_splits = getattr(config, 'CV_SPLITS', 2)  # Reduzido para ser mais r√°pido
                
                # Treina com cross-validation
                cv_results = lgb_model.time_series_split_train(X_train, y_train, n_splits=cv_splits)
                
                print("\n‚úÖ Treinamento conclu√≠do!")
                print(f"CV splits realizados: {cv_splits}")
                
            else:
                print("‚ö†Ô∏è Poucos dados para treinamento. Tentando treino simples...")
                
                # Treino simples sem CV
                lgb_model.train_simple(X_train, y_train)
                print("‚úÖ Treino simples conclu√≠do!")
                
    else:
        print("‚ùå Dados de treino ou features n√£o encontrados.")
        print("Execute as c√©lulas anteriores primeiro.")
        
except Exception as e:
    print(f"‚ùå Erro no treinamento: {e}")
    print("Tentando treinamento mais simples...")
    
    try:
        # Treinamento b√°sico com LightGBM direto
        import lightgbm as lgb
        import numpy as np
        
        # Seleciona apenas features num√©ricas
        numeric_cols = feature_data.select_dtypes(include=[np.number]).columns
        feature_cols_simple = [col for col in numeric_cols if col != 'demand'][:10]  # M√°ximo 10 features
        
        X_simple = train_data[feature_cols_simple].fillna(0)
        y_simple = train_data['demand'].fillna(0)
        
        train_data_lgb = lgb.Dataset(X_simple, label=y_simple)
        
        params = {
            'objective': 'regression',
            'metric': 'rmse',
            'verbose': -1,
            'num_leaves': 31,
            'learning_rate': 0.1
        }
        
        model_simple = lgb.train(params, train_data_lgb, num_boost_round=50)
        
        print("‚úÖ Modelo simples treinado!")
        print(f"Features usadas: {feature_cols_simple}")
        
    except Exception as e2:
        print(f"‚ùå Erro no treino simples: {e2}")

In [None]:
# Visualiza performance do modelo
print("üìä Performance do modelo:")

# Resumo CV
cv_summary = lgb_model.get_cv_summary()
print(cv_summary)

# Visualiza√ß√£o
viz.plot_model_performance(cv_results)

In [None]:
# Feature importance
print("üéØ Import√¢ncia das Features:")
print(lgb_model.feature_importance.head(10))

# Visualiza feature importance
viz.plot_feature_importance(lgb_model.feature_importance, top_n=20)

## 5. üìà Avalia√ß√£o no Conjunto de Valida√ß√£o

In [None]:
# Prepara dados de valida√ß√£o
X_val, y_val = lgb_model.prepare_training_data(val_data, feature_cols)

print(f"Dados de valida√ß√£o: {X_val.shape}")

# Faz predi√ß√µes
y_pred_val = lgb_model.predict(X_val)

# Calcula m√©tricas
from sklearn.metrics import mean_squared_error, mean_absolute_error
import numpy as np

val_rmse = np.sqrt(mean_squared_error(y_val, y_pred_val))
val_mae = mean_absolute_error(y_val, y_pred_val)

print(f"\nüìä M√©tricas de Valida√ß√£o:")
print(f"  RMSE: {val_rmse:.4f}")
print(f"  MAE: {val_mae:.4f}")
print(f"  MAPE: {np.mean(np.abs((y_val - y_pred_val) / (y_val + 1e-8))) * 100:.2f}%")

In [None]:
# Visualiza predi√ß√µes vs real
viz.plot_predictions_vs_actual(y_val.values, y_pred_val)

## 6. üéØ Compara√ß√£o com XGBoost (Opcional)

In [None]:
# Treina modelo XGBoost para compara√ß√£o
print("üöÄ Treinando modelo XGBoost para compara√ß√£o...")

with MemoryManager(verbose=True):
    # Inicializa modelo XGBoost
    xgb_model = M5Model(model_type='xgboost')
    
    # Treina com uma amostra menor para compara√ß√£o r√°pida
    sample_indices = np.random.choice(len(X_train), size=min(50000, len(X_train)), replace=False)
    X_train_sample = X_train.iloc[sample_indices]
    y_train_sample = y_train.iloc[sample_indices]
    
    cv_results_xgb = xgb_model.time_series_split_train(X_train_sample, y_train_sample, n_splits=2)
    
    print("\n‚úÖ XGBoost treinado!")

In [None]:
# Compara modelos
y_pred_val_xgb = xgb_model.predict(X_val)

val_rmse_xgb = np.sqrt(mean_squared_error(y_val, y_pred_val_xgb))
val_mae_xgb = mean_absolute_error(y_val, y_pred_val_xgb)

print("\nüèÜ Compara√ß√£o de Modelos:")
print(f"LightGBM:")
print(f"  RMSE: {val_rmse:.4f}")
print(f"  MAE: {val_mae:.4f}")
print(f"\nXGBoost:")
print(f"  RMSE: {val_rmse_xgb:.4f}")
print(f"  MAE: {val_mae_xgb:.4f}")

if val_rmse < val_rmse_xgb:
    print("\nü•á LightGBM tem melhor performance!")
    best_model = lgb_model
else:
    print("\nü•á XGBoost tem melhor performance!")
    best_model = xgb_model

## 7. üíæ Salvamento do Modelo

In [None]:
# Salva o melhor modelo
import os
from datetime import datetime

# Cria diret√≥rio se n√£o existir
os.makedirs(config.MODEL_PATH, exist_ok=True)

# Nome do arquivo com timestamp
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
model_filename = f"m5_model_{best_model.model_type}_{timestamp}.pkl"
model_filepath = os.path.join(config.MODEL_PATH, model_filename)

# Salva modelo
best_model.save_model(model_filepath)

print(f"‚úÖ Modelo salvo: {model_filepath}")

## 8. üìã Relat√≥rio Final

In [None]:
# Relat√≥rio final detalhado
print("\n" + "="*60)
print("üéØ RELAT√ìRIO FINAL - M5 FORECASTING")
print("="*60)

print(f"\nüìä DADOS UTILIZADOS:")
print(f"  ‚Ä¢ Per√≠odo: {feature_data_clean['date'].min()} a {feature_data_clean['date'].max()}")
print(f"  ‚Ä¢ Total de registros: {len(feature_data_clean):,}")
print(f"  ‚Ä¢ Itens √∫nicos: {feature_data_clean['item_id'].nunique():,}")
print(f"  ‚Ä¢ Lojas: {feature_data_clean['store_id'].nunique()}")
print(f"  ‚Ä¢ Features criadas: {len(feature_cols)}")

print(f"\nü§ñ MODELO SELECIONADO: {best_model.model_type.upper()}")
if best_model.cv_scores:
    cv_rmse_mean = np.mean([r['val_rmse'] for r in best_model.cv_scores])
    cv_rmse_std = np.std([r['val_rmse'] for r in best_model.cv_scores])
    print(f"  ‚Ä¢ RMSE CV: {cv_rmse_mean:.4f} ¬± {cv_rmse_std:.4f}")

print(f"\nüìà PERFORMANCE NA VALIDA√á√ÉO:")
if best_model.model_type == 'lightgbm':
    print(f"  ‚Ä¢ RMSE: {val_rmse:.4f}")
    print(f"  ‚Ä¢ MAE: {val_mae:.4f}")
else:
    print(f"  ‚Ä¢ RMSE: {val_rmse_xgb:.4f}")
    print(f"  ‚Ä¢ MAE: {val_mae_xgb:.4f}")

print(f"\nüéØ TOP 5 FEATURES MAIS IMPORTANTES:")
for i, (_, row) in enumerate(best_model.feature_importance.head(5).iterrows()):
    print(f"  {i+1}. {row['feature']}: {row['importance']:.0f}")

print(f"\nüíæ ARQUIVOS GERADOS:")
print(f"  ‚Ä¢ Modelo: {model_filepath}")

print(f"\nüèÜ CONCLUS√ïES:")
print(f"  ‚Ä¢ Modelo treinado com sucesso")
print(f"  ‚Ä¢ Features de lag e rolling mostraram-se importantes")
print(f"  ‚Ä¢ Modelo pronto para previs√µes futuras")

print("\n" + "="*60)

## 9. üîÆ Exemplo de Previs√£o Futura (Demonstra√ß√£o)

In [None]:
# Demonstra√ß√£o de como fazer previs√µes futuras
print("üîÆ Demonstra√ß√£o de previs√£o futura...")

# Para uma implementa√ß√£o completa, seria necess√°rio:
# 1. Criar features para os pr√≥ximos 28 dias
# 2. Usar rolling forecast (predizer 1 dia, atualizar features, predizer pr√≥ximo)
# 3. Lidar com features de lag para dias futuros

# Aqui vamos mostrar o processo com os √∫ltimos dados dispon√≠veis
last_data = val_data.tail(1000)  # √öltimos dados como exemplo
X_future, _ = best_model.prepare_training_data(last_data, feature_cols)

# Faz predi√ß√£o
future_predictions = best_model.predict(X_future)

print(f"\nüìà Exemplo de previs√µes:")
print(f"  ‚Ä¢ N√∫mero de previs√µes: {len(future_predictions)}")
print(f"  ‚Ä¢ Demanda m√©dia prevista: {future_predictions.mean():.2f}")
print(f"  ‚Ä¢ Demanda m√≠nima prevista: {future_predictions.min():.2f}")
print(f"  ‚Ä¢ Demanda m√°xima prevista: {future_predictions.max():.2f}")

# Visualiza algumas previs√µes
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.plot(future_predictions[:100], label='Previs√µes', marker='o', markersize=3)
plt.title('Exemplo de Previs√µes Futuras (Primeiros 100 pontos)')
plt.xlabel('Pontos de Previs√£o')
plt.ylabel('Demanda Prevista')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\n‚úÖ Demonstra√ß√£o conclu√≠da!")

## üìö Pr√≥ximos Passos

Para uma implementa√ß√£o completa em produ√ß√£o, considere:

1. **üîÑ Rolling Forecast**: Implementar previs√£o rolling para 28 dias futuros
2. **üéõÔ∏è Hyperparameter Tuning**: Otimizar par√¢metros com Optuna ou GridSearch
3. **üèóÔ∏è Ensemble Models**: Combinar m√∫ltiplos modelos para melhor performance
4. **üìä WRMSSE Oficial**: Implementar a m√©trica oficial da competi√ß√£o
5. **üöÄ MLOps**: Automatizar pipeline de retreinamento
6. **üìà Monitoramento**: Tracking de performance em produ√ß√£o
7. **üíæ Feature Store**: Centralizar features para reutiliza√ß√£o
8. **üîç Interpretabilidade**: SHAP values para explicar predi√ß√µes

---
**‚ú® Projeto M5 Forecasting - Desenvolvido com abordagem modular e escal√°vel**

## ‚ö° Teste R√°pido - Verifica√ß√£o do Notebook

Execute a c√©lula abaixo para fazer um teste r√°pido de todo o pipeline:

In [10]:
# üß™ TESTE R√ÅPIDO DO PIPELINE COMPLETO
print("üß™ Iniciando teste r√°pido do pipeline...")

# 1. Verifica se temos dados b√°sicos
test_results = {
    'modules_loaded': False,
    'data_loaded': False,
    'features_created': False,
    'model_trained': False,
    'predictions_made': False
}

# 2. Testa carregamento de m√≥dulos
try:
    from data_loader import M5DataLoader
    from feature_engineering import M5FeatureEngineer
    import config
    test_results['modules_loaded'] = True
    print("‚úÖ M√≥dulos carregados")
except:
    print("‚ùå Erro no carregamento de m√≥dulos")

# 3. Testa dados (vers√£o m√≠nima)
try:
    import pandas as pd
    import numpy as np
    
    # Cria dados sint√©ticos para teste se necess√°rio
    if not 'data_dict' in locals():
        print("üìù Criando dados sint√©ticos para teste...")
        np.random.seed(42)
        dates = pd.date_range('2021-01-01', '2021-12-31', freq='D')
        test_data = pd.DataFrame({
            'item_id': ['ITEM_001'] * len(dates),
            'store_id': ['CA_1'] * len(dates),
            'date': dates,
            'demand': np.random.poisson(3, len(dates)),
            'sell_price': np.random.uniform(1, 10, len(dates))
        })
        data_dict = {'test_data': test_data}
    
    test_results['data_loaded'] = True
    print("‚úÖ Dados dispon√≠veis")
except Exception as e:
    print(f"‚ùå Erro nos dados: {e}")

# 4. Testa cria√ß√£o de features b√°sicas
try:
    if test_results['data_loaded']:
        # Features muito simples
        if 'test_data' in data_dict:
            feature_data_test = data_dict['test_data'].copy()
        else:
            feature_data_test = data_dict['sales_train'].sample(100).copy()
            
        # Adiciona features b√°sicas
        feature_data_test['lag_1'] = feature_data_test['demand'].shift(1)
        feature_data_test['rolling_mean_7'] = feature_data_test['demand'].rolling(7).mean()
        feature_data_test = feature_data_test.dropna()
        
        test_results['features_created'] = True
        print(f"‚úÖ Features criadas: {feature_data_test.shape}")
except Exception as e:
    print(f"‚ùå Erro nas features: {e}")

# 5. Testa modelo b√°sico
try:
    if test_results['features_created'] and len(feature_data_test) > 20:
        from sklearn.ensemble import RandomForestRegressor
        from sklearn.metrics import mean_squared_error
        
        # Prepara dados
        features = ['lag_1', 'rolling_mean_7']
        X = feature_data_test[features].fillna(0)
        y = feature_data_test['demand']
        
        # Divide treino/teste
        split = int(len(X) * 0.8)
        X_train, X_test = X[:split], X[split:]
        y_train, y_test = y[:split], y[split:]
        
        # Treina modelo simples
        model = RandomForestRegressor(n_estimators=10, random_state=42)
        model.fit(X_train, y_train)
        
        # Predi√ß√µes
        y_pred = model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        
        test_results['model_trained'] = True
        test_results['predictions_made'] = True
        print(f"‚úÖ Modelo treinado - RMSE: {rmse:.4f}")
        
except Exception as e:
    print(f"‚ùå Erro no modelo: {e}")

# 6. Resumo do teste
print(f"\nüéØ RESULTADO DO TESTE:")
success_count = sum(test_results.values())
total_tests = len(test_results)

for test_name, result in test_results.items():
    status = "‚úÖ" if result else "‚ùå"
    print(f"  {status} {test_name}")

print(f"\nüìä Sucesso: {success_count}/{total_tests} ({success_count/total_tests*100:.1f}%)")

if success_count >= 3:
    print("üéâ Notebook est√° funcional! Voc√™ pode executar as c√©lulas.")
else:
    print("‚ö†Ô∏è Alguns problemas encontrados. Verifique as depend√™ncias e dados.")
    
print(f"\nüí° Dica: Se houver problemas, execute o demo_simple.py primeiro para testar o ambiente.")

üß™ Iniciando teste r√°pido do pipeline...
‚úÖ M√≥dulos carregados
üìù Criando dados sint√©ticos para teste...
‚úÖ Dados dispon√≠veis
‚úÖ Features criadas: (359, 7)
‚úÖ Modelo treinado - RMSE: 1.8017

üéØ RESULTADO DO TESTE:
  ‚úÖ modules_loaded
  ‚úÖ data_loaded
  ‚úÖ features_created
  ‚úÖ model_trained
  ‚úÖ predictions_made

üìä Sucesso: 5/5 (100.0%)
üéâ Notebook est√° funcional! Voc√™ pode executar as c√©lulas.

üí° Dica: Se houver problemas, execute o demo_simple.py primeiro para testar o ambiente.
‚úÖ Modelo treinado - RMSE: 1.8017

üéØ RESULTADO DO TESTE:
  ‚úÖ modules_loaded
  ‚úÖ data_loaded
  ‚úÖ features_created
  ‚úÖ model_trained
  ‚úÖ predictions_made

üìä Sucesso: 5/5 (100.0%)
üéâ Notebook est√° funcional! Voc√™ pode executar as c√©lulas.

üí° Dica: Se houver problemas, execute o demo_simple.py primeiro para testar o ambiente.


## üéâ Notebook Pronto para Uso!

**‚úÖ Status**: Todas as depend√™ncias instaladas e m√≥dulos carregados com sucesso!

### üìã Como usar este notebook:

1. **Execute as c√©lulas em ordem sequencial** - cada c√©lula verifica se a anterior foi executada
2. **Ajuste o `sample_size`** nas c√©lulas de feature engineering conforme sua mem√≥ria dispon√≠vel
3. **Os dados M5** devem estar em: `c:\Users\thiago.santos\Desktop\PESSOAL\RandomF_XGB\m5-forecasting-accuracy`

### üîß Se houver problemas:
- Execute o **`demo_simple.py`** primeiro para testar o ambiente
- Verifique se os **dados M5** est√£o no caminho correto
- Reduza o **`sample_size`** se houver problemas de mem√≥ria

### üìä Pr√≥ximos passos:
1. Execute a c√©lula de **carregamento de dados** (c√©lula 5)
2. Continue com a **an√°lise explorat√≥ria** 
3. Fa√ßa a **engenharia de features**
4. Treine os **modelos** (LightGBM/XGBoost)
5. Veja os **resultados e visualiza√ß√µes**