In [None]:
# RunPod A100 GPU - Könyvtárak telepítése és importálása
%pip install --upgrade pip
%pip install -U torch sentence-transformers accelerate pyarrow pandas tqdm transformers

import pandas as pd
import numpy as np
import gc
import json
import pyarrow as pa
import pyarrow.parquet as pq
from sentence_transformers import SentenceTransformer
import torch
import psutil
import time
import logging
from tqdm import tqdm
from typing import List, Dict, Any
import os
import warnings
warnings.filterwarnings('ignore')

# A100 GPU optimalizáció + memória fragmentáció javítás
torch.backends.cudnn.benchmark = True
torch.backends.cudnn.deterministic = False
torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

print("RunPod A100 környezet inicializálva!")
print(f"CUDA elérhető: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"GPU memória: {torch.cuda.get_device_properties(0).total_memory / (1024**3):.1f}GB")

In [None]:
# RunPod A100 konfiguráció
print("RunPod A100 konfiguráció beállítása...")

# Fájl elérési utak RunPod-on
INPUT_CSV = "/workspace/cleaned_data_for_embedding.csv"
OUTPUT_PARQUET = "/workspace/processed_documents_with_embeddings.parquet"

# 🚨 CRISIS MODE: Ha lassú, kapcsold át!
# MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"  # 🚀 VILLÁMGYORS! 
# EMBEDDING_DIMENSION = 384
# BATCH_SIZE = 512

# Költség-optimalizált konfiguráció: 10 óra alatt, $25 limit
MODEL_NAME = "Qwen/Qwen3-Embedding-0.6B"  # Kisebb modell a sebességért
EMBEDDING_DIMENSION = 1024  # Qwen3-0.6B valódi dimenziója
BATCH_SIZE = 256           # NAGY batch (0.6B-hez akár 512 is megy)
CHUNK_SIZE = 5000          # Standard chunk méret
USE_MIXED_PRECISION = False # Stabilitás érdekében
MEMORY_LIMIT_GB = 70       # Standard memória limit

print(f"Bemeneti CSV: {INPUT_CSV}")
print(f"Kimeneti Parquet: {OUTPUT_PARQUET}")
print(f"Modell: {MODEL_NAME}")
print(f"Dimenzió: {EMBEDDING_DIMENSION}")
print(f"Batch méret: {BATCH_SIZE}")
print(f"Chunk méret: {CHUNK_SIZE:,}")
print(f"Mixed Precision: {USE_MIXED_PRECISION}")
print(f"Memória limit: {MEMORY_LIMIT_GB}GB")
print("Alapértelmezett konfiguráció - tesztelési fázis")

# Logging konfiguráció
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.StreamHandler(),
        logging.FileHandler('/workspace/embedding_generation.log')
    ]
)
logger = logging.getLogger(__name__)

In [None]:
# CHUNKED INPUT TÁMOGATÁS - adatok betöltése és validálása
logger.info("Chunked input-kompatibilis adatvalidálás...")

# ===== 1. CHUNKED CLEANED INPUT ELLENŐRZÉSE (PRIORITÁS) =====
CHUNKED_CLEANED_DIR = "/workspace/processed_data/chunked_cleaned"
CHUNKED_INPUT_MODE = False
cleaned_chunk_files = []

if os.path.exists(CHUNKED_CLEANED_DIR):
    cleaned_chunk_files = sorted([
        os.path.join(CHUNKED_CLEANED_DIR, f) 
        for f in os.listdir(CHUNKED_CLEANED_DIR) 
        if f.startswith("cleaned_chunk_") and f.endswith(".csv")
    ])
    
    if cleaned_chunk_files:
        CHUNKED_INPUT_MODE = True
        logger.info(f"🎯 CHUNKED INPUT MÓD: {len(cleaned_chunk_files)} cleaned chunk található")

# ===== 2. UNIFIED CSV FALLBACK =====
if not CHUNKED_INPUT_MODE:
    if not os.path.exists(INPUT_CSV):
        raise FileNotFoundError(f"Nincs elérhető input! Sem chunked ({CHUNKED_CLEANED_DIR}), sem unified ({INPUT_CSV})")
    logger.info("📄 UNIFIED CSV MÓD: Fallback unified CSV-re")

# ===== 3. MINTAADATOK BETÖLTÉSE VALIDÁLÁSHOZ =====
if CHUNKED_INPUT_MODE:
    # Első chunk-ból minta
    df_sample = pd.read_csv(cleaned_chunk_files[0], nrows=1000)
    logger.info(f"Minta betöltve első chunk-ból: {len(df_sample)} sor")
    
    # Teljes sorok becslése chunk-okból
    total_rows = 0
    for chunk_file in cleaned_chunk_files:
        chunk_rows = sum(1 for _ in open(chunk_file, 'r', encoding='utf-8')) - 1
        total_rows += chunk_rows
    logger.info(f"Becsült teljes sorok (chunked): {total_rows:,}")
else:
    # Unified CSV minta
    df_sample = pd.read_csv(INPUT_CSV, nrows=1000)
    logger.info(f"Minta betöltve unified CSV-ből: {len(df_sample)} sor")
    
    # Teljes fájl méret becslése
    total_rows = sum(1 for _ in open(INPUT_CSV, 'r', encoding='utf-8')) - 1
    logger.info(f"Becsült teljes sorok (unified): {total_rows:,}")

# ===== 4. OSZLOP VALIDÁLÁS (KÖZÖS LOGIKA) =====
# Kötelező oszlopok ellenőrzése
required_columns = ['text', 'doc_id']
missing_columns = [col for col in required_columns if col not in df_sample.columns]
if missing_columns:
    raise ValueError(f"Hiányzó kötelező oszlopok: {missing_columns}")

# Teljes metadata oszlop lista
expected_metadata_columns = [
    'doc_id', 'text', 'birosag', 'JogTerulet', 'Azonosito', 'MeghozoBirosag',
    'EgyediAzonosito', 'HatarozatEve', 'AllKapcsolodoUgyszam', 'AllKapcsolodoBirosag',
    'KapcsolodoHatarozatok', 'Jogszabalyhelyek'
]

# Jelenlegi oszlopok listázása
available_columns = list(df_sample.columns)
metadata_columns_present = [col for col in expected_metadata_columns if col in available_columns]
metadata_columns_missing = [col for col in expected_metadata_columns if col not in available_columns]

# ===== 5. EREDMÉNYEK =====
input_mode = "CHUNKED" if CHUNKED_INPUT_MODE else "UNIFIED"
print(f"\n✅ {input_mode} INPUT VALIDÁCIÓ SIKERES!")
print(f"📊 Teljes sorok: {total_rows:,}")
if CHUNKED_INPUT_MODE:
    print(f"📁 Chunk fájlok: {len(cleaned_chunk_files)}")
print(f"📋 Összes oszlop: {len(available_columns)}")
print(f"✅ Jelenlevő metadata oszlopok ({len(metadata_columns_present)}): {metadata_columns_present}")
if metadata_columns_missing:
    print(f"⚠️  Hiányzó metadata oszlopok ({len(metadata_columns_missing)}): {metadata_columns_missing}")

# ===== 6. SZÖVEG STATISZTIKÁK =====
text_lengths = df_sample['text'].str.len()
print(f"\n📝 Szöveg hossz statisztikák (minta):")
print(f"  Átlag: {text_lengths.mean():.0f} karakter")
print(f"  Medián: {text_lengths.median():.0f} karakter")
print(f"  Min: {text_lengths.min():.0f} karakter")
print(f"  Max: {text_lengths.max():.0f} karakter")

# ===== 7. FELDOLGOZÁSI BECSLÉS =====
estimated_batches = (total_rows + BATCH_SIZE - 1) // BATCH_SIZE
estimated_chunks = (total_rows + CHUNK_SIZE - 1) // CHUNK_SIZE
print(f"\n⚡ Becsült feldolgozás:")
print(f"  Chunk-ok száma: {estimated_chunks:,}")
print(f"  Batch-ek száma: {estimated_batches:,}")
print(f"  Input mód: {input_mode}")
if CHUNKED_INPUT_MODE:
    print(f"  🚀 Memory-optimalizált chunked feldolgozás!")
else:
    print(f"  ⚠️  Memory-intenzív unified feldolgozás")

In [None]:
# Optimalizált Qwen3-Embedding-0.6B modell osztály (STABIL VERZIÓ)
logger.info("Optimalizált Qwen3-Embedding-0.6B modell osztály létrehozása...")

class OptimizedQwen3EmbeddingGenerator:
    def __init__(self):
        self.model_name = MODEL_NAME
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.dimension = EMBEDDING_DIMENSION
        self.batch_size = BATCH_SIZE
        
        # Teljesítmény követés
        self.processed_count = 0
        self.failed_count = 0
        self.batch_times = []
        self.peak_memory_usage = 0
        
        logger.info(f"Device: {self.device}")
        
        try:
            # Alapértelmezett modell betöltés - STABIL konfiguráció
            logger.info("Qwen3-0.6B modell betöltése (STABIL)...")
            self.model = SentenceTransformer(
                self.model_name,
                device=self.device,
                trust_remote_code=True
            )
            
            # GPU memória kezelés
            if self.device == 'cuda':
                torch.cuda.empty_cache()
                
            # Modell warmup
            self._warmup_model()
            logger.info("Modell sikeresen inicializálva!")
            
        except Exception as e:
            logger.error(f"Modell betöltés hiba: {e}")
            raise


In [None]:
# Qwen3-Embedding-0.6B modell osztály alapértelmezett konfigurációval
logger.info("Qwen3-Embedding-0.6B modell osztály létrehozása...")

class OptimizedQwen3EmbeddingGenerator:
    def __init__(self):
        self.model_name = MODEL_NAME
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.dimension = EMBEDDING_DIMENSION
        self.batch_size = BATCH_SIZE
        
        # Teljesítmény követés
        self.processed_count = 0
        self.failed_count = 0
        self.batch_times = []
        self.peak_memory_usage = 0
        
        logger.info(f"Device: {self.device}")
        
        try:
            # Alapértelmezett modell betöltés
            logger.info("Qwen3-0.6B modell betöltése...")
            self.model = SentenceTransformer(
                self.model_name,
                device=self.device,
                trust_remote_code=True
            )
            
            # Alapvető GPU memória kezelés
            if self.device == 'cuda':
                torch.cuda.empty_cache()
                logger.info("GPU memória tisztítva")
                
            # Modell warmup
            self._warmup_model()
            logger.info("Modell sikeresen betöltve és inicializálva")
            
        except Exception as e:
            logger.error(f"Modell betöltési hiba: {e}")
            raise
    
    def _warmup_model(self):
        """Modell warmup konzisztens teljesítményért"""
        logger.info("Modell warmup...")
        dummy_texts = ["Ez egy teszt szöveg a modell bemelegítéséhez."] * 8
        
        try:
            _ = self.model.encode(dummy_texts, show_progress_bar=False)
            logger.info("Warmup sikeresen befejezve")
        except Exception as e:
            logger.warning(f"Warmup hiba: {e}")
        
        self._cleanup_memory()
    
    def _cleanup_memory(self):
        """Alapvető memória tisztítás"""
        gc.collect()
        if torch.cuda.is_available():
            torch.cuda.empty_cache()
    
    def _monitor_memory(self):
        """GPU memória monitoring"""
        if not torch.cuda.is_available():
            return {}
        
        allocated = torch.cuda.memory_allocated() / (1024**3)
        reserved = torch.cuda.memory_reserved() / (1024**3)
        
        self.peak_memory_usage = max(self.peak_memory_usage, allocated)
        
        return {
            'allocated_gb': allocated,
            'reserved_gb': reserved,
            'peak_usage_gb': self.peak_memory_usage
        }

# Embedding generátor inicializálása
embedding_generator = OptimizedQwen3EmbeddingGenerator()
print("Qwen3-0.6B modell sikeresen inicializálva!")
print(f"Dimenzió: {embedding_generator.dimension}")
print(f"Device: {embedding_generator.device}")
print("Teljesítmény tesztelés - baseline mérés")

In [None]:
# DIAGNOSZTIKA - Futtasd a modell inicializálása után!
print("=== KRITIKUS DIAGNOSZTIKA ===")
print(f"Device: {embedding_generator.device}")
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"Model on device: {next(embedding_generator.model.parameters()).device}")
print(f"Actual embedding dim: {embedding_generator.dimension}")

# 🚀 SEBESSÉG TESZT - 50 szöveggel (reális méret)
test_texts = [f"Ez egy teszt szöveg a bírósági határozat feldolgozásához. Szám: {i}. Lorem ipsum dolor sit amet, consectetur adipiscing elit." for i in range(50)]

print(f"Test szövegek hossza: {len(test_texts[0])} karakter")

start_time = time.time()
test_embeddings = embedding_generator.model.encode(test_texts, batch_size=BATCH_SIZE, show_progress_bar=False)
test_time = time.time() - start_time

print(f"50 szöveg: {test_time:.2f} sec")
print(f"⚡ SEBESSÉG: {50/test_time:.1f} sor/sec")
print(f"Test embedding shape: {test_embeddings.shape}")

# 📊 BECSLÉS 213,000 sorra
total_rows = 213000
estimated_hours = (total_rows / (50/test_time)) / 3600
estimated_cost = estimated_hours * 2.10  # $2.10/hour RunPod A100

print(f"\n📊 BECSLÉS:")
print(f"213,000 sor: {estimated_hours:.1f} óra")
print(f"Becsült költség: ${estimated_cost:.1f}")

# 🚨 KRITIKUS DÖNTÉS
if 50/test_time < 3:
    print("🚨 TÚLLASSÚ! Modellváltás szükséges!")
elif 50/test_time < 6:
    print("⚠️ Lassú, de elfogadható")
else:
    print("✅ Jó sebesség!")

# GPU memória info
if torch.cuda.is_available():
    print(f"GPU memory: {torch.cuda.memory_allocated()/1024**3:.1f}GB allocated")
    print(f"GPU memory: {torch.cuda.memory_reserved()/1024**3:.1f}GB reserved")

print("=== DIAGNOSZTIKA VÉGE ===")


In [None]:
# Embedding generálás metódus hozzáadása
def generate_embeddings_batch(self, texts):
    """Robosztus batch embedding generálás"""
    batch_start_time = time.time()
    
    try:
        # Szövegek használata közvetlenül - az eda_clean_for_embedding.py már feldolgozta
        processed_texts = [str(text) for text in texts]
        
        # Alapértelmezett embedding generálás
        embeddings = self.model.encode(
            processed_texts,
            normalize_embeddings=True,
            show_progress_bar=False,
            convert_to_numpy=True
        )
        
        # Gyors dimenzió ellenőrzés
        if embeddings.shape[1] != self.dimension:
            logger.warning(f"Dimenzió hiba: {embeddings.shape[1]} != {self.dimension}")
            if embeddings.shape[1] > self.dimension:
                embeddings = embeddings[:, :self.dimension]
            else:
                padding = np.zeros((embeddings.shape[0], self.dimension - embeddings.shape[1]))
                embeddings = np.hstack([embeddings, padding])
        
        # Teljesítmény követés
        batch_time = time.time() - batch_start_time
        self.batch_times.append(batch_time)
        self.processed_count += len(texts)
        
        # Sebesség számítás
        speed = len(texts) / batch_time
        if speed < 5.0:  # Ha 5 sor/sec alatt
            logger.warning(f"Lassú batch: {speed:.1f} sor/sec")
        
        return embeddings.astype(np.float32)
        
    except Exception as e:
        logger.error(f"Batch feldolgozási hiba: {e}")
        self.failed_count += len(texts)
        # Fallback: NaN vektorok
        return np.full((len(texts), self.dimension), np.nan, dtype=np.float32)
    
    finally:
        # Alapvető memória cleanup
        if self.processed_count % 500 == 0:
            self._cleanup_memory()

# Metódus hozzáadása az osztályhoz (ellenőrizzük, hogy létezik-e az osztály)
if 'embedding_generator' in globals():
    OptimizedQwen3EmbeddingGenerator.generate_embeddings_batch = generate_embeddings_batch
    print("Embedding generálás metódus hozzáadva!")
else:
    print("HIBA: Először futtasd a modell inicializáló cellát!")

In [None]:
# Segédfüggvények
def create_metadata_json(row):
    """Teljes metadata JSON készítése az összes elérhető oszloppal"""
    metadata = {
        'doc_id': str(row.get('doc_id', '')),
        'birosag': str(row.get('birosag', '')),
        'JogTerulet': str(row.get('JogTerulet', '')),
        'Azonosito': str(row.get('Azonosito', '')),
        'MeghozoBirosag': str(row.get('MeghozoBirosag', '')),
        'EgyediAzonosito': str(row.get('EgyediAzonosito', '')),
        'HatarozatEve': str(row.get('HatarozatEve', '')),
        'AllKapcsolodoUgyszam': str(row.get('AllKapcsolodoUgyszam', '')),
        'AllKapcsolodoBirosag': str(row.get('AllKapcsolodoBirosag', '')),
        'KapcsolodoHatarozatok': str(row.get('KapcsolodoHatarozatok', '')),
        'Jogszabalyhelyek': str(row.get('Jogszabalyhelyek', '')),
        'text_length': len(str(row.get('text', ''))),
        'processed_timestamp': time.time()
    }
    return json.dumps(metadata, ensure_ascii=False)

def adaptive_batch_size(text_lengths, base_batch_size=BATCH_SIZE):
    """Adaptív batch méret szöveg hossz alapján"""
    avg_length = np.mean(text_lengths)
    
    if avg_length > 6000:
        return max(8, base_batch_size // 4)
    elif avg_length > 4000:
        return max(16, base_batch_size // 2)
    elif avg_length > 2000:
        return base_batch_size
    else:
        return min(64, base_batch_size * 2)

def prepare_final_columns(chunk_df):
    """Végső oszlopok előkészítése - összes metadata megőrzése"""
    # Alapvető oszlopok (kötelező)
    final_columns = ['doc_id', 'text', 'embedding', 'metadata_json']
    
    # Összes metadata oszlop hozzáadása, ha létezik
    metadata_columns = [
        'birosag', 'JogTerulet', 'Azonosito', 'MeghozoBirosag',
        'EgyediAzonosito', 'HatarozatEve', 'AllKapcsolodoUgyszam', 
        'AllKapcsolodoBirosag', 'KapcsolodoHatarozatok', 'Jogszabalyhelyek'
    ]
    
    # Csak a létező oszlopokat adjuk hozzá
    for col in metadata_columns:
        if col in chunk_df.columns:
            final_columns.append(col)
    
    # Visszaadjuk a létező oszlopokat
    available_columns = [col for col in final_columns if col in chunk_df.columns]
    return available_columns

print("Segédfüggvények betöltve!")

In [None]:
# A100 főfolyamat - Robosztus embedding generálás
def process_embeddings_a100():
    """
    A100 GPU-ra optimalizált robosztus embedding generálás
    ÚJDONSÁG: Chunked input támogatás memory-safe feldolgozáshoz
    """
    
    start_time = time.time()
    logger.info("A100 chunked-kompatibilis embedding feldolgozás kezdése...")
    
    processed_rows = 0
    all_results = []
    
    # ===== CHUNKED INPUT MÓD =====
    if CHUNKED_INPUT_MODE:
        logger.info(f"🎯 CHUNKED INPUT feldolgozás: {len(cleaned_chunk_files)} chunk fájl")
        
        with tqdm(total=len(cleaned_chunk_files), desc="Cleaned chunk feldolgozás", unit="file") as file_pbar:
            
            for file_idx, chunk_file in enumerate(cleaned_chunk_files):
                chunk_start_time = time.time()
                file_name = os.path.basename(chunk_file)
                
                try:
                    # Cleaned chunk betöltése
                    chunk_df = pd.read_csv(chunk_file, encoding='utf-8')
                    logger.info(f"Chunk fájl betöltve: {file_name} ({len(chunk_df):,} sor)")
                    
                    # Alapvető adatellenőrzés
                    original_len = len(chunk_df)
                    chunk_df = chunk_df.dropna(subset=['text', 'doc_id'])
                    chunk_df['text'] = chunk_df['text'].astype(str)
                    
                    if len(chunk_df) == 0:
                        logger.warning(f"Chunk fájl üres: {file_name}")
                        file_pbar.update(1)
                        continue
                    
                    logger.info(f"Chunk feldolgozás: {file_name} - {len(chunk_df):,} érvényes sor")
                    
                    # Embedding generálás a chunk-hoz
                    chunk_with_embeddings = process_single_chunk_embeddings(
                        chunk_df, f"File-{file_idx+1}/{len(cleaned_chunk_files)}"
                    )
                    
                    all_results.append(chunk_with_embeddings)
                    processed_rows += len(chunk_df)
                    
                    # Progress update
                    chunk_time = time.time() - chunk_start_time
                    rows_per_sec = len(chunk_df) / chunk_time
                    
                    file_pbar.set_postfix({
                        'Fájl': file_name[:20],
                        'Sorok/sec': f'{rows_per_sec:.1f}',
                        'Memória': f'{embedding_generator._monitor_memory().get("allocated_gb", 0):.1f}GB',
                        'Összes': f'{processed_rows:,}'
                    })
                    file_pbar.update(1)
                    
                    # Rendszeres cleanup
                    if file_idx % 3 == 0:
                        embedding_generator._cleanup_memory()
                        
                except Exception as e:
                    logger.error(f"Hiba a chunk fájl feldolgozásában ({file_name}): {e}")
                    file_pbar.update(1)
                    continue
    
    # ===== UNIFIED CSV FALLBACK MÓD =====
    else:
        logger.info("📄 UNIFIED CSV feldolgozás (fallback mode)")
        
        # Teljes fájl méret becslése
        total_rows = sum(1 for _ in open(INPUT_CSV, 'r', encoding='utf-8')) - 1
        total_chunks = (total_rows + CHUNK_SIZE - 1) // CHUNK_SIZE
        
        logger.info(f"Feldolgozandó sorok: {total_rows:,}")
        logger.info(f"Chunk méret: {CHUNK_SIZE:,}")
        logger.info(f"Batch méret: {BATCH_SIZE}")
        
        chunk_count = 0
        
        with tqdm(total=total_chunks, desc="Unified CSV chunk feldolgozás", unit="chunk") as chunk_pbar:
            
            for chunk_df in pd.read_csv(INPUT_CSV, chunksize=CHUNK_SIZE, encoding='utf-8'):
                chunk_count += 1
                chunk_start_time = time.time()
                
                # Alapvető adatellenőrzés
                original_len = len(chunk_df)
                chunk_df = chunk_df.dropna(subset=['text', 'doc_id'])
                chunk_df['text'] = chunk_df['text'].astype(str)
                
                if len(chunk_df) == 0:
                    logger.warning(f"Chunk {chunk_count}: nincs érvényes adat")
                    chunk_pbar.update(1)
                    continue
                
                logger.info(f"Chunk {chunk_count}/{total_chunks}: {len(chunk_df):,} érvényes sor")
                
                # Embedding generálás a chunk-hoz
                chunk_with_embeddings = process_single_chunk_embeddings(
                    chunk_df, f"Chunk-{chunk_count}/{total_chunks}"
                )
                
                all_results.append(chunk_with_embeddings)
                processed_rows += len(chunk_df)
                
                # Progress update
                chunk_time = time.time() - chunk_start_time
                rows_per_sec = len(chunk_df) / chunk_time
                
                chunk_pbar.set_postfix({
                    'Sorok/sec': f'{rows_per_sec:.1f}',
                    'Memória': f'{embedding_generator._monitor_memory().get("allocated_gb", 0):.1f}GB',
                    'Sikeres': embedding_generator.processed_count,
                    'Hibás': embedding_generator.failed_count
                })
                chunk_pbar.update(1)
                
                # Rendszeres cleanup minden 5. chunk után
                if chunk_count % 5 == 0:
                    embedding_generator._cleanup_memory()
    
    # ===== EREDMÉNYEK EGYESÍTÉSE =====
    logger.info("DataFrame-ek egyesítése...")
    if not all_results:
        raise ValueError("Nincs feldolgozott adat!")
    
    final_df = pd.concat(all_results, ignore_index=True)
    logger.info(f"Egyesített DataFrame: {len(final_df):,} sor")
    
    return final_df, processed_rows, time.time() - start_time

def process_single_chunk_embeddings(chunk_df, chunk_label):
    """
    Egyetlen chunk embedding feldolgozása (közös logika chunked és unified módhoz).
    """
    # Szövegek és adaptív batch méret
    texts = chunk_df['text'].tolist()
    text_lengths = [len(text) for text in texts]
    dynamic_batch_size = adaptive_batch_size(text_lengths, BATCH_SIZE)
    
    # Batch-es embedding generálás
    all_embeddings = []
    total_batches_in_chunk = (len(texts) + dynamic_batch_size - 1) // dynamic_batch_size
    
    with tqdm(total=total_batches_in_chunk, desc=f"{chunk_label} batch-ek", 
             unit="batch", leave=False) as batch_pbar:
        
        for batch_idx in range(0, len(texts), dynamic_batch_size):
            batch_texts = texts[batch_idx:batch_idx + dynamic_batch_size]
            
            # Embedding generálás hibakezeléssel
            try:
                batch_embeddings = embedding_generator.generate_embeddings_batch(batch_texts)
                all_embeddings.extend(batch_embeddings.tolist())
                
                # Alapvető memória monitoring
                memory_info = embedding_generator._monitor_memory()
                if memory_info.get('allocated_gb', 0) > MEMORY_LIMIT_GB * 0.85:
                    logger.warning(f"Magas memória: {memory_info.get('allocated_gb', 0):.1f}GB")
                    embedding_generator._cleanup_memory()
                
            except Exception as e:
                logger.error(f"Batch hiba: {e}")
                # Fallback NaN vektorok
                nan_embeddings = np.full((len(batch_texts), EMBEDDING_DIMENSION), np.nan)
                all_embeddings.extend(nan_embeddings.tolist())
            
            batch_pbar.update(1)
    
    # Embedding számossági ellenőrzés
    if len(all_embeddings) != len(chunk_df):
        logger.error(f"Embedding számossági hiba: {len(all_embeddings)} != {len(chunk_df)}")
        # Kiegészítés NaN-okkal
        while len(all_embeddings) < len(chunk_df):
            all_embeddings.append(np.full(EMBEDDING_DIMENSION, np.nan).tolist())
    
    # Eredmények hozzáadása
    chunk_df['embedding'] = all_embeddings
    chunk_df['metadata_json'] = chunk_df.apply(create_metadata_json, axis=1)
    
    # Végső oszlopok - összes metadata megőrzése
    available_columns = prepare_final_columns(chunk_df)
    chunk_result = chunk_df[available_columns].copy()
    
    return chunk_result

# A100 főfolyamat indítása
logger.info("A100 embedding feldolgozás indítása...")
final_df, processed_rows, total_time = process_embeddings_a100()

In [None]:
# Parquet mentés és végső validáció
logger.info("Parquet mentés és validáció...")

# Embedding validáció
valid_embeddings = 0
nan_embeddings = 0
dimension_errors = 0

for idx, emb in enumerate(final_df['embedding']):
    if isinstance(emb, list):
        if len(emb) == EMBEDDING_DIMENSION:
            if not np.any(np.isnan(emb)):
                valid_embeddings += 1
            else:
                nan_embeddings += 1
        else:
            dimension_errors += 1
    else:
        dimension_errors += 1

logger.info(f"Embedding validáció:")
logger.info(f"  Érvényes: {valid_embeddings:,}")
logger.info(f"  NaN: {nan_embeddings:,}")
logger.info(f"  Dimenzió hiba: {dimension_errors:,}")

# Parquet mentés
logger.info(f"Végső Parquet mentés: {OUTPUT_PARQUET}")

final_df.to_parquet(
    OUTPUT_PARQUET,
    engine='pyarrow',
    index=False,
    compression='snappy',
    row_group_size=50000
)

# Fájl validáció
file_size = os.path.getsize(OUTPUT_PARQUET) / (1024**3)

# Gyors visszaolvasási teszt
test_df = pd.read_parquet(OUTPUT_PARQUET, nrows=100)
logger.info(f"Visszaolvasási teszt sikeres: {len(test_df)} sor")

# Végső statisztikák
logger.info("A100 QWEN3-4b EMBEDDING GENERÁLÁS BEFEJEZVE!")
logger.info(f"Feldolgozott sorok: {processed_rows:,}")
logger.info(f"Végső sorok: {len(final_df):,}")
logger.info(f"Végső oszlopok ({len(final_df.columns)}): {list(final_df.columns)}")
logger.info(f"Érvényes embeddings: {valid_embeddings:,}")
logger.info(f"Fájl méret: {file_size:.2f}GB")
logger.info(f"Teljes futási idő: {total_time/3600:.2f} óra")

print("\n" + "="*80)
print("QWEN3-0.6B EMBEDDING FELDOLGOZAS BEFEJEZVE!")
print("="*80)
print(f"Feldolgozott dokumentumok: {processed_rows:,}")
print(f"Vegso Parquet fajl: {OUTPUT_PARQUET}")
print(f"Oszlopok szama: {len(final_df.columns)}")
print(f"Ervenyes embeddings: {valid_embeddings:,}")
print(f"Fajl meret: {file_size:.2f}GB")
print(f"Futasi ido: {total_time/3600:.2f} ora")
print("="*80)
logger.info(f"Teljes futási idő: {total_time/3600:.2f} óra")
logger.info(f"Átlag sebesség: {processed_rows/total_time:.1f} sor/sec")
logger.info(f"Fájl méret: {file_size:.2f} GB")
logger.info(f"Csúcs memória: {embedding_generator.peak_memory_usage:.1f}GB")

print("\nA100 QWEN3-0.6B EMBEDDING GENERALAS SIKERESEN BEFEJEZVE!")
print(f"Feldolgozott sorok: {processed_rows:,}")
print(f"Érvényes embeddings: {valid_embeddings:,}")
print(f"Fájl méret: {file_size:.2f} GB")
print(f"Teljes idő: {total_time/3600:.2f} óra")
print(f"Sebesség: {processed_rows/total_time:.1f} sor/sec")
print(f"Csúcs memória: {embedding_generator.peak_memory_usage:.1f}GB")
print(f"Sikerességi arány: {(valid_embeddings/len(final_df)*100):.1f}%")