# Chunk-Gr√∂√üe f√ºr multilingual-e5-small bestimmen

Das Modell hat eine **maximale Token-L√§nge von 512 Tokens**.

## Installation und Import

In [1]:
!pip install transformers torch


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:
from transformers import AutoTokenizer

# Lade den Tokenizer f√ºr multilingual-e5-small
tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
print("Tokenizer geladen!")
print(f"Max. Model-Token-L√§nge: {tokenizer.model_max_length}")

  from .autonotebook import tqdm as notebook_tqdm


Tokenizer geladen!
Max. Model-Token-L√§nge: 512


## Test mit Beispieltext aus deinem PDF

In [4]:
# Teste mit unterschiedlich langen Texten
test_texts = {
    "100 W√∂rter": " ".join(["Wort"] * 100),
    "200 W√∂rter": " ".join(["Wort"] * 200),
    "300 W√∂rter": " ".join(["Wort"] * 300),
    "400 W√∂rter": " ".join(["Wort"] * 400),
}

print("Token-Anzahl f√ºr verschiedene Textl√§ngen:\n")
for name, text in test_texts.items():
    # Wichtig: Prefix "passage: " hinzuf√ºgen (wird vom Modell erwartet!)
    text_with_prefix = f"passage: {text}"
    tokens = tokenizer(text_with_prefix, return_tensors='pt')
    num_tokens = tokens['input_ids'].shape[1]
    print(f"{name}: {num_tokens} Tokens")
    
print(f"\n‚ö†Ô∏è Maximale Token-L√§nge: 512 Tokens")
print("Texte werden automatisch abgeschnitten, wenn sie l√§nger sind!")

Token-Anzahl f√ºr verschiedene Textl√§ngen:

100 W√∂rter: 104 Tokens
200 W√∂rter: 204 Tokens
300 W√∂rter: 304 Tokens
400 W√∂rter: 404 Tokens

‚ö†Ô∏è Maximale Token-L√§nge: 512 Tokens
Texte werden automatisch abgeschnitten, wenn sie l√§nger sind!


## Test mit echtem Text aus deinem Geschichtsbuch

In [5]:
# Lade einen Teil deines extrahierten Textes
with open("docs/extracted_content_geschichtsbuch.md", "r", encoding="utf-8") as f:
    full_text = f.read()

# Teste verschiedene Chunk-Gr√∂√üen (in Zeichen)
chunk_sizes = [500, 1000, 1500, 2000, 2500, 3000]

print("Empfohlene Chunk-Gr√∂√üen (in Zeichen):\n")
print("-" * 60)

for chunk_size in chunk_sizes:
    # Nimm einen Chunk dieser Gr√∂√üe
    sample_chunk = full_text[:chunk_size]
    
    # Tokenisiere mit Prefix
    text_with_prefix = f"passage: {sample_chunk}"
    tokens = tokenizer(text_with_prefix, return_tensors='pt', truncation=False)
    num_tokens = tokens['input_ids'].shape[1]
    
    status = "‚úÖ OK" if num_tokens <= 512 else f"‚ùå ZU LANG ({num_tokens - 512} Tokens zu viel)"
    
    print(f"Chunk: {chunk_size:4d} Zeichen ‚Üí {num_tokens:3d} Tokens | {status}")

print("\n" + "=" * 60)
print("üí° EMPFEHLUNG:")
print("=" * 60)

Token indices sequence length is longer than the specified maximum sequence length for this model (651 > 512). Running this sequence through the model will result in indexing errors


Empfohlene Chunk-Gr√∂√üen (in Zeichen):

------------------------------------------------------------
Chunk:  500 Zeichen ‚Üí 123 Tokens | ‚úÖ OK
Chunk: 1000 Zeichen ‚Üí 241 Tokens | ‚úÖ OK
Chunk: 1500 Zeichen ‚Üí 339 Tokens | ‚úÖ OK
Chunk: 2000 Zeichen ‚Üí 445 Tokens | ‚úÖ OK
Chunk: 2500 Zeichen ‚Üí 651 Tokens | ‚ùå ZU LANG (139 Tokens zu viel)
Chunk: 3000 Zeichen ‚Üí 787 Tokens | ‚ùå ZU LANG (275 Tokens zu viel)

üí° EMPFEHLUNG:


## Optimale Chunk-Gr√∂√üe berechnen

In [6]:
# Finde die optimale Chunk-Gr√∂√üe durch bin√§re Suche
def find_optimal_chunk_size(text_sample, max_tokens=510):
    """
    Findet die maximale Chunk-Gr√∂√üe in Zeichen, die nicht √ºber max_tokens kommt.
    510 statt 512, um etwas Puffer zu lassen.
    """
    low, high = 100, 5000
    best_size = 100
    
    while low <= high:
        mid = (low + high) // 2
        chunk = text_sample[:mid]
        text_with_prefix = f"passage: {chunk}"
        tokens = tokenizer(text_with_prefix, return_tensors='pt', truncation=False)
        num_tokens = tokens['input_ids'].shape[1]
        
        if num_tokens <= max_tokens:
            best_size = mid
            low = mid + 1
        else:
            high = mid - 1
    
    return best_size

# Teste mit verschiedenen Textabschnitten
sample1 = full_text[1000:6000]  # Mittelteil
sample2 = full_text[10000:15000]  # Anderer Teil

optimal_size1 = find_optimal_chunk_size(sample1)
optimal_size2 = find_optimal_chunk_size(sample2)

optimal_size = min(optimal_size1, optimal_size2)

print(f"Optimale Chunk-Gr√∂√üe (Probe 1): {optimal_size1} Zeichen")
print(f"Optimale Chunk-Gr√∂√üe (Probe 2): {optimal_size2} Zeichen")
print(f"\n{'='*60}")
print(f"üìä EMPFOHLENE CHUNK-GR√ñSSE: {optimal_size} Zeichen")
print(f"{'='*60}")
print(f"\nDas entspricht ungef√§hr {optimal_size // 5} W√∂rtern (Durchschnitt)")
print(f"Mit Overlap von 10-20% = {int(optimal_size * 0.1)}-{int(optimal_size * 0.2)} Zeichen")

Optimale Chunk-Gr√∂√üe (Probe 1): 1802 Zeichen
Optimale Chunk-Gr√∂√üe (Probe 2): 2025 Zeichen

üìä EMPFOHLENE CHUNK-GR√ñSSE: 1802 Zeichen

Das entspricht ungef√§hr 360 W√∂rtern (Durchschnitt)
Mit Overlap von 10-20% = 180-360 Zeichen
