In [13]:
import spacy
from typing import List

# Load German spaCy model (install with: python -m spacy download de_core_news_sm)
nlp = spacy.load("de_core_news_sm")

def extract_entities(question: str) -> List[str]:
    """Extract entities from German question using spaCy"""
    
    doc = nlp(question)
    entities = []
    
    # Extract named entities
    for ent in doc.ents:
        entities.append(ent.text)
    
    # Extract important nouns and proper nouns
    for token in doc:
        if token.pos_ in ['NOUN', 'PROPN'] and not token.is_stop and len(token.text) > 2:
            entities.append(token.lemma_)
    
    return ' '.join(list(set(entities)))  # Remove duplicates

# Example usage
if __name__ == "__main__":
    questions = [
        "WAs ist der Umsatz von Continental im jahr 2023",
        "Wie ist der Ebit von BMW im jahr 2033"
    ]
    
    for q in questions:
        print(f"'{q}' -> {extract_entities(q)}")

'WAs ist der Umsatz von Continental im jahr 2023' -> Continental Umsatz
'Wie ist der Ebit von BMW im jahr 2033' -> BMW Ebit BMW im jahr 2033


In [14]:
extract_entities('Wie ist der Ebit von BMW im jahr 2033')

'BMW Ebit BMW im jahr 2033'