In [2]:
# Recommended: use spacy-udpipe (keeps spaCy API but uses UDPipe Hindi model)
!pip install -q spacy-udpipe

import spacy_udpipe
import pandas as pd

# download the UDPipe model for Hindi (one-time)
spacy_udpipe.download("hi")   # downloads model files for language "hi"

# load the language as a spaCy Language object
nlp = spacy_udpipe.load("hi")
print("Loaded spacy-udpipe pipeline. pipeline:", nlp.pipe_names)

text = """हिंदी एक प्रमुख, इंडो-आर्यन भाषा है, जो संस्कृत की वंशज है, जो मध्य और उत्तरी भारत के बिहार, छत्तीसगढ़, दिल्ली, हरियाणा, हिमाचल प्रदेश, झारखंड, मध्य प्रदेश, राजस्थान, उत्तराखंड और उत्तर प्रदेश राज्यों में बोली जाती है। एलडीसी-आईएल हिंदी पाठ्य संग्रह विभिन्न कारकों जैसे पाठ की गुणवत्ता, प्रतिनिधित्व, पुनर्प्राप्ति योग्य प्रारूप, संग्रह का आकार, प्रामाणिकता आदि के अनुसार विकसित किया गया है। पाठ्य संग्रह एकत्र करने के लिए एलडीसी-आईएल विभिन्न डोमेन की एक मानक श्रेणी सूची और मानदंडों के एक पूर्व सेट को अपनाता है। हिंदी पाठ्य संग्रह को मोटे तौर पर साहित्यिक और गैर-साहित्यिक ग्रंथों के रूप में वर्गीकृत किया जा सकता है। पुस्तकों, पत्रिकाओं और समाचार पत्रों से डेटा एकत्र किया गया है और इसे मूल ग्रंथों के लिए सत्य होने के लिए सत्यापित किया गया है ।

हिंदी पाठ्य संग्रह मशीन-पठनीय रूप में एनकोड किया गया है और एक मानक प्रारूप में संग्रहीत है। इसमें मुख्य रूप से यूनिकोड एनकोडिंग का उपयोग किया जा रहा है और इसे XML प्रारूप में संग्रहीत किया गया है। डेटा मेटाडेटा जानकारी के साथ सन्निहित है। यह संग्रह समकालीन पाठ से टाइप और क्रॉल विधियों द्वारा बनाया गया है।"""


doc = nlp(text)

rows = []
for token in doc:
    if token.is_space:
        continue
    morph = token.morph.to_dict() if token.morph else {}
    root = token.lemma_ if token.lemma_ else token.text
    rows.append({
        "Token": token.text,
        "Root": root,
        "Cat": token.pos_ or "-",
        "Gen": morph.get("Gender", "-"),
        "Num": morph.get("Number", "-"),
        "Per": morph.get("Person", "-"),
        "Case": morph.get("Case", "-"),
        "TAM": morph.get("Tense", "-") or morph.get("VerbForm", "-") or morph.get("Mood", "-"),
        "Suff": morph.get("Suffix", "-")
    })

df = pd.DataFrame(rows, columns=["Token","Root","Cat","Gen"])
display(df)
df.to_csv("hindi_morph_spacy_udpipe.csv", index=False, encoding="utf-8-sig")
print("Saved hindi_morph_spacy_udpipe.csv")


Already downloaded a model for the 'hi' language
Loaded spacy-udpipe pipeline. pipeline: []


Unnamed: 0,Token,Root,Cat,Gen
0,हिंदी,हिंदी,PROPN,Fem
1,एक,एक,NUM,-
2,प्रमुख,प्रमुख,NOUN,Masc
3,",",COMMA,PUNCT,-
4,इंडो-आर्यन,इंडो-आर्यन,NOUN,Masc
...,...,...,...,...
206,द्वारा,द्वारा,ADP,-
207,बनाया,बना,VERB,Masc
208,गया,जा,AUX,Masc
209,है,है,AUX,-


Saved hindi_morph_spacy_udpipe.csv
