In [2]:
from pydantic import BaseModel
from collections import defaultdict
import json

# loading the parsed sentence json file
f = open('./data/sample_parsed_sentences.json')
 
input_data = json.load(f) 


ModuleNotFoundError: No module named 'pydantic'

In [85]:

input_data

{'sentences': [{'sentence_text': '2019 жылы 27 желтоқсанда Президент "Қазақстан Республикасының кейбір заңнамалық актілеріне қылмыстық, қылмыстық іс жүргізу заңнамасын жетілдіру және жеке адамның құқықтарын қорғауды күшейту мәселелері бойынша өзгерістер мен толықтырулар енгізу туралы" Заңға қол қойды.',
   'tokens': [{'id': '1',
     'text': '2019',
     'lemma': '2019',
     'pos': 'NUM',
     'pos_finegrained': 'num',
     'feats': 'NumType=Ord',
     'start_char': '0',
     'end_char': '4'},
    {'id': '2',
     'text': 'жылы',
     'lemma': 'жыл',
     'pos': 'NOUN',
     'pos_finegrained': 'n',
     'feats': 'Case=Nom|Number[psor]=Plur,Sing|Person[psor]=3',
     'start_char': '5',
     'end_char': '9'},
    {'id': '3',
     'text': '27',
     'lemma': '27',
     'pos': 'NUM',
     'pos_finegrained': 'num',
     'feats': 'NumType=Ord',
     'start_char': '10',
     'end_char': '12'},
    {'id': '4',
     'text': 'желтоқсанда',
     'lemma': 'желтоқсан',
     'pos': 'NOUN',
     'po

In [90]:
# Define data classes using Pydantic

class Token(BaseModel):
    id: str
    text: str
    lemma: str
    pos: str
    pos_finegrained: str
    feats: str | None = None  # some tokens had feats value as None in the sample data file, therefore making str as optional
    start_char: str
    end_char: str

class Sentence(BaseModel):
    sentence_text: str
    tokens: list[Token]


In [91]:
# Process the input data
lemmas_frequency = defaultdict(int)
wordforms_frequency = defaultdict(int)

for sentence_data in input_data["sentences"]:
    sentence = Sentence(**sentence_data)
    for token in sentence.tokens:
        lemmas_frequency[token.lemma] += 1
        wordforms_frequency[token.text] += 1

In [92]:
output_data = {
    "lemmas": [
        {
            "lemma": lemma,
            "pos": token.pos,
            "inflection_info": token.feats,
            "total_frequency": frequency,
            "wordform_frequency": wordforms_frequency[token.text]
        }
        for lemma, frequency in lemmas_frequency.items()
        for token in sentence.tokens
        if token.lemma == lemma
    ]
}


In [93]:
output_data

{'lemmas': [{'lemma': 'жыл',
   'pos': 'NOUN',
   'inflection_info': 'Case=Gen',
   'total_frequency': 4,
   'wordform_frequency': 2},
  {'lemma': 'жыл',
   'pos': 'NOUN',
   'inflection_info': 'Case=Gen',
   'total_frequency': 4,
   'wordform_frequency': 2},
  {'lemma': '"',
   'pos': 'PUNCT',
   'inflection_info': None,
   'total_frequency': 12,
   'wordform_frequency': 12},
  {'lemma': '"',
   'pos': 'PUNCT',
   'inflection_info': None,
   'total_frequency': 12,
   'wordform_frequency': 12},
  {'lemma': '"',
   'pos': 'PUNCT',
   'inflection_info': None,
   'total_frequency': 12,
   'wordform_frequency': 12},
  {'lemma': '"',
   'pos': 'PUNCT',
   'inflection_info': None,
   'total_frequency': 12,
   'wordform_frequency': 12},
  {'lemma': 'кейбір',
   'pos': 'DET',
   'inflection_info': 'PronType=Tot',
   'total_frequency': 4,
   'wordform_frequency': 4},
  {'lemma': 'кейбір',
   'pos': 'DET',
   'inflection_info': 'PronType=Tot',
   'total_frequency': 4,
   'wordform_frequency': 4}