In [55]:
import re
ABBREVIATIONS = {
    "Dr.", "Mr.", "Mrs.", "Ms.", "Prof.", "Sr.", "Jr.", "St.", "vs.", "etc.", "e.g.", "i.e.", "U.S.", "U.K.", "Ph.D.", "B.Sc.", "M.Sc.",
    
    'ડો.', 'ડૉ.', 'પ્રો.', 'શ્રી.', 'સુશ્રી.', 'શ્રીમતી.', 'તા.', 'વગેરે.', 'ઇ.સ.', 'વિ.સ.', 'મા.', 'સા.', 'પ્રા.', 'મુ.', 'ના.',"શ્રીએ.", "મી.", "પ્રોફ.", "એમ.એ.", "બી.એ.", "એમ.બી.બી.એસ.", "પી.એચ.ડી.", "પી.એમ.", "એ.કે.", "એમ.કે."

}
def gujarati_sentence_tokenizer(text):
    sentence_endings = r'([\.\?\!\।](?!\d))'
    parts = re.split(sentence_endings, text)
    chunks = []
    for i in range(0, len(parts) - 1, 2):
     sentence = parts[i].strip() + parts[i + 1]
     chunks.append(sentence)
    sentences = []
    i = 0
    while i < len(chunks):
        current = chunks[i]
        if any(current.endswith(abbr) for abbr in ABBREVIATIONS) and i + 1 < len(chunks):
            current += " " + chunks[i + 1]
            i += 1 
        sentences.append(current)
        i += 1
    return sentences

In [56]:
import re

def gujarati_word_tokenizer(sentence):
    sentence = re.sub(r'\s+', ' ', sentence.strip())

    url_pattern = r'https?://\S+'
    email_pattern = r'\b[\w\.-]+@[\w\.-]+\.\w+\b'
    date_pattern = r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b|\b\d{1,2}(st|nd|rd|th)?\s+\w+\s+\d{4}\b'
    number_pattern = r'\b\d+(?:[\.,]\d+)?\b'

    full_pattern = re.compile(
        f'{url_pattern}|{email_pattern}|{date_pattern}|{number_pattern}|[\w\u0A80-\u0AFF]+|[^\w\s]',
        re.UNICODE
    )
    
    words = re.findall(full_pattern, sentence)

    return words



In [57]:
from datasets import load_dataset

dataset = load_dataset(
    "ai4bharat/IndicCorpV2",
    split="guj_Gujr",
    streaming=True
)

ds = []
for i, example in enumerate(dataset):
    if i >= 10000:
        break
    ds.append(example)
ds


[{'text': 'આ વીડિયો જુઓ: ઊંઝા માર્કેટયાર્ડ આજથી 25 જુલાઈ સુધી બંધ'},
 {'text': ''},
 {'text': 'મિથેનોલ આવ્યો ક્યાંથી?'},
 {'text': ''},
 {'text': 'આખરે ત્રણ રાજ્યોમાં મળેલ હાર પર કોંગ્રેસ અધ્યક્ષ રાહુલ ગાંધી દ્વારા પ્રથમ પ્રતિક્રિયા આપવામાં આવી છે. તેમણે કહ્યું કે, ત્રિપુરા, નાગાલેન્ડ અને મેઘાલયમાં લોકોના જનાદેશનો સ્વાગત કરીએ છે અને આ ક્ષેત્રના લોકોનો વિશ્વાસ ફરીથી જીતીવા માટે પ્રતિબદ્ધ છીએ.'},
 {'text': ''},
 {'text': 'આ આંકડો માટે, અને વજન ઘટાડવા માટે પ્રકાશનનો દિવસ વિતાવવો ઉપયોગી છે, ઉદાહરણ તરીકે, અઠવાડિયામાં એક વખત. તમારા માટે એક વિકલ્પ પસંદ કરો જે અગવડતાને કારણે નહીં કરે. સૌથી વધુ લોકપ્રિય કીફિર પર અનલોડ છે.'},
 {'text': ''},
 {'text': 'આ ઠેકાઓ પરથી લીમડી તેમજ ઝાલોદના બૂટલેગરો વિદેશી દારૃનો મોટાપાયે જથ્થો ખરીદી મહિસાગર, હાલોલ, ગોધરા, આણંદ, નડિયાદ અને વડોદરા શહેર-જિલ્લામાં ઠાલવે છે. આબુથી આવતો દારૃનો જથ્થો સાંચોર તેમજ પાલનપુર થઈ મહેસાણામાં રીટા અને વિરસિંહને ત્યાં ઉતારવામાં આવે છે, જ્યાંથી અમદાવાદ તેમજ ઉત્તર ગુજરાતમાં દારૃ સપ્લાઈ થાય છે. રાજસ્થાનના બિચ્છુવાડાથી શામળાજી બોર્ડર થઈ હિ