In [None]:
from huggingface_hub import login
from datasets import load_dataset

# Step 1: Login to Hugging Face
login("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")

# Step 2: Load Gujarati split with streaming
dataset = load_dataset(
    "ai4bharat/IndicCorpV2",
    "indiccorp_v2",
    split="guj_Gujr",
    streaming=True
)

# Step 3: Print all the text
first_sample = next(iter(dataset))
print(first_sample)


{'text': 'આ વીડિયો જુઓ: ઊંઝા માર્કેટયાર્ડ આજથી 25 જુલાઈ સુધી બંધ'}


In [None]:
import re
from huggingface_hub import login
from datasets import load_dataset

# Step 1: Login to Hugging Face
login("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")

# Step 2: Load Gujarati split using streaming
dataset = load_dataset(
    "ai4bharat/IndicCorpV2",
    "indiccorp_v2",
    split="guj_Gujr",
    streaming=True
)

# Step 3a: Sentence tokenizer
def gujarati_sentence_tokenizer(text):
    """
    Gujarati sentence tokenizer that:
    - Preserves date indicators like 'તા .'
    - Preserves currency notations like 'રૂા .'
    - Avoids splitting at titles like 'શ્રી.', 'ડૉ.', 'શ્રીમતી.'
    """
    # Protect common abbreviations and prefixes
    patterns_to_protect = {
        r'તા\s*\.': 'તારીખ__DOT__',
        r'રૂા\s*\.': 'રૂપિયા__DOT__',
        r'શ્રી\s*\.': 'શ્રી__DOT__',
        r'ડૉ\s*\.': 'ડૉ__DOT__',
        r'શ્રીમતી\s*\.': 'શ્રીમતી__DOT__',
    }

    # Replace protected patterns with placeholders
    for regex, placeholder in patterns_to_protect.items():
        text = re.sub(regex, placeholder, text)

    # Sentence boundary pattern (avoid splitting inside decimals)
    pattern = r'(?<!\d)\.(?!\d)|[\u0964!?]'  # danda, exclam, question, or period not between digits
    parts = re.split(f'({pattern})', text)

    # Reassemble full sentences
    sentences = []
    current = ""
    for part in parts:
        if not part:
            continue
        current += part
        if re.fullmatch(pattern, part):
            # Restore protected placeholders
            for placeholder in patterns_to_protect.values():
                current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
            sentences.append(current.strip())
            current = ""

    # Add leftover
    if current.strip():
        for placeholder in patterns_to_protect.values():
            current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
        sentences.append(current.strip())

    return sentences


# Step 3b: Word tokenizer
def gujarati_word_tokenizer(text):
    """
    Tokenizes a Gujarati sentence into words and other meaningful units.
    It correctly handles numbers with commas and decimals, currency symbols,
    and punctuation, including standalone $.
    """
    pattern = r'(?:રૂા\.?|[$])\d[\d,.]*|\d[\d,.]*|[\u0A80-\u0AFF\w]+(?:-[\u0A80-\u0AFF\w]+)*|[$]|[.,\u0964!?;:()"\'-]'
    return re.findall(pattern, text)

# Step 4: Process and print first 15 valid samples
count = 0
for sample in dataset:
    text = sample["text"].strip()
    if not text:
        continue

    sentences = gujarati_sentence_tokenizer(text)
    if not sentences:
        continue

    print(f"\nSample {count+1}")
    print("Original Text:\n", text)
    print("Tokenized Sentences and Words:")

    for i, sent in enumerate(sentences):
        words = gujarati_word_tokenizer(sent)
        print(f"  Sentence {i+1}: {words}")

    count += 1
    if count == 25:
        break


Sample 1
Original Text:
 આ વીડિયો જુઓ: ઊંઝા માર્કેટયાર્ડ આજથી 25 જુલાઈ સુધી બંધ
Tokenized Sentences and Words:
  Sentence 1: ['આ', 'વીડિયો', 'જુઓ', ':', 'ઊંઝા', 'માર્કેટયાર્ડ', 'આજથી', '25', 'જુલાઈ', 'સુધી', 'બંધ']

Sample 2
Original Text:
 મિથેનોલ આવ્યો ક્યાંથી?
Tokenized Sentences and Words:
  Sentence 1: ['મિથેનોલ', 'આવ્યો', 'ક્યાંથી', '?']

Sample 3
Original Text:
 આખરે ત્રણ રાજ્યોમાં મળેલ હાર પર કોંગ્રેસ અધ્યક્ષ રાહુલ ગાંધી દ્વારા પ્રથમ પ્રતિક્રિયા આપવામાં આવી છે. તેમણે કહ્યું કે, ત્રિપુરા, નાગાલેન્ડ અને મેઘાલયમાં લોકોના જનાદેશનો સ્વાગત કરીએ છે અને આ ક્ષેત્રના લોકોનો વિશ્વાસ ફરીથી જીતીવા માટે પ્રતિબદ્ધ છીએ.
Tokenized Sentences and Words:
  Sentence 1: ['આખરે', 'ત્રણ', 'રાજ્યોમાં', 'મળેલ', 'હાર', 'પર', 'કોંગ્રેસ', 'અધ્યક્ષ', 'રાહુલ', 'ગાંધી', 'દ્વારા', 'પ્રથમ', 'પ્રતિક્રિયા', 'આપવામાં', 'આવી', 'છે', '.']
  Sentence 2: ['તેમણે', 'કહ્યું', 'કે', ',', 'ત્રિપુરા', ',', 'નાગાલેન્ડ', 'અને', 'મેઘાલયમાં', 'લોકોના', 'જનાદેશનો', 'સ્વાગત', 'કરીએ', 'છે', 'અને', 'આ', 'ક્ષેત્રના', 'લોકોનો', 'વિ

**final**

In [None]:
from huggingface_hub import login
from datasets import load_dataset
import re
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Step 1: Login
login("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")

# Step 2: Load Gujarati dataset with streaming
dataset = load_dataset(
    "ai4bharat/IndicCorpV2",
    "indiccorp_v2",
    split="guj_Gujr",
    streaming=True
)

# Step 3a: Sentence tokenizer (keeps proper Gujarati sentence boundaries)
def gujarati_sentence_tokenizer(text):
    """
    Gujarati sentence tokenizer that:
    - Preserves date indicators like 'તા .'
    - Preserves currency notations like 'રૂા .'
    - Avoids splitting at titles like 'શ્રી.', 'ડૉ.', 'શ્રીમતી.'
    """
    # Protect common abbreviations and prefixes
    patterns_to_protect = {
        r'તા\s*\.': 'તારીખ__DOT__',
        r'રૂા\s*\.': 'રૂપિયા__DOT__',
        r'શ્રી\s*\.': 'શ્રી__DOT__',
        r'ડૉ\s*\.': 'ડૉ__DOT__',
        r'શ્રીમતી\s*\.': 'શ્રીમતી__DOT__',
    }

    # Replace protected patterns with placeholders
    for regex, placeholder in patterns_to_protect.items():
        text = re.sub(regex, placeholder, text)

    # Sentence boundary pattern (avoid splitting inside decimals)
    pattern = r'(?<!\d)\.(?!\d)|[\u0964!?]'  # danda, exclam, question, or period not between digits
    parts = re.split(f'({pattern})', text)

    # Reassemble full sentences
    sentences = []
    current = ""
    for part in parts:
        if not part:
            continue
        current += part
        if re.fullmatch(pattern, part):
            # Restore protected placeholders
            for placeholder in patterns_to_protect.values():
                current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
            sentences.append(current.strip())
            current = ""

    # Add leftover
    if current.strip():
        for placeholder in patterns_to_protect.values():
            current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
        sentences.append(current.strip())

    return sentences



# Step 3b: Word tokenizer (Gujarati + digits + punctuation)
def gujarati_word_tokenizer(text):
    """
    Tokenizes Gujarati sentences into words, preserving punctuation, Gujarati digits,
    and avoiding loss of meaning.
    """
    pattern = r'(?:રૂા\.?|[$])\d[\d,.]*|\d[\d,.]*|[\u0A80-\u0AFF\w]+(?:-[\u0A80-\u0AFF\w]+)*|[$]|[.,\u0964!?;:()"\'-]'
    return re.findall(pattern, text)


# Step 4: Process and combine tokenized sentences per paragraph
tokenized_paragraphs = []

MAX_PARAGRAPHS = 5000
paragraph_count = 0

for sample in dataset:
    text = sample["text"].strip()
    if not text:
        continue

    tokenized_sentences = []
    sentences = gujarati_sentence_tokenizer(text)
    for sent in sentences:
        words = gujarati_word_tokenizer(sent)
        if words:
            tokenized_sent = ' '.join(words)
            tokenized_sentences.append(tokenized_sent)

    if tokenized_sentences:
        full_paragraph = ' '.join(tokenized_sentences)
        tokenized_paragraphs.append({"paragraph": full_paragraph})

    paragraph_count += 1
    if paragraph_count >= MAX_PARAGRAPHS:
        break

# Step 5: Save to compressed Parquet file
df = pd.DataFrame(tokenized_paragraphs)
table = pa.Table.from_pandas(df)
pq.write_table(table, "tokenized_gujarati_paragraphs.parquet", compression="snappy")

print("✅ Saved as 'tokenized_gujarati_paragraphs.parquet' with one paragraph per line.")


✅ Saved as 'tokenized_gujarati_paragraphs.parquet' with one paragraph per line.


In [None]:
df = pd.read_parquet("tokenized_gujarati_paragraphs.parquet")
pd.set_option('display.unicode.east_asian_width', False)

# Display styled DataFrame directly (without print)
df.head(30).style.set_properties(**{'text-align': 'left'})



Unnamed: 0,paragraph
0,આ વીડિયો જુઓ : ઊંઝા માર્કેટયાર્ડ આજથી 25 જુલાઈ સુધી બંધ
1,મિથેનોલ આવ્યો ક્યાંથી ?
2,"આખરે ત્રણ રાજ્યોમાં મળેલ હાર પર કોંગ્રેસ અધ્યક્ષ રાહુલ ગાંધી દ્વારા પ્રથમ પ્રતિક્રિયા આપવામાં આવી છે . તેમણે કહ્યું કે , ત્રિપુરા , નાગાલેન્ડ અને મેઘાલયમાં લોકોના જનાદેશનો સ્વાગત કરીએ છે અને આ ક્ષેત્રના લોકોનો વિશ્વાસ ફરીથી જીતીવા માટે પ્રતિબદ્ધ છીએ ."
3,"આ આંકડો માટે , અને વજન ઘટાડવા માટે પ્રકાશનનો દિવસ વિતાવવો ઉપયોગી છે , ઉદાહરણ તરીકે , અઠવાડિયામાં એક વખત . તમારા માટે એક વિકલ્પ પસંદ કરો જે અગવડતાને કારણે નહીં કરે . સૌથી વધુ લોકપ્રિય કીફિર પર અનલોડ છે ."
4,"આ ઠેકાઓ પરથી લીમડી તેમજ ઝાલોદના બૂટલેગરો વિદેશી દારૃનો મોટાપાયે જથ્થો ખરીદી મહિસાગર , હાલોલ , ગોધરા , આણંદ , નડિયાદ અને વડોદરા શહેર-જિલ્લામાં ઠાલવે છે . આબુથી આવતો દારૃનો જથ્થો સાંચોર તેમજ પાલનપુર થઈ મહેસાણામાં રીટા અને વિરસિંહને ત્યાં ઉતારવામાં આવે છે , જ્યાંથી અમદાવાદ તેમજ ઉત્તર ગુજરાતમાં દારૃ સપ્લાઈ થાય છે . રાજસ્થાનના બિચ્છુવાડાથી શામળાજી બોર્ડર થઈ હિંમતનગર , ગાંધીનગર અને અમદાવાદમાં બૂટલેગર સુનિલ , વિનોદ , દિલીપ અને રબારી દ્વારા મોટાપાયે દારૃનો જથ્થો ઠલવાય છે ."
5,કેન્દ્રીય મંત્રી જ્યોતિરાદિત્ય સિંધિયાની જન આશિર્વાદ યાત્રા દરમિયાન ઈન્દોરના એક પોલીસ સ્ટેશનમાં પ્રાણી ક્રૂરતાનો કેસ નોંધવામાં આવ્યો છે . ભાજપના કાર્યકરોએ જન આશીર્વાદ યાત્રા દરમિયાન . . .
6,"ઉત્તર પ્રદેશમાં લગભગ 359 બાળ કેદીઓને મુક્ત કરવામાં આવશે . હાઈકોર્ટના નિર્દેશોના પગલે આ કેદીઓને બાળગૃહમાંથી મુકત કરવામાં આવશે . આ કેદીઓને ત્રણ વર્ષ સુધીની સજા કરવામાં આવી છે . રાજ્યના બાળગૃહોમાં લગભગ 30,000 બાળકો બંધ છે . કોર્ટે આ નિર્ણય કોરોના વાયરસના ભયને ધ્યાનમાં રાખીને લીધો છે ."
7,યાત્રા માટે સમય શુભ ના હોવાથી ટાળી દેવી યોગ્ય રહેશે . આ અઠવાડિયે ખર્ચો વધારે થશે . અઠવાડિયાના અંતે કોઈ વાતને લઈને ચિંતા થઈ શકે છે . કર્ક : મહિલા વર્ગના સપોર્ટથી સ્થિતિ સુખદ રહેશે . કેટલાક જાતકો માટે વિવાહનો શુભ યોગ બની રહ્યો છે .
8,"કારણ કે પેટના પ્રદેશમાં વજન આગળ યોનિમાર્ગ ખેંચે છે , સગર્ભા સ્ત્રીઓ અને ખૂબ જ મેદસ્વી લોકો પેટની વિસ્તારમાં તેમના વજન લઇ શકે છે ઘણા કરતાં સ્વવેન માટે ઊંચા જોખમ પર હોઈ શકે છે . "" વલણ "" ધરાવતા તરુણો એક સ્વવેના મુદ્રામાં તે વલણ વ્યક્ત કરી શકે છે ."
9,ખુબજ મુશ્કેલ હોતુ હતું જ્યારે આપ તે વાતો ફરી વખત સાંભળો છો જે ક્યારેક આપનાં પેરેન્ટ્સે આપને કહી હોય છે . પણ હું ઇચ્છતી હતી કે સીરિઝમાં સત્ય દર્શાવવામાં આવે .


In [None]:
import re
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
from huggingface_hub import login
from datasets import load_dataset

# Step 1: Login
login("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")

# Step 2: Load Gujarati dataset with streaming
dataset = load_dataset(
    "ai4bharat/IndicCorpV2",
    "indiccorp_v2",
    split="guj_Gujr",
    streaming=True
)

# Step 3a: Sentence tokenizer
def gujarati_sentence_tokenizer(text):
    """
    Gujarati sentence tokenizer that:
    - Preserves date indicators like 'તા .'
    - Preserves currency notations like 'રૂા .'
    - Avoids splitting at titles like 'શ્રી.', 'ડૉ.', 'શ્રીમતી.'
    """
    # Protect common abbreviations and prefixes
    patterns_to_protect = {
        r'તા\s*\.': 'તારીખ__DOT__',
        r'રૂા\s*\.': 'રૂપિયા__DOT__',
        r'શ્રી\s*\.': 'શ્રી__DOT__',
        r'ડૉ\s*\.': 'ડૉ__DOT__',
        r'શ્રીમતી\s*\.': 'શ્રીમતી__DOT__',
    }

    # Replace protected patterns with placeholders
    for regex, placeholder in patterns_to_protect.items():
        text = re.sub(regex, placeholder, text)

    # Sentence boundary pattern (avoid splitting inside decimals)
    pattern = r'(?<!\d)\.(?!\d)|[\u0964!?]'  # danda, exclam, question, or period not between digits
    parts = re.split(f'({pattern})', text)

    # Reassemble full sentences
    sentences = []
    current = ""
    for part in parts:
        if not part:
            continue
        current += part
        if re.fullmatch(pattern, part):
            # Restore protected placeholders
            for placeholder in patterns_to_protect.values():
                current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
            sentences.append(current.strip())
            current = ""

    # Add leftover
    if current.strip():
        for placeholder in patterns_to_protect.values():
            current = current.replace(placeholder, [k for k, v in patterns_to_protect.items() if v == placeholder][0].replace(r'\s*', ' '))
        sentences.append(current.strip())

    return sentences


# Step 3b: Word tokenizer
def gujarati_word_tokenizer(text):
    """
    Tokenizes a Gujarati sentence into words and other meaningful units.
    It correctly handles numbers with commas and decimals, currency symbols,
    and punctuation, including standalone $.
    """
    pattern = r'(?:રૂા\.?|[$])\d[\d,.]*|\d[\d,.]*|[\u0A80-\u0AFF\w]+(?:-[\u0A80-\u0AFF\w]+)*|[$]|[.,\u0964!?;:()"\'-]'
    return re.findall(pattern, text)

# Step 4: Collect tokenized sentences
tokenized_sentences_rows = []
MAX_PARAGRAPHS = 5000
paragraph_count = 0

for sample in dataset:
    text = sample["text"].strip()
    if not text:
        continue

    sentences = gujarati_sentence_tokenizer(text)
    for sent in sentences:
        words = gujarati_word_tokenizer(sent)
        if words:
            tokenized_sent = ' '.join(words)
            tokenized_sentences_rows.append({"sentence": tokenized_sent})

    paragraph_count += 1
    if paragraph_count >= MAX_PARAGRAPHS:
        break

# Step 5: Save to compressed Parquet file
df = pd.DataFrame(tokenized_sentences_rows)
table = pa.Table.from_pandas(df)
pq.write_table(table, "tokenized_gujarati_sentences.parquet", compression="snappy")

print("✅ Saved as 'tokenized_gujarati_sentences.parquet' with one sentence per row.")


✅ Saved as 'tokenized_gujarati_sentences.parquet' with one sentence per row.


In [None]:
df = pd.read_parquet("tokenized_gujarati_sentences.parquet")
pd.set_option('display.unicode.east_asian_width', False)

# Display styled DataFrame directly (without print)
df.head(85).style.set_properties(**{'text-align': 'left'})



Unnamed: 0,sentence
0,આ વીડિયો જુઓ : ઊંઝા માર્કેટયાર્ડ આજથી 25 જુલાઈ સુધી બંધ
1,મિથેનોલ આવ્યો ક્યાંથી ?
2,આખરે ત્રણ રાજ્યોમાં મળેલ હાર પર કોંગ્રેસ અધ્યક્ષ રાહુલ ગાંધી દ્વારા પ્રથમ પ્રતિક્રિયા આપવામાં આવી છે .
3,"તેમણે કહ્યું કે , ત્રિપુરા , નાગાલેન્ડ અને મેઘાલયમાં લોકોના જનાદેશનો સ્વાગત કરીએ છે અને આ ક્ષેત્રના લોકોનો વિશ્વાસ ફરીથી જીતીવા માટે પ્રતિબદ્ધ છીએ ."
4,"આ આંકડો માટે , અને વજન ઘટાડવા માટે પ્રકાશનનો દિવસ વિતાવવો ઉપયોગી છે , ઉદાહરણ તરીકે , અઠવાડિયામાં એક વખત ."
5,તમારા માટે એક વિકલ્પ પસંદ કરો જે અગવડતાને કારણે નહીં કરે .
6,સૌથી વધુ લોકપ્રિય કીફિર પર અનલોડ છે .
7,"આ ઠેકાઓ પરથી લીમડી તેમજ ઝાલોદના બૂટલેગરો વિદેશી દારૃનો મોટાપાયે જથ્થો ખરીદી મહિસાગર , હાલોલ , ગોધરા , આણંદ , નડિયાદ અને વડોદરા શહેર-જિલ્લામાં ઠાલવે છે ."
8,"આબુથી આવતો દારૃનો જથ્થો સાંચોર તેમજ પાલનપુર થઈ મહેસાણામાં રીટા અને વિરસિંહને ત્યાં ઉતારવામાં આવે છે , જ્યાંથી અમદાવાદ તેમજ ઉત્તર ગુજરાતમાં દારૃ સપ્લાઈ થાય છે ."
9,"રાજસ્થાનના બિચ્છુવાડાથી શામળાજી બોર્ડર થઈ હિંમતનગર , ગાંધીનગર અને અમદાવાદમાં બૂટલેગર સુનિલ , વિનોદ , દિલીપ અને રબારી દ્વારા મોટાપાયે દારૃનો જથ્થો ઠલવાય છે ."
