# Data Pipeline Visualization

This notebook helps visualize the data at different stages of the pipeline: Raw, Cleaned, and Parallel.

**Pre-requisites**:
Ensure you have run the ingestion and cleaning scripts first.

In [1]:
import os
from datasets import load_from_disk
import pandas as pd

# Set column width but stick to reasonable limits
pd.set_option('display.max_colwidth', 1000)

def show_samples(path, name, num_samples=5):
    if not os.path.exists(path):
        print(f"Dataset not found at {path}. Please run the respective ingestion/cleaning script.")
        return
    
    print(f"--- {name} ---")
    try:
        ds = load_from_disk(path)
        print(f"Total Samples: {len(ds)}")
        
        # Limit samples for display
        samples = ds.select(range(min(len(ds), num_samples)))
        df = pd.DataFrame(samples)
        
        # Truncate text column manually just in case pandas display fails
        if 'text' in df.columns:
            df['text'] = df['text'].apply(lambda x: x[:1000] + "..." if isinstance(x, str) and len(x) > 1000 else x)
            
        display(df)
    except Exception as e:
        print(f"Error loading dataset: {e}")
    print("\n")

  from .autonotebook import tqdm as notebook_tqdm


## 1. English Data (Wikitext)

In [2]:
# Raw English Data
show_samples('../../data/wikitext_wikitext-2-raw-v1_train', 'Raw Wikitext (English)')

# Cleaned English Data
show_samples('../../data/cleaned_wikitext_train', 'Cleaned Wikitext (English)')

--- Raw Wikitext (English) ---
Total Samples: 36718


Unnamed: 0,text
0,
1,= Valkyria Chronicles III = \n
2,
3,"Senjō no Valkyria 3 : Unrecorded Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to as Valkyria Chronicles III outside Japan , is a tactical role @-@ playing video game developed by Sega and Media.Vision for the PlayStation Portable . Released in January 2011 in Japan , it is the third game in the Valkyria series . Employing the same fusion of tactical and real @-@ time gameplay as its predecessors , the story runs parallel to the first game and follows the "" Nameless "" , a penal military unit serving the nation of Gallia during the Second Europan War who perform secret black operations and are pitted against the Imperial unit "" Calamaty Raven "" . \n"
4,"The game began development in 2010 , carrying over a large portion of the work done on Valkyria Chronicles II . While it retained the standard features of the series , it also underwent multiple adjustments , such as making the game more forgiving for series newcomers . Character designer Raita Honjou and composer Hitoshi Sakimoto both returned from previous entries , along with Valkyria Chronicles II director Takeshi Ozawa . A large team of writers handled the script . The game 's opening theme was sung by May 'n . \n"




--- Cleaned Wikitext (English) ---
Total Samples: 19328


Unnamed: 0,text
0,Valkyria Chronicles III
1,"Senj no Valkyria 3 : Unrecorded Chronicles ( Japanese : 3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to as Valkyria Chronicles III outside Japan , is a tactical role - playing video game developed by Sega and Media.Vision for the PlayStation Portable . Released in January 2011 in Japan , it is the third game in the Valkyria series . Employing the same fusion of tactical and real - time gameplay as its predecessors , the story runs parallel to the first game and follows the "" Nameless "" , a penal military unit serving the nation of Gallia during the Second Europan War who perform secret black operations and are pitted against the Imperial unit "" Calamaty Raven "" ."
2,"The game began development in 2010 , carrying over a large portion of the work done on Valkyria Chronicles II . While it retained the standard features of the series , it also underwent multiple adjustments , such as making the game more forgiving for series newcomers . Character designer Raita Honjou and composer Hitoshi Sakimoto both returned from previous entries , along with Valkyria Chronicles II director Takeshi Ozawa . A large team of writers handled the script . The game 's opening theme was sung by May 'n ."
3,"It met with positive sales in Japan , and was praised by both Japanese and western critics . After release , it received downloadable content , along with an expanded edition in November of that year . It was also adapted into manga and an original video animation series . Due to low sales of Valkyria Chronicles II , Valkyria Chronicles III was not localized , but a fan translation compatible with the game 's expanded edition was released in 2014 . Media.Vision would return to the franchise with the development of Valkyria : Azure Revolution for the PlayStation 4 ."
4,"As with previous Valkyira Chronicles games , Valkyria Chronicles III is a tactical role - playing game where players take control of a military unit and take part in missions against enemy forces . Stories are told through comic book - like panels with animated character portraits , with characters speaking partially through voiced speech bubbles and partially through unvoiced text . The player progresses through a series of linear missions , gradually unlocked as maps that can be freely scanned through and replayed as they are unlocked . The route to each story location on the map varies depending on an individual player 's approach : when one option is selected , the other is sealed off to the player . Outside missions , the player characters rest in a camp , where units can be customized and character growth occurs . Alongside the main story missions are character - specific sub missions relating to different squad members . After the game 's completion , additional episodes are..."






## 2. Bengali Data (Wikipedia)

In [3]:
# Raw Bengali Data
show_samples('../../data/wikimedia_wikipedia_20231101.bn_train', 'Raw Wikipedia (Bengali)')

# Cleaned Bengali Data
show_samples('../../data/cleaned_wikipedia_bn_train', 'Cleaned Wikipedia (Bengali)')

--- Raw Wikipedia (Bengali) ---
Total Samples: 143069


Unnamed: 0,id,url,title,text
0,608,https://bn.wikipedia.org/wiki/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE%20%E0%A6%AD%E0%A6%BE%E0%A6%B7%E0%A6%BE,বাংলা ভাষা,"বাংলা ভাষা (বাঙলা, বাঙ্গলা, তথা বাঙ্গালা নামেও পরিচিত) একটি ইন্দো-আর্য ভাষা, যা দক্ষিণ এশিয়ার বাঙালি জাতির প্রধান কথ্য ও লেখ্য ভাষা। মাতৃভাষীর সংখ্যায় বাংলা ইন্দো-ইউরোপীয় ভাষা পরিবারের পঞ্চম ও মোট ব্যবহারকারীর সংখ্যা অনুসারে বাংলা বিশ্বের ষষ্ঠ বৃহত্তম ভাষা। বাংলা সার্বভৌম ভাষাভিত্তিক জাতিরাষ্ট্র বাংলাদেশের একমাত্র রাষ্ট্রভাষা তথা সরকারি ভাষা এবং ভারতের পশ্চিমবঙ্গ, ত্রিপুরা, আসামের বরাক উপত্যকার সরকারি ভাষা। বঙ্গোপসাগরে অবস্থিত আন্দামান দ্বীপপুঞ্জের প্রধান কথ্য ভাষা বাংলা। এছাড়া ভারতের ঝাড়খণ্ড, বিহার, মেঘালয়, মিজোরাম, ওড়িশা রাজ্যগুলোতে উল্লেখযোগ্য পরিমাণে বাংলাভাষী জনগণ রয়েছে। ২০১১ সালের আদমশুমারি অনুযায়ী, ভারতের মোট জনসংখ্যার ৮.০৩ শতাংশ মানুষ বাংলা ভাষায় কথা বলে এবং হিন্দির পরেই ভারতে সর্বাধিক প্রচলিত ভাষা - বাংলা। এছাড়াও মধ্য প্রাচ্য, আমেরিকা ও ইউরোপে উল্লেখযোগ্য পরিমাণে বাংলাভাষী অভিবাসী রয়েছে। সারা বিশ্বে সব মিলিয়ে ২৭.৬ কোটির অধিক লোক দৈনন্দিন জীবনে বাংলা ব্যবহার করে। বাংলাদেশের জাতীয় সঙ্গীত এবং ভারতের জাতীয় সঙ্গীত ও স্তোত্র বাংলাতে রচিত।\n\nবাংলা ভাষা বিকাশের ইত..."
1,796,https://bn.wikipedia.org/wiki/%E0%A6%AA%E0%A7%8D%E0%A6%B0%E0%A6%A7%E0%A6%BE%E0%A6%A8%20%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE,প্রধান পাতা,নির্বাচিত নিবন্ধ\n \n \n \n \n \n \n \n \n \n আপনি জানেন কি...\n \n \n \n \n \n \n \n \n \n \n ভালো নিবন্ধ\n \n \n ...
2,822,https://bn.wikipedia.org/wiki/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE%E0%A6%A6%E0%A7%87%E0%A6%B6,বাংলাদেশ,"বাংলাদেশ () দক্ষিণ এশিয়ার একটি সার্বভৌম রাষ্ট্র। বাংলাদেশের সাংবিধানিক নাম গণপ্রজাতন্ত্রী বাংলাদেশ। ভৌগোলিকভাবে বাংলাদেশের পশ্চিমে ভারতের পশ্চিমবঙ্গ, উত্তরে পশ্চিমবঙ্গ, আসাম ও মেঘালয়, পূর্ব সীমান্তে আসাম, ত্রিপুরা ও মিজোরাম, দক্ষিণ-পূর্ব সীমান্তে মিয়ানমারের চিন ও রাখাইন রাজ্য এবং দক্ষিণ উপকূলের দিকে বঙ্গোপসাগর অবস্থিত। ভৌগোলিকভাবে পৃথিবীর বৃহত্তম ব-দ্বীপের সিংহভাগ অঞ্চল জুড়ে বাংলাদেশ ভূখণ্ড অবস্থিত। জনসংখ্যার বিবেচনায় প্রায় ১৭ কোটিরও অধিক মানুষ নিয়ে বাংলাদেশ বিশ্বের ৮ম বৃহত্তম দেশ। নদীমাতৃক বাংলাদেশ ভূখণ্ডের উপর দিয়ে বয়ে গেছে ৫৭টি আন্তর্জাতিক নদী। বাংলাদেশের উত্তর-পূর্বে ও দক্ষিণ-পূর্বে টারশিয়ারি যুগের পাহাড় ছেয়ে আছে। বিশ্বের বৃহত্তম ম্যানগ্রোভ অরণ্য সুন্দরবন ও দীর্ঘতম প্রাকৃতিক সৈকত কক্সবাজার সমুদ্র সৈকত বাংলাদেশে অবস্থিত।\n\nদক্ষিণ এশিয়ার প্রাচীন ও ধ্রুপদী যুগে বাংলাদেশ অঞ্চলটিতে বঙ্গ, পুণ্ড্র, গৌড়, গঙ্গাঋদ্ধি, সমতট ও হরিকেল নামক জনপদ গড়ে উঠেছিল। মৌর্য যুগে মৌর্য সাম্রাজ্যের একটি প্রদেশ ছিল অঞ্চলটি। জনপদগুলো নৌ-শক্তি ও সামুদ্রিক বাণিজ্যের জন্য বিখ্যাত ছিল। মধ্যপ্..."
3,827,https://bn.wikipedia.org/wiki/%E0%A6%A6%E0%A7%81%E0%A6%B0%E0%A7%8D%E0%A6%97%E0%A6%BE,দুর্গা,"দুর্গা (; অর্থাৎ ""যিনি দুর্গতি বা সংকট থেকে রক্ষা করেন""; এবং ""যে দেবী দুর্গম নামক অসুরকে বধ করেছিলেন"") হলেন হিন্দু দেবী পার্বতীর এক উগ্র রূপ। হিন্দু সংস্কৃতিতে তিনি জনপ্রিয় এক দেবী। তাঁকে আদ্যাশক্তির রণরঙ্গিনী এক মহাদেবীর রূপ বলে মান্য করেন। তিনি চণ্ডিকা, যোগমায়া, অম্বিকা, বৈষ্ণবী, মহিষাসুরসংহন্ত্রী, নারায়ণী, মহামায়া, কাত্যায়নী, দাক্ষায়ণী, অদ্রিজা, নগনন্দিনী, সিংহবাহিনী, শারদা, আনন্দময়ী ইত্যাদি নামেও পরিচিতা। দুর্গার বাহুসংখ্যা অনেক। তাঁর সহস্রভুজা, ত্রিংশতিভুজা, বিংশতিভুজা, অষ্টাদশভুজা, ষোড়শভুজা, দশভুজা, অষ্টভুজা ও চতুর্ভুজা মূর্তির উল্লেখ পুরাণ গ্রন্থাদিতে পাওয়া যায় বা বিভিন্ন স্থাপত্য-ভাস্কর্যে দেখা যায়। তবে দশভুজা রূপটিই সমধিক জনপ্রিয়। তাঁর বাহন সিংহ (উত্তর ও পশ্চিমভারতে আঞ্চলিকভাবে বাঘ)। মহিষাসুরমর্দিনী-মূর্তিতে তাঁকে মহিষাসুর নামে এক অসুরকে বধরত অবস্থায় দেখা যায়। তাঁর অনেক রূপ, যার মধ্যে কালী রূপটি অন্যতম জনপ্রিয়‌।\n\nসনাতন ধর্মে দেবী দুর্গা পরমা প্রকৃতি ও সৃষ্টির আদি কারণ।<ref name=""ReferenceA"">পৌরাণিকা, প্রথম খণ্ড, অমলকুমার মুখোপাধ্যায়, ফার্মা কেএলএম প্রাইভে..."
4,839,https://bn.wikipedia.org/wiki/%E0%A6%86%E0%A6%A8%E0%A6%A8%E0%A7%8D%E0%A6%A6%E0%A6%AE%E0%A6%A0,আনন্দমঠ,"আনন্দমঠ ঊনবিংশ শতাব্দীর ঔপন্যাসিক বঙ্কিমচন্দ্র চট্টোপাধ্যায় রচিত একটি বাংলা উপন্যাস। এর প্রকাশকাল ১৮৮২ খ্রিস্টাব্দ । ভারতবর্ষের স্বাধীনতা সংগ্রামে এর একটি বিশেষ ভূমিকা আছে। এই উপন্যাসটি ছাপার বিরূদ্ধে ব্রিটিশ সরকার আইন পাশ করে, তবে এর হস্তলিখিত গুপ্ত সংস্করণ জনগণের মাঝে ছড়িয়ে পড়ে। উপন্যাসটি মুসলমান-বিরোধী মতধারার জন্য বিতর্কিত। এই উপন্যাসের কাহিনী ১৭৭৩ খ্রিস্টাব্দে সংঘটিত উত্তরবঙ্গের সন্ন্যাসী আন্দোলনের ওপর ভিত্তি করে রচিত। এই উপন্যাসেই বঙ্কিমচন্দ্র বন্দে মাতরম্‌ গানটি লেখেন। পরবর্তীকালে ভারতীয় স্বদেশপ্রেমীরা ""বন্দে মাতরম"" বাক্যটি জাতীয়তাবাদী শ্লোগান হিসাবে গ্রহণ করেন। এটিকে বাংলা ও ভারতীয় সাহিত্যের ইতিহাসে সবচেয়ে গুরুত্বপূর্ণ উপন্যাস হিসেবে বিবেচনা করা হয়।\n\nকাহিনী \nউপন‍্যাসটির শুরু মহেন্দ্র এবং কল্যাণী নামে এক দম্পতির পরিচয় দিয়ে, যারা দুর্ভিক্ষের সময় খাবার ও জল ছাড়া তাদের গ্রাম পদচিহ্নে আটকে রয়েছে। তারা তাদের গ্রাম ছেড়ে নিকটতম শহরে চলে যাওয়ার সিদ্ধান্ত নিয়েছে যেখানে বেঁচে থাকার ভাল সম্ভাবনা রয়েছে। ঘটনা চলাকালীন, দম্পতি আলাদা হয়ে যায় এবং ডাকাতদের হাতে ধরা ..."




--- Cleaned Wikipedia (Bengali) ---
Total Samples: 142766


Unnamed: 0,id,url,title,text
0,608,https://bn.wikipedia.org/wiki/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE%20%E0%A6%AD%E0%A6%BE%E0%A6%B7%E0%A6%BE,বাংলা ভাষা,"বাংলা ভাষা (বাঙলা, বাঙ্গলা, তথা বাঙ্গালা নামেও পরিচিত) একটি ইন্দো-আর্য ভাষা, যা দক্ষিণ এশিয়ার বাঙালি জাতির প্রধান কথ্য ও লেখ্য ভাষা মাতৃভাষীর সংখ্যায় বাংলা ইন্দো-ইউরোপীয় ভাষা পরিবারের পঞ্চম ও মোট ব্যবহারকারীর সংখ্যা অনুসারে বাংলা বিশ্বের ষষ্ঠ বৃহত্তম ভাষা বাংলা সার্বভৌম ভাষাভিত্তিক জাতিরাষ্ট্র বাংলাদেশের একমাত্র রাষ্ট্রভাষা তথা সরকারি ভাষা এবং ভারতের পশ্চিমবঙ্গ, ত্রিপুরা, আসামের বরাক উপত্যকার সরকারি ভাষা বঙ্গোপসাগরে অবস্থিত আন্দামান দ্বীপপুঞ্জের প্রধান কথ্য ভাষা বাংলা এছাড়া ভারতের ঝাড়খণ্ড, বিহার, মেঘালয়, মিজোরাম, ওড়িশা রাজ্যগুলোতে উল্লেখযোগ্য পরিমাণে বাংলাভাষী জনগণ রয়েছে ২০১১ সালের আদমশুমারি অনুযায়ী, ভারতের মোট জনসংখ্যার ৮.০৩ শতাংশ মানুষ বাংলা ভাষায় কথা বলে এবং হিন্দির পরেই ভারতে সর্বাধিক প্রচলিত ভাষা - বাংলা এছাড়াও মধ্য প্রাচ্য, আমেরিকা ও ইউরোপে উল্লেখযোগ্য পরিমাণে বাংলাভাষী অভিবাসী রয়েছে সারা বিশ্বে সব মিলিয়ে ২৭.৬ কোটির অধিক লোক দৈনন্দিন জীবনে বাংলা ব্যবহার করে বাংলাদেশের জাতীয় সঙ্গীত এবং ভারতের জাতীয় সঙ্গীত ও স্তোত্র বাংলাতে রচিত বাংলা ভাষা বিকাশের ইতিহাস ১৩০০ বছর..."
1,796,https://bn.wikipedia.org/wiki/%E0%A6%AA%E0%A7%8D%E0%A6%B0%E0%A6%A7%E0%A6%BE%E0%A6%A8%20%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE,প্রধান পাতা,নির্বাচিত নিবন্ধ আপনি জানেন কি... ভালো নিবন্ধ আজকের নির্বাচিত ছবি বিষয় অনুযায়ী বাংলা উইকিপিডিয়া সম্পর্কিত সংস্থা অবদানকারীর জন্য পাঠ্য উইকিপিডিয়ার সহপ্রকল্প অন্যান্য ভাষায় উইকিপিডিয়া
2,822,https://bn.wikipedia.org/wiki/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE%E0%A6%A6%E0%A7%87%E0%A6%B6,বাংলাদেশ,"বাংলাদেশ () দক্ষিণ এশিয়ার একটি সার্বভৌম রাষ্ট্র বাংলাদেশের সাংবিধানিক নাম গণপ্রজাতন্ত্রী বাংলাদেশ ভৌগোলিকভাবে বাংলাদেশের পশ্চিমে ভারতের পশ্চিমবঙ্গ, উত্তরে পশ্চিমবঙ্গ, আসাম ও মেঘালয়, পূর্ব সীমান্তে আসাম, ত্রিপুরা ও মিজোরাম, দক্ষিণ-পূর্ব সীমান্তে মিয়ানমারের চিন ও রাখাইন রাজ্য এবং দক্ষিণ উপকূলের দিকে বঙ্গোপসাগর অবস্থিত ভৌগোলিকভাবে পৃথিবীর বৃহত্তম ব-দ্বীপের সিংহভাগ অঞ্চল জুড়ে বাংলাদেশ ভূখণ্ড অবস্থিত জনসংখ্যার বিবেচনায় প্রায় ১৭ কোটিরও অধিক মানুষ নিয়ে বাংলাদেশ বিশ্বের ৮ম বৃহত্তম দেশ নদীমাতৃক বাংলাদেশ ভূখণ্ডের উপর দিয়ে বয়ে গেছে ৫৭টি আন্তর্জাতিক নদী বাংলাদেশের উত্তর-পূর্বে ও দক্ষিণ-পূর্বে টারশিয়ারি যুগের পাহাড় ছেয়ে আছে বিশ্বের বৃহত্তম ম্যানগ্রোভ অরণ্য সুন্দরবন ও দীর্ঘতম প্রাকৃতিক সৈকত কক্সবাজার সমুদ্র সৈকত বাংলাদেশে অবস্থিত দক্ষিণ এশিয়ার প্রাচীন ও ধ্রুপদী যুগে বাংলাদেশ অঞ্চলটিতে বঙ্গ, পুণ্ড্র, গৌড়, গঙ্গাঋদ্ধি, সমতট ও হরিকেল নামক জনপদ গড়ে উঠেছিল মৌর্য যুগে মৌর্য সাম্রাজ্যের একটি প্রদেশ ছিল অঞ্চলটি জনপদগুলো নৌ-শক্তি ও সামুদ্রিক বাণিজ্যের জন্য বিখ্যাত ছিল মধ্যপ্রাচ্য, রোমান সাম..."
3,827,https://bn.wikipedia.org/wiki/%E0%A6%A6%E0%A7%81%E0%A6%B0%E0%A7%8D%E0%A6%97%E0%A6%BE,দুর্গা,"দুর্গা (; অর্থাৎ ""যিনি দুর্গতি বা সংকট থেকে রক্ষা করেন""; এবং ""যে দেবী দুর্গম নামক অসুরকে বধ করেছিলেন"") হলেন হিন্দু দেবী পার্বতীর এক উগ্র রূপ হিন্দু সংস্কৃতিতে তিনি জনপ্রিয় এক দেবী তাঁকে আদ্যাশক্তির রণরঙ্গিনী এক মহাদেবীর রূপ বলে মান্য করেন তিনি চণ্ডিকা, যোগমায়া, অম্বিকা, বৈষ্ণবী, মহিষাসুরসংহন্ত্রী, নারায়ণী, মহামায়া, কাত্যায়নী, দাক্ষায়ণী, অদ্রিজা, নগনন্দিনী, সিংহবাহিনী, শারদা, আনন্দময়ী ইত্যাদি নামেও পরিচিতা দুর্গার বাহুসংখ্যা অনেক তাঁর সহস্রভুজা, ত্রিংশতিভুজা, বিংশতিভুজা, অষ্টাদশভুজা, ষোড়শভুজা, দশভুজা, অষ্টভুজা ও চতুর্ভুজা মূর্তির উল্লেখ পুরাণ গ্রন্থাদিতে পাওয়া যায় বা বিভিন্ন স্থাপত্য-ভাস্কর্যে দেখা যায় তবে দশভুজা রূপটিই সমধিক জনপ্রিয় তাঁর বাহন সিংহ (উত্তর ও পশ্চিমভারতে আঞ্চলিকভাবে বাঘ) মহিষাসুরমর্দিনী-মূর্তিতে তাঁকে মহিষাসুর নামে এক অসুরকে বধরত অবস্থায় দেখা যায় তাঁর অনেক রূপ, যার মধ্যে কালী রূপটি অন্যতম জনপ্রিয় সনাতন ধর্মে দেবী দুর্গা পরমা প্রকৃতি ও সৃষ্টির আদি কারণ ref name ""ReferenceA"" পৌরাণিকা, প্রথম খণ্ড, অমলকুমার মুখোপাধ্যায়, ফার্মা কেএলএম প্রাইভেট লিমিটেড, কলকা..."
4,839,https://bn.wikipedia.org/wiki/%E0%A6%86%E0%A6%A8%E0%A6%A8%E0%A7%8D%E0%A6%A6%E0%A6%AE%E0%A6%A0,আনন্দমঠ,"আনন্দমঠ ঊনবিংশ শতাব্দীর ঔপন্যাসিক বঙ্কিমচন্দ্র চট্টোপাধ্যায় রচিত একটি বাংলা উপন্যাস এর প্রকাশকাল ১৮৮২ খ্রিস্টাব্দ ভারতবর্ষের স্বাধীনতা সংগ্রামে এর একটি বিশেষ ভূমিকা আছে এই উপন্যাসটি ছাপার বিরূদ্ধে ব্রিটিশ সরকার আইন পাশ করে, তবে এর হস্তলিখিত গুপ্ত সংস্করণ জনগণের মাঝে ছড়িয়ে পড়ে উপন্যাসটি মুসলমান-বিরোধী মতধারার জন্য বিতর্কিত এই উপন্যাসের কাহিনী ১৭৭৩ খ্রিস্টাব্দে সংঘটিত উত্তরবঙ্গের সন্ন্যাসী আন্দোলনের ওপর ভিত্তি করে রচিত এই উপন্যাসেই বঙ্কিমচন্দ্র বন্দে মাতরম্ গানটি লেখেন পরবর্তীকালে ভারতীয় স্বদেশপ্রেমীরা ""বন্দে মাতরম"" বাক্যটি জাতীয়তাবাদী শ্লোগান হিসাবে গ্রহণ করেন এটিকে বাংলা ও ভারতীয় সাহিত্যের ইতিহাসে সবচেয়ে গুরুত্বপূর্ণ উপন্যাস হিসেবে বিবেচনা করা হয় কাহিনী উপন ্যাসটির শুরু মহেন্দ্র এবং কল্যাণী নামে এক দম্পতির পরিচয় দিয়ে, যারা দুর্ভিক্ষের সময় খাবার ও জল ছাড়া তাদের গ্রাম পদচিহ্নে আটকে রয়েছে তারা তাদের গ্রাম ছেড়ে নিকটতম শহরে চলে যাওয়ার সিদ্ধান্ত নিয়েছে যেখানে বেঁচে থাকার ভাল সম্ভাবনা রয়েছে ঘটনা চলাকালীন, দম্পতি আলাদা হয়ে যায় এবং ডাকাতদের হাতে ধরা না পড়ার জন্য দৌড়াতে..."






## 3. Parallel Data (BanglaNMT)

In [4]:
# Parallel Data
show_samples('../../data/csebuetnlp_banglanmt_parallel', 'BanglaNMT Parallel Data')

--- BanglaNMT Parallel Data ---
Total Samples: 3


Unnamed: 0,jsonl,__key__,__url__
0,"b'{""bn"": ""\xe0\xa6\x86\xe0\xa6\xae\xe0\xa6\xbe\xe0\xa6\x95\xe0\xa7\x87 \xe0\xa6\xb8\xe0\xa6\xac \xe0\xa6\x95\xe0\xa6\xbf\xe0\xa6\x9b\xe0\xa7\x81 \xe0\xa6\x9c\xe0\xa6\xbe\xe0\xa6\xa8\xe0\xa6\xbe\xe0\xa6\x93"", ""en"": ""Just keep me informed.""}\n{""bn"": ""\\""\xe0\xa6\x8f\xe0\xa7\x8d\xe0\xa6\xaf\xe0\xa6\xbe\xe0\xa6\xae\xe0\xa7\x8b\xe0\xa6\xb0 \xe0\xa6\x8f\xe0\xa6\xa8\xe0\xa7\x8d\xe0\xa6\xa1 \xe0\xa6\xb8\xe0\xa6\xbe\xe0\xa6\x87\xe0\xa6\x95\xe0\xa6\xbf\\"", \xe0\xa6\x8f\xe0\xa6\x9f\xe0\xa6\xbe \xe0\xa6\x96\xe0\xa6\xbe\xe0\xa6\xb0\xe0\xa6\xbe\xe0\xa6\xaa, \xe0\xa6\xae\xe0\xa6\xa8\xe0\xa6\xbf\xe0\xa6\xac \xe0\xa6\x8f\xe0\xa6\x9f\xe0\xa6\xbe\xe0\xa7\x9f \xe0\xa6\xaa\xe0\xa7\x8d\xe0\xa6\xb0\xe0\xa6\x9a\xe0\xa7\x81\xe0\xa6\xb0 \xe0\xa6\xaa\xe0\xa6\xb0\xe0\xa6\xbf\xe0\xa6\xae\xe0\xa6\xbe\xe0\xa6\xa3\xe0\xa7\x87 \xe0\xa6\x9a\xe0\xa6\xbf\xe0\xa6\xb0\xe0\xa6\xb9\xe0\xa6\xb0\xe0\xa6\xbf\xe0\xa7\x8e (\xe0\xa6\x8f\xe0\xa6\x95\xe0\xa6\xaa\xe0\xa7\x8d\xe0\xa6\xb0\xe0\xa6\x95\xe0\xa6\xbe\xe0\xa6\xb0 \xe0\xa...",BanglaNMT/train,/Users/siddhartha/.cache/huggingface/hub/datasets--csebuetnlp--banglanmt/snapshots/bb866b91ea96935b3f2ba1746fd62d0c136015e8/data/BanglaNMT.tar.bz2
1,"b'{""bn"": ""\xe0\xa6\xb8\xe0\xa6\xab\xe0\xa6\xb0\xe0\xa7\x87\xe0\xa6\xb0 \xe0\xa6\xb8\xe0\xa6\xae\xe0\xa7\x9f\xe0\xa6\xb8\xe0\xa7\x82\xe0\xa6\x9a\xe0\xa6\xbf \xe0\xa6\x85\xe0\xa6\xa8\xe0\xa7\x81\xe0\xa6\xaf\xe0\xa6\xbe\xe0\xa7\x9f\xe0\xa7\x80, \xe0\xa6\xb8\xe0\xa6\xbf\xe0\xa6\x99\xe0\xa7\x8d\xe0\xa6\x97\xe0\xa6\xbe\xe0\xa6\xaa\xe0\xa7\x81\xe0\xa6\xb0 \xe0\xa6\x8f\xe0\xa7\x9f\xe0\xa6\xbe\xe0\xa6\xb0\xe0\xa6\xb2\xe0\xa6\xbe\xe0\xa6\x87\xe0\xa6\xa8\xe0\xa7\x8d\xe0\xa6\xb8\xe0\xa7\x87\xe0\xa6\xb0 \xe0\xa6\x8f\xe0\xa6\x95\xe0\xa6\x9f\xe0\xa6\xbf \xe0\xa6\xa8\xe0\xa6\xbf\xe0\xa7\x9f\xe0\xa6\xae\xe0\xa6\xbf\xe0\xa6\xa4 \xe0\xa6\xab\xe0\xa7\x8d\xe0\xa6\xb2\xe0\xa6\xbe\xe0\xa6\x87\xe0\xa6\x9f \xe0\xa6\xb0\xe0\xa6\xbe\xe0\xa6\xb7\xe0\xa7\x8d\xe0\xa6\x9f\xe0\xa7\x8d\xe0\xa6\xb0\xe0\xa6\xaa\xe0\xa6\xa4\xe0\xa6\xbf \xe0\xa6\x93 \xe0\xa6\xa4\xe0\xa6\xbe\xe0\xa6\xb0 \xe0\xa6\xb8\xe0\xa6\xab\xe0\xa6\xb0\xe0\xa6\xb8\xe0\xa6\x99\xe0\xa7\x8d\xe0\xa6\x97\xe0\xa7\x80\xe0\xa6\xa6\xe0\xa7\x87\xe0\xa6\xb0 \...",BanglaNMT/validation,/Users/siddhartha/.cache/huggingface/hub/datasets--csebuetnlp--banglanmt/snapshots/bb866b91ea96935b3f2ba1746fd62d0c136015e8/data/BanglaNMT.tar.bz2
2,"b'{""bn"": ""\xe0\xa6\xac\xe0\xa6\xbf\xe0\xa6\xae\xe0\xa6\xbe\xe0\xa6\xa8\xe0\xa6\xac\xe0\xa6\xa8\xe0\xa7\x8d\xe0\xa6\xa6\xe0\xa6\xb0\xe0\xa7\x87 \xe0\xa6\xaf\xe0\xa7\x81\xe0\xa6\x95\xe0\xa7\x8d\xe0\xa6\xa4\xe0\xa6\xb0\xe0\xa6\xbe\xe0\xa6\x9c\xe0\xa7\x8d\xe0\xa6\xaf\xe0\xa7\x87 \xe0\xa6\xa8\xe0\xa6\xbf\xe0\xa6\xaf\xe0\xa7\x81\xe0\xa6\x95\xe0\xa7\x8d\xe0\xa6\xa4 \xe0\xa6\xac\xe0\xa6\xbe\xe0\xa6\x82\xe0\xa6\xb2\xe0\xa6\xbe\xe0\xa6\xa6\xe0\xa7\x87\xe0\xa6\xb6 \xe0\xa6\xb9\xe0\xa6\xbe\xe0\xa6\x87\xe0\xa6\x95\xe0\xa6\xae\xe0\xa6\xbf\xe0\xa6\xb6\xe0\xa6\xa8\xe0\xa6\xbe\xe0\xa6\xb0 \xe0\xa6\xb8\xe0\xa6\xbe\xe0\xa6\x88\xe0\xa6\xa6\xe0\xa6\xbe \xe0\xa6\xae\xe0\xa7\x81\xe0\xa6\xa8\xe0\xa6\xbe \xe0\xa6\xa4\xe0\xa6\xbe\xe0\xa6\xb8\xe0\xa6\xa8\xe0\xa7\x80\xe0\xa6\xae \xe0\xa6\x93 \xe0\xa6\xb2\xe0\xa6\xa8\xe0\xa7\x8d\xe0\xa6\xa1\xe0\xa6\xa8\xe0\xa7\x87 \xe0\xa6\xac\xe0\xa6\xbe\xe0\xa6\x82\xe0\xa6\xb2\xe0\xa6\xbe\xe0\xa6\xa6\xe0\xa7\x87\xe0\xa6\xb6 \xe0\xa6\xae\xe0\xa6\xbf\xe0\xa6\xb6\xe0\xa6\xa8\xe...",BanglaNMT/test,/Users/siddhartha/.cache/huggingface/hub/datasets--csebuetnlp--banglanmt/snapshots/bb866b91ea96935b3f2ba1746fd62d0c136015e8/data/BanglaNMT.tar.bz2




