<a href="https://colab.research.google.com/github/souro/misc_google_collab/blob/main/wiki_honorifics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import json
import re
import os
import pandas as pd

In [None]:
def is_unicode_format(value):
    return bool(re.search(r'\\u[0-9A-Fa-f]{4}', value))

In [None]:
def convert_to_bengali(value):
    return value.encode().decode('unicode_escape')

In [None]:
def process_json_object(json_obj):
    for key, value in json_obj.items():
        if isinstance(value, str) and is_unicode_format(value):
            json_obj[key] = convert_to_bengali(value)
        elif isinstance(value, dict):
            process_json_object(value)
        elif isinstance(value, list):
            for item in value:
                if isinstance(item, dict):
                    process_json_object(item)
    return json_obj

In [None]:
# input_file = 'sample_data/wiki_00'
# output_file = 'sample_data/wiki_bn1.json'

In [None]:
# !unzip sample_data/bn_prcsd.zip

In [None]:
# input_directory = 'sample_data/bn/'
# output_directory = 'sample_data/bn_prcsd/'

In [3]:
input_directory = 'sample_data/bn_prcsd/'

In [4]:
pronouns = ["সে", "তারা", "তাঁরা", "ও", "ওরা", "তিনি", "তাহারা", "তার", "তাঁর", "তাদের", "তাঁদের", "ওর", "ওদের", "তাহার", "তাহাদের"]

# def count_pronouns(text, pronouns):
#     counts = {pronoun: text.count(pronoun) for pronoun in pronouns}
#     return counts

def count_pronouns(text, pronouns):
    counts = {}
    for pronoun in pronouns:
        pattern = rf'\b{pronoun}\b'
        counts[pronoun] = len(re.findall(pattern, text))
    return counts

In [None]:
# data = []
# for filename in os.listdir(input_directory):
#     # if filename.endswith('.json'):
#     filepath = os.path.join(input_directory, filename)
#     input_file = filepath
#     output_file = os.path.join(output_directory, filename)
#     with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
#         for line in infile:
#             json_obj = json.loads(line)

#             title = json_obj.get('title', '')
#             text = json_obj.get('text', '')

#             pronoun_counts = count_pronouns(text, pronouns)
#             pronoun_counts['title'] = title
#             data.append(pronoun_counts)

#             processed_obj = process_json_object(json_obj)
#             json.dump(processed_obj, outfile, ensure_ascii=False)
#             outfile.write('\n')

In [None]:
data = []
for filename in os.listdir(input_directory):
    # if filename.endswith('.json'):
    filepath = os.path.join(input_directory, filename)
    input_file = filepath
    with open(input_file, 'r', encoding='utf-8') as infile:
      for line in infile:
        if line.strip():
          try:
            # print(line)
            json_obj = json.loads(line)

            title = json_obj.get('title', '')
            text = json_obj.get('text', '')

            pronoun_counts = count_pronouns(text, pronouns)
            pronoun_counts['title'] = title
            data.append(pronoun_counts)
          except json.JSONDecodeError as e:
            print(f"Error decoding JSON in file {input_file}, line: {line.strip()}")
            print(e)


In [22]:
import os
import json
import re

def count_pronouns(text, pronouns):
    counts = {pronoun: 0 for pronoun in pronouns}
    words = re.findall(r'\b\w+\b', text.lower())
    for word in words:
        if word in counts:
            counts[word] += 1
    return counts

def process_file(input_file, pronouns):
    data = []
    with open(input_file, 'r', encoding='utf-8') as infile:
        for line in infile:
            if line.strip():
                try:
                    json_obj = json.loads(line)

                    title = json_obj.get('title', '')
                    text = json_obj.get('text', '')

                    sections = re.split(r'\n([^\n.]+)\.\n', text)
                    sections = [sec.strip() for sec in sections if sec.strip()]
                    print(sections)
                    break

                    section_counts = {}
                    total_counts = {pronoun: 0 for pronoun in pronouns}

                    for i in range(0, len(sections), 2):
                        if i + 1 < len(sections):
                            section_name = sections[i]
                            section_text = sections[i + 1]
                            pronoun_counts = count_pronouns(section_text, pronouns)
                            section_counts[section_name] = pronoun_counts
                            for pronoun, count in pronoun_counts.items():
                                total_counts[pronoun] += count

                    section_counts['whole text'] = total_counts
                    section_counts['title'] = title
                    data.append(section_counts)
                except json.JSONDecodeError as e:
                    # print(f"Error decoding JSON in file {input_file}, line: {line.strip()}")
                    # print(e)
                    pass
    return data

input_directory = 'sample_data/bn_prcsd/'
pronouns = ["সে", "তারা", "তাঁরা", "ও", "ওরা", "তিনি", "তাহারা", "তার", "তাঁর", "তাদের", "তাঁদের", "ওর", "ওদের", "তাহার", "তাহাদের"]

all_data = []
for filename in os.listdir(input_directory):
    filepath = os.path.join(input_directory, filename)
    # if filepath.endswith('.json'):
    file_data = process_file(filepath, pronouns)
    all_data.extend(file_data)

['পণ্ডিত নরেন্দ্র শর্মা (২৮ ফেব্রুয়ারি ১৯১৩ - ১১ ফেব্রুয়ারি ১৯৮৯) ছিলেন একজন ভারতীয় হিন্দি কবি এবং কিংবদন্তি গীতিকার ও লেখক। এসবের পাশাপাশি পত্রিকা সম্পাদনা আর চলচ্চিত্রের জন্য অবিস্মরণীয় গান রচনা করেছেন। আকাশবাণীর সঙ্গে যুক্ত হয়ে ১৯৫৭ খ্রিস্টাব্দে জনপ্রিয় চ্যানেল বিবিধ ভারতী প্রচার তরঙ্গের সূত্রপাত করে ইতিহাস সৃষ্টি করেছেন।', 'জীবন এবং কর্মজীবন', 'পণ্ডিত নরেন্দ্র শর্মা ১৯১৩ খ্রিস্টাব্দের ২৮ ফেব্রুয়ারি ব্রিটিশ ভারতের আগ্রা ও অবধের যুক্তপ্রদেশ অধুনা উত্তরপ্রদেশের গৌতম বুদ্ধ নগরেরর জাহাঙ্গীরপুরে এক ভরদ্বাজ ব্রাহ্মণ পরিবারে জন্মগ্রহণ করেন। নরেন্দ্রর চার বৎসর বয়সের সময় পিতা পূর্ণলাল শর্মা মারা যান। সেকারণে তার মাতা গঙ্গা দেবী এবং পিতৃব্য গনপত তাউজি তাকে প্রতিপালন করেন। তিনি এলাহাবাদ বিশ্ববিদ্যালয় থেকে শিক্ষাবিজ্ঞান ও ইংরেজি ভাষা ও সাহিত্যে এম.এ ডিগ্রি লাভ করেন।\nপণ্ডিত নরেন্দ্র শর্মা ছোটবেলা থেকেই সাহিত্য রচনা শুরু করেন। ১৯৩১ খ্রিস্টাব্দে তার প্রথম কবিতা \'চাঁদ\' প্রকাশিত হয়। তিনি ২১ বৎসর বয়সে ১৯৩৪ খ্রিস্টাব্দে পণ্ডিত মদনমোহন মালব্যের প্রয়াগে প্রতিষ্ঠিত সাপ্তাহিক " অভ্যুদয়" প

In [21]:
print(all_data[:5])

[{'পণ্ডিত নরেন্দ্র শর্মা (২৮ ফেব্রুয়ারি ১৯১৩ - ১১ ফেব্রুয়ারি ১৯৮৯) ছিলেন একজন ভারতীয় হিন্দি কবি এবং কিংবদন্তি গীতিকার ও লেখক। এসবের পাশাপাশি পত্রিকা সম্পাদনা আর চলচ্চিত্রের জন্য অবিস্মরণীয় গান রচনা করেছেন। আকাশবাণীর সঙ্গে যুক্ত হয়ে ১৯৫৭ খ্রিস্টাব্দে জনপ্রিয় চ্যানেল বিবিধ ভারতী প্রচার তরঙ্গের সূত্রপাত করে ইতিহাস সৃষ্টি করেছেন।': {'সে': 0, 'তারা': 0, 'তাঁরা': 0, 'ও': 0, 'ওরা': 0, 'তিনি': 0, 'তাহারা': 0, 'তার': 0, 'তাঁর': 0, 'তাদের': 0, 'তাঁদের': 0, 'ওর': 0, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0}, 'পণ্ডিত নরেন্দ্র শর্মা ১৯১৩ খ্রিস্টাব্দের ২৮ ফেব্রুয়ারি ব্রিটিশ ভারতের আগ্রা ও অবধের যুক্তপ্রদেশ অধুনা উত্তরপ্রদেশের গৌতম বুদ্ধ নগরেরর জাহাঙ্গীরপুরে এক ভরদ্বাজ ব্রাহ্মণ পরিবারে জন্মগ্রহণ করেন। নরেন্দ্রর চার বৎসর বয়সের সময় পিতা পূর্ণলাল শর্মা মারা যান। সেকারণে তার মাতা গঙ্গা দেবী এবং পিতৃব্য গনপত তাউজি তাকে প্রতিপালন করেন। তিনি এলাহাবাদ বিশ্ববিদ্যালয় থেকে শিক্ষাবিজ্ঞান ও ইংরেজি ভাষা ও সাহিত্যে এম.এ ডিগ্রি লাভ করেন।\nপণ্ডিত নরেন্দ্র শর্মা ছোটবেলা থেকেই সাহিত্য রচনা শুরু করেন। ১৯৩১ খ্রিস্টা

In [None]:
# !zip -r sample_data/bn_prcsd.zip sample_data/bn_prcsd/

In [11]:
print(data[:5])

[{'সে': 4, 'তারা': 0, 'তাঁরা': 0, 'ও': 10, 'ওরা': 0, 'তিনি': 1, 'তাহারা': 0, 'তার': 9, 'তাঁর': 0, 'তাদের': 2, 'তাঁদের': 0, 'ওর': 1, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0, 'title': 'পণ্ডিত নরেন্দ্র শর্মা'}, {'সে': 0, 'তারা': 0, 'তাঁরা': 0, 'ও': 0, 'ওরা': 0, 'তিনি': 0, 'তাহারা': 0, 'তার': 0, 'তাঁর': 0, 'তাদের': 0, 'তাঁদের': 0, 'ওর': 0, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0, 'title': 'এনাটমি'}, {'সে': 2, 'তারা': 0, 'তাঁরা': 0, 'ও': 1, 'ওরা': 0, 'তিনি': 0, 'তাহারা': 0, 'তার': 4, 'তাঁর': 0, 'তাদের': 0, 'তাঁদের': 0, 'ওর': 0, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0, 'title': 'নিকোলাস মারে বাটলার'}, {'সে': 0, 'তারা': 0, 'তাঁরা': 0, 'ও': 0, 'ওরা': 0, 'তিনি': 0, 'তাহারা': 0, 'তার': 0, 'তাঁর': 0, 'তাদের': 0, 'তাঁদের': 0, 'ওর': 0, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0, 'title': 'সর্বজনীন পেনশন স্কিম'}, {'সে': 1, 'তারা': 0, 'তাঁরা': 0, 'ও': 0, 'ওরা': 0, 'তিনি': 0, 'তাহারা': 0, 'তার': 0, 'তাঁর': 0, 'তাদের': 0, 'তাঁদের': 0, 'ওর': 0, 'ওদের': 0, 'তাহার': 0, 'তাহাদের': 0, 'title': 'টমাস পাফে'}]


In [12]:
freq_output_file = 'sample_data/output_bn.csv'

In [13]:
df = pd.DataFrame(data)

for pronoun in pronouns:
    if pronoun not in df.columns:
        df[pronoun] = 0

df = df[['title'] + pronouns]

df.to_csv(freq_output_file, index=False, encoding='utf-8')

In [14]:
df.head()

Unnamed: 0,title,সে,তারা,তাঁরা,ও,ওরা,তিনি,তাহারা,তার,তাঁর,তাদের,তাঁদের,ওর,ওদের,তাহার,তাহাদের
0,পণ্ডিত নরেন্দ্র শর্মা,4,0,0,10,0,1,0,9,0,2,0,1,0,0,0
1,এনাটমি,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,নিকোলাস মারে বাটলার,2,0,0,1,0,0,0,4,0,0,0,0,0,0,0
3,সর্বজনীন পেনশন স্কিম,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,টমাস পাফে,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [None]:
!apt-get update # Update apt-get repository.
!apt-get install openjdk-8-jdk-headless -qq > /dev/null # Install Java.
!wget -q http://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz # Download Apache Sparks.
!tar xf spark-3.1.1-bin-hadoop3.2.tgz # Unzip the tgz file.
!pip install -q findspark # Install findspark. Adds PySpark to the System path during runtime.

# Set environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop3.2"

!ls

# # Initialize findspark
# import findspark
# findspark.init()

# # Create a PySpark session
# from pyspark.sql import SparkSession
# spark = SparkSession.builder.master("local[*]").getOrCreate()
# spark

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.81)] [Connected to cloud.r-                                                                                                    Hit:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.81)] [Connected to cloud.r-                                                                                                    Hit:3 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to r2u.stat.illinois.edu (192.17.190.167)]                                                                                                    Hit:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:6 http://s

In [15]:
!sudo apt update
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
#Check this site for the latest download link https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
!wget -q https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
!tar xf spark-3.2.1-bin-hadoop3.2.tgz
!pip install -q findspark
!pip install pyspark
!pip install py4j

[33m0% [Working][0m            Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:5 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Ign:6 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Get:7 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [907 kB]
Get:8 https://r2u.stat.illinois.edu/ubuntu jammy Release [5,713 B]
Get:9 https://r2u.stat.illinois.edu/ubuntu jammy Release.gpg [793 B]
Get:10 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Hit:11 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:12 https://r2u.stat.illinois.edu/ubuntu jammy/main all Packages [8,221 kB]
Get:13 http://archive.ubuntu.com/ubuntu jammy-upd

In [16]:
import os
import sys
# os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
# os.environ["SPARK_HOME"] = "/content/spark-3.2.1-bin-hadoop3.2"


import findspark
findspark.init()
findspark.find()

import pyspark

from pyspark.sql import DataFrame, SparkSession

In [17]:
from pyspark import SparkContext
num_of_th = 48;
repartition_size = num_of_th*4;
chunk_size = 1000000
sc = SparkContext(master = "local[20]").getOrCreate()
spark = SparkSession(sc)

In [18]:
spark

In [19]:
!bunzip2 -d sample_data/bnwiki-latest-pages-articles.xml.bz2

bunzip2: Can't open input file sample_data/bnwiki-latest-pages-articles.xml.bz2: No such file or directory.


In [20]:
file_rdd = spark.read.text("/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml", wholetext=False)

In [21]:
file_rdd

DataFrame[value: string]

In [22]:
file_chunk = file_rdd.take(chunk_size)

In [23]:
file_rdd.take(10)

[Row(value='<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.11/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.11/ http://www.mediawiki.org/xml/export-0.11.xsd" version="0.11" xml:lang="bn">'),
 Row(value='  <siteinfo>'),
 Row(value='    <sitename>উইকিপিডিয়া</sitename>'),
 Row(value='    <dbname>bnwiki</dbname>'),
 Row(value='    <base>https://bn.wikipedia.org/wiki/%E0%A6%AA%E0%A7%8D%E0%A6%B0%E0%A6%A7%E0%A6%BE%E0%A6%A8_%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE</base>'),
 Row(value='    <generator>MediaWiki 1.43.0-wmf.14</generator>'),
 Row(value='    <case>first-letter</case>'),
 Row(value='    <namespaces>'),
 Row(value='      <namespace key="-2" case="first-letter">মিডিয়া</namespace>'),
 Row(value='      <namespace key="-1" case="first-letter">বিশেষ</namespace>')]

In [25]:
myRDD = sc.parallelize(file_chunk)

In [27]:
myRDD_ = myRDD.repartition(repartition_size)

In [28]:
elements_parsed = {"title" : [], "url" : [], "abstract" : [], "anchor" : [], "link" : []}


def get_values(i,x,elements_parsed):
    try:
        root = ET.fromstring(x[0]) # can be run over multiple threads by increasing batch size
        for child in root.iter():
            if child.tag == "title":
                elements_parsed["title"].append(child.text)
#                 elements_parsed["count"].append(i)
            if child.tag == "url":
                elements_parsed["url"].append(child.text)
            if child.tag == "abstract":
                elements_parsed["abstract"].append(child.text)
            if child.tag == "anchor":
                elements_parsed["anchor"].append(child.text)
            if child.tag == "link":
                elements_parsed["link"].append(child.text)

    except:
      pass
    # gc.collect()
    return elements_parsed

In [31]:
# Register the parser with Pysaprk
from pyspark.sql.types import StringType
# pyspark.sql.udf.UDFRegistration.register(name="get_values", f = get_values, returnType=StringType())
from pyspark.sql.functions import udf
get_values_udf = udf(get_values, StringType())

In [None]:
import time
parsed_records_ini = []; start = time.time()

for idx_,count in enumerate(count_list):
    # 6. Getting one partitioned RDD at a time.
    chunk = myRDD.mapPartitionsWithIndex(lambda i, it: islice(it, 0, count) if i == idx_ else []).collect()




    # 7. Parallelizing it further.
    myRDD_ = sc.parallelize(chunk)
    myRDD_ = myRDD_.repartition(repartition_size)

    #Initiate the dict in which elements will be appended
    elements_parsed = {"count" : [], "title" : [], "url" : [], "abstract" : [], "anchor" : [], "link" : []}

    # 7. Run the job on spark
    elements_parsed = sc.runJob(myRDD_, lambda part: [get_values(i,x,elements_parsed) for i,x in enumerate(part)])




    # 8. Remove duplicate and consilation of parsed records, a hygiene check.

    parsed_records_list = elements_parsed_rm_frindges(elements_parsed)

    # 8. Create a master list in which all the cleaned records will continue appending while all the intermediate variables are reset.
    parsed_records = parsed_records_ini+parsed_records_list
    parsed_records_ini = parsed_records


    # Clean the intermediate RDD
    myRDD_ = sc.emptyRDD()

    #Garbage collection to further save up memory
    gc.collect()

    # Clear Spark cache just in case.
    spark.catalog.clearCache()
    print(idx_, time.time()-start)

In [None]:
import time
import xml.etree.ElementTree as ET

anch = []; lnk = []; start = time.time(); df = pd.DataFrame(); i = 0
elements_parsed = {"title" : [], "url" : [], "abstract" : [], "anchor" : [], "link" : []}



for event, elem in ET.iterparse("/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"):
    if elem.tag == "title":
        elements_parsed["title"].append(elem.text.split(":")[1])

    if elem.tag == "url":
        elements_parsed["url"].append(elem.text)
    if elem.tag == "abstract":
        elements_parsed["abstract"].append(elem.text)

    if len(elem) > 0:
        for child in elem:
            # print("Child tag:", child.tag)
            if child.tag == "anchor":
                anch.append(child.text)

            if child.tag == "link":
                lnk.append(child.text)


    if i > 0 and elem.tag == "title":
        elements_parsed["anchor"].append(anch)
        elements_parsed["link"].append(lnk)
        anch = []; lnk = []
        if len(df) == 0:
            df["title"] = [elements_parsed["title"][0]]
            df["url"] = [elements_parsed["url"][0]]
            df["abstract"] = [elements_parsed["abstract"][0]]
            df["anchor"] = [elements_parsed["anchor"][0]]
            df["link"] = [elements_parsed["link"][0]]
        if len(df) > 0:
            df.loc[i] = [elements_parsed["title"][0],elements_parsed["url"][0],elements_parsed["abstract"][0],elements_parsed["anchor"][0],elements_parsed["link"][0]]

        elements_parsed.clear()
        elements_parsed = {"title" : [], "url" : [], "abstract" : [], "anchor" : [], "link" : []}
        elements_parsed["title"].append(elem.text)


    i = i+1
    if i > 0 and i % 1000000 == 0:#00
        print(i,"Time taken...", time.time()-start, "seconds..")
    if i == 1000000:
        break

In [36]:
# import xml.etree.ElementTree as ET

# def print_article_tags(xml_file, article_title):
#     found_article = False
#     for event, elem in ET.iterparse(xml_file, events=("start", "end")):
#         if event == "start" and elem.tag == "page":
#             for child in elem:
#                 if child.tag == "title" and child.text == article_title:
#                     found_article = True
#                     break

#         if found_article and event == "end":
#             if elem.tag != "page":
#                 print(f"Tag: {elem.tag}, Value: {elem.text}")

#             if elem.tag == "page":
#                 break
#             elem.clear()

# xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
# article_to_find = "মুজিবুর রহমান"
# print_article_tags(xml_file_path, article_to_find)

In [None]:
import xml.etree.ElementTree as ET

def print_first_n_pages(xml_file, n):
    page_count = 0
    for event, elem in ET.iterparse(xml_file, events=("start", "end")):
        if event == "start" and elem.tag == "page":
            page_count += 1

        if page_count <= n and event == "end":
            if elem.tag != "page":
                # print(f"Tag: {elem.tag}, Value: {elem.text}")
                print(f"Tag: {elem.tag}")

            if elem.tag == "page":
                elem.clear()

xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
num_articles_to_print = 1
print_first_n_pages(xml_file_path, num_articles_to_print)

In [None]:
import xml.etree.ElementTree as ET

def print_first_page(xml_file):
    in_page = False
    for event, elem in ET.iterparse(xml_file, events=("start", "end")):
        if event == "start" and elem.tag == "page":
            in_page = True
            print(1)

        if in_page and event == "end":
            if elem.tag == "page":
                in_page = False
                print(2)
                break
            else:
                print(f"Tag: {elem.tag}, Value: {elem.text}")
                print(3)

        if event == "end" and not in_page:
          print(4)
          elem.clear()

xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
print_first_page(xml_file_path)

In [9]:
# import xml.etree.ElementTree as ET

# def print_first_page(xml_file):
#   in_page = False
#   for event, elem in ET.iterparse(xml_file, events=("start", "end")):
#       print(f"Event: {event}, Tag: {elem.tag}")
#       if event == "start" and elem.tag == "page":
#           print("Starting a page")
#           in_page = True

#       if in_page and event == "end":
#           if elem.tag == "page":
#               print("Ending a page")
#               break
#           else:
#               print(f"Tag: {elem.tag}, Value: {elem.text}")

#       if event == "end" and not in_page:
#           elem.clear()

# xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
# print_first_page(xml_file_path)

import xml.etree.ElementTree as ET

def strip_tag_name(tag):
    return tag.split('}', 1)[1] if '}' in tag else tag

def print_first_page(xml_file):
    in_page = False
    for event, elem in ET.iterparse(xml_file, events=("start", "end")):
        tag_name = strip_tag_name(elem.tag)
        print(f"Event: {event}, Tag: {tag_name}")

        if event == "start" and tag_name == "page":
            print("Starting a page")
            in_page = True

        if in_page and event == "end":
            if tag_name == "page":
                print("Ending a page")
                break
            else:
                print(f"Tag: {tag_name}, Value: {elem.text}")

        if event == "end" and not in_page:
            elem.clear()

xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
print_first_page(xml_file_path)

Event: start, Tag: mediawiki
Event: start, Tag: siteinfo
Event: start, Tag: sitename
Event: end, Tag: sitename
Event: start, Tag: dbname
Event: end, Tag: dbname
Event: start, Tag: base
Event: end, Tag: base
Event: start, Tag: generator
Event: end, Tag: generator
Event: start, Tag: case
Event: end, Tag: case
Event: start, Tag: namespaces
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag: namespace
Event: start, Tag: namespace
Event: end, Tag:

In [15]:
import xml.etree.ElementTree as ET

def strip_tag_name(tag):
    """Helper function to strip the namespace from the tag name"""
    return tag.split('}', 1)[1] if '}' in tag else tag

def print_page_by_title(xml_file, title_to_find):
    in_page = False
    current_title = None

    for event, elem in ET.iterparse(xml_file, events=("start", "end")):
        tag_name = strip_tag_name(elem.tag)

        if event == "start" and tag_name == "page":
            in_page = True

        if in_page and event == "end":
            if tag_name == "title":
                current_title = elem.text
                if current_title == title_to_find:
                    print(f"Found page: {current_title}")

            if current_title == title_to_find:
                if tag_name == "page":
                    print(f"End of page: {current_title}")
                    break
                else:
                    print(f"Tag: {tag_name}, Value: {elem.text}")
                    # print(f"Tag: {tag_name}")

            elem.clear()

        if event == "end" and tag_name == "page":
            in_page = False

xml_file_path = "/content/drive/MyDrive/Colab Notebooks/bnwiki-latest-pages-articles.xml"
title_to_find = "অমিতাভ বচ্চন"
print_page_by_title(xml_file_path, title_to_find)

Found page: অমিতাভ বচ্চন
Tag: title, Value: অমিতাভ বচ্চন
Tag: ns, Value: 0
Tag: id, Value: 3123
Tag: id, Value: 7356177
Tag: parentid, Value: 7356176
Tag: timestamp, Value: 2024-05-02T22:09:41Z
Tag: username, Value: তুষার কান্তি ষন্নিগ্রহী
Tag: id, Value: 421889
Tag: contributor, Value: 
        
Tag: comment, Value: /* গুরুত্বপূর্ণ ভূমিকায় প্রত্যাবর্তন: ২০০০ থেকে সাম্প্রতিক */বানান সংশোধন করলাম -তুষারকান্তি ষন্নিগ্রহী
Tag: origin, Value: 7356177
Tag: model, Value: wikitext
Tag: format, Value: text/x-wiki
Tag: text, Value: {{তথ্যছক ব্যক্তি
| module             = {{Infobox officeholder | embed = yes
   | constituency1 = [[Allahabad Lok Sabha constituency|এলাহাবাদ]]
   | office1 = [[সংসদ সদস্য, লোকসভা]]
   | predecessor1 = [[জনেশ্বর মিশ্র]]
   | successor1 = [[ভিপি সিং]]
   | term_start1 = ৩১ ডিসেম্বর ১৯৮৪
   | term_end1 = জুলাই ১৯৮৭
   || party              = [[ভারতীয় জাতীয় কংগ্রেস]] (১৯৮৪–১৯৮৭)<ref>{{cite web | url=https://www.deccanherald.com/amp/content/535211/unlike-amitabh-wont-