In [20]:
import os
import subprocess
import pandas as pd
import re
import sys
import runpy

# Function to clean text
def clean_text(text):
    # Remove unwanted characters, including references and links
    text = re.sub(r'\[.*?\]', '', text)  # Remove text within square brackets (like links)
    text=re.sub(r'\<.*?\>', '', text) # Remove text within round brackets
    text=re.sub(r'\n', '', text) # Remove new line
    text = re.sub(r'\n+', '\n', text)  # Normalize newlines
    text = text.strip()  # Remove leading/trailing whitespaces
    return text

output_dir = "output_wiki_texts"  # Directory to store the output

# Function to extract and process the Wikipedia dump
def extract_wikipedia_dump(dump_path, output_dir=output_dir, num_articles=5000):
    os.makedirs(output_dir, exist_ok=True)

    # Set the correct Python path to resolve relative imports for WikiExtractor.py
    wiki_extractor_dir = '/home/shu/Documents/INF 582/Project/wikiextractor/wikiextractor'
    sys.path.insert(0, wiki_extractor_dir)  # Add the directory to the Python path

    # Path to the WikiExtractor script
    wiki_extractor_path = os.path.join(wiki_extractor_dir, 'WikiExtractor.py')
    print(f"WikiExtractor.py is located at: {wiki_extractor_path}")

    # Use subprocess to call the WikiExtractor script and pass the .bz2 file
    command = [
        'python3', wiki_extractor_path, 
         '--output', output_dir, dump_path
    ]
    
    # Run the extraction
    subprocess.run(command)

            

# Path to the Wikipedia dump (downloaded file)
dump_path = 'data/zhwiki-latest-pages-articles.xml.bz2'




In [16]:
import pandas as pd
from bs4 import BeautifulSoup

In [11]:
with open("output_wiki_texts/AA/wiki_00", "r", encoding="utf-8") as f:
    raw_text = f.read()
raw_text = re.sub(r"<templatestyles[^>]*>", "", raw_text, flags=re.IGNORECASE | re.DOTALL)

# Also remove any <templatestyles ... /> variations
raw_text = re.sub(r"templatestyles\s+src=\"[^\"]*\"", "", raw_text, flags=re.IGNORECASE)

# Split into sections using </doc> as the delimiter
sections = raw_text.split("</doc>")

# Clean each section (remove remaining HTML tags)
cleaned_sections = [BeautifulSoup(section, "html.parser").get_text().strip() for section in sections if section.strip()]

# Store in a DataFrame
df = pd.DataFrame({"text": cleaned_sections})

# Save to CSV for further analysis
df.to_csv("data/output_dir/cleaned_sections.csv", index=False, encoding="utf-8")

# Display the first few rows
print(df.head())

                                                text
0  数学\n\n< />\n< />\n数学是研究數量、结构以及空间等概念及其变化的一門学科，屬...
1  哲学\n\n< />\n哲學是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、...
2  文學\n\n \n< />\n文學（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形...
3  历史\n\n< />以古為鏡，可以知興替。 —唐太宗李世民\n< />那些不能铭记过去的人注...
4  计算机科学\n\n计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计...


In [12]:
df

Unnamed: 0,text
0,数学\n\n< />\n< />\n数学是研究數量、结构以及空间等概念及其变化的一門学科，屬...
1,哲学\n\n< />\n哲學是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、...
2,文學\n\n \n< />\n文學（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形...
3,历史\n\n< />以古為鏡，可以知興替。 —唐太宗李世民\n< />那些不能铭记过去的人注...
4,计算机科学\n\n计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计...
5,民族\n\n-{H|zh-hans:重定向;zh-hant:重新導向;}--{H|zh-cn...
6,戲劇\n\n \n戏剧（）是演員將某個故事或情境，以對話、歌唱或動作等方式所表演出來的藝術。...
7,电影\n\n< />\n電影（/ --），特点是运动／移动的画面（），是一种视觉艺术作品，用...
8,音乐\n\n< />\n< />\n音樂，廣義而言，就是指任何以聲音組成的藝術。英文Musi...
9,经济学\n\n< />\n經濟學（），為研究商品和服務關係的社會科學，包括其中所有的購買、生...


In [21]:
import os
import pandas as pd
import re
from bs4 import BeautifulSoup

# Set the root folder where all subfolders and files are located
root_folder = "output_wiki_texts"  # Change this to your actual folder path

all_texts = []

# Walk through all subdirectories and files
for subdir, p1, p2 in os.walk(root_folder):
    for p3,p4,files in os.walk(subdir):
        for file in files:
            file_path = os.path.join(p3, file)
            
            with open(file_path, "r", encoding="utf-8") as f:
                raw_text = f.read()

            # Remove <templatestyles> tags
            raw_text = re.sub(r"<templatestyles[^>]*>", "", raw_text, flags=re.IGNORECASE | re.DOTALL)

            # Also remove any <templatestyles ... /> variations
            raw_text = re.sub(r"templatestyles\s+src=\"[^\"]*\"", "", raw_text, flags=re.IGNORECASE)

            # Remove other HTML tags using BeautifulSoup to clean everything

            # Split into sections at </doc>
            sections = raw_text.split("</doc>")

            # Clean each section (remove any remaining HTML tags)
            cleaned_sections = [BeautifulSoup(section, "html.parser").get_text().strip() for section in sections if section.strip()]
            cleaned_sections = [clean_text(section) for section in cleaned_sections]
            # Add all cleaned texts to list
            all_texts.extend(cleaned_sections)
            if len(all_texts) > 5000:
                break
        if len(all_texts) > 5000:
            break
    if len(all_texts) > 5000:
        break
    

# Create a DataFrame from all the cleaned sections
df = pd.DataFrame({"text": all_texts})

# Save to CSV
df.to_csv("data/output_dir/cleaned_5000.csv", index=False, encoding="utf-8")

print(f"Processed {len(all_texts)} sections from all files.")


Processed 5351 sections from all files.


In [22]:
df

Unnamed: 0,text
0,"text""""数学""""""""数学是研究數量、结构以及空间等概念及其变化的一門学科，屬於形式科學的..."
1,"""""哲学""""哲學是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、语言、人生、..."
2,"""""文學""""文學（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形象化地反映客观社会..."
3,"""""历史""以古為鏡，可以知興替。 —唐太宗李世民""""那些不能铭记过去的人注定要重蹈覆辙。 —..."
4,"""""计算机科学计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计算机..."
...,...
5346,500年逝世.-{H|zh-hans:重定向;zh-hant:重新導向;}--{H|zh-c...
5347,5世纪401年1月1日至500年12月31日的这一段期间被称为5世纪。5世纪年历.667877
5348,音素
5349,张耀杰张耀杰（1964年—），中国艺术研究院研究人员。主要著作：《戏剧大师曹禺》、《影剧之王...
