In [1]:
import os
import subprocess
import pandas as pd
import re
import sys 
import runpy

# Function to clean text

def clean_text(text):
    # Remove unwanted characters, including references and links
    text = re.sub(r'\[.*?\]', '', text)  # Remove text within square brackets (like links)
    text=re.sub(r'\<.*?\>', '', text) # Remove text within round brackets
    text=re.sub(r'\n', '', text) # Remove new line
    text = re.sub(r'\n+', '\n', text)  # Normalize newlines
    text = text.strip()  # Remove leading/trailing whitespaces
    return text

output_dir = "output_wiki_texts"  # Directory to store the output

# Function to extract and process the Wikipedia dump
def extract_wikipedia_dump(dump_path, output_dir=output_dir, num_articles=5000):
    os.makedirs(output_dir, exist_ok=True)

    # Set the correct Python path to resolve relative imports for WikiExtractor.py
    wiki_extractor_dir = '/home/shu/Documents/INF 582/Project/wikiextractor/wikiextractor'
    sys.path.insert(0, wiki_extractor_dir)  # Add the directory to the Python path

    # Path to the WikiExtractor script
    wiki_extractor_path = os.path.join(wiki_extractor_dir, 'WikiExtractor.py')
    print(f"WikiExtractor.py is located at: {wiki_extractor_path}")

    # Use subprocess to call the WikiExtractor script and pass the .bz2 file
    command = [
        'python3', wiki_extractor_path, 
         '--output', output_dir, dump_path
    ]
    
    # Run the extraction
    subprocess.run(command)

            

# Path to the Wikipedia dump (downloaded file)
dump_path = 'data/zhwiki-latest-pages-articles.xml.bz2'




In [2]:
# wiki extraction
# extract_wikipedia_dump(dump_path, output_dir=output_dir)

In [3]:
import pandas as pd
from bs4 import BeautifulSoup

In [11]:
with open("output_wiki_texts/AA/wiki_00", "r", encoding="utf-8") as f:
    raw_text = f.read()
raw_text = re.sub(r"<templatestyles[^>]*>", "", raw_text, flags=re.IGNORECASE | re.DOTALL)

# Also remove any <templatestyles ... /> variations
raw_text = re.sub(r"templatestyles\s+src=\"[^\"]*\"", "", raw_text, flags=re.IGNORECASE)

# Split into sections using </doc> as the delimiter
sections = raw_text.split("</doc>")

# Clean each section (remove remaining HTML tags)
cleaned_sections = [BeautifulSoup(section, "html.parser").get_text().strip() for section in sections if section.strip()]

# Store in a DataFrame
df = pd.DataFrame({"text": cleaned_sections})

# Save to CSV for further analysis
df.to_csv("data/output_dir/cleaned_sections.csv", index=False, encoding="utf-8")

# Display the first few rows
print(df.head())

                                                text
0  数学\n\n< />\n< />\n数学是研究數量、结构以及空间等概念及其变化的一門学科，屬...
1  哲学\n\n< />\n哲學是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、...
2  文學\n\n \n< />\n文學（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形...
3  历史\n\n< />以古為鏡，可以知興替。 —唐太宗李世民\n< />那些不能铭记过去的人注...
4  计算机科学\n\n计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计...


In [12]:
df

Unnamed: 0,text
0,数学\n\n< />\n< />\n数学是研究數量、结构以及空间等概念及其变化的一門学科，屬...
1,哲学\n\n< />\n哲學是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、...
2,文學\n\n \n< />\n文學（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形...
3,历史\n\n< />以古為鏡，可以知興替。 —唐太宗李世民\n< />那些不能铭记过去的人注...
4,计算机科学\n\n计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计...
5,民族\n\n-{H|zh-hans:重定向;zh-hant:重新導向;}--{H|zh-cn...
6,戲劇\n\n \n戏剧（）是演員將某個故事或情境，以對話、歌唱或動作等方式所表演出來的藝術。...
7,电影\n\n< />\n電影（/ --），特点是运动／移动的画面（），是一种视觉艺术作品，用...
8,音乐\n\n< />\n< />\n音樂，廣義而言，就是指任何以聲音組成的藝術。英文Musi...
9,经济学\n\n< />\n經濟學（），為研究商品和服務關係的社會科學，包括其中所有的購買、生...


In [None]:
import os
import pandas as pd
import re
from bs4 import BeautifulSoup
import opencc

# Set the root folder where all subfolders and files are located
root_folder = "output_wiki_texts"  # Change this to your actual folder path

all_texts = []
converter = opencc.OpenCC("t2s")
max_spam=30000
acc=0
# Walk through all subdirectories and files
for subdir, p1, p2 in os.walk(root_folder):
    for p3,p4,files in os.walk(subdir):
        for file in files:
            file_path = os.path.join(p3, file)
            
            with open(file_path, "r", encoding="utf-8") as f:
                raw_text = f.read()

            # Remove <templatestyles> tags
            raw_text = re.sub(r"<templatestyles[^>]*>", "", raw_text, flags=re.IGNORECASE | re.DOTALL)

            # Also remove any <templatestyles ... /> variations
            raw_text = re.sub(r"templatestyles\s+src=\"[^\"]*\"", "", raw_text, flags=re.IGNORECASE)

            # Remove other HTML tags using BeautifulSoup to clean everything
            raw_text = converter.convert(raw_text)
            # Split into sections at </doc>
            sections = raw_text.split("</doc>")

            # Clean each section (remove any remaining HTML tags)
            cleaned_sections = [BeautifulSoup(section, "html.parser").get_text().strip() for section in sections if section.strip()]
            cleaned_sections = [clean_text(section) for section in cleaned_sections]
            # Add all cleaned texts to list
            all_texts.extend(cleaned_sections)
            if len(all_texts) > max_spam:
                break
        if len(all_texts) > max_spam:
            break
    if len(all_texts) > max_spam:
        break
     

# Create a DataFrame from all the cleaned sections
df = pd.DataFrame({"text": all_texts})

# Save to CSV
df.to_csv("data/output_dir/cleaned_new_40000.csv", index=False, encoding="utf-8")

print(f"Processed {len(all_texts)} sections from all files.")


KeyboardInterrupt: 

In [24]:
df

Unnamed: 0,text
0,"text""""数学""""""""数学是研究数量、结构以及空间等概念及其变化的一门学科，属于形式科学的..."
1,"""""哲学""""哲学是研究普遍的、基本问题的学科，包括存在、知识、价值、理智、心灵、语言、人生、..."
2,"""""文学""""文学（），在狭义上，是一种语言艺术，亦即使用语言文字为手段，形象化地反映客观社会..."
3,"""""历史""以古为镜，可以知兴替。 —唐太宗李世民""""那些不能铭记过去的人注定要重蹈覆辙。 —..."
4,"""""计算机科学计算机科学（，有时缩写为--）是系统性研究信息与计算的理论基础以及它们在计算机..."
...,...
5346,500年逝世.-{H|zh-hans:重定向;zh-hant:重新导向;}--{H|zh-c...
5347,5世纪401年1月1日至500年12月31日的这一段期间被称为5世纪。5世纪年历.667877
5348,音素
5349,张耀杰张耀杰（1964年—），中国艺术研究院研究人员。主要著作：《戏剧大师曹禺》、《影剧之王...


In [29]:
df=pd.read_csv("../data/summarized_data/summarized_documents10.csv")

In [31]:
df['text'][2]

'李小鹏 (政治人物)\n李小鹏（1959年6月7日—），男，四川成都人，中华人民共和国国务院前总理李鹏之子，生于北京，中华人民共和国政治人物。1982年8月参加工作，1985年5月加入中国共产党。华北电力学院发电厂及电力系统专业毕业，高级工程师。中共第十八届中央候补委员、第十九届中央委员。曾长期担任中国华能集团和华能国际的领导职务，被称为“亚洲电王”。曾任中共山西省委副书记、山西省人民政府省长。现任中国人民政治协商会议第十四届全国委员会经济委员会副主任。\n生平.\n家庭背景.\n李小鹏是前中共中央政治局常委兼国务院总理李鹏和夫人朱琳的长子。根据李鹏在回忆母亲的文章——《纪念我的母亲赵君陶》中的叙述，李小鹏于1959年6月，在北京市北京协和医院出生。由于李鹏长期在电力行业工作，儿子李小鹏和女儿李小琳后来上大学的专业也都选择了电力工程。李家两代人没有避讳裙带关系，先后在中国电力工业领域担任要职。\n从商.\n1982年8月，从华北电力学院电力工程系发电厂及电力系统专业大学毕业后，进入中国电力科学研究院，历任电力系统研究所技术员、助理工程师、工程师等职。期间于1987年2月—1988年2月，曾被派赴加拿大安大略水电局、曼尼托巴直流高压输电研究中心、曼尼托巴大学进修。1989年8月，任中国电力科学研究院计划经营处副处长。1990年8月，任中国电力科学研究院电力技术经济研究所所长。\n1991年10月，任华能国际电力开发公司总经理助理，由此开始进入商界。1993年6月，任华能国际电力开发公司副总经理、分党组成员。1994年6月，任华能国际电力开发公司副总经理、分党组成员兼华能国际电力股份有限公司董事、副总经理。1995年10月，任华能国际电力开发公司副董事长、总经理、分党组成员兼华能国际电力股份有限公司副董事长、总经理。1999年3月，任华能国际电力开发公司董事长、总经理、党组书记兼华能国际电力股份有限公司董事长、总经理。1999年12月，任中国华能集团公司董事、总经理、党组书记兼华能国际电力开发公司董事长、总经理，华能国际电力股份有限公司董事长、党组书记。一年后，在香港证券交易所上市的华能国际，于2000年7月成功地收购了在纽约上市的“山东华能”。这项收购案也是首宗中国海外上市公司的购并个案完成后，使得华能国际成为亚洲最大的独立发电公司。作为华能国际董事长的李小鹏，被冠

In [32]:
df['summary'][2]

'李小鹏，出生于1959年，是中国著名政治人物，前国务院总理李鹏之子。他在1982年从华北电力学院毕业后，投身电力行业，曾在华能国际电力开发公司等多个重要职位任职，并因在电力行业的杰出贡献而获得“亚洲电王”的称号。\n\n1999年，李小鹏升任中国华能集团公司总经理，随后又担任国家电力公司副总经理等职。2008年，他开始涉足政界，担任山西省政府副省长，之后逐步升迁至山西省省长，并最终在2016年成为中国交通运输部部长。李小鹏的政治生涯展现了他从商界到政界的转变，以及在中国能源和交通领域的显著影响力。\n\n2024年9月27日，李小鹏不再担任交通运输部党组书记一职，由刘伟接替。'