In [1]:
import os
import pandas as pd
from concurrent.futures import ProcessPoolExecutor

download the dataset from here ---> [dataset](https://www.dropbox.com/scl/fi/ln64xjqlwd4665u9sp2bq/Full_Dataset.rar?rlkey=g5aa4zefy2xpj98n3x8ihjcp2&st=bg907w5p&dl=0)

In [2]:
folder_path = "Full_Dataset"

The dataset consists of several txt files and each file contains a text, in such a way that the words are written one below the other and if that word is an existing one, it will have a label of 1 and if it is not existing, it will have a label of 0.

The goal is to convert each file into a single line and, if there is a label 1 in the file, assign label 1 to the entire file.

In [3]:
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        words = []
        numbers = []
        for line in f:
            parts = line.strip().split()
            if len(parts) == 2:
                word, number = parts
                words.append(word)
                numbers.append(int(number))
    return {
        "text": " ".join(words),
        "existence": numbers
    }

# taking full path of files
files = [os.path.join(folder_path, fname) 
         for fname in os.listdir(folder_path) if fname.endswith(".txt")]

# sorting by number of files
files.sort(key=lambda x: int(os.path.splitext(os.path.basename(x))[0]))

# parallel processing
with ProcessPoolExecutor() as executor:
    data = list(executor.map(process_file, files))

In [4]:
df = pd.DataFrame(data)

In [7]:
df

Unnamed: 0,text,existence
0,به عنوان مثال وقتی نشریات مدافع اصول و ارزشها ...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,دکتر اصغری دبیر چهارمین همایش انجمن زمین‌شناسی...,"[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,دکتر اکبر میرعرب در همایش بررسی و پیشگیری از ب...,"[0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,اردبیل ـ استاندار اردبیل گفت : به مناسبت هفته ...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,حمید طاهایی افزود : برای اجرای این طرحها 0 میل...,"[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...
18264,دیدار تراکتورسازی و ملوان زیر بارش شدید باران ...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
18265,[ هوای تبریز ، ملوانی شد ] .,"[0, 0, 0, 0, 0, 0, 0, 0]"
18266,"به گزارش "" ورزش سه "" ، آب و هوای شهر تبریز از ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
18267,با توجه به هوای شرجی انزلی ، چنین آب و هوایی ب...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [8]:
df["existence"] = df["existence"].apply(lambda lst: 0 if all(x == 0 for x in lst) else 1)

In [9]:
df

Unnamed: 0,text,existence
0,به عنوان مثال وقتی نشریات مدافع اصول و ارزشها ...,0
1,دکتر اصغری دبیر چهارمین همایش انجمن زمین‌شناسی...,1
2,دکتر اکبر میرعرب در همایش بررسی و پیشگیری از ب...,1
3,اردبیل ـ استاندار اردبیل گفت : به مناسبت هفته ...,0
4,حمید طاهایی افزود : برای اجرای این طرحها 0 میل...,1
...,...,...
18264,دیدار تراکتورسازی و ملوان زیر بارش شدید باران ...,0
18265,[ هوای تبریز ، ملوانی شد ] .,0
18266,"به گزارش "" ورزش سه "" ، آب و هوای شهر تبریز از ...",0
18267,با توجه به هوای شرجی انزلی ، چنین آب و هوایی ب...,1


In [10]:
df.to_csv("dataset.csv", index=False, encoding="utf-8")

In [13]:
df['text'][18265]

'[ هوای تبریز ، ملوانی شد ] .'