<a href="https://colab.research.google.com/github/alighasemi78/persian_paraphraser/blob/main/Data_Collection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Collection

In this notebook, I will gather Farsi paraphrasing data from 3 sources. The first one is from [tapaco](https://huggingface.co/datasets/tapaco), the second and third sources are from a kaggle dataset in [here](https://www.kaggle.com/datasets/armannikkhah/persian-paraphrase-dataset).

## Installing the Required Libraries

In [None]:
!pip install datasets

## Importing the Required Libraries

In [None]:
from google.colab import drive
from datasets import load_dataset, Dataset, DatasetDict
import pandas as pd

## Connecting to Google Drive

In [None]:
drive.mount("/content/gd")

Mounted at /content/gd


## Tapaco Dataset

I load the Farsi section of tapaco (notice the "pes"), and since it only consists of a train split, I only get the train split.

In [None]:
tapaco = load_dataset("tapaco", "pes", split="train")

Downloading builder script:   0%|          | 0.00/7.44k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/201k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/36.5k [00:00<?, ?B/s]

Downloading and preparing dataset tapaco/pes to /root/.cache/huggingface/datasets/tapaco/pes/1.0.0/71d200534b520a174927a8f0479c06220a0a6fb5201a84ebfce19006c6354698...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/32.2M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/4285 [00:00<?, ? examples/s]

Dataset tapaco downloaded and prepared to /root/.cache/huggingface/datasets/tapaco/pes/1.0.0/71d200534b520a174927a8f0479c06220a0a6fb5201a84ebfce19006c6354698. Subsequent calls will reuse this data.


In [None]:
tapaco_df = pd.DataFrame(tapaco)

As you can see below, the paraphases have an equal "paraphrase_set_id". For the fine-tuning process, we need a paired sentence data. In other words, we need our data to have 2 columns (text1, text2) which are paraphrase of each other.

In [None]:
tapaco_df

Unnamed: 0,paraphrase_set_id,sentence_id,paraphrase,lists,tags,language
0,0,667759,به طرز وحشتناکی گرسنه ام.,[],[],pes
1,0,689148,من گرسنه ام.,[],[],pes
2,0,730927,دوست دارم چیزی بنوشم.,[],[],pes
3,0,747939,دوست داشتنم چیزی برای نوشیدن داشته باشم.,[],[],pes
4,0,773698,گلویم خشک شده است.,[],[],pes
...,...,...,...,...,...,...
4280,898307,704502,باریدن برف حقیقتاً باعث زیبا شدن تهران می شود.,[],[],pes
4281,898768,722629,یه جورائی احساس می کنم که خیلی از من خوشش نمی آد.,[],[],pes
4282,898768,722632,احساسی به من می گوید که زیاد خوشایند او نیستم.,[],[],pes
4283,899818,798734,نه هر متهمی گناه‌کار است.,[],[],pes


### Reformatting the Tapaco Dataset

In [None]:
grouped_tapaco_df = tapaco_df.groupby("paraphrase_set_id")

In [None]:
paired_tapaco_df = pd.DataFrame(columns=["sentence1", "sentence2"])

for name, group in grouped_tapaco_df:

    for index1 in group.index:
        for index2 in group.index:
            if index2 > index1:
                paired_tapaco_df = paired_tapaco_df.append({
                    "sentence1": group["paraphrase"][index1],
                    "sentence2": group["paraphrase"][index2]
                }, ignore_index=True)

In [None]:
paired_tapaco_df

Unnamed: 0,sentence1,sentence2
0,به طرز وحشتناکی گرسنه ام.,من گرسنه ام.
1,به طرز وحشتناکی گرسنه ام.,دوست دارم چیزی بنوشم.
2,به طرز وحشتناکی گرسنه ام.,دوست داشتنم چیزی برای نوشیدن داشته باشم.
3,به طرز وحشتناکی گرسنه ام.,گلویم خشک شده است.
4,به طرز وحشتناکی گرسنه ام.,خیلی تشنه‌ام.
...,...,...
3536,چند سیب؟,چند عدد سیب؟
3537,چند سیب؟,چندتا سیب؟
3538,چند عدد سیب؟,چندتا سیب؟
3539,من آن را گفتم.,این همان چیزی است که من می گفتم.


## Kaggle Datasets

Download the Datasets from [here](https://www.kaggle.com/datasets/armannikkhah/persian-paraphrase-dataset)

In [None]:
data_folder_path = "/content/gd/MyDrive/Undergraduate Studies/Semester 9/Computer Engineering Project/Data/"
kaggle1 = pd.read_csv(f"{data_folder_path}Chunk_4_official.csv")
kaggle2 = pd.read_csv(f"{data_folder_path}Chunk_5_official.csv")

In [None]:
kaggle1

Unnamed: 0,prefix,input_text,target_text
0,paraphrase,بنابراین من به شما نیاز دارم که از زندگی شخصی ...,من به شما نیاز دارم که از زندگی شخصی من دور بم...
1,paraphrase,احتمالا شما مادر بسیار سلطه پذیری داشتید.,احتمالاً به این دلیل که شما یک مادر بسیار مسلط...
2,paraphrase,وحشتناک به نظر می رسد.,وحشتناک به نظر می رسد
3,paraphrase,نه، نه، این نیست.,نه، اون نه.
4,paraphrase,می دانید چه کسی پوست بدی داشت و چه کسی موهای ب...,می دانید، پوست بد و موی بد.
...,...,...,...
645485,paraphrase,چه بلایی سرت اومد لورین,چی شد لورین
645486,paraphrase,راحت باش، تو سومی,آروم باش تو سومی
645487,paraphrase,پس از شکست کلی تیم که منجر به باخت ویرانگر برا...,پس از یک فروپاشی کامل تیم که منجر به باخت ویرا...
645488,paraphrase,من الان جوان نیستم.,من دیگر جوان نیستم.


In [None]:
kaggle2

Unnamed: 0,prefix,input_text,target_text
0,paraphrase,اما کلئوپاترا زنی نبود که به راحتی متوقف شود.,اما کلئوپاترا به این راحتی متوقف نشد.
1,paraphrase,چیزی که من می گویم این است که به زودی می روم و...,یعنی خیلی زود می روم و دیگر برنمی گردم.
2,paraphrase,چرا باید در شب خطر عبور از شن و ماسه را به خطر...,چرا لازم بود یک شیفت شب در شن و ماسه به خطر بیفتد
3,paraphrase,شنوندگان ما از این که بدانند تو مرد جوانی بسیا...,ممکن است شنوندگان ما تعجب کنند که تو واقعاً مر...
4,paraphrase,آیا او آنها را به شما نشان داد؟,آیا او به شما نشان داد
...,...,...,...
452724,paraphrase,شما باید به من اعتماد کنید و به قول من عمل کنید.,شما باید به من اعتماد کنید و آنچه را که می گوی...
452725,paraphrase,من باید پاسپورت ها را بگیرم,من میرم پاسپورت ها رو بگیرم
452726,paraphrase,و من پلیس های زیادی را می شناسم، و شما دقیقاً ...,و من پلیس های زیادی را می شناختم، و تو از آن ج...
452727,paraphrase,و شکر می کنیم که می دانیم زندگی از بین پاهای م...,و از شما سپاسگزارم که می دانید زندگی بین پای م...


### Removing the prefix column

In [None]:
kaggle1 = kaggle1.drop(["prefix"], axis=1)
kaggle1.rename(columns = {'input_text':'sentence1', 'target_text':'sentence2'}, inplace = True)
kaggle2 = kaggle2.drop(["prefix"], axis=1)
kaggle2.rename(columns = {'input_text':'sentence1', 'target_text':'sentence2'}, inplace = True)

In [None]:
kaggle1

Unnamed: 0,sentence1,sentence2
0,بنابراین من به شما نیاز دارم که از زندگی شخصی ...,من به شما نیاز دارم که از زندگی شخصی من دور بم...
1,احتمالا شما مادر بسیار سلطه پذیری داشتید.,احتمالاً به این دلیل که شما یک مادر بسیار مسلط...
2,وحشتناک به نظر می رسد.,وحشتناک به نظر می رسد
3,نه، نه، این نیست.,نه، اون نه.
4,می دانید چه کسی پوست بدی داشت و چه کسی موهای ب...,می دانید، پوست بد و موی بد.
...,...,...
645485,چه بلایی سرت اومد لورین,چی شد لورین
645486,راحت باش، تو سومی,آروم باش تو سومی
645487,پس از شکست کلی تیم که منجر به باخت ویرانگر برا...,پس از یک فروپاشی کامل تیم که منجر به باخت ویرا...
645488,من الان جوان نیستم.,من دیگر جوان نیستم.


In [None]:
kaggle2

Unnamed: 0,sentence1,sentence2
0,اما کلئوپاترا زنی نبود که به راحتی متوقف شود.,اما کلئوپاترا به این راحتی متوقف نشد.
1,چیزی که من می گویم این است که به زودی می روم و...,یعنی خیلی زود می روم و دیگر برنمی گردم.
2,چرا باید در شب خطر عبور از شن و ماسه را به خطر...,چرا لازم بود یک شیفت شب در شن و ماسه به خطر بیفتد
3,شنوندگان ما از این که بدانند تو مرد جوانی بسیا...,ممکن است شنوندگان ما تعجب کنند که تو واقعاً مر...
4,آیا او آنها را به شما نشان داد؟,آیا او به شما نشان داد
...,...,...
452724,شما باید به من اعتماد کنید و به قول من عمل کنید.,شما باید به من اعتماد کنید و آنچه را که می گوی...
452725,من باید پاسپورت ها را بگیرم,من میرم پاسپورت ها رو بگیرم
452726,و من پلیس های زیادی را می شناسم، و شما دقیقاً ...,و من پلیس های زیادی را می شناختم، و تو از آن ج...
452727,و شکر می کنیم که می دانیم زندگی از بین پاهای م...,و از شما سپاسگزارم که می دانید زندگی بین پای م...


## Combining the Datasets

In [None]:
dataset = pd.concat([paired_tapaco_df, kaggle1, kaggle2])

In [None]:
dataset

Unnamed: 0,sentence1,sentence2
0,به طرز وحشتناکی گرسنه ام.,من گرسنه ام.
1,به طرز وحشتناکی گرسنه ام.,دوست دارم چیزی بنوشم.
2,به طرز وحشتناکی گرسنه ام.,دوست داشتنم چیزی برای نوشیدن داشته باشم.
3,به طرز وحشتناکی گرسنه ام.,گلویم خشک شده است.
4,به طرز وحشتناکی گرسنه ام.,خیلی تشنه‌ام.
...,...,...
452724,شما باید به من اعتماد کنید و به قول من عمل کنید.,شما باید به من اعتماد کنید و آنچه را که می گوی...
452725,من باید پاسپورت ها را بگیرم,من میرم پاسپورت ها رو بگیرم
452726,و من پلیس های زیادی را می شناسم، و شما دقیقاً ...,و من پلیس های زیادی را می شناختم، و تو از آن ج...
452727,و شکر می کنیم که می دانیم زندگی از بین پاهای م...,و از شما سپاسگزارم که می دانید زندگی بین پای م...


## Shuffling the Dataset

In [None]:
dataset = dataset.sample(frac=1).reset_index(drop=True)

In [None]:
dataset

Unnamed: 0,sentence1,sentence2
0,بله، گفت مثل رفتن به خانه است.,گفت مثل رفتن به خانه است.
1,به او گفتم بیمارستان است.,به او گفتم از بیمارستان است.
2,شما هرکسی را که با آنها همخوابی کرده اید اخراج...,با هرکدام که خوابیدی اخراج کردی
3,از آنجایی که همه به شما می گویند گاو دیوانه، آ...,وقتی همه بهت میگن احمق دیوونه واقعا دیوونه؟
4,این قلمرو من است، عوضی,این قلمرو من است، ای فاحشه
...,...,...
1101755,ادریک در حالی که دهان ماهی اش در یک خط نازک نگ...,ادریک گفت، در جهان ما آدم‌هایی هستند و چیزهایی...
1101756,بیا بریم. بیا اون داره میاد بیرون,بیا، اون داره میاد بیرون
1101757,امکان جراحی وجود دارد,امکان عملیات وجود دارد
1101758,نمیشه بیام و سلام کنم,نمیتونم بیام و سلام کنم


## Converting the Dataset to Huggingface DatasetDict

In [None]:
dataset_hf = Dataset.from_pandas(dataset)

In [None]:
dataset_hf

Dataset({
    features: ['sentence1', 'sentence2'],
    num_rows: 1101760
})

## Splitting the Dataset to Train-Test-Validation

In [None]:
temp_dataset = dataset_hf.train_test_split(0.2)
temp2_dataset = temp_dataset["test"].train_test_split(0.5)
final_dataset = DatasetDict({
    "train": temp_dataset["train"],
    "test": temp2_dataset["train"],
    "validation": temp2_dataset["test"],
})

In [None]:
final_dataset

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2'],
        num_rows: 881408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2'],
        num_rows: 110176
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2'],
        num_rows: 110176
    })
})

## Uploading the Dataset to Huggingface

In [None]:
!huggingface-cli login


    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

    To login, `huggingface_hub` now requires a token generated from https://huggingface.co/settings/tokens .
    
Token: 
Add token as git credential? (Y/n) n
Token is valid.
Your token has been saved to /root/.huggingface/token
Login successful


In [None]:
final_dataset.push_to_hub("alighasemi/fa-paraphrase")



Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]



Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]



Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]