# Dataset Pre-Processor
In this notebook, the following items are pre-processed on the data so that the data of each section(Case, Law, News, Blog) can be prepared:
- Extract useful data from sample files
- Transforming all useful information in a same dataframe format 

## Initialize

In [1]:
from dataset_creator import LegalDatasetPreProcessor, LawTxetPreProcessor

In [2]:
pre_processor = LegalDatasetPreProcessor()
ekhtebar_df = pre_processor.gz_to_df("../resource/sample_resource/ekhtebar.gz")
shenasname_df = pre_processor.gz_to_df("../resource/sample_resource/shenasname.gz")
qavanin_df = pre_processor.gz_to_df("../resource/sample_resource/qavanin.gz")

## Extract Law

In [3]:
with open("../resource/law/law.txt", 'r', encoding='utf-8') as file:
    content = file.read()
law_list = content.split("@")[:-1]

In [13]:
law_processor = LawTxetPreProcessor(law_list)
law_name_df, madeh_df = law_processor.get_df()
law_name_df.to_csv("../resource/law/law_name_dataset.csv", index=False, encoding="utf-8")
madeh_df.to_csv("../resource/law/madeh_df_dataset.csv", index=False, encoding="utf-8")

madeh[54]

## Extract News
The only dataset of Ekhtebar as a news site has news_tag.

In [4]:
ek_news = pre_processor.ekhtebar_news(ekhtebar_df)
ek_news.to_csv("../resource/news/nesw.csv", index=False)
ek_news.head() 


Unnamed: 0,title,content_html,date,url,tags,category.original,content
0,تمدید مهلت ثبت‌نام پذیرفته‌شدگان آزمون مشاوران...,"[{'type': 'h1', 'text': 'مهلت ثبت‌نام پذیرفته‌...",2018-04-03,https://ekhtebar.ir/%d8%aa%d9%85%d8%af%db%8c%d...,"[آزمون ماده ۱۸۷, آزمون مرکز وکلا ۹۸, آزمون مشا...",آزمون های حقوقی/آزمون مرکز وکلای قوه قضائیه,مهلت ثبت‌نام پذیرفته‌شدگان آزمون مشاوران حقوقی...
1,مرجع قضایی، وکالت را کسب و کار ندانست,"[{'type': 'h2', 'text': 'قرار منع تعقیب کانون ...",2018-04-03,https://ekhtebar.ir/%d9%85%d8%b1%d8%ac%d8%b9-%...,"[تسهیل مجوز کسب و کار, کانون وکلای دادگستری یز...",اخبار/اخبار کانون وکلای دادگستری,قرار منع تعقیب کانون وکلا از اتهام «عدم اعلام ...
2,کارنامه آزمون دکتری سال ۹۷ هفته آخر فروردین من...,"[{'type': 'h2', 'text': 'نتایج اولیه آزمون دکت...",2018-04-03,https://ekhtebar.ir/%da%a9%d8%a7%d8%b1%d9%86%d...,"[آزمون دکتری حقوق, اعلام نتیجه, دکتری 97]",اخبار/اخبار دانشگاه ها,نتایج اولیه آزمون دکتری سال ۹۷ هفته آخر فروردی...
3,آغاز ثبت‌نام آزمون EPT فروردین‌ماه ۹۷ دانشگاه ...,"[{'type': 'h2', 'text': 'ثبت‌نام آزمون EPT دان...",2018-04-04,https://ekhtebar.ir/%d8%a2%d8%ba%d8%a7%d8%b2-%...,[آزمون ept],آزمون های حقوقی/آزمون دکتری حقوق/آزمون زبان دکتری,ثبت‌نام آزمون EPT دانشگاه آزاد اسلامی آغاز شدا...
4,شیوه جدید برگزاری مصاحبه دکتری در دانشگاه آزاد...,"[{'type': 'h3', 'text': 'رئیس مرکز سنجش دانشگا...",2018-04-04,https://ekhtebar.ir/%d8%b4%db%8c%d9%88%d9%87-%...,"[دکتری حقوق, دکتری حقوق ۹۷, دکتری دانشگاه آزاد]",آزمون های حقوقی/آزمون دکتری حقوق,رئیس مرکز سنجش دانشگاه خبر داد: شیوه جدید برگز...


## Extract Case

In [3]:
with open("../resource/case/case.txt",'r') as f:
    data = f.read()
case_list = data.split("|split|")[:-1]

In [4]:
df = pre_processor.case_to_df(case_list)
df.to_csv("../resource/case/case.csv", index=False)
df.head()

Unnamed: 0,title,number,date,type,text
0,مرجع اتخاذ تصمیم درخصوص امور مالی سازمان تأمین...,۹۵۰۹۹۷۰۹۵۵۹۰۱۸۰۱,۱۳۹۵ / ۰۷ / ۲۵,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. در خصوص ش...
1,چگونگی اخراج کارکنان فراری کادر ثابت ارتش,۹۵۰۹۹۷۰۹۵۵۲۰۳۲۶۵,۱۳۹۵ / ۰۸ / ۱۹,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...
2,شخصیت مستقل پژوهشگاه‌های صنعت نفت,۹۵۰۹۹۷۰۹۰۵۶۰۱۰۳۵,۱۳۹۵ / ۰۸ / ۱۵,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...
3,ماهیت حقوقی کمیسیون ماده ۱۶ قانون تسهیلات استخ...,۹۵۰۹۹۷۰۹۰۵۶۰۱۰۲۵,۱۳۹۵ / ۰۸ / ۱۱,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. در خصوص د...
4,صلاحیت دیوان و اتحادیه‌های صنفی,۹۵۰۹۹۷۰۹۵۵۲۰۲۷۹۳,۱۳۹۵ / ۰۷ / ۰۶,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...
