# Dataset Pre-Processor
In this notebook, the following items are pre-processed on the data so that the data of each section(Case, Law, News, Blog) can be prepared:
- Extract useful data from sample files
- Transforming all useful information in a same dataframe format 

## Initialize

In [2]:
import pandas as pd
import re
from dataset_creator import LegalDatasetPreProcessor

In [3]:
pre_proccesor = LegalDatasetPreProcessor()

ekhtebar_df = pre_proccesor.gz_to_df("../resource/sample_resource/ekhtebar.gz")
shenasname_df = pre_proccesor.gz_to_df("../resource/sample_resource/shenasname.gz")
qavanin_df = pre_proccesor.gz_to_df("../resource/sample_resource/qavanin.gz")

## Extract Law

In [1]:
with open("../resource/law/law.txt", 'r', encoding='utf-8') as file:
    content = file.read()
law_list = content.split("@")[:-1]

## Extract News
The only dataset of Ekhtebar as a news site has news_tag.

In [4]:
ek_news = pre_proccesor.ekhtebar_news(ekhtebar_df)
ek_news.to_csv("../resource/news/nesw.csv", index=False)
ek_news.head() 


Unnamed: 0,title,content_html,date,url,tags,category.original,content
0,تمدید مهلت ثبت‌نام پذیرفته‌شدگان آزمون مشاوران...,"[{'type': 'h1', 'text': 'مهلت ثبت‌نام پذیرفته‌...",2018-04-03,https://ekhtebar.ir/%d8%aa%d9%85%d8%af%db%8c%d...,"[آزمون ماده ۱۸۷, آزمون مرکز وکلا ۹۸, آزمون مشا...",آزمون های حقوقی/آزمون مرکز وکلای قوه قضائیه,مهلت ثبت‌نام پذیرفته‌شدگان آزمون مشاوران حقوقی...
1,مرجع قضایی، وکالت را کسب و کار ندانست,"[{'type': 'h2', 'text': 'قرار منع تعقیب کانون ...",2018-04-03,https://ekhtebar.ir/%d9%85%d8%b1%d8%ac%d8%b9-%...,"[تسهیل مجوز کسب و کار, کانون وکلای دادگستری یز...",اخبار/اخبار کانون وکلای دادگستری,قرار منع تعقیب کانون وکلا از اتهام «عدم اعلام ...
2,کارنامه آزمون دکتری سال ۹۷ هفته آخر فروردین من...,"[{'type': 'h2', 'text': 'نتایج اولیه آزمون دکت...",2018-04-03,https://ekhtebar.ir/%da%a9%d8%a7%d8%b1%d9%86%d...,"[آزمون دکتری حقوق, اعلام نتیجه, دکتری 97]",اخبار/اخبار دانشگاه ها,نتایج اولیه آزمون دکتری سال ۹۷ هفته آخر فروردی...
3,آغاز ثبت‌نام آزمون EPT فروردین‌ماه ۹۷ دانشگاه ...,"[{'type': 'h2', 'text': 'ثبت‌نام آزمون EPT دان...",2018-04-04,https://ekhtebar.ir/%d8%a2%d8%ba%d8%a7%d8%b2-%...,[آزمون ept],آزمون های حقوقی/آزمون دکتری حقوق/آزمون زبان دکتری,ثبت‌نام آزمون EPT دانشگاه آزاد اسلامی آغاز شدا...
4,شیوه جدید برگزاری مصاحبه دکتری در دانشگاه آزاد...,"[{'type': 'h3', 'text': 'رئیس مرکز سنجش دانشگا...",2018-04-04,https://ekhtebar.ir/%d8%b4%db%8c%d9%88%d9%87-%...,"[دکتری حقوق, دکتری حقوق ۹۷, دکتری دانشگاه آزاد]",آزمون های حقوقی/آزمون دکتری حقوق,رئیس مرکز سنجش دانشگاه خبر داد: شیوه جدید برگز...


## Extract Case

In [3]:
with open("../resource/case/case.txt",'r') as f:
    data = f.read()
case_list = data.split("|split|")[:-1]

In [4]:
df = pre_proccesor.case_to_df(case_list)
df.to_csv("../resource/case/case.csv", index=False)
df.head()

Unnamed: 0,title,number,date,type,text
0,مرجع اتخاذ تصمیم درخصوص امور مالی سازمان تأمین...,۹۵۰۹۹۷۰۹۵۵۹۰۱۸۰۱,۱۳۹۵ / ۰۷ / ۲۵,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. در خصوص ش...
1,چگونگی اخراج کارکنان فراری کادر ثابت ارتش,۹۵۰۹۹۷۰۹۵۵۲۰۳۲۶۵,۱۳۹۵ / ۰۸ / ۱۹,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...
2,شخصیت مستقل پژوهشگاه‌های صنعت نفت,۹۵۰۹۹۷۰۹۰۵۶۰۱۰۳۵,۱۳۹۵ / ۰۸ / ۱۵,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...
3,ماهیت حقوقی کمیسیون ماده ۱۶ قانون تسهیلات استخ...,۹۵۰۹۹۷۰۹۰۵۶۰۱۰۲۵,۱۳۹۵ / ۰۸ / ۱۱,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. در خصوص د...
4,صلاحیت دیوان و اتحادیه‌های صنفی,۹۵۰۹۹۷۰۹۵۵۲۰۲۷۹۳,۱۳۹۵ / ۰۷ / ۰۶,اداری,\n. رأی شعبه بدوی دیوان عدالت اداری. [در خصوص ...


## Extract Blog

In [2]:
from bs4 import BeautifulSoup
import pandas as pd

def are_substrings_not_in_string(main_string, substrings):
    for substring in substrings:
        if substring in main_string:
            return False
    return True

def channel_html_to_df(path:str) -> pd.DataFrame:
    result = []
    with open(path, 'r', encoding='utf-8') as file:
        html_content = file.read()
    soup = BeautifulSoup(html_content, 'html.parser')
    divs_with_text_class = soup.find_all('div', class_='text')
    for div in divs_with_text_class:
        text_content = div.get_text(separator='\n')
        result.append(text_content)
    p =[]
    for r in result:
        k = r.split('\n \n')
        p.extend(k)
    not_valid_string = ["آدرس:\nتهران", 'حقوقدانان زبده']
    result=[]
    for r in p:
        if are_substrings_not_in_string(r, not_valid_string) :
            result.append(r)
    return result

In [4]:
# telegram_crawler = TelegramCrawler()
r = channel_html_to_df("../resource/sample_resource/elitelawyers_telegram.html")

In [5]:
print(r)

['\n⚖ گروه حقوقدانان زبده ⚖ \n     ', '\nبنام خداوند دادجوی عدالت گستر⚖\nبا سلام خدمت هموطنان عزیز 🙏\n🔴 گروه حقوقدانان زبده متشکل از وکلای دادگستری مجرب و قضات بازنشسته در جهت ارائه مشاوره تخصصی حقوقی و رفع مشکلات قضایی و پذیرش وکالت پرونده های حقوقی و کیفری گرد هم آمده است تا با استفاده از تجارب این افراد زبده گره گشای مسائل حقوقی هموطنان عزیز باشد.\n🔴 مشاوره های گروه از طریق حقوقدانان با تجربه و زبده در جهت رفع مشکلات قضایی به شما عزیزان ارائه میگردد.\n🔴 پذیرش وکالت پرونده های حقوقی و کیفری و مالیاتی عزیزان در کلیه مراحل از شورای حل اختلاف تا دیوان عالی کشور انجام و کلیه پرونده ها با طرح در کارگروه تخصصی با مشورت وکلای خبره و حقوقدانان زبده تا وصول به نتیجه پیگیری میگردد.\n🔴 پذیرش تنظیم تخصصی دادخواست ، شکوائیه و لایحه بصورت حضوری و غیر حضوری از طریق وکلای زبده.\n☎️ مشاوران گروه جهت پاسخگویی به سوالات و مسائل قضایی عزیزان بصورت تلفنی و حضوری در خدمت شما هموطنان عزیز می باشند.\n📞  \n02174391068\n  (10 line)\n✅ \nhttp://elitelawyerss.ir\n🆔 \n@elitelawyers_chat\n📍نشانی:\nشعبه دفتر غرب :