In [1]:
pdf_dir = '/home/alireza/Documents/IR/books/'

In [2]:
from langdetect import detect
from io import StringIO
from os import listdir

import re
import tqdm
import string
from hazm import *

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LAParams

In [3]:
import pandas as pd

pd.set_option('display.max_colwidth', -1)

  This is separate from the ipykernel package so we can avoid doing imports until


In [4]:
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    retstr = StringIO()
    codec = 'utf-8'
    
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
   
    maxpages = 0
    password = ""
    caching = True
    
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    
    return text[::-1]

In [5]:
tokenizer = WordTokenizer(
    replace_hashtags=True, replace_links=True, replace_IDs=True,
    join_verb_parts=True, replace_numbers=True, replace_emails=True, 
    separate_emoji=True).tokenize

normalizer = Normalizer(token_based=True)

In [6]:
def rotate(text): 
    
    ex = ''
    pr = ''
    
    if len(text) > 1 and text[-1] in string.punctuation:
        text, ex = text[:-1], text[-1]
    
    if len(text) > 1 and text[1] in string.punctuation:
        text, pr = text[1:], text[1]

    return pr + (text if detect(text) == 'fa' else text[::-1]) + ex

def is_persian(text): 
    try:
        return detect(text) == 'fa'
    except: pass

In [7]:
sentences = []
minvocab = 3

for file in tqdm.tqdm(listdir(pdf_dir)):
    
    print(file)
    text = convert_pdf_to_txt(pdf_dir + file)
    text = normalizer.normalize(text)
    
    sent = sent_tokenize(text)
    sent = filter(lambda text: len(text) > minvocab, sent)
    sent = filter(lambda text: is_persian(text), sent)
    
    sent = list(sent)
    
    text = " ".join(sent)
    toks = word_tokenize(text)
    toks = filter(bool, toks)
    toks = map(lambda text: rotate(text), toks)
    text = " ".join(sent)
    
    sent = sent_tokenize(text)
    sentences.extend(sent)
        

  0%|          | 0/7 [00:00<?, ?it/s]

C112210.pdf


 14%|█▍        | 1/7 [00:21<02:07, 21.26s/it]

C112209.pdf


 29%|██▊       | 2/7 [01:22<03:45, 45.03s/it]

Ashpazi.pdf


 43%|████▎     | 3/7 [02:06<02:57, 44.40s/it]

C110209.pdf


 57%|█████▋    | 4/7 [03:15<02:42, 54.11s/it]

C110210.pdf


 71%|███████▏  | 5/7 [03:34<01:22, 41.46s/it]

C111209.pdf


 86%|████████▌ | 6/7 [04:39<00:49, 49.50s/it]

C111210.pdf


100%|██████████| 7/7 [05:01<00:00, 43.05s/it]


In [8]:
df = pd.DataFrame(sentences, columns=['sentence'])

In [9]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(df[df.sentence.str.contains('کیلوگرم')].sample(10))

Unnamed: 0,sentence
10581,آ) برای تهیۀ ٥/۲۴ کیلوگرم آمونیاک به چند مول گاز هیدروژن نیاز است؟) g (۳HN۲) g (۲H۳ +) g ( ۲N ۲ معادلۀ موازنه شدۀ واکنش تولید آمونیاک به صورت زیر است: ۲FaC + lCaN O۲H + ON eF + ۳O۲lA O۲H + ۲OS ۴lCiS FaN + ۲lCaC (ث ۲O + ۳HN (ت ۳O۲eF + lA (پ ۲O + S۲H (ب ۲lC + iS (آ مترین‌های دوره‌ای ۱ در هریک از واکنش‌های زیر نخست نام مواد شرکت‌کننده را بنویسید و سپس آن را موازنه کنید.
7312,از این خاصیت آب برای گرم کردن فضای خانه‌ها تغییر دما دهد، در مقایسه با سایر مواد، گرمای بیشتری با محیط اطراف نشان می‌دهد که وقتی یک کیلوگرم آب به اندازهٔ یک درجهٔ سلسیوس جدول ۴۳ دیدیم که گرمای ویژهٔ آب از سایر مواد بیشتر است.
8573,انرژی جنبشی کمیتی نرده‌ای و همواره مثبت است؛ این کمیت تنها به جرم و جنبشی (و هر نوع دیگری از انرژی) ۲s/۲mgk است که به افتخار جیمز ژول، فیزیک‌دان انگلیسی، یکاهای IS جرم و تندی به ترتیب کیلوگرم (gk) و متربرثانیه (s/m) است.
8680,این نتیجه نشان می‌دهد که اگر قطعه‌ای مکعبی، به اندازهٔ یک قوطی کبریت، از این فلز داشته باشیم، در این صورت جرم آن / × (۰۱ ۰ ۳۲ ×) m / gk ۳) m ۳ ۶ − gk / ۸۱۵ ۰ = پاسخ: از رابطهٔ ۱۱ داریم: ۳mc ۰/۳۲، چند کیلوگرم است؟
10775,۰۵ کیلوگرم کربن دی‌اکسید مصرف یک درخت تنومند ساالنه در حدود اگر امروز یک نهال بکارید، حداقل ۰۲ سال طول می‌کشد تا به یک درخت تنومند تبدیل شود.) هر یک کیلومتر مسافت طی شده با خودرو را برابر با ۰٥۲ گرم در نظر بگیرید.
11492,بر این بر ثانیه (۱ -sm ۸۰۱ ×۳) و E، انرژی کیلوگرم، c سرعت نور برحسب متر این رابطه، m جرم ماده برحسب واکنش‌های هسته‌ای ارائه کرد.
14590,پ) اگر یک فرد ۰۷ کیلوگرمی، ۵۲ گرم بادام خورده باشد، برای مصرف انرژی حاصل از آن چه مدت باید پیاده‌روی کند؟
14902,این در حالی است دارد تا وظایف خود را در پاینی‌ترین ۰۰۱ کیلوژول انرژی در شبانه‌روز نیاز هر کیلوگرم از بدن به طور میانگنی به آیا می‌دانید منفی گزارش شده است.
15549,الف) در صورتی که در پاالیش طال به کمک گیاهان، در هر هکتار بتوان ۰۲ تن گیاه برداشت nZ uC iN uA ۰۰۰۵۵۱ ۰۰۰۵۴۲ ۰۰۰۰۲۸ ۰۰۰۰۰۰۰۰۲۱ ۰۴ ۴۱ ۸۳ ۱/۰ ۵ ۵/۰ ۲ ۲۰۰/۰ مناد شیمیایی فلز (ریال) قیمت هر کیلوگرم فلز کیلوگرم از گیاه (گرم) بیشترین مقدار فلز در یک درصد فلز در سنگ معدن در جدول زیر، داده هایی دربارۀ این روش ارائه شده است.
10084,رد پای آب در تولید هر کیلوگرم به دیگر سخن، میانگنی جهانی مترمکعب آب مصرف شده است.


In [10]:
df.to_csv('measurement-context.csv', index=False)

In [173]:
import requests
import random
import json
import re

from hazm import *

def GET_UA():
    uastrings = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36",\
                "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.72 Safari/537.36",\
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10) AppleWebKit/600.1.25 (KHTML, like Gecko) Version/8.0 Safari/600.1.25",\
                "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0",\
                "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36",\
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36",\
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/600.1.17 (KHTML, like Gecko) Version/7.1 Safari/537.85.10",\
                "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",\
                "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0",\
                "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"\
                ]
 
    return random.choice(uastrings)

response = requests.get('https://www.bahesab.ir/calc/unit/', headers={'User-Agent': GET_UA()})

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text).select('select.select1 > option')
names = [(item.get_text(), item.attrs["value"]) for item in soup]

headers = {
    'authority': 'www.bahesab.ir',
    'accept': '*/*',
    'accept-language': 'en-US,en;q=0.9,fa-IR;q=0.8,fa;q=0.7',
    'origin': 'https://www.bahesab.ir',
    'referer': 'https://www.bahesab.ir/calc/unit/',
    'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Linux"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36',
}


measurements = []
normalizer = Normalizer(token_based=True)


for name, field in names:
    
    print('current field: ', name)
    
    data = {
    'string_o': '{"a":1,"b":"%s","c":0,"d":0,"e":0}' % field,
    }

    response = requests.post('https://www.bahesab.ir/cdn/unit/', headers=headers, data=data)
    
    text = response.json()['v']
    soup = BeautifulSoup(text).select('option')

    for meas in [item.get_text().strip() for item in soup]:
            
        meas = normalizer.normalize(meas)
        
        if '(' in meas:
            measurements.append((
                name, field, meas[:meas.rindex('(')].strip(), meas[meas.rindex('('):][1:-1]))
        else:
            measurements.append((name, field, meas, ''))

current field:  طول (Length)
current field:  وزن (Weight)
current field:  فشار (Pressure)
current field:  حجم (Volume)
current field:  دما (Temperature)
current field:  مساحت (Area)
current field:  سرعت (Speed)
current field:  نیرو (Force)
current field:  انرژی (Energy)
current field:  توان (Power)
current field:  گشتاور (Torque)
current field:  زمان (Time)
current field:  چگالی (غلظت جرمی) (Density)
current field:  فرکانس (Frequency)
current field:  زاویه (Angle)
current field:  شتاب (Acceleration)
current field:  شارش جرمی (Mass Flow)
current field:  شارش حجمی (Volumetric Flow)
current field:  ذخیره دیجیتال (Digital storage)
current field:  انتقال داده (سرعت اینترنت)(Data-transfer)
current field:  پیشوندهای SI


In [175]:
df = pd.DataFrame(measurements, columns=['name', 'field', 'persian', 'english'])

In [179]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(df.sample(10))

Unnamed: 0,name,field,persian,english
142,نیرو (Force),force,اونس-نیرو,ozf
301,شارش حجمی (Volumetric Flow),debi-v,متر مکعب بر ساعت,
32,وزن (Weight),Weight,کیلوگرم,kg
347,ذخیره دیجیتال (Digital storage),data-storage,پتا بایت,PB
46,وزن (Weight),Weight,سوت,
293,شارش جرمی (Mass Flow),debi,پوند بر ساعت,
382,انتقال داده (سرعت اینترنت)(Data-transfer),data-transfer,گیگا بیت بر ساعت,Gb/h
64,فشار (Pressure),pressure,میلیمتر جیوه,mmHg
77,فشار (Pressure),pressure,نیوتن بر متر مربع,
364,انتقال داده (سرعت اینترنت)(Data-transfer),data-transfer,مبی بایت برثانیه,MiB/s


In [180]:
df.to_csv('measurement-units.csv', index=False)