In [1]:
! pip install hazm



In [5]:
import nltk

In [70]:
from number_extractor import *
from unit_extractor import *

In [2]:
from __future__ import unicode_literals
from hazm import *


text = 'یک خودرو با طول دراز و عرض کوتاه از ما سبقت گرفت.'

tagger = POSTagger(model='resources/hazm/postagger.model')
tagger.tag(word_tokenize(text))

[('یک', 'NUM'),
 ('خودرو', 'N'),
 ('با', 'P'),
 ('طول', 'Ne'),
 ('دراز', 'AJ'),
 ('و', 'CONJ'),
 ('عرض', 'Ne'),
 ('کوتاه', 'AJ'),
 ('از', 'P'),
 ('ما', 'PRO'),
 ('سبقت', 'N'),
 ('گرفت', 'V'),
 ('.', 'PUNC')]

In [15]:
def tree_generator(sentence):
    grammar = r"""
        NADJ: {<N|Ne><ADV>*<AJ|AJe>}
    """
    return nltk.RegexpParser(grammar).parse(sentence)

noun_and_adj_list = []
for sentence in sent_tokenize('ماشین بسیار فوق‌العاده زیبا غذای خوب مداد علی شکم چاق'):
    tags = tagger.tag(word_tokenize(sentence))
    tree = tree_generator(tags)
    for subtree in tree.subtrees():
        # print(subtree.leaves())
        if subtree.label() == 'NADJ':
            noun_and_adj_list.append(subtree.leaves())
            print(subtree.leaves())  

[('ماشین', 'Ne'), ('بسیار', 'ADV'), ('فوق\u200cالعاده', 'ADV'), ('زیبا', 'AJ')]
[('غذای', 'Ne'), ('خوب', 'AJe')]
[('شکم', 'Ne'), ('چاق', 'AJ')]


In [23]:
p = Normalizer()
p.normalize('جابهجایی')

'جابهجایی'

In [62]:
chunker = hazm.Chunker(model='resources/hazm/chunker.model')

In [67]:
text = 'توان مفید باتری گوشی علی صد وات است.'

In [68]:
tagged = tagger.tag(hazm.word_tokenize(text))
a = chunker.parse(tagged)
b = hazm.tree2brackets(a)
b

'[توان مفید باتری گوشی علی صد وات NP] [است VP] .'

In [7]:
c = a[0]
print(1)

NameError: name 'a' is not defined

In [26]:
d = ' '.join([s[0] for s in list(a[0])])

In [27]:
d

'سرعت بالای خودروی عمه علی'

In [29]:
list(a)

[Tree('NP', [('سرعت', 'Ne'), ('بالای', 'AJe'), ('خودروی', 'Ne'), ('عمه', 'N'), ('علی', 'N')]),
 Tree('ADJP', [('عجیب', 'AJ')]),
 Tree('VP', [('است', 'V')]),
 ('.', 'PUNC')]

In [5]:
from __future__ import unicode_literals
import hazm
import re
import json
import nltk


tagger = hazm.POSTagger(model='resources/hazm/postagger.model')
chunker = hazm.Chunker(model='resources/hazm/chunker.model')

In [24]:
inverse_alternative = {}
with open('resources/dataset/quantities_word_network.json', 'r', encoding='utf-8') as fp:
    inverse_alternative = json.load(fp)

In [59]:
def tree_generator(sentence):
    grammar = r"""
        NADJ: {<N|Ne><ADV>*<AJ|AJe|ADV>}
    """
    return nltk.RegexpParser(grammar).parse(sentence)

def extract_qualitative_expressions(text, tagger, inverse_alternative):
    results = []
    for sentence in hazm.sent_tokenize(text):
        tags = tagger.tag(hazm.word_tokenize(sentence))
        tree = tree_generator(tags)
        last_index = 0
        for subtree in tree.subtrees():
            if subtree.label() == 'NADJ':
                try:
                    in_context_POS = subtree.leaves()[-1][1]
                    out_of_context_POS = tagger.tag([subtree.leaves()[-1][0]])[0][1]
                    if in_context_POS.startswith("ADV") and out_of_context_POS.startswith("ADV"):
                        continue
                    try:
                        res_type = inverse_alternative[subtree.leaves()[0][0]]
                    except:
                        y_count = -1
                        while subtree.leaves()[0][0][y_count] == 'ی':
                            y_count -= 1
                        if y_count == -1:
                            continue
                        res_type = inverse_alternative[subtree.leaves()[0][0][:y_count + 1]]
                    marker = ' '.join([s[0] for s in subtree.leaves()])
                    span = re.search(marker, text[last_index:]).span()
                    span = [span[0] + last_index, span[1] + last_index]
                    last_index = span[1]
                    res_dict = {
                        'type': res_type,
                        'amount': '',
                        'unit': '',
                        'item': '',
                        'marker': marker,
                        'span': span,
                        'SI_equivalent': '',
                    }
                    results.append(res_dict)
                except KeyError:
                    pass
    return results

In [60]:
text = 'ما در ابتدا یک ماشین با سرعت زیاد دیدیم که در دمای بسیار سرد قطب جنوب در ارتفاع حقیقتا بسیار بلند در حال رانندگی بود. سپس مردی با قد کوتاه و شلوار خیلی بلند شروع به پیاده‌شدن کرد. قد آن مرد تقریباً برابر عرض حدودا متوسط آن ماشین بود. مردی با قد نسبتا کوتاه و پهنایی به‌غایت عریض'

extract_qualitative_expressions(text, tagger, inverse_alternative)

[{'type': 'سرعت',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'سرعت زیاد',
  'span': [24, 33],
  'SI_equivalent': ''},
 {'type': 'دما',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'دمای بسیار سرد',
  'span': [46, 60],
  'SI_equivalent': ''},
 {'type': 'طول',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'ارتفاع حقیقتا بسیار بلند',
  'span': [73, 97],
  'SI_equivalent': ''},
 {'type': 'طول',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'قد کوتاه',
  'span': [130, 138],
  'SI_equivalent': ''},
 {'type': 'طول',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'قد نسبتا کوتاه',
  'span': [242, 256],
  'SI_equivalent': ''},
 {'type': 'طول',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'پهنایی به\u200cغایت عریض',
  'span': [259, 278],
  'SI_equivalent': ''}]

In [12]:
inverse_alternative['پهنا']

'طول'

In [23]:
# res_dict = {
#     'type': inverse_alternative[NONE],
#     'amount': '',
#     'unit': '',
#     'item': '',
#     'marker': '',
#     'span': '',
# }

subtree.leaves()[0][0]

'شکم'

In [46]:
def join_patterns(patterns, grouping=False):
    return '(' + ('?:' if not grouping else '') + '|'.join(patterns) + ')'


def extract_qualitative(text, quantity, last_span):
    tagged = tagger.tag(word_tokenize(text))
    res = list(chunker.parse(tagged))
    for tree in res:
        tokens = list(tree)
        for idx in range(len(tokens)):
            if tokens[idx][0] == quantity and idx != len(tokens) - 1:
                chunk_str = ' '.join([s[0] for s in tokens])
                match_span = re.search(chunk_str, text).span()
                adj_count = 0
                while idx + adj_count + 1 < len(tokens) and tokens[idx + adj_count + 1][1].startswith('ADV'):
                    adj_count += 1
                target_token_pos = tokens[idx + adj_count + 1][1]
                if (target_token_pos.startswith('AJ') or target_token_pos.startswith('ADJ')) and match_span[0] > last_span:
                    return chunk_str

def qualitive_descriptions(text):
    sents = sent_tokenize(text)
    PATTERN = join_patterns(list(inverse_alternative.keys()))
    res = []
    read_chars = 0
    for sent in sents:
        last_span = -1
        for match in re.finditer(PATTERN, sent):
            marker = extract_qualitative(sent, match.group(), last_span)
            if marker is None:
                continue
            temp_dict = {
                'type': inverse_alternative[match.group()],
                'amount': '',
                'unit': '',
                'item': '',
                'marker': marker,
                'span': [match.span()[0] + read_chars, match.span()[0] + len(marker) + read_chars]
            }
            last_span = match.span()[0] + len(marker) - 1
            res.append(temp_dict)
        read_chars += len(sent)
        
    return res
        

In [47]:
p = Normalizer()

In [51]:
text = 'یک خودرو با طول دراز و عرض کوتاه از ما سبقت گرفت.'
text = 'طول بسیار زیبا و بسیار دراز خودروی علی شگفت‌انگیز است.'

b = 1 * text

b = p.normalize(b)

qualitive_descriptions(b)

[{'type': 'طول',
  'amount': '',
  'unit': '',
  'item': '',
  'marker': 'طول بسیار زیبا و بسیار دراز',
  'span': [0, 27]}]

In [24]:
import json
quantities = {}
with open('resources/dataset/quantities_related_names.json', 'r', encoding='utf-8') as fp:
    quantities = json.load(fp)

quantities['طول'].append('پهنا')

temp = {}

for k, v in quantities.items():
    for alt in v:
        if alt not in temp.keys():
            temp[alt] = k

with open('resources/dataset/inverse_alternative.json', 'w', encoding='utf-8') as fp:
    json.dump(temp, fp, indent=4)

In [22]:
a[0][0]

('سرعت', 'Ne')

In [26]:
import json
quantities = {}
with open('resources/dataset/quantities_related_names.json', 'r', encoding='utf-8') as fp:
    quantities = json.load(fp)

quantities_names = []
for k, v in quantities.items():
    quantities_names.extend(v)

quantities_names

with open('resources/dataset/alternatives_for_quantities.json', 'w', encoding='utf-8') as fp:
    json.dump(quantities_names, fp, indent=4)

In [27]:
alternatives = {}
with open('resources/dataset/alternatives_for_quantities.json', 'r', encoding='utf-8') as fp:
    alternatives = json.load(fp)

alternatives

['تغییرات سرعت به تغییرات زمان',
 'شتاب',
 'تغییرات سرعت نسبت به تغییرات زمان',
 'تغییرات سرعت نسبت به زمان',
 'گشتاور دورانی',
 'گشتاور زاویه\u200cای',
 'تکانه زاویه\u200cای',
 'سطح',
 'زمین',
 'مساحت',
 'چگالی سطح',
 'چگالی سطحی',
 'جرم سطحی',
 'ظرفیت',
 'خازن',
 'کاپاسیتانس',
 'پتانسیل شیمیایی',
 'آنتروپی',
 'آنتالپی',
 'چگالی جریان',
 'جریان الکتریکی بر واحد سطح',
 'بار الکتریکی',
 'بار',
 'الکتریسیته',
 'پتانسیل الکتریکی',
 'ولتاژ',
 'پتانسل',
 'اختلاف پتانسیل',
 'مقاومت الکتریکی',
 'مقاومت',
 'رزیستانس',
 'انرژی',
 'گرما',
 'ارزش غذایی',
 'کارمایه',
 'پتانسیل',
 'جنبشی',
 'آنتروپی',
 'آنتالپی',
 'توان',
 'نرخ',
 'فشار',
 'گشتاور',
 'نیروی چرخشی',
 'نیروی دورانی',
 'ممان نیرو',
 'سرعت',
 'تندی',
 'جابجایی نسبت به زمان',
 'مسافت نسبت به زمان',
 'جابجایی نسبت به تغییرات زمان',
 'مسافت نسبت به تغییرات زمان',
 'مسافت طی شده نسبت به تغییرات زمان',
 'حجم',
 'فضا',
 'طول',
 'فاصله',
 'عرض',
 'ارتفاع',
 'جابه\u200cجایی',
 'جا به جایی',
 'جابجایی',
 'مسافت',
 'بازه',
 'شعاع',
 'قطر',
 'ضلع

In [None]:
class Extracted_quantity:

    def __init(self, type, amount, unit, item, marker, span, SI_equivalent):
        self.type = type
        self.amount = amount
        self.unit = unit
        self.item = item
        self.marker = marker
        self.span = span
        self.SI_equivalent = SI_equivalent

    def get_dict(self):
        return {
            'type': self.type,
            'amount': self.amount,
            'unit': self.unit,
            'item': self.item,
            'marker': self.marker,
            'span': self.span,
            'SI_equivalent': self.SI_equivalent,
        }



In [81]:
chunker = hazm.Chunker(model='resources/hazm/chunker.model')

In [129]:
quantities_word_network = {}
with open('resources/dataset/quantities_word_network.json', 'r', encoding='utf-8') as file:
    quantities_word_network = json.load(file)

In [134]:
def get_related_words(target):
    return [key for key, value in quantities_word_network.items() if value == target]

In [142]:
related_words_dict = {}
with open('resources/dataset/quantities_related_names.json', 'r', encoding='utf-8') as file:
    related_words_dict = json.load(file)

In [211]:
WS = WHITE_SPACE
NUM_CONNECTOR = join_patterns([rf'({WS})?(?:،|,)({WS})?', rf'{WS}و{WS}'])
NUM_SEQUENCE = rf'{NUM_IN_TEXT}(?:{NUM_CONNECTOR}{NUM_IN_TEXT})*'
NUM_UNIT = rf'{NUM_SEQUENCE}{WHITE_SPACE}{COMPLEX_UNIT}'

text = 'پهنای باتری موبایل پانزده میلی‌متر قرار بود باشد و هست'
text = 'توان مفید باتری علی صد وات به نظر می‌رسد.'
text = 'شهاب‌سنگی به تندی ۱۵ km/s وارد جو زمین شد.'
# text = 'علی ۳.۵ کیلوگرم آرد خرید و باتری خود را هشتاد و پنج صدم وات شارژ کرد.'
# text = 'علی ۳.۵ کیلوگرم جرم دارد.'
# text = 'دیدیم وزن علی ۳.۵ کیلوگرم و جرم حسن ۵ کیلوگرم است.'
# text = 'سلام! توان مفید باتری من صد وات به نظر می‌رسد.'
# text = 'علی ۳.۵ کیلوگرم جرم دارد.'
# text = 'علی ۵ کیلوگرم از آرد همسایه قرض گرفت.'


def extract_expressions(text, tagger, chunker):

    def get_nth_chunk(text, n, tagger, chunker):
        tagged = tagger.tag(hazm.word_tokenize(text))
        chunks = chunker.parse(tagged)
        return ' '.join([c[0] for c in chunker.parse(tagged)[n]])
    
    result = []
    for match in re.finditer(NUM_UNIT, text):
        before = text[:match.span()[0] - 1]
        after = text[match.span()[1]:]
        before_chunk = get_nth_chunk(before, -1, tagger, chunker)
        after_chunk = get_nth_chunk(after, 0, tagger, chunker)

        unit = extract_units(match.group())[0]['object']
        quantity = unit_to_quantity(unit)[0]
        numbers = extract_numbers(match.group())
        related_words = related_words_dict[quantity]
        pattern = join_patterns(related_words)

        before_matches = [matched for matched in re.finditer(pattern, before_chunk)]
        before_match = None
        span = list(match.span())
        did_preextend = False
        did_postextend = False
        if before_matches:
            before_match = before_matches[-1]
            span[0] = match.span()[0] - len(before_chunk) + before_match.span()[0] - 1
            did_preextend = True
        if not did_preextend:
            after_matches = [matched for matched in re.finditer(pattern, after_chunk)]
            after_match = None
            if after_matches:
                after_match = after_matches[0]
                span[1] = match.span()[1] + after_match.span()[1] + 1
                did_postextend = True

        item_word = ''
        if not did_postextend:
            tags = tagger.tag(hazm.word_tokenize(after_chunk))
            if tags and tags[0][1].startswith('N'):
                if len(tags) < 2 or not tags[1][1].startswith('V'):
                    item_word = tags[0][0]
                    item_match = re.search(item_word, after_chunk)
                    span[1] = match.span()[1] + item_match.span()[1] + 1
        
        res_amount = [item['value'] for item in numbers]
        SI_coeff = unit_to_SI_unit(unit).magnitude
        SI_equivalent = [SI_coeff * item for item in res_amount]
        marker = text[span[0]:span[1]]

        unit_span = [numbers[0]['span'][0], numbers[-1]['span'][1]]
        for number in numbers:
            unit_span[0] = min(unit_span[0], number['span'][0])
            unit_span[1] = max(unit_span[1], number['span'][1])

        unit_str = match.group()[:unit_span[0]] + match.group()[unit_span[1]:].strip()

        res_dict = {
            'type': quantity,
            'amount': res_amount,
            'unit': unit_str,
            'item': item_word,
            'marker': marker,
            'span': span,
            'SI_equivalent': SI_equivalent,
        }
        result.append(res_dict)
    return result

extract_expressions(text, tagger, chunker)

[{'type': 'سرعت',
  'amount': [15.0],
  'unit': 'km/s',
  'item': '',
  'marker': 'تندی ۱۵ km/s',
  'span': [13, 25],
  'SI_equivalent': [15000.0]}]