# Import thư viện cần dùng

In [10]:
from nltk.tree import ParentedTree

# Định nghĩa các hàm liên quan

In [59]:
def all_label(nltk_tree):
    for s in nltk_tree.subtrees():
        if s.label() != 'S' and s.label() != 'ROOT' and s.height() > 2:
            print(s.label() + ': ', end='')
            print(' '.join(s.leaves()).replace('_', ' '))      

In [45]:
def get_text_label(nltk_tree, get_label='NP'):
    for s in nltk_tree.subtrees():
        if s.label() == get_label:
            print(' '.join(s.leaves()).replace('_', ' '))

In [29]:
def get_text_tag(nltk_tree, get_tag='N'):
    for s in nltk_tree.subtrees(lambda t: t.height() == 2):
        if s.label() == get_tag:
            print(s.leaves()[0])

# Demo

## Tiếng Việt

In [46]:
sent_parse = '(S (NP (Nc Con) (N chó) (AP (A trắng))) (VP (V cắn) (NP (Nc con) (N mèo) (A đen))) (. .))'

In [47]:
nltk_tree = ParentedTree.fromstring(sent_parse)

In [48]:
nltk_tree.pretty_print()

               S                     
      _________|___________________   
     NP                VP          | 
  ___|____      _______|___        |  
 |   |    AP   |           NP      | 
 |   |    |    |    _______|___    |  
 Nc  N    A    V   Nc      N   A   . 
 |   |    |    |   |       |   |   |  
Con chó trắng cắn con     mèo đen  . 



### Rút trích NP, VP, AP trong câu

#### Toàn bộ ngữ trong câu, bao gồm ngữ chính và ngữ phụ (ngữ trong ngữ)

In [50]:
all_label(nltk_tree)

NP: Con chó trắng
AP: trắng
VP: cắn con mèo đen
NP: con mèo đen


#### Rút trích ngữ chính trong câu

Rút trích danh ngữ chính trong câu (Danh ngữ chính là danh ngữ nằm trong S hoặc SBAR)

In [51]:
get_text_label(nltk_tree, 'NP')

Con chó trắng
con mèo đen


Rút trích danh từ chính trong câu (danh từ chính là danh từ nằm trong danh ngữ)

In [52]:
get_text_tag(nltk_tree, 'N')

chó
mèo


Rút trích động ngữ chính trong câu

In [53]:
get_text_label(nltk_tree, 'VP')

cắn con mèo đen


Rút trích động từ trong câu

In [33]:
get_text_tag(nltk_tree, 'V')

cắn


Rút trích tính ngữ chính trong câu

In [54]:
get_text_label(nltk_tree, 'AP')

trắng


Rút trích tính từ chính trong câu

In [35]:
get_text_tag(nltk_tree, 'A')

trắng
đen


## Tiếng Anh

In [55]:
sent_parse = '(ROOT\
  (S\
    (NP (DT The) (NN man))\
    (VP (VBD sat)\
      (PP (IN on)\
        (NP (DT the) (NN chair))))\
    (. .)))'

In [56]:
nltk_tree = ParentedTree.fromstring(sent_parse)

In [57]:
nltk_tree.pretty_print()

                ROOT                      
                 |                         
                 S                        
      ___________|______________________   
     |                VP                | 
     |        ________|___              |  
     |       |            PP            | 
     |       |    ________|___          |  
     NP      |   |            NP        | 
  ___|___    |   |         ___|____     |  
 DT      NN VBD  IN       DT       NN   . 
 |       |   |   |        |        |    |  
The     man sat  on      the     chair  . 



### Rút trích NP, VP, AP trong câu

#### Toàn bộ ngữ trong câu, bao gồm ngữ chính và ngữ phụ (ngữ trong ngữ)

In [60]:
all_label(nltk_tree)

NP: The man
VP: sat on the chair
PP: on the chair
NP: the chair


#### Rút trích ngữ chính trong câu

Rút trích danh ngữ chính trong câu (Danh ngữ chính là danh ngữ nằm trong S hoặc SBAR)

In [61]:
get_text_label(nltk_tree, 'NP')

The man
the chair


Rút trích danh từ chính trong câu (danh từ chính là danh từ nằm trong danh ngữ)

In [62]:
get_text_tag(nltk_tree, 'NN')

man
chair


Rút trích động ngữ chính trong câu

In [63]:
get_text_label(nltk_tree, 'VP')

sat on the chair


Rút trích động từ trong câu

In [64]:
get_text_tag(nltk_tree, 'VBD')

sat


Rút trích tính ngữ chính trong câu

In [65]:
get_text_label(nltk_tree, 'PP')

on the chair


Rút trích tính từ chính trong câu

In [67]:
get_text_tag(nltk_tree, 'IN')

on
