# NLP cơ bản

Ở notebook này, chúng ta sẽ sử dụng truyện ngắn [_An Occurrence at Owl Creek Bridge_](https://en.wikipedia.org/wiki/An_Occurrence_at_Owl_Creek_Bridge) của Ambrose Bierce (1890). <br>Truyện này thuộc phạm vi công cộng; file text được lấy từ [Project Gutenberg](https://www.gutenberg.org/ebooks/375.txt.utf-8).

In [95]:
# CHẠY CELL NÀY để thực hiện các import tiêu chuẩn:
import spacy
nlp = spacy.load('en_core_web_sm')

**1. Tạo đối tượng Doc từ file `owlcreek.txt`**<br> 
> GỢI Ý: Dùng `with open('../TextFiles/owlcreek.txt') as f:`

In [96]:
# Nhập code ở đây:
with open('../TextFiles/owlcreek_mac.txt') as f:
    doc = nlp(f.read())


In [97]:
# Chạy cell này để xác minh là nó hoạt động:

doc[:36]

AN OCCURRENCE AT OWL CREEK BRIDGE

by Ambrose Bierce

I

A man stood upon a railroad bridge in northern Alabama, looking down
into the swift water twenty feet below.  

**2. File có chứa bao nhiêu token?**

In [98]:
len(doc)

4835

**3. File có bao nhiêu câu?**<br>GỢI Ý: Bạn sẽ cần tạo một list trước tiên!

In [99]:
#211
sents = [sent for sent in doc.sents]
len(sents)


201

In [100]:
sents[:4]

[AN OCCURRENCE AT OWL CREEK BRIDGE
 
 by Ambrose Bierce
 
 I
 
 A man stood upon a railroad bridge in northern Alabama, looking down
 into the swift water twenty feet below.  ,
 The man's hands were behind
 his back, the wrists bound with a cord.  ,
 A rope closely encircled his
 neck.  ,
 It was attached to a stout cross-timber above his head and the
 slack fell to the level of his knees.  ]

**4. In ra câu thứ ba trong tài liệu**<br> GỢI Ý:  Lập chỉ mục bắt đầu từ 0 và tiêu đề chính là câu đầu tiên.

In [101]:
print(sents[2])

A rope closely encircled his
neck.  


**5. Với mỗi token ở câu trên, hãy in ra `text`, tag `POS`, tag `dep` và `lemma`<br>
THỬ THÁCH: Sắp các giá trị thành hàng trong các cột và in ra kết quả.** 

In [102]:
# GIẢI PHÁP THÔNG THƯỜNG:
type(sents[2])
for token in sents[2]:
    print(token.text, '\t', token.pos_, '\t', token.dep_, '\t', token.lemma_)




A 	 DET 	 det 	 a
rope 	 NOUN 	 nsubj 	 rope
closely 	 ADV 	 advmod 	 closely
encircled 	 VERB 	 ROOT 	 encircle
his 	 PRON 	 poss 	 his

 	 SPACE 	 dep 	 

neck 	 NOUN 	 dobj 	 neck
. 	 PUNCT 	 punct 	 .
  	 SPACE 	 dep 	  


In [103]:
# GIẢI PHÁP NÂNG CAO:
for token in sents[2]:
    print(f'{token.text:{12}} {token.pos_:{6}} {token.dep_:{8}} {token.lemma_:{22}}')


A            DET    det      a                     
rope         NOUN   nsubj    rope                  
closely      ADV    advmod   closely               
encircled    VERB   ROOT     encircle              
his          PRON   poss     his                   

            SPACE  dep      
                     
neck         NOUN   dobj     neck                  
.            PUNCT  punct    .                     
             SPACE  dep                            


**6. Viết một matcher tên là 'Swimming' để tìm cả hai lần xuất hiện của cụm "swimming vigorously" trong text**<br> 
GỢI Ý: Nên kèm pattern `'IS_SPACE': True` giữa hai từ!

In [104]:
# Import thư viện Matcher:

from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

In [105]:
# Tạo một pattern và thêm nó vào matcher:
pattern = [{'LOWER': 'swimming'}, {'IS_SPACE': True, 'OP':'*'}, {'LOWER': 'vigorously'}]

matcher.add('Swimming', [pattern], on_match=None)


In [106]:
# Tạo một list các matches gọi là "found_matches" và in ra list:

found_matches = matcher(doc)
print(found_matches)

[(12881893835109366681, 1274, 1277), (12881893835109366681, 3609, 3612)]


**7. In ra text quanh mỗi match được tìm thấy** 

In [108]:
for matched_id, start, end in found_matches:
    print(doc[start-10:end+10])
    print('\n')

 By diving I could evade the bullets and, swimming
vigorously, reach the bank, take to the woods and


saw all this over his shoulder; he was now swimming
vigorously with the current.  His brain was as energetic




**EXTRA CREDIT:<br>In ra *câu* chứa mỗi match được tìm thấy**

In [109]:

for matched_id, start, end in found_matches:
    for sent in doc.sents:
        if sent.start <= start <= sent.end:
            print(sent)
            print('\n')



By diving I could evade the bullets and, swimming
vigorously, reach the bank, take to the woods and get away home.  


The hunted man saw all this over his shoulder; he was now swimming
vigorously with the current.  


