# Learn spaCy library

In [89]:
# ! pip install -U pip setuptools wheel
# ! pip install -U spacy
# ! python -m spacy download en_core_web_sm

In [90]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [91]:
with open('data\wiki_us.txt', 'r') as f:
    text = f.read()
print(text)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.

Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies est

## 1. Creating a Doc Container

In [92]:
# create doc object
doc = nlp(text)
print(doc)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.

Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies est

In [93]:
print(len(text))
print(len(doc))

3535
652


In [94]:
for token in text[:10]:
    print(token)

T
h
e
 
U
n
i
t
e
d


In [95]:
for token in doc[:10]:
    print(token)

The
United
States
of
America
(
U.S.A.
or
USA
)


In [96]:
for token in text.split()[:10]:
    print(token)

The
United
States
of
America
(U.S.A.
or
USA),
commonly
known


## 2. Sentence Boundary Detection (SBD)

In [97]:
for sent in doc.sents:
    print(sent)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.
It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j]
At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d]
The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22]
With a population of more than 331 million people, it is the third most populous country in the world.
The national capital is Washington, D.C., and the most populous city is New York.


Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century.
The United States emerged from the thirteen British colonies es

In [98]:
sentence1 = list(doc.sents)[0]
print(len(sentence1))
print(type(sentence1))
sentence1

34
<class 'spacy.tokens.span.Span'>


The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.

## 3. Token Attributes

The token object contains a lot of different attributes that are VITAL do performing NLP in spaCy. We will be working with a few of them, such as:

* .text

* .head

* .left_edge

* .right_edge

* .ent_type_

* .iob_

* .lemma_

* .morph

* .pos_

* .dep_

* .lang_

In [99]:
token2 = sentence1[2]
print(token2)
print(type(token2))

States
<class 'spacy.tokens.token.Token'>


### 3.1 text
Mô tả: Văn bản của token, tức là chính từ trong câu

In [100]:
token2.text

'States'

### 3.2 head
Mô tả: Từ "chủ" của token hiện tại, tức là từ mà token này phụ thuộc vào trong cấu trúc cú pháp

In [101]:
token2.head

is

### 3.3 left edge
this will tell us where the multi-word token begins

In [102]:
token2.left_edge

The

### 3.4 right edge
This will tell us where the multi-word token ends.

In [103]:
token2.right_edge

America

### 3.5 entity type
Mô tả: Loại thực thể của token, nếu token này là một phần của một thực thể có tên (named entity)

Ví dụ: "ORG" cho tổ chức, "GPE" cho địa điểm

In [104]:
print(token2.ent_type_)

GPE


### 3.6 Ent IOB
dùng để kiểm tra các token trong một câu có thuộc về một thực thể có tên (Named Entity) hay không, và nếu có thì vị trí của chúng trong thực thể đó

Thuộc tính ent_iob_ trả về một trong ba giá trị: "B", "I", hoặc "O", tùy thuộc vào vị trí của token trong thực thể.

* B (Beginning): Token này là token đầu tiên của một thực thể.
* I (Inside): Token này thuộc về một thực thể nhưng không phải là token đầu tiên.
* O (Outside): Token này không thuộc về bất kỳ thực thể nào.

In [105]:
token2.ent_iob_

'I'

### 3.7 Lemma
Mô tả: Dạng gốc (lemma) của từ. Đối với các động từ, đó là dạng nguyên thể, đối với các danh từ, đó là dạng số ít.

In [106]:
print(sentence1[12])
print(sentence1[12].lemma_)

known
know


### 3.8 Morph
cung cấp thông tin về các đặc điểm hình thái học (morphological features) của một token. Những đặc điểm này mô tả các thông tin ngữ pháp bổ sung của từ, chẳng hạn như thì, số, giới tính, cách chia động từ, v.v. Thuộc tính này rất hữu ích trong việc phân tích ngữ pháp chi tiết của các từ trong câu.

In [107]:
sentence1[12].morph

Aspect=Perf|Tense=Past|VerbForm=Part

### 3.9 Part of Speech
Phần ngữ loại của từ (Part-of-speech tag), thể hiện vai trò của từ trong câu (danh từ, động từ, tính từ, v.v.).

Ví dụ: "NOUN" cho danh từ, "VERB" cho động từ.

In [108]:
print(sentence1[12].pos_)
print(token2.pos_)

VERB
PROPN


### 3.10 Syntactic Dependency (dep_)
Mối quan hệ phụ thuộc cú pháp (dependency relation) giữa từ này và từ khác trong câu. Nó mô tả vai trò của từ này so với các từ khác

Ví dụ: "nsubj" cho chủ ngữ, "dobj" cho tân ngữ.

In [109]:
token2.dep_

'nsubj'

## 4. Part of Speech Tagging (POS)

In [110]:
for token in sentence1:
    print(f'"{token.text}": {token.pos_}, {token.dep_}')

"The": DET, det
"United": PROPN, compound
"States": PROPN, nsubj
"of": ADP, prep
"America": PROPN, pobj
"(": PUNCT, punct
"U.S.A.": PROPN, appos
"or": CCONJ, cc
"USA": PROPN, conj
")": PUNCT, punct
",": PUNCT, punct
"commonly": ADV, advmod
"known": VERB, acl
"as": ADP, prep
"the": DET, det
"United": PROPN, compound
"States": PROPN, pobj
"(": PUNCT, punct
"U.S.": PROPN, appos
"or": CCONJ, cc
"US": PROPN, conj
")": PUNCT, punct
"or": CCONJ, cc
"America": PROPN, conj
",": PUNCT, punct
"is": AUX, ROOT
"a": DET, det
"country": NOUN, attr
"primarily": ADV, advmod
"located": VERB, acl
"in": ADP, prep
"North": PROPN, compound
"America": PROPN, pobj
".": PUNCT, punct


In [111]:
from spacy import displacy
text = 'Mike enjoys playing football'
doc2 = nlp(text)
displacy.render(doc2 , style='dep')

## 5. Named Entity Recognition

In [112]:
for ent in doc.ents:
    print(ent.text, ent.label_)

The United States of America GPE
U.S.A. GPE
USA GPE
the United States GPE
U.S. GPE
US GPE
America GPE
North America LOC
50 CARDINAL
five CARDINAL
326 CARDINAL
Indian NORP
3.8 million square miles QUANTITY
9.8 million square kilometers QUANTITY
fourth ORDINAL
The United States GPE
Canada GPE
Mexico GPE
Bahamas GPE
Cuba GPE
more than 331 million CARDINAL
third ORDINAL
Washington GPE
D.C. GPE
New York GPE
Paleo-Indians NORP
Siberia LOC
North American NORP
at least 12,000 years ago DATE
European NORP
the 16th century DATE
The United States GPE
thirteen CARDINAL
British NORP
the East Coast LOC
Great Britain GPE
the American Revolutionary War ORG
1775Ã¢â‚¬â€œ1783 CARDINAL
the late 18th century DATE
U.S. GPE
North America LOC
Native Americans NORP
1848 DATE
the United States GPE
United States GPE
the second half of the 19th century DATE
the American Civil War ORG
The SpanishÃ¢â‚¬â€œAmerican War and World War EVENT
U.S. GPE
World War II EVENT
the Cold War EVENT
the United States GPE
the Korean

In [113]:
from spacy import displacy
displacy.render(doc , style='ent')

## 6. Word Vectors and spaCy

In [114]:
# !python -m spacy download en_core_web_md

### 6.1 Word vector

In [115]:
import spacy
nlp = spacy.load('en_core_web_md')
with open('.\data\wiki_us.txt', 'r') as f:
    text = f.read()
doc = nlp(text)
sentence = list(doc.sents)[0]
print(sentence[0].vector.shape)
sentence[0].vector

(300,)


array([-7.2681e+00, -8.5717e-01,  5.8105e+00,  1.9771e+00,  8.8147e+00,
       -5.8579e+00,  3.7143e+00,  3.5850e+00,  4.7987e+00, -4.4251e+00,
        1.7461e+00, -3.7296e+00, -5.1407e+00, -1.0792e+00, -2.5555e+00,
        3.0755e+00,  5.0141e+00,  5.8525e+00,  7.3378e+00, -2.7689e+00,
       -5.1641e+00, -1.9879e+00,  2.9782e+00,  2.1024e+00,  4.4306e+00,
        8.4355e-01, -6.8742e+00, -4.2949e+00, -1.7294e-01,  3.6074e+00,
        8.4379e-01,  3.3419e-01, -4.8147e+00,  3.5683e-02, -1.3721e+01,
       -4.6528e+00, -1.4021e+00,  4.8342e-01,  1.2549e+00, -4.0644e+00,
        3.3278e+00, -2.1590e-01, -5.1786e+00,  3.5360e+00, -3.1575e+00,
       -3.5273e+00, -3.6753e+00,  1.5863e+00, -8.1594e+00, -3.4657e+00,
        1.5262e+00,  4.8135e+00, -3.8428e+00, -3.9082e+00,  6.7549e-01,
       -3.5787e-01, -1.7806e+00,  3.5284e+00, -5.1114e-02, -9.7150e-01,
       -9.0553e-01, -1.5570e+00,  1.2038e+00,  4.7708e+00,  9.8561e-01,
       -2.3186e+00, -7.4899e+00, -9.5389e+00,  8.5572e+00,  2.74

### 6.2 Word similarity

In [116]:
# Two example words
word1 = nlp("apple")
word2 = nlp("banana")

# Calculate similarity between the two words
similarity = word1.similarity(word2)
print(f"Similarity between 'apple' and 'banana': {similarity}")

Similarity between 'apple' and 'banana': 0.6646700829971469


### 6.3 doc similarity

In [117]:
doc1 = nlp("I like salty fries and hamburgers.")
doc2 = nlp("Fast food tastes very good.")

# Similarity of two documents
print(doc1, "<->", doc2, doc1.similarity(doc2))

I like salty fries and hamburgers. <-> Fast food tastes very good. 0.691649353055761


## 7. spaCy’s Pipelines

In [118]:
print(nlp.pipe_names)

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [119]:
# how to add pipe in pipeline 
import spacy
nlp = spacy.blank('en')
nlp.add_pipe('sentencizer')
print(nlp.pipe_names)

['sentencizer']


In [120]:
nlp.analyze_pipes()

{'summary': {'sentencizer': {'assigns': ['token.is_sent_start', 'doc.sents'],
   'requires': [],
   'scores': ['sents_f', 'sents_p', 'sents_r'],
   'retokenizes': False}},
 'problems': {'sentencizer': []},
 'attrs': {'doc.sents': {'assigns': ['sentencizer'], 'requires': []},
  'token.is_sent_start': {'assigns': ['sentencizer'], 'requires': []}}}

## 8. EntityRulerư
`EntityRuler` là một thành phần của spaCy cho phép bạn thêm các quy tắc để xác định các thực thể có tên (Named Entities) dựa trên các mẫu cụ thể (patterns) mà bạn định nghĩa, thay vì dựa hoàn toàn vào mô hình học máy. Nó rất hữu ích khi bạn muốn nhận diện các thực thể theo những quy tắc cố định, chẳng hạn như số điện thoại, địa chỉ email, tên địa danh, hay các cụm từ cụ thể trong văn bản mà mô hình nhận diện thực thể (NER) thông thường không nhận diện được.

### Demonstration of EntityRuler in Action

In [121]:
#Import the requisite library
import spacy

#Build upon the spaCy Small Model
nlp = spacy.load("en_core_web_sm")

#Sample text
text = "West Chestertenfieldville was referenced in Mr. Deeds."

#Create the Doc object
doc = nlp(text)

#extract entities
for ent in doc.ents:
    print (ent.text, ent.label_)

West Chestertenfieldville GPE
Deeds PERSON


the true:

West Chestertenfieldville GPE

Mr. Deeds FILM

In [122]:
displacy.render(doc , style='ent')

In [123]:
# fix with EntityRuler
import spacy

#Build upon the spaCy Small Model
nlp = spacy.load("en_core_web_sm")
# create entity_ruler before ner
ruler = nlp.add_pipe('entity_ruler', before='ner' )
patterns = [
    {'label': 'GPE' , 'pattern': 'West Chestertenfieldville'},
    {'label': 'FILM' , 'pattern': 'Mr. Deeds'}
]
ruler.add_patterns(patterns)
doc2 = nlp(text)
for ent in doc2.ents:
    print(ent.text , ent.label_)

West Chestertenfieldville GPE
Mr. Deeds FILM


## 9. spaCy Matcher
`Matcher` trong spaCy là một công cụ mạnh mẽ cho phép bạn tìm kiếm các mẫu (patterns) phức tạp trong văn bản dựa trên các thuộc tính của token, như từ vựng, phần loại từ (POS), gốc từ (lemma), nhãn cú pháp, v.v. Không giống như các biểu thức chính quy chỉ làm việc với chuỗi ký tự, Matcher của spaCy cho phép bạn xác định mẫu dựa trên ngữ nghĩa và thuộc tính của từ, giúp việc tìm kiếm trở nên linh hoạt và mạnh mẽ hơn trong các ngữ cảnh ngôn ngữ tự nhiên.

`Matcher` trong spaCy có thể được sử dụng tương tự như hàm `re.finditer()` trong thư viện `re` của Python để tìm kiếm các mẫu (patterns) trong văn bản. Tuy nhiên, sự khác biệt chính là `Matcher` không chỉ làm việc với chuỗi ký tự (strings) như `re.finditer()`, mà còn có thể làm việc với các thuộc tính ngôn ngữ học của token (từ vựng, phần loại từ, lemma, kiểu chữ, v.v.).

### Cách hoạt động
* Matcher sẽ khớp với các mẫu token theo thứ tự dựa trên một danh sách các điều kiện.
* Mỗi điều kiện có thể được đặt dựa trên các thuộc tính của token, như:
    * `TEXT` (nội dung từ)
    * `LEMMA` (gốc từ)
    * `POS` (loại từ)
    * `LOWER` (chuyển chữ về dạng thường)
    * `ENT_TYPE` (loại thực thể)
    * `Và` nhiều thuộc tính khác.

In [155]:
import spacy
from spacy.matcher import Matcher


nlp = spacy.load('en_core_web_sm')
# Initialize the Matcher with the shared vocabulary
matcher = Matcher(nlp.vocab)

text = 'My name is Trong. I live in Ha Noi'

# Define a pattern
patterns = [{'LOWER': 'ha'}, {'LOWER': 'noi'}]

# Add the pattern to the matcher
matcher.add('CITY',[patterns])

doc = nlp(text)

matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)


Ha Noi


## 10. Custom Components

In [126]:
import spacy
from spacy.language import Language

nlp = spacy.load('en_core_web_sm')
doc = nlp('Britain is a place. Mary is a doctor.')
for ent in doc.ents:
    print(ent.text , ent.label_)
type(doc.ents)

Britain GPE
Mary PERSON


tuple

In [127]:
# tạo custom component để xóa GPE đi
@Language.component('remove_gpe') #Đây là một decorator decorator và nó có nhiệm vụ đăng ký một hàm Python dưới dạng một component
def remove_gpe( doc ):
    results = []
    for ent in doc.ents:
        if ent.label_ != 'GPE':
            results.append(ent)
    doc.ents = tuple(results)
    return doc

nlp.add_pipe('remove_gpe')

<function __main__.remove_gpe(doc)>

In [128]:
nlp.pipe_names

['tok2vec',
 'tagger',
 'parser',
 'attribute_ruler',
 'lemmatizer',
 'ner',
 'remove_gpe']

In [129]:
# kết quả sau khi thêm thành phần (component) remove_gpe vào pipeline
doc = nlp('Britain is a place. Mary is a doctor.')
for ent in doc.ents:
    print(ent.text , ent.label_)

type(doc.ents)

Mary PERSON


tuple

## 11. Using RegEx with spaCy

### 1. Regular Expresion là gì ?
Regular Expression (viết tắt là regex hoặc regexp) là một chuỗi ký tự đại diện cho một mẫu (pattern) dùng để so khớp với các chuỗi ký tự khác. Regular Expression được sử dụng trong lập trình và xử lý văn bản để tìm kiếm, thay thế hoặc xác thực các chuỗi văn bản một cách hiệu quả.

#### Ưu điểm của Regex
* Regular Expression có thể tìm kiếm và thao tác trên chuỗi văn bản một cách rất linh hoạt. Nó có thể xử lý nhiều kiểu mẫu phức tạp với ít mã hơn, nhờ vào các ký tự và cú pháp đặc biệt.
* Regex được tối ưu để xử lý các văn bản lớn mà không cần phải duyệt từng ký tự hoặc chuỗi theo cách thủ công
* Regex được hỗ trợ trong hầu hết các ngôn ngữ lập trình như Python, Java, JavaScript, Perl, PHP, v.v., điều này giúp nó trở nên rất phổ biến và hữu dụng.
#### Nhược điểm của Regex
* Cú pháp của Regex có thể khó hiểu và rối rắm đối với người mới học

### 2. How to use Regex in python

#### Cú pháp Regex cơ bản
##### Các ký tự đặc biệt:
* `.`: Bất kỳ ký tự nào.
* `\d`: Ký tự số (0-9).
* `\w`: Ký tự chữ cái hoặc số (a-z, A-Z, 0-9, _).
* `\s`: Khoảng trắng.
##### Số lượng lặp lại:
* `*`: Lặp lại 0 hoặc nhiều lần.
* `+`: Lặp lại 1 hoặc nhiều lần.
* `?`: 0 hoặc 1 lần.
* `{m,n}`: Lặp lại từ `m` đến `n` lần.
##### Tập ký tự:
* `[]`: Đại diện cho một tập hợp các ký tự.
#####  Nhóm (Grouping):
* `()`: Sử dụng dấu ngoặc tròn để nhóm các phần của biểu thức chính quy.
#### Các hàm cơ bản của module `re`
* `re.search()`: Tìm kiếm một mẫu (pattern) trong chuỗi. Nó trả về đối tượng `Match` nếu tìm thấy mẫu, ngược lại trả về `None`
* `re.findall()`: Trả về một danh sách chứa tất cả các mẫu (pattern) phù hợp trong chuỗi.
* `re.sub()` : Thay thế tất cả các mẫu (pattern) phù hợp bằng chuỗi thay thế khác.
* `re.split()` : Chia chuỗi thành danh sách bằng cách sử dụng một biểu thức chính quy

In [130]:
import re
text = 'My email is example@domain.com , trongbg2692004@gmail.com.vn'
res = re.findall(r'\w+@\w+[\w.]+' , text)
print(res)

['example@domain.com', 'trongbg2692004@gmail.com.vn']


In [131]:
import re 
text = 'My phone number is 123-4567'
# sử dụng () để tạo thành nhiều group
match = re.search(r'((\d{3})-(\d{4}))' , text) 
print(match.group(1))
print(match.group(2))
print(match.group(3))

123-4567
123
4567


#### How to use Regex in spaCy

Trong spaCy, bạn có thể kết hợp Regular Expressions (Regex) để tìm kiếm và xử lý văn bản thông qua các công cụ mạnh mẽ như `Matcher`, `PhraseMatcher`, và `EntityRuler`. Mặc dù spaCy chủ yếu dựa trên các phương pháp dựa trên mô hình học máy, nhưng bạn vẫn có thể tích hợp Regex để xử lý các mẫu văn bản cụ thể.


`EntityRuler` không hỗ trợ `RegEx` trực tiếp trong các `pattern` token. Tuy nhiên, bạn có thể thêm các thực thể dựa trên `RegEx` vào `pipeline` bằng cách sử dụng một `custom component` hoặc tiền xử lý văn bản trước khi áp dụng spaCy.

In [132]:
import spacy
from spacy.language import Language
import re

@Language.component('custom_component')
def custom_component(doc):
    pattern = r'\d{3}-\d{4}' # regex pattern
    matches = re.finditer(pattern , doc.text ) 
    spans = [doc.char_span(match.start(), match.end(), label='PHONE NUMBER' ) for match in matches ]
    spans = [span for span in spans if span is not None ]
    doc.ents = list(doc.ents) + spans
    return doc

text = 'My phone number is 123-4567 345-5845'
nlp = spacy.load('en_core_web_md')
nlp.add_pipe('custom_component', before='ner')
doc = nlp(text)
for ent in doc.ents:
    print(ent.text , ent.label_)

nlp.pipe_names

123-4567 PHONE NUMBER
345-5845 PHONE NUMBER


['tok2vec',
 'tagger',
 'parser',
 'attribute_ruler',
 'lemmatizer',
 'custom_component',
 'ner']