# Chapter 1: Finding words, phrases, names and concepts

---

## spaCy의 핵심 기능 소개

### The `nlp` object
<img src='https://spacy.io/pipeline-7a14d4edd18f3edfee8f34393bff2992.svg'>

- nlp는 processing pipeline의 container 객체다.

- 특이한건, nlp라는 이름의 클래스는 존재하지 않는다. 그냥 processing pipeline의 container를 nlp라는 변수에 주로 할당한다. (뭔 개소린가 싶겠지만, 우선 그러려니 하자.)

- nlp 파이프라인에는 tokenizer, pos-tagger, dependency parser, ner, text categorizer와 같은 컴포넌트들이 있다.
    - 영어의 경우 기본적으로 제공하는 컴포넌트가 많다. 예를 들면, ner 같은 것들... (한국어는 기대하지 말자.)
    - 이러한 파이프라인의 컴포넌트들을 쉽게 customize할 수 있다. 예를 들면, bert + fine-tuning한 감정 분류 모델을 파이프라인에 추가할 수 있다.
    
    
- nlp 파이프라인은 기본적으로 언어 별로 특화된 토크나이징 규칙을 갖고 있다.(요즘 대세인 subword tokenizer류 (bpe 등)들과 정반대의 철학을 갖고 있지만, 이 또한 나름대로 의미가 있다고 생각함.)
    - `spacy.lang` 을 통해 접근 가능함.
    - 기본적으로 지원하는 [언어 목록](https://spacy.io/usage/models)

In [1]:
# Import the Korean language class
from spacy.lang.ko import Korean

# Create the nlp object
nlp = Korean()

### The Doc, Token and Span object (+ Lexeme)

<img src='https://course.spacy.io/doc_span.png'>

spacy의 자료구조는 기본적으로 `Doc`, `Token`, `Span`, `Lexeme`의 네 가지 객체를 사용한다.

여기서 `Lexeme`은 문맥 독립적인(context independent) 특성을 갖고, `Doc`, `Token`, `Span`은 문맥 의존적(context dependent)한 특징을 갖는다.

예를 들면, 어떤 토큰이 punct인지 아닌지에 대한 여부는 토큰 그 자체로 결정되지만, 토큰이 명사인지 아닌지는 문맥 의존적으로 결정되는 개념이다.

이제 각각의 object에 대한 특징들을 살펴보자.

#### Doc object
- 문자열 형태의 텍스트 데이터가 `nlp` 를 통과하면 `doc`을 반환함.
- `doc`은 document의 약자다.
- `doc`은 텍스트 데이터의 다양한 층위의 정보들을 구조적으로 접근할 수 있게 해준다.
- `doc`은 어떠한 정보 손실이 없다.
- `doc`은 iterable하고, index로 token에 접근할 수 있다.

In [2]:
# Created by processing a string of text with the nlp object
doc = nlp('지금 시각은 밤 9시 41분 집에 가고 싶네요.')
print(type(doc))

<class 'spacy.tokens.doc.Doc'>


In [3]:
# Iterate over tokens in a Doc
for token in doc:
    print(token.text)

지금
시각
은
밤
9
시
41
분
집
에
가
고
싶
네요
.


In [4]:
# Indexing Doc object
doc[7]

분

#### Token object

- `Token`은 문서 내 토큰에 해당하는 객체들을 표현한다.
    - 단어, punctuation 문자 등등을 표현할 수 있다.
    
    
- `Token`은 토큰에 대한 정보를 다양한 attribute를 통해서 접근할 수 있도록 해준다.
    - 예를 들면, 토큰에 해당하는 literal한 텍스트는 `token.text`를 통해 볼 수 있다.

In [5]:
doc = nlp("안녕 세상, Hello world!")

# Index into the Doc to get a single Token
token = doc[1]

# Get the token text via the .text attribute
print(token.text)

세상


#### Span object
- `Span`은 `doc`을 하나 이상의 token들의 
    - `doc`에 대한 `token`들의 연속적인 subset으로 생각하면 됨.


- `Span`은 `doc`에 대한 view이고, 실제 데이터를 갖고 있지는 않다.


- `doc`을 slicing하면 span을 얻을 수 있다.
    - 여기서 slicing은 `[, )`방식이다.

In [6]:
doc = nlp("안녕 세상, Hello world!")

# A slice from the Doc is a Span object
span = doc[1:4]

# Get the span text via the .text attribute
print(span.text)

세상, Hello


#### Lexical Attributes
- **token attributes**
    - `i`
        - `doc`에서 몇 번째 위치에 해당 토큰이 위치하는가?
    - `text`
        - 토큰의 literal한 텍스트를 반환함.
    
- **lexical attributes**
    - `is_alpha`
        - 토큰이 문자(unicode level)인가?
    - `is_punct`
        - 해당 토큰이 punctuation인가?
    - `like_num`
        - 해당 토큰이 숫자인가?

In [7]:
doc = nlp("오늘 🤗 transformers의 star 갯수는 24184다!!") 
## token attributes
print('Index:   ', [token.i for token in doc])
print('Text:    ', [token.text for token in doc])

## lexical attributes
print('is_alpha:', [token.is_alpha for token in doc])
print('is_punct:', [token.is_punct for token in doc])
print('like_num:', [token.like_num for token in doc])

Index:    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
Text:     ['오늘', '🤗', 'transformers', '의', 'star', '갯', '수', '는', '24184', '다', '!', '!']
is_alpha: [True, False, True, True, True, True, True, True, False, True, False, False]
is_punct: [False, False, False, False, False, False, False, False, False, False, True, True]
like_num: [False, False, False, False, False, False, False, False, True, False, False, False]


---

## Statistical Models in spaCy

statistical models를 한 마디로 정리하면, **linguistic feature를 뽑을 수 있는 모델들의 파이프라인**이다.

spaCy은 다양한 statistical models들을 제공하지만, 실제 내가 원하는 NLP 파이프라인을 만들기 위해서는 커스터마이징이 필수적이다.

혹자는 그러면 왜 굳이 spaCy를 쓰냐고 할 수 있지만, spaCy의 장점은 텍스트에서 정량화해야될 linguistic feature가 많아질수록, 서비스를 제공해야될 언어의 수가 많아질수록 빛을 발한다.

예를 들면, 텍스트 데이터에 대해서 다음과 같은 정량화된 feature를 추출해야되는 상황이 있다고 가정해보자.

```
- Basic
    - tokenization

- token-level linguistic features
    - pos-tagging
    - keyword extraction
    - tf-idf
    - word vector
    - ner
    - text-network analysis
    - ...
    
- document-level linguistic features
    - topic
    - document vector
    - sentiment
    - ...

- available langs : ko, jp, zh, en
```

대충 생각해봐도 수십개의 nlp ML/DL 모델들이 필요하다. 

이러한 모델들을 효율적으로 관리하여 좋은 NLP 서비스를 개발할 수 있도록 도와주는 역할을 하는 것이 바로 spacy다.

### Model Packages

- spaCy는 기본적으로 [수 많은 pre-trained된 모델 패키지](https://spacy.io/models)들을 제공한다.
    - 물론 한국어는 없다.
- `en_core_web_sm` 패키지 예시
    - 영어 웹 데이터(blogs, news, comments)
    - pipeline 기능 pos-tagger, parser, ner
    - `!python -m spacy download en_core_web_sm`
- nlp object를 통해 처리가 될 때, 모델들의 inference가 발생한다.
- 기타 특징.
    - binary weights
    - vocabulary
    - meta information

In [8]:
## load model packages
import spacy

nlp = spacy.load('en_core_web_sm')

In [9]:
# process a text
doc = nlp('Microsoft is the IT company.')

#### Pos-Tagging

In [10]:
# Iterate over the tokens
for token in doc:
    # print the text and the predicted part-of-speech tag
    print(token.text, token.pos_)

Microsoft PROPN
is AUX
the DET
IT PROPN
company NOUN
. PUNCT


#### Syntactic Dependecies

In [11]:
for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)

Microsoft PROPN nsubj is
is AUX ROOT is
the DET det company
IT PROPN compound company
company NOUN attr is
. PUNCT punct is


#### Predicting Named Entities

In [12]:
# Iterate over the predicted entities
for ent in doc.ents:
    # Print the entity text and its label
    print(ent.text, ent.label_)

Microsoft ORG


토크나이즈가 잘못되었을 경우 NER의 결과가 제대로 안나올 수 있다.(e.g iPhone X) 어떻게 해결할까???

---

## Rule-based matching

### Why not just regular expressions?
- 정규표현식은 text의 형태적인 특징만 판단하지만, spacy rule-based matching은 text의 형태적인 특징뿐만 아니라 token에 대한 다양한 Linguistic feature들을 복합적으로 고려할 수 있다.
- 물론 이런 추출 방식이 유의하려면 Linguistic feature를 tagging하는 모델들의 성능이 보장되어야한다.

### Match patterns이란
- spacy에서 pattern matching을 위해 사용되는 조건들임.
- list of dictionary형태로 각 dictionary가 하나의 token에 매칭된다.
- dictionary의 key는 token의 attributes고, value는 그 attributes에서 기대되는 값과 매칭된다.
    - key에 해당하는 값은 대문자.

- **Match exact token texts**

In [13]:
[{'TEXT': 'iPhone'}, {'TEXT': 'X'}]

[{'TEXT': 'iPhone'}, {'TEXT': 'X'}]

- **Match lexical attributes**

In [14]:
[{'LOWER': 'iphone'}, {'LOWER': 'x'}]

[{'LOWER': 'iphone'}, {'LOWER': 'x'}]

- **Match any token attributes**

In [15]:
[{'LEMMA': 'buy'}, {'POS': 'NOUN'}]

[{'LEMMA': 'buy'}, {'POS': 'NOUN'}]

### Matcher를 활용한 pattern matching

- Matcher를 로드하고 nlp.vocab으로 initialize하자.

In [16]:
import spacy

# Import the Matcher
from spacy.matcher import Matcher

# Load a model and create the nlp object
nlp = spacy.load('en_core_web_sm')

# Initialize the matcher with the shared vocab
matcher = Matcher(nlp.vocab)

# Process some text
doc = nlp("New iPhone X release date leaked")

- list of dictionary 형태로 패턴을 정의하고, matcher에 추가하자.

In [17]:
# Add the pattern to the matcher
pattern = [{'TEXT': 'iPhone'}, {'TEXT': 'X'}]
matcher.add('IPHONE_PATTERN', None, pattern) # 두번째 attribute는 callback 기능이라는데... 우선... 무시..

- 패턴 매칭을 수행할 document를 넘겨주자.

In [18]:
# Call the matcher on the doc
matches = matcher(doc)

In [19]:
matches

[(9528407286733565721, 1, 3)]

- `match_id`: hash value of the pattern name
- `start`: start index of matched span
- `end`: end index of matched span

- Use match results

In [20]:
# Iterate over the matches
for match_id, start, end in matches:
    # Get the matched span
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


### More application of Matcher
- get my matching pattern

In [21]:
matcher.get('IPHONE_PATTERN')

(None, [[{'TEXT': 'iPhone'}, {'TEXT': 'X'}]])

- remove pattern by name

In [22]:
matcher.remove('IPHONE_PATTERN')

In [23]:
len(matcher)

0

- Matching complex pattern with token attributes

In [24]:
doc = nlp("I loved dogs but now I love cats more.")

pattern = [
    {'LEMMA': 'love', 'POS': 'VERB'},
    {'POS': 'NOUN'}
]

matcher.add('LOVE_SOMETHING', None, pattern)

In [25]:
for match_id, start, end in matcher(doc):
    matcher_span = doc[start: end]
    print(matcher_span.text)

loved dogs
love cats


- Using operators and quantifiers.
    - `OP`라는 키를 활용해서 패턴의 갯수를 지정할 수 있다.
    - `{'OP':'!'}` Negation: match 0 times.
    - `{'OP':'?'}` Optional: match 0 or 1 times.
    - `{'OP':'+'}` Match 1 or more times.
    - `{'OP':'*'}` Match 0 or more times.

In [26]:
doc = nlp("I bought a smartphone. Now I'm buying apps.")

pattern = [
    {'LEMMA': 'buy'},
    {'POS': 'DET', 'OP': '?'},  # optional: match 0 or 1 times
    {'POS': 'NOUN'}
]

matcher.add('BUY_SOMETHING', None, pattern)

In [27]:
for match_id, start, end in matcher(doc):
    matcher_span = doc[start: end]
    print(matcher_span.text)

bought a smartphone
buying apps
