# 개체명 인식(Named Entity Recognition, NER)과 품사 태깅(Part of Speech Tagging, POS) 탐구 및 활용
<img src='../cover.png' width='300'>

* 저자:  
    - [Lior Gazit](https://www.linkedin.com/in/liorgazit).  
    - [Meysam Ghaffari](https://www.linkedin.com/in/meysam-ghaffari-ph-d-a2553088/).
* 역자:
    - [박조은](https://github.com/corazzon)
* 이 노트북은 다음의 책에서 소개하는 내용입니다.
    - 역서 : NLP와 LLM 실전 가이드(한빛미디어)
    - 원서 : [Mastering NLP from Foundations to LLMs](https://www.amazon.com/dp/1804619183)

colab 실습 : 
https://github.com/corazzon/Mastering-NLP-from-Foundations-to-LLMs

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/Mastering-NLP-from-Foundations-to-LLMs/blob/main/Chapter4_notebooks/Ch4_NER_and_POS.ipynb)  


원서 Colab실습 :   
https://github.com/PacktPublishing/Mastering-NLP-from-Foundations-to-LLMs   
<a target="_blank" href="https://colab.research.google.com/github/PacktPublishing/Mastering-NLP-from-Foundations-to-LLMs/blob/liors_branch/Chapter4_notebooks/Ch4_NER_and_POS.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

**이 노트북의 목적:**  
이 노트북에서는 다음의 방법들을 살펴봅니다:
* **개체명 인식(Named Entity Recognition, NER)**
* **품사 태깅(Part of Speech, POS)**
책의 4장에서 설명한 것처럼, 이러한 방법들은 자연어 텍스트를 분석하고 처리하는 데 있어 가장 기본적이고 널리 사용되는 방법들입니다.

**요구사항:**
* Google Colab에서 실행 시, 다음 런타임 노트북 설정을 사용하세요: `Python3, CPU`

>*```면책사항: 이 노트북에서 다루는 내용과 아이디어는 저자들 개인의 것이며, 저자들의 고용주의 견해나 지적 재산을 대변하지 않습니다.```*

설치:

In [2]:
# 주의사항:
# 아래 코드에서 Python 패키지 불일치로 인한 오류가 발생하는 경우, 새로운 버전이 원인일 수 있습니다.
# 이런 경우, "default_installations"를 False로 설정하여 원래 이미지로 되돌리세요:
default_installations = True

if not default_installations:
   import requests
   text_file_path = "requirements__Ch4_NER_and_POS.txt"
   url = "https://raw.githubusercontent.com/PacktPublishing/Mastering-NLP-from-Foundations-to-LLMs/main/Chapter4_notebooks/" + text_file_path
   res = requests.get(url)
   with open(text_file_path, "w") as f:
       f.write(res.text)

   !pip install -r requirements__Ch4_NER_and_POS.txt

**Imports:**

In [3]:
import spacy
from spacy import displacy

## NER:

In [4]:
def extract_companies(input):
    ner = spacy.load("en_core_web_sm")
    extractions = ner(input)
    displacy.render(extractions,style="ent", jupyter=True)
    return [item.text for item in extractions.ents if item.label_ == "ORG"]


In [5]:
text = "The companies that would be releasing their quarterly reports tomorrow are Microsoft, 4pm, Google, 4pm, and AT&T, 6pm."
companies = extract_companies(text)
print("\nThe definition of the label 'ORG': " + spacy.explain("ORG"))
print("Companies:", companies)


The definition of the label 'ORG': Companies, agencies, institutions, etc.
Companies: ['Microsoft', 'Google', 'AT&T']


## POS:

In [6]:
from pathlib import Path

In [7]:
def extract_pos(input):
    ner = spacy.load("en_core_web_sm")
    extractions = ner(input)
    displacy.render(extractions, style='dep', jupyter=True, options={'compact': True, 'distance': 100})
    return [[item.text, item.pos_] for item in extractions if item.pos_ in ["NOUN", "VERB", "ADJ", "PROPN"]]

In [8]:
extract_pos(text)

[['companies', 'NOUN'],
 ['releasing', 'VERB'],
 ['quarterly', 'ADJ'],
 ['reports', 'NOUN'],
 ['tomorrow', 'NOUN'],
 ['Microsoft', 'PROPN'],
 ['pm', 'NOUN'],
 ['Google', 'PROPN'],
 ['pm', 'NOUN'],
 ['AT&T', 'PROPN'],
 ['pm', 'NOUN']]