## 분류 기반 모델
  - 문서 내용을 분류 기반 모델로 객체를 인식 시키는 과정

In [1]:
import spacy

# 모델 로드
nlp = spacy.load('en_core_web_sm')

# 문서
document = """
Three artificial intelligence developers — LG AI Research, SK Telecom and Upstage — have cleared the first cut in South Korea’s high-stakes push to build sovereign foundation AI models, advancing to the next stage of the government-led program, officials said Thursday.

According to the Ministry of Science and ICT, two of the five teams initially selected — Naver Cloud and NC AI — failed to advance past the first round, which assessed technical sophistication and model originality.

Launched as part of Seoul’s drive to secure AI sovereignty, the project aims to develop fully domestic foundation models trained from scratch. It is jointly overseen by the National IT Industry Promotion Agency and the Telecommunications Technology Association.
"""

# NLP 처리
doc = nlp(document)

# 개체명 출력
for e in doc.ents:
    print(f"{e.text} | {e.label_}")


Three | CARDINAL
LG AI Research | ORG
Upstage | GPE
first | ORDINAL
South Korea’s | GPE
AI | ORG
Thursday | DATE
the Ministry of Science | ORG
ICT | ORG
two | CARDINAL
five | CARDINAL
Naver Cloud | ORG
first | ORDINAL
Seoul | GPE
AI | GPE
the National IT Industry Promotion Agency | ORG
the Telecommunications Technology Association | ORG


위의 실행 결과가 같이 실행 결과 출력되며  
의미가 있는 단위로 모두 토큰화를 진행하고 (최소한의 단위로 짜르는거) 각각의 요소가 어떤 객체명(엔티티)에 분류 되는지 정리  
그래서 분류 모델의 객체명 인식  
입력 시퀀스 입력 텍스트에 대해 토큰을 짜르고 어느 엔티티에 포함되는지 분류


그런데 예를 들어서 메타와 페이스북이 기업으로 분류가 되어도 같은 기업이라면 묶어주는 작업이 필요하다  
즉 기업으로 분류는 했지만 같은 기업인지 다른 기업인지는 모른다는 의미  
묶어주는 작업을 엔티티 링킹이라고 함  
그래서 객체명 인식와 엔티티 링킹을 같이 처리하는 모델도 있지만  
생성 기반 분류 모델을 이용하면 한번에 처리 가능함

## 생성 모델 분류
   - LLM 모델 사이트에서 직접 실행이 가능하고
   - LLM 모델 API를 이용해서도 가능하다 


   ex) 프롬프트 예시  
      아래 문장에서 개체명 인식을 수행하세요.  
      아래 문장에서 사람 이름(Person), 기업이름 (ORG)에 해당하는 엔티티만 추출하세요  
      엔티티 문장 내 포지션 정보도 함께 출력하세요  
      엔티티 문장 내 몇 번째 문자 [Start, end]를 함께 출력하세요
      출력결과는 json 포맷으로 {0:{"text" : alias, "entity": 분류결과(Person/ORG), "position":[0,2]}, 1:... } 형식으로 한줄에 한 결과씩 출력하세요  


## Entity linking (EL)
  
- 엔티티 링킹 : 텍스트 내 엔티티를 식별하고, 이를 구조화된 지식 베이스의 엔티티와 연결하는 작업
- 엔티티 링킹의 필요성
  - 정보 검색 측면 : 사용자가 질문한 정보에 대한 정확한 답변 제공 (e.g How much is **Apple**'s stock?)
  - 다양한 엔티티 표현의 통일화 : "Facebook", "Meta", "Meta Platforms", "Meta Platforms", Inc."
  - 엔티티 필터링 : 다루고자 하는 지식베이스에 연결된 필터링하여 작업

![alt text](image/image.png)


## Entity linking - wikification
- 텍스트 내 엔티티를 식별하고, 식별된 엔티티를 Wikipedia 항목과 연결하는 기술
![alt text](image-1.png)
![alt text](image-2.png)
![alt text](image-3.png)