# 자연어 처리
- 자연어(Natural Language) : 사람들이 일상적으로 사용하는 언어
- 자연어 처리(Natural Language Preprocessing, NLP) : 컴퓨터가 사람의 언어를 이해하거나 생성할 수 있도록 데이터를 처리하는 기술
- 컴퓨터 관점에서 자연어 처리
    - NLU(Natural Language ***Understanding***): 언어 -> 컴퓨터/ 컴퓨터가 사람의 언어를 이해하는 과정
    - NLG(Natural Language ***Generation***): 컴퓨터 -> 언어 / 컴퓨터가 사람의 언어를 생성하는 과정
    - 전산 언어학(Computational Linguistics)
        - 컴퓨팅 기술을 언어학에 적용하여 사용하는 분야
        - 컴퓨터 공학(프로그래밍) + 언어학 + 통계학

- 자연어 처리의 난이도가 높은 이유
    1. 언어의 다양성: 각 언어의 특성이 서로 다름에서 오는 어려움(영어/ 한국어/ 라틴어/ ...)
    2. 언어의 중의성: (ex: 참 잘~ 한다.) -> 긍/부정의 의도 해석
    3. 규칙 예외 -> 표준어/ 유행어/ 줄임말

- 자연어 처리의 Trand
    1. 규칙 기반 : 문법의 규칙을 사전에 정의하여, 규칙을 기반으로 자연어를 처리
        - 언어의 중요성/ 규칙예외
    2. 통계기반 : 확률을 이용해 문장에 오는 단어에 대한 확률/ 빈도 등을 계산하여 처리
        - 대량의 문장분석/ 의도파악
    3. 데이터 마이닝 기반 (텍스트 마이닝) : 전수 조사 중심의 학습 체계를 통한 텍스트 마이닝 기술
        - 자연어 생성(기계 번역)
    4. 신경망 알고리즘 (딥러닝) : 자연어 이해에서 생성까지 (Text to Text) / Image to Text / Text to Image

# 자연어 처리 연산
- 전산언어학에서 사용하는 자연어 처리의 연산
    - Edit Distance : 2개의 단어가 얼마나 다른지를 계산한 척도
        - Cat / Hat: 1
        - 단어의 유사성을 파악할 때 사용
    - Stemming : 어간 추출, 단어의 본래 형태를 추출
        - Computer -> Compute
        - Going -> GO
        - 문장의 의도파악 사용/ 언어 사전이 필요
    - Lemmatization : 문장속에서 다양한 형태로 활용 된 단어의 표제어(Lemma)를 찾는 연산
        - 표제어 : 단어 사전에 등록되어 있는 단어의 기본형
        - 문장의 의도파악 및 단어의 유사성 파악 


In [1]:
# NLTK(Natural Language Toolkit) 라이브러리: 영어의 기호 및 통계기반의 자연어 처리
import nltk

In [3]:
from nltk.metrics import edit_distance
print(edit_distance('Cat','Hat'))
print(edit_distance('Cat','Hats'))

1
2


In [4]:
from nltk.stem import PorterStemmer
pst = PorterStemmer()
pst.stem('Computer')

'comput'

In [5]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [6]:
# 단어의 특정 품사에 해당하는 단어를 추출
from nltk.stem import WordNetLemmatizer

wlem = WordNetLemmatizer()
wlem.lemmatize('ate',pos='v')

'eat'

# 형태소 분석과 개체명 인식

- 형태소 (Part of Sepeach POS) : 가장 작은 말의 단위
- 형태소 분석 : 문장을 최소 단위, 즉 형태소 단위로 나누어 품사를 부착하는 작업
  - Morphological Analysis
  - Tokenizing (토큰화/어절분리) + Tagging (품사부착)
  - Tokenizing : 문장을 최소 단위의 형태소로 분리
  - Tagging : 분리 된 형태소에 품사를 부착
- 개체명 인식 (Named Entity Recognition / NER)
  - 특정 명사에 대해 사람 / 조직 / 장소를 구분해야하는 경우

- 한국어 자연어 처리 라이브러리

In [7]:
!pip install JPype1
!pip install konlpy

Collecting JPype1
  Downloading JPype1-1.5.0-cp311-cp311-win_amd64.whl.metadata (5.0 kB)
Downloading JPype1-1.5.0-cp311-cp311-win_amd64.whl (351 kB)
   ---------------------------------------- 0.0/351.5 kB ? eta -:--:--
   - -------------------------------------- 10.2/351.5 kB ? eta -:--:--
   ----------------------- ---------------- 204.8/351.5 kB 3.1 MB/s eta 0:00:01
   ---------------------------------------- 351.5/351.5 kB 3.6 MB/s eta 0:00:00
Installing collected packages: JPype1
Successfully installed JPype1-1.5.0
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
   ---------------------------------------- 0.0/19.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/19.4 MB 640.0 kB/s eta 0:00:31
    --------------------------------------- 0.3/19.4 MB 3.9 MB/s eta 0:00:05
   - -------------------------------------- 0.7/19.4 MB 6.2 MB/s eta 0:00:04
   -- -------------------------

In [8]:
from konlpy.tag import Okt

In [9]:
Okt()

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.