# 1. 자연어 처리 및 분석에 대한 이해
    
    - 자연어 처리에 대한 기본적인 내용
    - 자연어 처리 연산
    - 형태소 분석과 개체명 인식
    - 불용어 처리 / 품사 추출
    - 빈도수 계산을 통한 워드 클라우드

- 자연어 처리 연산
    - 1. Edit Distance : 2개의 단어가 얼마나 다른지 숫자로 나타낸 척도
        - Cat / Hat 의 Edit Distance : 1
        - 단어의 유사성을 파악할 때 사용

In [1]:
# Natural Language Tool-kit : 영어 및 통계기호의 자연어 처리 라이브러리
from nltk.metrics import edit_distance

In [2]:
edit_distance("Cat", "Hat")

1

In [3]:
edit_distance("Console", "Counsel")

3

- 2. Stemming : 어간 추출, 단어의 본래 형태로 추출
    - going -> go
    - Computer -> compute
    - 문장의 의도 파악을 위해 처리하는 작업

In [4]:
from nltk.stem import PorterStemmer

In [5]:
pst = PorterStemmer()
pst.stem("Computer")

'comput'

In [6]:
pst.stem("Going")

'go'

- 3. Lemmatization : 문장 속에서 다양한 형태로 활용된 단어의 표제어를 찾는 작업
    - 표제어란? 사전에 등록되어 있는 단어의 기본형

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk

In [9]:
nltk.download("wordnet") # 단어의 원형이 들어있는 사전 호출

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ahnjh\AppData\Roaming\nltk_data...


True

In [10]:
wlem = WordNetLemmatizer()
wlem.lemmatize("ate", pos="v")

'eat'

In [12]:
wlem.lemmatize("is", pos="v")

'be'

In [13]:
wlem.lemmatize("are", pos="v")

'be'

In [14]:
nltk.download("punkt")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ahnjh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

- Tokenizing

In [15]:
# 어절 분리(Word Seperation)
text1 = "Show me the money"

nltk.word_tokenize(text1)

['Show', 'me', 'the', 'money']

In [17]:
# 문장 분리(Sentence Seperation)
text2 = "My name is Ahn Jun Hyeok. What's your name? How are you? Fine, Thank you."

nltk.sent_tokenize(text2)

['My name is Ahn Jun Hyeok.',
 "What's your name?",
 'How are you?',
 'Fine, Thank you.']

- 형태소 분석

In [18]:
text3 = "This letter, which orginated in England, rotates once a year to give good luck to the recipient, and now transfered to you, must leave you within 4 days."
tokens = nltk.word_tokenize(text3)
tokens

['This',
 'letter',
 ',',
 'which',
 'orginated',
 'in',
 'England',
 ',',
 'rotates',
 'once',
 'a',
 'year',
 'to',
 'give',
 'good',
 'luck',
 'to',
 'the',
 'recipient',
 ',',
 'and',
 'now',
 'transfered',
 'to',
 'you',
 ',',
 'must',
 'leave',
 'you',
 'within',
 '4',
 'days',
 '.']

In [19]:
# tagging
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\ahnjh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [20]:
nltk.pos_tag(tokens)

[('This', 'DT'),
 ('letter', 'NN'),
 (',', ','),
 ('which', 'WDT'),
 ('orginated', 'VBD'),
 ('in', 'IN'),
 ('England', 'NNP'),
 (',', ','),
 ('rotates', 'VBZ'),
 ('once', 'RB'),
 ('a', 'DT'),
 ('year', 'NN'),
 ('to', 'TO'),
 ('give', 'VB'),
 ('good', 'JJ'),
 ('luck', 'NN'),
 ('to', 'TO'),
 ('the', 'DT'),
 ('recipient', 'NN'),
 (',', ','),
 ('and', 'CC'),
 ('now', 'RB'),
 ('transfered', 'VBN'),
 ('to', 'TO'),
 ('you', 'PRP'),
 (',', ','),
 ('must', 'MD'),
 ('leave', 'VB'),
 ('you', 'PRP'),
 ('within', 'IN'),
 ('4', 'CD'),
 ('days', 'NNS'),
 ('.', '.')]

In [22]:
# 개체명 인식
nltk.download("maxent_ne_chunker")
nltk.download("words")

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\ahnjh\AppData\Roaming\nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\ahnjh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.


True

In [23]:
tagged1 = nltk.pos_tag(tokens)
tagged1

[('This', 'DT'),
 ('letter', 'NN'),
 (',', ','),
 ('which', 'WDT'),
 ('orginated', 'VBD'),
 ('in', 'IN'),
 ('England', 'NNP'),
 (',', ','),
 ('rotates', 'VBZ'),
 ('once', 'RB'),
 ('a', 'DT'),
 ('year', 'NN'),
 ('to', 'TO'),
 ('give', 'VB'),
 ('good', 'JJ'),
 ('luck', 'NN'),
 ('to', 'TO'),
 ('the', 'DT'),
 ('recipient', 'NN'),
 (',', ','),
 ('and', 'CC'),
 ('now', 'RB'),
 ('transfered', 'VBN'),
 ('to', 'TO'),
 ('you', 'PRP'),
 (',', ','),
 ('must', 'MD'),
 ('leave', 'VB'),
 ('you', 'PRP'),
 ('within', 'IN'),
 ('4', 'CD'),
 ('days', 'NNS'),
 ('.', '.')]

In [24]:
enitities = nltk.chunk.ne_chunk(tagged1)
print(enitities)

(S
  This/DT
  letter/NN
  ,/,
  which/WDT
  orginated/VBD
  in/IN
  (GPE England/NNP)
  ,/,
  rotates/VBZ
  once/RB
  a/DT
  year/NN
  to/TO
  give/VB
  good/JJ
  luck/NN
  to/TO
  the/DT
  recipient/NN
  ,/,
  and/CC
  now/RB
  transfered/VBN
  to/TO
  you/PRP
  ,/,
  must/MD
  leave/VB
  you/PRP
  within/IN
  4/CD
  days/NNS
  ./.)


In [25]:
text5 = "Mark is studying at Stanford University in California"

In [26]:
token1 = nltk.word_tokenize(text5)
tagged2 = nltk.pos_tag(token1)
enitities2 = nltk.chunk.ne_chunk(tagged2)
print(enitities2)

(S
  (PERSON Mark/NNP)
  is/VBZ
  studying/VBG
  at/IN
  (ORGANIZATION Stanford/NNP University/NNP)
  in/IN
  (GPE California/NNP))


# 2. 한국어 자연어 처리
    - 한국어 형태소 분석기
    - 형태소 분석 기반의 워드 클라우드
    - 단어 표현
    - 문장 표현
    - 전통 통계학 텍스트 분류(기계학습을 이용한 텍스트 분류)

# 3. 신경망 알고리즘을 활용한 텍스트 마이닝
    - RNN 기반의 분석
    - LSTM / GRU Model
    - 순환 드롭아웃 / 스태킹 순환 Layer / 양방향 RNN
    - 텍스트 유사도 분석, 네트워크 분석