In [1]:
! pip install nltk

Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting joblib (from nltk)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2024.11.6-cp310-cp310-macosx_11_0_arm64.whl.metadata (40 kB)
Collecting tqdm (from nltk)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m11.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading regex-2024.11.6-cp310-cp310-macosx_11_0_arm64.whl (284 kB)
Downloading joblib-1.4.2-py3-none-any.whl (301 kB)
Downloading tqdm-4.67.1-py3-none-any.whl (78 kB)
Installing collected packages: tqdm, regex, joblib, nltk
Successfully installed joblib-1.4.2 nltk-3.9.1 regex-2024.11.6 tqdm-4.67.1


# 텍스트 전처리 (Text Preprocessing)
*   텍스트를 자연어 처리를 위해 용도에 맞도록 사전에 표준화 하는 작업
*   텍스트 내 정보를 유지하고, 중복을 제거하여 분석 효율성을 높이기 위해 전처리를 수행

### 1) 토큰화 (Tokenizing)
* 토큰화는 단어별로 분리하는 "단어 토큰화(Word Tokenization)"와 문장별로 분리하는 "문장 토큰화(Sentence Tokenization)"로 구분
(이후 실습에서는 단어 토큰화를 "토큰화"로 통일)

### 2) 품사 부착(PoS Tagging)
* 각 토큰에 품사 정보를 추가
* 분석시에 불필요한 품사를 제거하거나 (예. 조사, 접속사 등) 필요한 품사를 필터링 하기 위해 사용

### 3) 개체명 인식 (NER, Named Entity Recognition)
* 각 토큰의 개체 구분(기관, 인물, 지역, 날짜 등) 태그를 부착
* 텍스트가 무엇과 관련되어있는지 구분하기 위해 사용
* 예를 들어, 과일의 apple과 기업의 apple을 구분하는 방법이 개체명 인식임

### 4) 원형 복원 (Stemming & Lemmatization)
* 각 토큰의 원형 복원을 함으로써 토큰을 표준화하여 불필요한 데이터 중복을 방지 (=단어의 수를 줄일수 있어 연산을 효율성을 높임)
* 어간 추출(Stemming) : 품사를 무시하고 규칙에 기반하여 어간을 추출
* 표제어 추출 (Lemmatization) : 품사정보를 유지하여 표제어 추출

### 5) 불용어 처리 (Stopword)
* 자연어 처리를 위해 불필요한 요소를 제거하는 작업
* 불필요한 품사를 제거하는 작업과 불필요한 단어를 제거하는 작업으로 구성
* 불필요한 토큰을 제거함으로써 연산의 효율성을 높임

# 1 영문 전처리 실습

- NLTK 토크나이저 사용
  - 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지

- [NLTK](https://www.nltk.org) lib 사용
- [영문 토큰화](https://www.nltk.org/api/nltk.tokenize.html) 모듈


## 1.1 토큰화

### 1.1.1 str.split() 메소드 통한 예제 문장 토큰화

- 몬티첼로 예제 문장을 토큰들로 분할 
    - 몬티첼로는 미국의 건국의 아버지 중 한 명인 토머스 제퍼슨 대통령이 젊은 시절 설계하고 건축에도 직접 관여한 저택의 이름

In [6]:
sentence = """Thomas Jefferson began building Monticello at the age of 26."""

sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

In [None]:
str.split(sentence)  #str 클래스에서 제공하는 split()메서드 사용

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

### 1.1.2 토큰 개선
- 26.처럼 토큰에 후행 마침표가 붙은 경우 후행 마침표 없이 토큰화 하는 방법

In [9]:
import re
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
tokens = re.split(r'[-\s.,;!?]+', sentence)
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '']

### 1.1.3 RegexpTokenizer()
- 공백을 제거해준다는 점에서 단순 정규식으로 토큰화 하는 것 보다 성능이 조금 더 좋음 

In [10]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokenizer.tokenize(sentence)



['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

### 1.1.4 word_tokenize()
- 마침표와 구두점(온점(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호)으로 구분하여 토큰화
- 내부적으로 TreebankWordTokenizer를 사용하기 때문에 결과가 동일한 경우가 많음
- NLTK에서 제공하는 고수준 함수이며 더 나은 추상화와 호환성 제공
    - 고수준: 사용자가 쉽게 이해하고 사용할 수 있도록 추상화된 인터페이스 제공 
    - 즉, 이해하기 쉬운 함수 하나로 여러가징 기능 수행 가능 

### 1.1.5 nltk.download('punkt')
- punkt는 언어 독립적인 문장 분할기를 포함하고 있어, 텍스트를 문장 단위로 나누는 데 사용.
- 예를 들어, 문단 내에서 개별 문장을 분리하거나, 문장 끝을 인식하는 작업에 활용됩니다.
- Punkt 토크나이저는 규칙 기반이 아닌 비지도 학습 방법으로 학습되어 있어 다양한 언어와 문장 구조에 잘 적용될 수 있음.

In [30]:
import nltk

# 경로 수정
path = './Users/ijinseong/nltk_data'
nltk.data.path.append(path)

# 마지막으로 추가한 경로 삭제 
# nltk.data.path.pop()

# 추가돼있는 경로 확인 
nltk.data.path

['/Users/ijinseong/nltk_data',
 '/Users/ijinseong/.conda/envs/sesac/nltk_data',
 '/Users/ijinseong/.conda/envs/sesac/share/nltk_data',
 '/Users/ijinseong/.conda/envs/sesac/lib/nltk_data',
 '/usr/share/nltk_data',
 '/usr/local/share/nltk_data',
 '/usr/lib/nltk_data',
 '/usr/local/lib/nltk_data',
 '/Users/{사용자 이름}}/nltk_data',
 '/Users/ijinseong/nltk_data',
 '/Users/ijinseong/nltk_data',
 './Users/ijinseong/nltk_data']

In [31]:
import nltk

# 패키지 다운로드 
nltk.download('punkt_tab', download_dir=path)
nltk.download('punkt', download_dir=path)

[nltk_data] Downloading package punkt_tab to
[nltk_data]     ./Users/ijinseong/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     ./Users/ijinseong/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [32]:
# word_tokenize
from nltk.tokenize import word_tokenize

text1 = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
text2 = "They'll save and re-use this file."

In [33]:
# 'll을 하나의 토큰으로 묶음, 구두점도 하나의 토큰으로 묶음 
# TreebankWordToknizer 기반이기 때문에 축약형인 n't를 하나의 토큰으로 분리해냄
word_tokens1 = word_tokenize(text1)
word_tokens2 = word_tokenize(text2)

print(word_tokens1)
print(word_tokens2)

['Hello', '!', 'I', 'ca', "n't", 'wait', 'to', 'try', 'the', 'word_tokenize', ',', 'WordPunctTokenizer', ',', 'and', 'TreebankWordTokenizer', '.']
['They', "'ll", 'save', 'and', 're-use', 'this', 'file', '.']


### 1.1.6 WordPunctTokenizer()  
- 알파벳이 아닌 문자를 구분하여 토큰화

In [34]:
import nltk
from nltk.tokenize import WordPunctTokenizer

text1 = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
text2 = "They'll save and re-use this file." 

In [35]:
wordpunctoken1 = WordPunctTokenizer().tokenize(text1)
wordpunctoken2 = WordPunctTokenizer().tokenize(text2)

print(wordpunctoken1)
print(wordpunctoken2)


['Hello', '!', 'I', 'can', "'", 't', 'wait', 'to', 'try', 'the', 'word_tokenize', ',', 'WordPunctTokenizer', ',', 'and', 'TreebankWordTokenizer', '.']
['They', "'", 'll', 'save', 'and', 're', '-', 'use', 'this', 'file', '.']


### 1.1.7 TreebankWordTokenizer()
- Penn Treebank에서 사용하는 규칙에 따라 토큰 분리
- 구두점을 분리하고 **축약형에서 "n't"를 분리**하는 특징이 있음
- 영어 단어 토큰화에 흔히 쓰이는 다양한 규칙을 담고 있음
    - 문장 끝 부호 (?!.;,)를 인접 토큰들과 분리
    - 소수점이 있는 수치는 하나의 토큰으로 유지 
    - 축약형 단어들(n't 같은..)을 위한 규칙도 갖고 있음 

In [45]:
# TreebankWordTokenizer (RegexpTokenizer보다 강력)
from nltk.tokenize import TreebankWordTokenizer

# 예제 text 
sentence = """Monticello wasn't designated as UNESCO World Heritage Site until 1987."""
sentence2 = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
sentence3 = "They'll save and re-use this file."

In [46]:
treebankwordtoken = TreebankWordTokenizer().tokenize(sentence)
print(treebankwordtoken)

treebankwordtoken2 = TreebankWordTokenizer().tokenize(sentence2)
print(treebankwordtoken2)

treebankwordtoken3 = TreebankWordTokenizer().tokenize(sentence3)
print(treebankwordtoken3)

['Monticello', 'was', "n't", 'designated', 'as', 'UNESCO', 'World', 'Heritage', 'Site', 'until', '1987', '.']
['Hello', '!', 'I', 'ca', "n't", 'wait', 'to', 'try', 'the', 'word_tokenize', ',', 'WordPunctTokenizer', ',', 'and', 'TreebankWordTokenizer', '.']
['They', "'ll", 'save', 'and', 're-use', 'this', 'file', '.']


### 1.1.8 casual_tokenize()
- casual_tokenize: sns에서 얻으 비형식적 텍스트(이모티콘이 난무한다던가)를 토큰화 하기에 유용 
- 텍스트에서 사용자 이름을 제거하고 토큰 안에서 반복되는 문자들을 줄이는 데 유용 

In [42]:
from nltk.tokenize import casual_tokenize

message = """RT @TJMonticello Best day everrrrrrr at Monticello.\
    Awesommmmmeeeeee day :*)"""
casual_tokenize(message)


['RT',
 '@TJMonticello',
 'Best',
 'day',
 'everrrrrrr',
 'at',
 'Monticello',
 '.',
 'Awesommmmmeeeeee',
 'day',
 ':*)']

In [41]:
casual_tokenize(message, reduce_len=True, strip_handles=True)

['RT',
 'Best',
 'day',
 'everrr',
 'at',
 'Monticello',
 '.',
 'Awesommmeee',
 'day',
 ':*)']

### 1.1.9 n-gram 
- 축약형 문제 해결

In [50]:
import re

sentence = "Thomas Jefferson began building Monticello at the age of 26."

pattern = re.compile(r'([-\s.,;!?])+')
tokens = pattern.split(sentence)

tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [52]:
from nltk.util import ngrams

# 2-gram 생성
ngrams(tokens,2)

<generator object ngrams at 0x10d82b4c0>

In [53]:
list(ngrams(tokens,3))

[('Thomas', 'Jefferson', 'began'),
 ('Jefferson', 'began', 'building'),
 ('began', 'building', 'Monticello'),
 ('building', 'Monticello', 'at'),
 ('Monticello', 'at', 'the'),
 ('at', 'the', 'age'),
 ('the', 'age', 'of'),
 ('age', 'of', '26')]

## 1.2 불용어 (Stopword)

### 1.2.1 단어들로 불용어 처리 

In [54]:
# 예제1

# 불용어 리스트 (불용어로 간주할 단어들)
stop_words = ['a', 'an', 'the', 'on', 'of', 'off', 'this', 'is']
tokens = ['the', 'house', 'is', 'on', 'fire']

tokens_without_stopwords = [token for token in tokens if token not in stop_words]
print(tokens_without_stopwords)

['house', 'fire']


In [55]:
# 예제 2 - 문서를 토큰화한 후 불용어 제거해보기 

# 불용어 리스트 (불용어로 간주할 단어들)
stopwords = ['the', 'is', 'in', 'and', 'to', 'a', 'of']

text = "The quick brown fox jumps over the lazy dog. The dog barked loudly at the fox in the park."

In [57]:
# 텍스트를 단어 단위로 토큰화
from nltk.tokenize import word_tokenize

tokens = word_tokenize(text)
print(tokens)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'barked', 'loudly', 'at', 'the', 'fox', 'in', 'the', 'park', '.']


In [58]:
# 불용어 제거
filtered_tokens = [token for token in tokens if token not in stopwords]

In [59]:
# 결과 출력
print('원래 토큰: ',tokens)
print('불용어 제거 후 토큰: ', filtered_tokens)

원래 토큰:  ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'barked', 'loudly', 'at', 'the', 'fox', 'in', 'the', 'park', '.']
불용어 제거 후 토큰:  ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'lazy', 'dog', '.', 'The', 'dog', 'barked', 'loudly', 'at', 'fox', 'park', '.']


### 1.2.2 POS 태깅으로 불용어 처리 

- IN: 전치사 또는 종속 접속사
- CC: 등위 접속사
- UH: 감탄사
- TO: 전치사 "to"
- MD: 조동사
- DT: 한정사
- VBZ: 동사, 3인칭 단수 현재형
- VBP: 동사, 비 3인칭 단수 현재형

In [60]:
# 품사태깅 패키지 다운로드 
from collections import Counter
import nltk

# nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /Users/ijinseong/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [61]:

# 불용어 품사 정의
stopPos = ['IN', 'CC', 'UH', 'TO', 'MD', 'DT', 'VBZ','VBP']

text = "The quick brown fox jumps over the lazy dog. \
        The dog barked loudly at the fox."

In [63]:
# 텍스트를 단어 단위로 토큰화
from nltk.tokenize import word_tokenize

tokens = nltk.word_tokenize(text)
print(tokens)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'barked', 'loudly', 'at', 'the', 'fox', '.']


In [65]:
# 각 단어에 대해 품사 태깅 수행
tagged_tokens = nltk.pos_tag(tokens)
tagged_tokens

[('The', 'DT'),
 ('quick', 'JJ'),
 ('brown', 'NN'),
 ('fox', 'NN'),
 ('jumps', 'VBZ'),
 ('over', 'IN'),
 ('the', 'DT'),
 ('lazy', 'JJ'),
 ('dog', 'NN'),
 ('.', '.'),
 ('The', 'DT'),
 ('dog', 'NN'),
 ('barked', 'VBD'),
 ('loudly', 'RB'),
 ('at', 'IN'),
 ('the', 'DT'),
 ('fox', 'NN'),
 ('.', '.')]

In [None]:
# 최빈어 조회
# Counter : 데이터의 빈도수를 계산해서 딕셔너리로 반환
# most_commen : Counter 객체의 메서드로, 빈도수가 높은 순서대로 데이터를 정렬한 리스트 반환

print(Counter(tagged_tokens).most_common())

[(('The', 'DT'), 2), (('fox', 'NN'), 2), (('the', 'DT'), 2), (('dog', 'NN'), 2), (('.', '.'), 2), (('quick', 'JJ'), 1), (('brown', 'NN'), 1), (('jumps', 'VBZ'), 1), (('over', 'IN'), 1), (('lazy', 'JJ'), 1), (('barked', 'VBD'), 1), (('loudly', 'RB'), 1), (('at', 'IN'), 1)]


In [69]:
# 불용어 처리: 특정 품사 태그에 해당하는 단어만 필터링
stop_words = [word for word, tag in tagged_tokens if tag in stopPos]
filtered_tokens = [ word for word, tag in tagged_tokens if word not in stop_words]
filtered_tokens

['quick',
 'brown',
 'fox',
 'lazy',
 'dog',
 '.',
 'dog',
 'barked',
 'loudly',
 'fox',
 '.']

In [71]:
# 결과 출력
print("품사 태깅 결과 : ", tagged_tokens)
print("불용어로 간주된 단어들 : ", stop_words)
print("불용어로 삭제된 토큰들 : ", filtered_tokens)

품사 태깅 결과 :  [('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.'), ('The', 'DT'), ('dog', 'NN'), ('barked', 'VBD'), ('loudly', 'RB'), ('at', 'IN'), ('the', 'DT'), ('fox', 'NN'), ('.', '.')]
불용어로 간주된 단어들 :  ['The', 'jumps', 'over', 'the', 'The', 'at', 'the']
불용어로 삭제된 토큰들 :  ['quick', 'brown', 'fox', 'lazy', 'dog', '.', 'dog', 'barked', 'loudly', 'fox', '.']


### 1.2.3 nltk 불용어 목록

In [72]:
# nltk에서 제공 및 정의하는 불용어 목록
import nltk

# 다운로드 경로 확인
print(nltk.data.path)

# 불용어 목록 다운
nltk.download('stopwords')

['/Users/ijinseong/nltk_data', '/Users/ijinseong/.conda/envs/sesac/nltk_data', '/Users/ijinseong/.conda/envs/sesac/share/nltk_data', '/Users/ijinseong/.conda/envs/sesac/lib/nltk_data', '/usr/share/nltk_data', '/usr/local/share/nltk_data', '/usr/lib/nltk_data', '/usr/local/lib/nltk_data', '/Users/{사용자 이름}}/nltk_data', '/Users/ijinseong/nltk_data', '/Users/ijinseong/nltk_data', './Users/ijinseong/nltk_data']


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/ijinseong/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [75]:
stop_words = nltk.corpus.stopwords.words('english')

print(len(stop_words))
print(stop_words[:10])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [None]:
# 한 글짜 짜리 불용어 확인
[x for x in stop_words if len(x) == 1]   # nltk 토큰화 함수와 어간 추출기를 이용해서 축약형 

['i', 'a', 's', 't', 'd', 'm', 'o', 'y']

### 1.2.4 scikit-learn 불용어 목록

- 여러개의 불용어 목록을 함께 사용하는 방법도 있음
    - 자연어 텍스트의 정보를 얼마나 폐기할 것인가에 따라서 여러 불용어의 합집합(중복제외)이나 교집합(중복)을 사용할 수 있음 

In [77]:
! pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.6.0-cp310-cp310-macosx_12_0_arm64.whl.metadata (31 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.14.1-cp310-cp310-macosx_14_0_arm64.whl.metadata (60 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.0-cp310-cp310-macosx_12_0_arm64.whl (11.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.1/11.1 MB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading scipy-1.14.1-cp310-cp310-macosx_14_0_arm64.whl (23.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.1/23.1 MB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading threadpoolctl-3.5.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, scipy, scikit-learn
Successfully installed scikit-learn-1.6.0 scipy-1.14.1 threadpoolctl-3.5.0


In [81]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words

print(len(sklearn_stop_words))
print(len(stop_words))
print()

stop_words2 = set(stop_words)
print(len(stop_words2.union(sklearn_stop_words)))   # 합집합
print(len(stop_words2.intersection(sklearn_stop_words)))   # 교집합

318
179

378
119


## 1.3 정규화 (원형 복원)

### 1.3.1 대소문자 정규화

In [82]:
tokens = ['House', 'Visitor', 'Center']

# lower메소드로 정규화 
normalized_tokens = [x. lower() for x in tokens]
print(normalized_tokens)

['house', 'visitor', 'center']


### 1.3.2 어간 추출 (stemming)

- 규칙에 기반 하여 토큰을 표준화
- ning제거, ful 제거 등

- [nltk.stem](https://www.nltk.org/api/nltk.stem.html) 패키지

- [규칙상세](https://tartarus.org/martin/PorterStemmer/def.txt)

#### 1.3.2.1 정규식 사용 

- 어간 추출을 위한 정규 표현식 : ^(.*ss\|.\*?)(s)?$
    - ^ 와 $: 문자열 시작과 끝 -> 즉, 문자열 패턴 전체를 검사 
    - 첫 번째 (...) : 어간 추출
        - .*ss: ss로 끝나는 문자열 
        - | : or 연산자
        - .*? : 최소 반복을 사용하여 가능한 한 짧은 문자열 
        - 즉, ss로 끝나는 문자열은 유지, 그렇지 않은 단어는 가능한 한 짧게 어간으로 나눔 
    - 두 번째 (s)? : 단어 끝에 있는 단일 s 찾음 
        - ? : 이 그룹은 선택적임을 의미 (있을 수도 있고 없을 수도 있고)
        - 즉, 단어 끝에 s가 있으면 이 부분을 접미사로 분리  

- 결과
    - 어간과 어미가 분리되어 튜플로 묶여서 리스트에 담김 
    - 단어가 둘 이상의 s로 끝나면(ss), 어간은 그 단어 자체 
    - 단어가 하나의 s로 끝나면, 어간은 단어에서 s를 제외한 부분, 접미사는 s 
    - 만일 단어가 s로 끝나지 않으면, 어간은 그 단어 자체이고 접미사는 없음 

In [83]:
# 접미사 's나 s를 제거 
# .findall() : 문자열에서 정규표현식 패턴과 일치하는 모든 문자열을 찾아 리스트로 반환 

import re

def stem(phrase): 
    return ' '.join([re.findall('^(.*ss|.*?)(s)?$',
                                word)[0][0].strip("'") for word in phrase.lower().split()])



In [86]:
# 결과 

print(stem('houses'))
print(stem("Doctor House's calls"))

house
doctor house call


In [87]:
re.findall('^(.*ss|.*?)(s)?$', "Doctor House's calls")

[("Doctor House's call", 's')]

In [88]:
re.findall('^(.*ss|.*?)(s)?$', "House's")[0][0].strip("'")

'House'

#### 1.3.2.2 NLTK 제공 어간 추출기 사용

- 포터 어간추출기는 후행 아포스트로피(')를 유지 
- 아래 예제에서는 명시적으로 아포스트로피를 제거해줌 
- 소유격 단어와 비소유격 단어를 구분할 필요가 있을 때는 아포스트로피를 유지하는 것이 바람직 
- 소유격 형태의 고유명사도 많기 때문에 이런 이름들은 다른 보통 명사와 다르게 취급해야 한다면 아포스트로피를 유지해야 함 

In [90]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()
' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])



'dish washer wash dish'

In [93]:
' '.join([stemmer.stem(w) for w in "dish washer's washed dishes".split()])

"dish washer' wash dish"

In [94]:
# running, beautiful, believes, using, conversation, organization, studies 원형 복원
print("running -> " + stemmer.stem("running"))
print("beautiful -> " + stemmer.stem("beautiful"))
print("believes -> " + stemmer.stem("believes"))
print("using -> " + stemmer.stem("using"))
print("conversation -> " + stemmer.stem("conversation"))
print("organization -> " + stemmer.stem("organization"))
print("studies -> " + stemmer.stem("studies"))

running -> run
beautiful -> beauti
believes -> believ
using -> use
conversation -> convers
organization -> organ
studies -> studi


### 1.3.3 표제어 추출 

- 품사정보를 보존하여 토큰을 표준화

- [nlt.stem](http://www.nltk.org/api/nltk.stem.html?highlight=lemmatizer) 패키지

#### 1.3.3.1 nltk의 WordNet 

- WordNet은 영어 어휘 데이터베이스로, 단어들의 의미와 그들 간의 관계를 정리한 큰 사전
    - 단어 의미 그래프에 있는 단어 연결관계들만 사용
    - 문맥은 고려하지 않음 
    - 문맥을 고려할 경우 spaCy같은 더 정교한 알고리즘을 사용해야 함 
- 동의어 집합(synsets), 반의어(antonyms), 상위어(hypernyms), 하위어(hyponyms) 등의 의미적 관계를 포함
- WordNet은 NLP 작업에서 단어의 의미를 이해하고 단어 간의 관계를 분석하는 데 유용
    - 예를 들어, "dog"이라는 단어의 동의어와 그와 관련된 개념들을 WordNet을 통해 찾을 수 있음

In [95]:
import nltk 

nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/ijinseong/nltk_data...


True

In [96]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmatizer.lemmatize('better')

'better'

In [97]:
lemmatizer.lemmatize('better', pos='a')

'good'

In [98]:
lemmatizer.lemmatize('good', pos='a')

'good'

In [None]:
# WordNet은 goods를 good의 복수형으로 간주
lemmatizer.lemmatize('goods', pos='n')

'good'

In [101]:
lemmatizer.lemmatize('goods', pos='a')

'goods'

In [102]:
lemmatizer.lemmatize('goodness')

'goodness'

In [103]:
# best 와 good의 연결관계가 없어서 best가 그대로 나옴

lemmatizer.lemmatize('best' , pos = 'a')

'best'

In [104]:
# 품사를 명시하여 lemmatize 적용
from nltk.corpus import wordnet
print("동사 형태 : running -> " + lemmatizer.lemmatize("running", pos=wordnet.VERB))  # 동사 형태로 추출
print("형용사 형태 : beautiful -> " + lemmatizer.lemmatize("beautiful", pos=wordnet.ADJ))  # 형용사 형태로 추출
print("명사 형태 : geese -> " + lemmatizer.lemmatize("geese", pos=wordnet.NOUN))  # 명사 형태로 추출

동사 형태 : running -> run
형용사 형태 : beautiful -> beautiful
명사 형태 : geese -> goose


# 2. 한국어 전처리 실습 

한글의 경우 한글에 맞는 토크나이저를 사용해야 됨

## 2.1 한글 토큰화 및 형태소 분석 
## konlpy
- KoNLPy(코엔엘파이)는 파이썬에서 한국어 자연어 처리를 위한 라이브러리이다.
- 한국어 텍스트를 분석하고 처리하는 데 필요한 다양한 도구와 기능을 제공한다.
- KoNLPy는 형태소 분석, 품사 태깅, 단어 토크나이징, 구문 분석 등을 수행할 수 있으며, 여러 형태소 분석기(예: Hannanum, Kkma, Komoran, Mecab, Okt 등)를 지원하고 있음.
- [토크나이저별 성능/시간 비교](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#pos-tagging-with-konlpy)

## Java 설치
- https://www.oracle.com/kr/java/technologies/downloads/#jdk23-mac
- 위 사이트에서 운영체제에 맞게 java 설치 
- 참고: https://alluring-parent-4dd.notion.site/Java-16dd791a37c68092a949d4076dc65100?pvs=4

In [107]:
! pip install konlpy



In [1]:
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

- 코모란 토큰화

In [111]:
# 코모란(Komoran) 토큰화
from konlpy.tag import Komoran

komoran = Komoran()
komoran_tokens = komoran.morphs(kor_text)
print(komoran_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


- 한나눔 토큰화

In [2]:
# 한나눔(Hannanum) 토큰화
from konlpy.tag import Hannanum

hannanum = Hannanum()
hannanum_tokens = hannanum.morphs(kor_text)
print(hannanum_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


- okt 토큰화 

In [None]:
# Okt 토큰화
from konlpy.tag import Okt

okt = Okt()
okt_tokens = okt.morphs(kor_text)
print(okt_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하고', '있다는', '것', '을', '깨닫지', '못', '하고', '인간', '과', '대화', '를', '계속', '할', '수', '있다면', '컴퓨터', '는', '지능', '적', '인', '것', '으로', '간주', '될', '수', '있습니다', '.']


- kkma 토큰화 

In [5]:
# Kkma 토큰화
from konlpy.tag import Kkma

Kkma = Kkma()
kkma_tokens = kkma.morphs(kor_text)
print(kkma_tokens)


NameError: name 'kkma' is not defined

## 2.2. 한글 품사 부착 (PoS Tagging)

- 코모란 품사 태깅

In [8]:
# 코모란(Komoran) 품사 태깅
komoran_tag = []
for token in komoran_tokens:
    komoran_tag += komoran.pos(token)

ptint(komoran_tag)

NameError: name 'komoran_tokens' is not defined

- 한나눔 품사 태깅

In [10]:
# 한나눔(Hannanum) 품사 태깅
hannanum_tag = []
for token in hannanum_tokens:
    hannanum_tag += hannanum.pos(token)

print(hannanum_tag)

[('인간', 'N'), ('이', 'M'), ('컴퓨터', 'N'), ('와', 'I'), ('대화', 'N'), ('하', 'P'), ('고', 'E'), ('있', 'N'), ('다', 'M'), ('는', 'J'), ('것', 'N'), ('을', 'N'), ('깨닫', 'N'), ('지', 'N'), ('못하', 'P'), ('어', 'E'), ('고', 'M'), ('인간', 'N'), ('과', 'N'), ('대화', 'N'), ('를', 'N'), ('계속', 'M'), ('하', 'I'), ('ㄹ', 'N'), ('수', 'N'), ('있', 'N'), ('다면', 'N'), ('컴퓨터', 'N'), ('늘', 'P'), ('ㄴ', 'E'), ('지능적', 'N'), ('이', 'M'), ('ㄴ', 'N'), ('것', 'N'), ('으', 'N'), ('로', 'J'), ('간주', 'N'), ('되', 'N'), ('ㄹ', 'N'), ('수', 'N'), ('있', 'N'), ('슬', 'P'), ('ㅂ니다', 'E'), ('.', 'S')]


- okt 품사 태깅

In [11]:
# Okt 품사 태깅
okt_tag = []
for token in okt_tokens:
    okt_tag += okt.pos(token)

print(okt_tag)

[('인간', 'Noun'), ('이', 'Noun'), ('컴퓨터', 'Noun'), ('와', 'Verb'), ('대화', 'Noun'), ('하고', 'Verb'), ('있다는', 'Adjective'), ('것', 'Noun'), ('을', 'Josa'), ('깨닫지', 'Verb'), ('못', 'Noun'), ('하고', 'Verb'), ('인간', 'Noun'), ('과', 'Noun'), ('대화', 'Noun'), ('를', 'Noun'), ('계속', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있다면', 'Adjective'), ('컴퓨터', 'Noun'), ('는', 'Verb'), ('지능', 'Noun'), ('적', 'Noun'), ('인', 'Noun'), ('것', 'Noun'), ('으로', 'Josa'), ('간주', 'Noun'), ('될', 'Verb'), ('수', 'Noun'), ('있습니다', 'Adjective'), ('.', 'Punctuation')]


- kkma 품사 태깅

In [13]:
# Kkma 품사 태깅
kkma_tag = []
for token in kkma_tokens:
    kkma_tag += kkma.pos(token)

print(kkma_tag)

NameError: name 'kkma_tokens' is not defined

## 2.3. 불용어 처리

In [18]:
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

# 불용어 리스트 정의
stopwords = ['이', '있', '하', '것', '들', '그', '되', '수', '않', \
             '없', '나', '우리', '가', '한', '같', '때', '년', '에', \
             '와', '고', '로', '를', '으로', '에게', '및', '의', '를', \
             '은', '는', '에', '도', '가', '을', '이다', '다']

In [15]:
# 텍스트를 형태소 단위로 토큰화
kkma_tokens = Kkma.morphs(kor_text)
print(kkma_tokens)


['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


In [19]:
# 불용어 제거
filtered_tokens = [token for token in kkma_tokens if token not in stopwords]

In [21]:
# 결과 출력
print("형태소 분석 결과:", kkma_tokens)
print("불용어 제거 후 토큰:", filtered_tokens)

형태소 분석 결과: ['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']
불용어 제거 후 토큰: ['인간', '컴퓨터', '대화', '다는', '깨닫', '지', '못하', '인간', '과', '대화', '계속', 'ㄹ', '다면', '컴퓨터', '지능', '적', 'ㄴ', '간주', 'ㄹ', '습니다', '.']
