# 텍스트 전처리 (Text Preprocessing)
*   텍스트를 자연어 처리를 위해 용도에 맞도록 사전에 표준화 하는 작업
*   텍스트 내 정보를 유지하고, 중복을 제거하여 분석 효율성을 높이기 위해 전처리를 수행

### 1) 토큰화 (Tokenizing)
* 토큰화는 단어별로 분리하는 "단어 토큰화(Word Tokenization)"와 문장별로 분리하는 "문장 토큰화(Sentence Tokenization)"로 구분
(이후 실습에서는 단어 토큰화를 "토큰화"로 통일)

### 2) 품사 부착(PoS Tagging)
* 각 토큰에 품사 정보를 추가
* 분석시에 불필요한 품사를 제거하거나 (예. 조사, 접속사 등) 필요한 품사를 필터링 하기 위해 사용

### 3) 개체명 인식 (NER, Named Entity Recognition)
* 각 토큰의 개체 구분(기관, 인물, 지역, 날짜 등) 태그를 부착
* 텍스트가 무엇과 관련되어있는지 구분하기 위해 사용
* 예를 들어, 과일의 apple과 기업의 apple을 구분하는 방법이 개체명 인식임

### 4) 원형 복원 (Stemming & Lemmatization)
* 각 토큰의 원형 복원을 함으로써 토큰을 표준화하여 불필요한 데이터 중복을 방지 (=단어의 수를 줄일수 있어 연산을 효율성을 높임)
* 어간 추출(Stemming) : 품사를 무시하고 규칙에 기반하여 어간을 추출 - 규칙기반
* 표제어 추출 (Lemmatization) : 품사정보를 유지하여 표제어 추출 - 사전기반

### 5) 불용어 처리 (Stopword)
* 자연어 처리를 위해 불필요한 요소를 제거하는 작업
* 불필요한 품사를 제거하는 작업과 불필요한 단어를 제거하는 작업으로 구성
* 불필요한 토큰을 제거함으로써 연산의 효율성을 높임

# 1 영문 전처리 실습

- NLTK 토크나이저 사용
  - 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지

- [NLTK](https://www.nltk.org/) lib 사용
- [영문 토큰화](https://www.nltk.org/api/nltk.tokenize.html) 모듈


In [8]:
!pip install nltk



### 1.1. word_tokenize()
- 마침표와 구두점(온점(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호)으로 구분하여 토큰화
- 내부적으로 TreebankWordTokenizer를 사용하기 때문에 결과가 동일한 경우가 많음
- NLTK에서 제공하는 고수준 함수이며 더 나은 추상화와 호환성 제공

### nltk.download('punkt')
- punkt는 언어 독립적인 문장 분할기를 포함하고 있어, 텍스트를 문장 단위로 나누는 데 사용.
- 예를 들어, 문단 내에서 개별 문장을 분리하거나, 문장 끝을 인식하는 작업에 활용됩니다.
- Punkt 토크나이저는 규칙 기반이 아닌 비지도 학습 방법으로 학습되어 있어 다양한 언어와 문장 구조에 잘 적용될 수 있음.

In [9]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt_tab')
text = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
word_token = word_tokenize(text)
word_token

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


['Hello',
 '!',
 'I',
 'ca',
 "n't",
 'wait',
 'to',
 'try',
 'the',
 'word_tokenize',
 ',',
 'WordPunctTokenizer',
 ',',
 'and',
 'TreebankWordTokenizer',
 '.']

In [10]:
# word_tokenize
text = "They'll save and re-use this file."
word_tokens = word_tokenize(text)
word_tokens

['They', "'ll", 'save', 'and', 're-use', 'this', 'file', '.']

### WordPunctTokenizer()  
- 알파벳이 아닌 문자를 구분하여 토큰화

In [11]:
import nltk
from nltk.tokenize import WordPunctTokenizer
text = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
wordpunct = WordPunctTokenizer().tokenize(text)
wordpunct

['Hello',
 '!',
 'I',
 'can',
 "'",
 't',
 'wait',
 'to',
 'try',
 'the',
 'word_tokenize',
 ',',
 'WordPunctTokenizer',
 ',',
 'and',
 'TreebankWordTokenizer',
 '.']

In [12]:
# WordPunctTokenizer
text = "They'll save and re-use this file."
wordpunct = WordPunctTokenizer().tokenize(text)
wordpunct

['They', "'", 'll', 'save', 'and', 're', '-', 'use', 'this', 'file', '.']

### TreebankWordTokenizer()
- Penn Treebank에서 사용하는 규칙에 따라 토큰 분리
- 구두점을 분리하고 축약형에서 "n't"를 분리하는 특징이 있음
- 실제 토큰화 작업을 수행하는 저수준 클래스

In [13]:
import nltk
from nltk.tokenize import TreebankWordTokenizer

text = "Hello! I can't wait to try the word_tokenize, WordPunctTokenizer, and TreebankWordTokenizer."
treebankwordtoken = TreebankWordTokenizer().tokenize(text)
treebankwordtoken

['Hello',
 '!',
 'I',
 'ca',
 "n't",
 'wait',
 'to',
 'try',
 'the',
 'word_tokenize',
 ',',
 'WordPunctTokenizer',
 ',',
 'and',
 'TreebankWordTokenizer',
 '.']

In [14]:
text = "They'll save and re-use this file."
treebankwordtoken = TreebankWordTokenizer().tokenize(text)
treebankwordtoken

['They', "'ll", 'save', 'and', 're-use', 'this', 'file', '.']

## 1.2. 영문 품사 부착 (PoS Tagging)
분리한 토큰마다 품사를 부착한다

- [nltk.tag](https://www.nltk.org/api/nltk.tag.html) 패키지

- [태크목록](https://pythonprogramming.net/natural-language-toolkit-nltk-part-speech-tagging/)

### nltk.download('averaged_perceptron_tagger')
- averaged_perceptron_tagger는 POS 태깅을 수행하는 데 사용되는 학습된 모델.
- 이 모델은 비지도 학습 방식으로 텍스트 데이터를 기반으로 품사 태그를 학습하고, 이후 새로운 텍스트에서 품사를 예측할 수 있음.

In [15]:
from nltk import pos_tag
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

### 주요 POS 태그 목록
- [POS 태그 목록 확인](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)

In [16]:
# pos 태그
taggedToken = pos_tag(word_tokens)
taggedToken

[('They', 'PRP'),
 ("'ll", 'MD'),
 ('save', 'VB'),
 ('and', 'CC'),
 ('re-use', 'VB'),
 ('this', 'DT'),
 ('file', 'NN'),
 ('.', '.')]

## 1.3. 개체명 인식 (NER, Named Entity Recognition)
- 개체명 인식은 고유명사(예: 인물
[nltk.chunk](http://www.nltk.org/api/nltk.chunk.html)패키지

### nltk.download('words')
- 이 데이터셋은 NLTK에서 텍스트 처리 시 올바른 영어 단어를 인식하거나 철자 오류를 교정하는 데 사용될 수 있음.
- 이 데이터셋은 개체명 인식(NE chunking)과 같은 작업에서 단어의 존재 여부를 확인하는 데에도 사용.

### nltk.download('maxent_ne_chunker')
- maxent_ne_chunker는 최대 엔트로피(Maximum Entropy) 모델을 사용한 개체명 인식(NER) 시스템.
- 이 모델은 텍스트에서 사람 이름, 장소, 조직 등의 고유명사를 인식하고, 이를 적절한 범주로 분류.
- maxent_ne_chunker는 NLTK에서 제공하는 사전 학습된 NER 모델 중 하나로, 주어진 텍스트에서 특정 엔티티를 식별하고 라벨링하는 데 사용.

In [17]:
from nltk import ne_chunk
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


True

In [18]:
# pos태깅된 taggedToken으로 NER
print(taggedToken)
neToken = ne_chunk(taggedToken)
print(neToken)

[('They', 'PRP'), ("'ll", 'MD'), ('save', 'VB'), ('and', 'CC'), ('re-use', 'VB'), ('this', 'DT'), ('file', 'NN'), ('.', '.')]
(S They/PRP 'll/MD save/VB and/CC re-use/VB this/DT file/NN ./.)


## 1.4. 원형 복원
- 각 토큰의 원형을 복원하여 표준화 한다.

### 1.4.1. 어간추출 (Stemming)

- 규칙에 기반 하여 토큰을 표준화
- ning제거, ful 제거 등

- [nltk.stem](https://www.nltk.org/api/nltk.stem.html) 패키지

- [규칙상세](https://tartarus.org/martin/PorterStemmer/def.txt)

In [19]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

In [20]:
# running, beautiful, believes, using, conversation, organization, studies 원형 복원
print('running->' + ps.stem('running'))
print('beautiful ->' + ps.stem('beautiful'))
print('believes ->' + ps.stem('believes'))
print('using ->' + ps.stem('using'))
print('conversation ->' + ps.stem('conversation'))
print('organization ->' + ps.stem('organization'))
print('studies ->' + ps.stem('studies'))

running->run
beautiful ->beauti
believes ->believ
using ->use
conversation ->convers
organization ->organ
studies ->studi


### 1.4.2. 표제어 추출 (Lemmatization)

- 품사정보를 보존하여 토큰을 표준화

- [nlt.stem](http://www.nltk.org/api/nltk.stem.html?highlight=lemmatizer) 패키지

##nltk.download('wordnet')
- WordNet은 영어 어휘 데이터베이스로, 단어들의 의미와 그들 간의 관계를 정리한 큰 사전이다.
- 동의어 집합(synsets), 반의어(antonyms), 상위어(hypernyms), 하위어(hyponyms) 등의 의미적 관계를 포함합니다.
- WordNet은 NLP 작업에서 단어의 의미를 이해하고 단어 간의 관계를 분석하는 데 유용합니다.
- 예를 들어, "dog"이라는 단어의 동의어와 그와 관련된 개념들을 WordNet을 통해 찾을 수 있습니다.

##nltk.download('omw-1.4')
- OMW는 WordNet의 다국어 버전으로, 여러 언어에 걸쳐 WordNet의 개념을 제공함.
- OMW-1.4는 이 다국어 데이터베이스의 버전 중 하나임.
- 이를 통해 영어 외의 다른 언어에 대해 WordNet과 같은 방식으로 어휘적 및 의미적 분석을 수행할 수 있음.
- 예를 들어, 영어 단어를 다른 언어로 번역하거나, 다른 언어의 단어와 관련된 의미적 정보를 찾을 수 있습니다.

In [21]:
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [22]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

# WordNetLemmatizer 객체 생성
wl = WordNetLemmatizer()

- 동사는 wl.lemmatize(text,pos=wordnet.VERB)
- 형용사는 wl.lemmatize(text, pos=wordnet.ADJ)
- 명사는 wl.lemmatize(text, pos=wordnet.NOUN)

In [23]:
# 품사를 명시하여 lemmatize 적용(각 품사마다 리스트컴프리헨션으로 돌려서 변경해줘야함)
# 동사 한번 돌리고, 형용사 한 번 돌리고, 명사 한 번 돌리고
print('동사형태 : running ->' + wl.lemmatize('running', pos=wordnet.VERB))
print('형용사형태 : beautiful ->' + wl.lemmatize('beautiful', pos=wordnet.ADJ))
print('명사형태 : geese ->' + wl.lemmatize('geese', pos=wordnet.NOUN))

동사형태 : running ->run
형용사형태 : beautiful ->beautiful
명사형태 : geese ->goose


## 1.5. 불용어 처리 (Stopword)

### 단어들로 불용어 처리

In [24]:
# 불용어 리스트 (불용어로 간주할 단어들)
stopwords = ['the', 'is', 'in', 'and', 'to', 'a', 'of']
text = "The quick brown fox jumps over the lazy dog. The dog barked loudly at the fox in the park."

In [25]:
# 텍스트를 단어 단위로 토큰화
tokens = word_tokenize(text)

In [26]:
# 불용어 제거
filtered_tokens  = [word for word in tokens if word.lower() not in stopwords]

In [27]:
# 결과 출력
print("원래 토큰:", tokens)
print("불용어 제거 후 토큰:", filtered_tokens)

원래 토큰: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'The', 'dog', 'barked', 'loudly', 'at', 'the', 'fox', 'in', 'the', 'park', '.']
불용어 제거 후 토큰: ['quick', 'brown', 'fox', 'jumps', 'over', 'lazy', 'dog', '.', 'dog', 'barked', 'loudly', 'at', 'fox', 'park', '.']


### POS 태깅으로 불용어 처리
- IN: 전치사 또는 종속 접속사
- CC: 등위 접속사
- UH: 감탄사
- TO: 전치사 "to"
- MD: 조동사
- DT: 한정사
- VBZ: 동사, 3인칭 단수 현재형
- VBP: 동사, 비 3인칭 단수 현재형

In [47]:
from collections import Counter
# nltk.download('averaged_perceptron_tagger')

# 불용어 품사 정의
stopPos = ['IN', 'CC', 'UH', 'TO', 'MD', 'DT', 'VBZ','VBP']

text = "The quick brown fox jumps over the lazy dog. \
        The dog barked loudly at the fox."


In [48]:
# 텍스트를 단어 단위로 토큰화
tokens = word_tokenize(text)
tokens

['The',
 'quick',
 'brown',
 'fox',
 'jumps',
 'over',
 'the',
 'lazy',
 'dog',
 '.',
 'The',
 'dog',
 'barked',
 'loudly',
 'at',
 'the',
 'fox',
 '.']

In [49]:
# 각 단어에 대해 품사 태깅 수행
taggedTokken = nltk.pos_tag(tokens)
taggedToken

[('They', 'PRP'),
 ("'ll", 'MD'),
 ('save', 'VB'),
 ('and', 'CC'),
 ('re-use', 'VB'),
 ('this', 'DT'),
 ('file', 'NN'),
 ('.', '.')]

In [50]:
# 최빈어 조회
print(Counter(taggedToken).most_common())

[(('They', 'PRP'), 1), (("'ll", 'MD'), 1), (('save', 'VB'), 1), (('and', 'CC'), 1), (('re-use', 'VB'), 1), (('this', 'DT'), 1), (('file', 'NN'), 1), (('.', '.'), 1)]


In [73]:
# 불용어 처리: 특정 품사 태그에 해당하는 단어만 필터링
stopwords = [word[0] for word in taggedToken if word[1] in stopPos]
filtered_tokens = [word[0] for word in taggedToken if word[1] not in stopwords]

In [74]:
# 결과 출력
print("품사 태깅 결과 : ", taggedToken)
print("불용어로 간주된 단어들 : ", stopwords)
print("불용어가 삭제된 토큰들 : ", filtered_tokens)

품사 태깅 결과 :  [('They', 'PRP'), ("'ll", 'MD'), ('save', 'VB'), ('and', 'CC'), ('re-use', 'VB'), ('this', 'DT'), ('file', 'NN'), ('.', '.')]
불용어로 간주된 단어들 :  ["'ll", 'and', 'this']
불용어가 삭제된 토큰들 :  ['They', "'ll", 'save', 'and', 're-use', 'this', 'file', '.']


# 2 한글 전처리 실습
한글의 경우 한글에 알맞는 토크나이저를 사용하여야 함.

## 2.1. 한글 토큰화 및 형태소 분석
## konlpy
- KoNLPy(코엔엘파이)는 파이썬에서 한국어 자연어 처리를 위한 라이브러리이다.
- 한국어 텍스트를 분석하고 처리하는 데 필요한 다양한 도구와 기능을 제공한다.
- KoNLPy는 형태소 분석, 품사 태깅, 단어 토크나이징, 구문 분석 등을 수행할 수 있으며, 여러 형태소 분석기(예: Hannanum, Kkma, Komoran, Mecab, Okt 등)를 지원하고 있음.
- [토크나이저별 성능/시간 비교](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#pos-tagging-with-konlpy)

In [62]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m81.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (493 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m493.9/493.9 kB[0m [31m37.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.1 konlpy-0.6.0


- 코모란 토큰화

In [75]:
# 코모란(Komoran) 토큰화
from konlpy.tag import Komoran
komoran= Komoran()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

In [76]:
komoran_tokens = komoran.morphs(kor_text)
print(komoran_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


- 한나눔 토큰화

In [77]:
# 한나눔(Hannanum) 토큰화
from konlpy.tag import Hannanum
hannanum= Hannanum()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

In [84]:
hannanum_tokens = hannanum.morphs(kor_text)
print(hannanum_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


- okt 토큰화

In [79]:
# Okt 토큰화
from konlpy.tag import Okt
okt= Okt()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

In [80]:
okt_tokens = okt.morphs(kor_text)
print(okt_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하고', '있다는', '것', '을', '깨닫지', '못', '하고', '인간', '과', '대화', '를', '계속', '할', '수', '있다면', '컴퓨터', '는', '지능', '적', '인', '것', '으로', '간주', '될', '수', '있습니다', '.']


- kkma 토큰화

In [81]:
# Kkma 토큰화
from konlpy.tag import Kkma
kkma= Kkma()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

In [82]:
kkma_tokens = kkma.morphs(kor_text)
print(kkma_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


## 2.2. 한글 품사 부착 (PoS Tagging)

- 코모란 품사 태깅

In [86]:
# 코모란(Komoran) 품사 태깅
komoranTag = []
for token in komoran_tokens:
    komoranTag += komoran.pos(token)
print(komoranTag)

[('인간', 'NNG'), ('이', 'MM'), ('컴퓨터', 'NNG'), ('오', 'VV'), ('아', 'EC'), ('대화', 'NNG'), ('하', 'NNG'), ('고', 'MM'), ('있', 'VV'), ('달', 'VV'), ('는', 'ETM'), ('것', 'NNB'), ('을', 'NNG'), ('깨닫', 'VV'), ('지', 'NNB'), ('못', 'MAG'), ('하', 'MAG'), ('고', 'MM'), ('인간', 'NNG'), ('과', 'NNG'), ('대화', 'NNG'), ('를', 'JKO'), ('계속', 'MAG'), ('하', 'NNG'), ('ㄹ', 'NA'), ('수', 'NNB'), ('있', 'VV'), ('다면', 'NNG'), ('컴퓨터', 'NNG'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('지능', 'NNP'), ('적', 'NNB'), ('이', 'MM'), ('ㄴ', 'JX'), ('것', 'NNB'), ('으로', 'JKB'), ('간주', 'NNG'), ('되', 'NNB'), ('ㄹ', 'NA'), ('수', 'NNB'), ('있', 'VV'), ('습니다', 'EC'), ('.', 'SF')]


- 한나눔 품사 태깅

In [85]:
# 한나눔(Hannanum) 품사 태깅
hannanumTag = []
for token in hannanum_tokens:
    hannanumTag += hannanum.pos(token)
print(hannanumTag)

[('인간', 'N'), ('이', 'M'), ('컴퓨터', 'N'), ('와', 'I'), ('대화', 'N'), ('하', 'P'), ('고', 'E'), ('있', 'N'), ('다', 'M'), ('는', 'J'), ('것', 'N'), ('을', 'N'), ('깨닫', 'N'), ('지', 'N'), ('못하', 'P'), ('어', 'E'), ('고', 'M'), ('인간', 'N'), ('과', 'N'), ('대화', 'N'), ('를', 'N'), ('계속', 'M'), ('하', 'I'), ('ㄹ', 'N'), ('수', 'N'), ('있', 'N'), ('다면', 'N'), ('컴퓨터', 'N'), ('늘', 'P'), ('ㄴ', 'E'), ('지능적', 'N'), ('이', 'M'), ('ㄴ', 'N'), ('것', 'N'), ('으', 'N'), ('로', 'J'), ('간주', 'N'), ('되', 'N'), ('ㄹ', 'N'), ('수', 'N'), ('있', 'N'), ('슬', 'P'), ('ㅂ니다', 'E'), ('.', 'S')]


- okt 품사 태깅

In [87]:
# Okt 품사 태깅
oktTag = []
for token in okt_tokens:
    oktTag += okt.pos(token)
print(oktTag)

[('인간', 'Noun'), ('이', 'Noun'), ('컴퓨터', 'Noun'), ('와', 'Verb'), ('대화', 'Noun'), ('하고', 'Verb'), ('있다는', 'Adjective'), ('것', 'Noun'), ('을', 'Josa'), ('깨닫지', 'Verb'), ('못', 'Noun'), ('하고', 'Verb'), ('인간', 'Noun'), ('과', 'Noun'), ('대화', 'Noun'), ('를', 'Noun'), ('계속', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있다면', 'Adjective'), ('컴퓨터', 'Noun'), ('는', 'Verb'), ('지능', 'Noun'), ('적', 'Noun'), ('인', 'Noun'), ('것', 'Noun'), ('으로', 'Josa'), ('간주', 'Noun'), ('될', 'Verb'), ('수', 'Noun'), ('있습니다', 'Adjective'), ('.', 'Punctuation')]


- kkma 품사 태깅

In [88]:
# Kkma 품사 태깅
Kkma_tokens = []
for token in kkma_tokens:
    Kkma_tokens += kkma.pos(token)
print(Kkma_tokens)

[('인간', 'NNG'), ('이', 'NNG'), ('컴퓨터', 'NNG'), ('오', 'VA'), ('아', 'ECS'), ('대화', 'NNG'), ('하', 'NNG'), ('고', 'NNG'), ('있', 'VA'), ('달', 'VV'), ('는', 'ETD'), ('것', 'NNB'), ('을', 'NNG'), ('깨닫', 'VV'), ('지', 'NNG'), ('못하', 'VX'), ('고', 'NNG'), ('인간', 'NNG'), ('과', 'NNG'), ('대화', 'NNG'), ('를', 'UN'), ('계속', 'MAG'), ('하', 'NNG'), ('ㄹ', 'NNG'), ('수', 'NNG'), ('있', 'VA'), ('다면', 'NNG'), ('컴퓨터', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('지능', 'NNG'), ('적', 'NNG'), ('이', 'NNG'), ('ㄴ', 'NNG'), ('것', 'NNB'), ('으', 'UN'), ('로', 'JKM'), ('간주', 'NNG'), ('되', 'VA'), ('ㄹ', 'NNG'), ('수', 'NNG'), ('있', 'VA'), ('슬', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


## 2.3. 불용어 처리

In [89]:
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."

# 불용어 리스트 정의
stopwords = ['이', '있', '하', '것', '들', '그', '되', '수', '않', \
             '없', '나', '우리', '가', '한', '같', '때', '년', '에', \
             '와', '고', '로', '를', '으로', '에게', '및', '의', '를', \
             '은', '는', '에', '도', '가', '을', '이다', '다']



In [91]:
# 텍스트를 형태소 단위로 토큰화
okt_tokens = Okt().morphs(kor_text)
okt_tokens

['인간',
 '이',
 '컴퓨터',
 '와',
 '대화',
 '하고',
 '있다는',
 '것',
 '을',
 '깨닫지',
 '못',
 '하고',
 '인간',
 '과',
 '대화',
 '를',
 '계속',
 '할',
 '수',
 '있다면',
 '컴퓨터',
 '는',
 '지능',
 '적',
 '인',
 '것',
 '으로',
 '간주',
 '될',
 '수',
 '있습니다',
 '.']

In [93]:
# 불용어 제거
filtered_tokens = [word for word in okt_tokens if word not in stopwords]
filtered_tokens

['인간',
 '컴퓨터',
 '대화',
 '하고',
 '있다는',
 '깨닫지',
 '못',
 '하고',
 '인간',
 '과',
 '대화',
 '계속',
 '할',
 '있다면',
 '컴퓨터',
 '지능',
 '적',
 '인',
 '간주',
 '될',
 '있습니다',
 '.']

In [95]:
# 결과 출력
print("형태소 분석 결과:", okt_tokens)
print("불용어 제거 후 토큰:", filtered_tokens)

형태소 분석 결과: ['인간', '이', '컴퓨터', '와', '대화', '하고', '있다는', '것', '을', '깨닫지', '못', '하고', '인간', '과', '대화', '를', '계속', '할', '수', '있다면', '컴퓨터', '는', '지능', '적', '인', '것', '으로', '간주', '될', '수', '있습니다', '.']
불용어 제거 후 토큰: ['인간', '컴퓨터', '대화', '하고', '있다는', '깨닫지', '못', '하고', '인간', '과', '대화', '계속', '할', '있다면', '컴퓨터', '지능', '적', '인', '간주', '될', '있습니다', '.']


### LDA

In [None]:
from gensim import corpora, models

dictionary = corpora.Dictionary(texts) # 각 단어에 id부여 {'단어1': 0(단어1 id), '단어2':1(단어2 id) ....} dictionary.token2id로 확인

# BOW (Bag of Words) 코퍼스 생성 - 백터화
corpus = [dictionary.doc2bow(text) for text in texts] # 각 기사별 단어의 빈도수 [(단어 id, 빈도수 ), (단어 id, 빈도수)...]

# 지정할 토픽 개수
num_topics = 2

# LDA 모델 학습
lda_model = models.LdaModel(corpus,                
                            num_topics=num_topics, # 모델이 학습할 주제 수(뉴스는 10~20개 적절)
                            id2word=dictionary,    # 말뭉치의 단어 id를 실제 단어와 매칭
                            passes=10,             # 학습 횟수
                            random_state=42)

In [None]:
dictionary.token2id # {'단어':'단어ID'....}  확인
corpus # [(단어id,빈도수),(단어id,빈도수)...] 확인
# lda_model.show_topic(LDA 토픽 번호, topn=상위 키워드 몇개 볼건지) # 토픽별 많이 나온 단어
lda_model[corpus[0]] # 0번 글이 어느 토픽을 더 잘 설명하고 있는지 [(0, 0.9093107), (1, 0.090689294)] 0토픽 90% 설명 1토픽 9% 설명

상위 토픽 단어 확인

In [None]:
# 상위 토픽 담을 곳
topic_keywords = {}

# 각 토픽별 주요 키워드 추출
for topic_id in range(num_topics):
    keywords = lda_model.show_topic(topic_id, topn=topn_keywords) # 토픽별 가장 많이 나온 단어(토픽번호, 실제로 볼 키워드 개수)
    topic_keywords[topic_id] = keywords

관련성 높은 뉴스 가져오기

In [None]:
'''
dominant_topic 설명   
1. topic_distribution의 형태는 [(0, 0.9093107), (1, 0.090689294)] 이런식으로 나옴    
2. key식을 적용해서 0.9093107와 0.090689294중 max를 비교하고 더 큰 (0, 0.9093107)를 선택    
3. 맨 뒤에 [0]는 선택된 (0, 0.9093107)에서 토픽 번호인 0을 가져옴
'''
# 토픽 id 나누기
topic_articles = {i: [] for i in range(num_topics)}

# corpus = 각 기사의 [(단어id, 단어 빈도)....]
for idx, doc in enumerate(corpus):      # idx = 각 기사의 번호부여, doc= 기사 1개
    topic_distribution = lda_model[doc] # 해당 기사의 토픽 관련도 [(1, 0.9992884)] 는 1토픽과 99% 관련된 기사라는 뜻
    dominant_topic = max(topic_distribution, key=lambda x: x[1])  # 가장 높은 가중치를 가진 토픽 (1, 0.9992884)
    topic_articles[dominant_topic[0]].append({dominant_topic[0] : news_data[idx]}) # 더 관련성 있는 토픽에 {관련성 : 기사}를 추가
    

In [None]:
# 연관도 순으로 기사 가져오는 코드
def get_topic_articles(lda_model, corpus, news_data, num_topics):
    topic_articles = {i: [] for i in range(num_topics)}

    # 가장 관련성 높은 토픽 dict에 (토픽관련성 : 기사내용)형식으로 삽입
    for idx, doc in enumerate(corpus):
        topic_distribution = lda_model[doc]
        dominant_topic = max(topic_distribution, key=lambda x: x[1])  # 관련이 높은 토픽과 관련도(토픽id, 관련도)
        topic_articles[dominant_topic[0]].append({dominant_topic[1] : news_data[idx]})
    
    # 관련도 순으로 정렬
    for topic in range(num_topics):
        topic_articles[topic] = sorted(topic_articles[topic], key = lambda x: list(x.keys()), reverse=True)

    return topic_articles
