In [34]:
# NLP = 사람의 언어를 컴퓨터가 이해하고, 생성하고, 활용하도록 만드는 기술

In [35]:
# 문장 토큰화 sent_tokenization
# 기본로직
    # 마침표, 느낌표, 물음표를 문장 끝 후보로 인식
    # 약어 패턴 학습(Dr, Mr, U.S.A 등)
    # 대문자로 시작하는지
    # 통계적 모델을 사용해 진짜 문장 경계인지 판단
# 다국어
# 약어와 실제 문장끝을 구분하는 기계학습 모델 내장

# 단어 토큰화 word_tokenization
    # 공백 기준
    # 구두점을 별도 토큰으로 분리
    # 축약형 처리 it's -> it, s
    # 소유격 처리 "Let's" Let, s

    # 구두점 기반 WordPuncTokenizer
    # 모든 구두점을 분리
    # It's It, ', s

    # 정규표현식 RegexpTokenizer
    # ^

# 노이즈와 불용어 제거
    # set 집합 자료구조로 변환 : 중복제거
    # List Comprehension : 불용어 필터링
    # NLTK 불용어 사전 : 불용어 목록

In [None]:
%pip install nltk

In [None]:
from nltk.tokenize import sent_tokenize
import nltk

In [None]:
nltk.download('wordnet')
nltk.download('webtext')
nltk.download('stopwords')

nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('tagsets_json')

#### 문장 토큰화

In [None]:
sentence = "Hello everyone. It's good to see you. Let's start our text minig class."
sent_tokenize(sentence)
# 리스트 형태로 문장별로 분리가 된것을 확인할 수 있다.
# 이것도 일종의 모델로 , 비지도학습으로 만들어졌다고 한다.
# 즉, 단순한 규칙 기반이 아니라 학습된 모델이기 때문에
# "Dr. Smith is here." 같은 경우에도 "Dr." 를 문장 끝으로 오인하지 않아요.

In [None]:
sentence_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 학습을 시작해 볼까요?"
sent_tokenize(sentence_kor)
# 다국어도 지원하는 것을 확인할 수 있다.
# 한국어 기능이 좋은지, 다국어로 러프하게 지원하는 건지 아닌지 ^

#### 단어 토큰화

##### 공백 기준

In [None]:
from nltk.tokenize import word_tokenize
word_tokenize(sentence_kor)

##### 구두점 기반

In [None]:
from nltk.tokenize import WordPunctTokenizer # 클래스
WordPunctTokenizer().tokenize(sentence)

####  정규식 토큰화

In [None]:
# 정규식 토큰화
# 정규식 토큰화? ^
import re
re.findall("[abc]",sentence)

### 노이즈와 불용어 제거

In [None]:
# 영어, 불용어 목록 조회
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
english_stops = stopwords.words('english')
text1 = "Sorry, I couldn't go to movie yesterday."
# tokens = word_tokenize(text1)

#
tokenizer = RegexpTokenizer("[\\w']+")
tokens = tokenizer.tokenize(text1.lower())

# 리스트 컴프리헨션으로 불용어들을 걸러 리스트 구성하기
[token for token in tokens if token not in english_stops]

In [None]:
# 소문자 a~z로 이루어진 문자열에서 4글자 이상
RegexpTokenizer("[a-z{4,}]")

# 3글자 이상
RegexpTokenizer("[\\w']{3,}")

# 어포스트로피 ' 를 패턴에서 제외 can't can t
RegexpTokenizer("[\\w]")

### 어간 추출 Stemming
- 줄기 stems : 단어에서 불필요한 요소를 제거하고 남는 핵심 형태
- 단어는 다양한 형태를 가지고있다. 복수형 이나 과거형 과 같은 시제변환
- 단어를 통일
    - walk(걷다) walks walking walked --> 어간 walk로 통일
    - 먹는다 먹었다 --> 먹- 으로 묶어서 컴퓨터가 같은 단어로 인식

In [None]:
# PorterStemmer 규칙기바닝라서 완벽하지 못함 --> 속도가 빠름
#                                              의미가 달라질수도 있다.

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem('cooking'), stemmer.stem('coockery'), stemmer.stem('cookbooks')

In [None]:
# LancasterStemmer 더 많은 규칙이 적용된다.
#                  과도한 축약 위험이 있다.

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
stemmer.stem('cooking'), stemmer.stem('coockery'), stemmer.stem('cookbooks')

### 표제어 추출 Lemmatization
- Lemma 단어의 사전 기본형
- 단어의 변형(시제, 복수/단수, 비교급)형태를 제거하고 사전(headword)에 나오는 정확한 원형으로 바꾸는 과정
- 어간처럼 단어줄기가 아니라, 맥락과 품사를 고려한 올바른 형태를 추출한다.

- better(비교급) -> good(원형)
- 먹었다(동사-과거형) -> 먹다(동사원형)
- 알고리즘 : 형태소 분석기(konlpy)를 사용해 품사(명사, 동사)를 보고 정확히 변환

##### 주요목적
- 어간 추출처럼 대충 줄이지 않고 맥락에 맞느 정확한 단어로 만들어서 단어 추출, NLP 품질 향상
- 단점 : 사전에 의존해서 언어 / 맥락 제한

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking')) # 기본이 명사로인식
print(lemmatizer.lemmatize('cooking', pos = 'v')) # 품사를 동사(v)

In [None]:
# pos 품사 설정 목록
# n noun 명사 - 기본설정
# v verb 동사
# a adjact 형용사
# r adverb

In [None]:
lemmatizer.lemmatize('better',pos='a')

In [None]:
# 표제어 변환에 어떤 한계가 있는지

### 품사 태깅

In [None]:
# nltk.download('averaged_perceptron_tagger_eng')
import nltk
from nltk.tokenize import word_tokenize
tokens = "hello everyone. It's good to see you. Let's start our text mining class."
tokens = word_tokenize(tokens)
nltk.pos_tag(tokens) # 품사 조회

In [None]:
# nltk.download('tagsets_json')
# 품사 태그 정보 확인
nltk.help.upenn_tagset('VB')

In [None]:
# 특정 품사 추출
tag_lists = ['NN','VB','JJ'] # 추출할 품사 목록
[word for word, tag in nltk.pos_tag(tokens) if tag in tag_lists]

In [None]:
# NLTK는 영어기반  한국어의 조사분리 불가능, 어미변화처리 불가능
# KoNlpy Okt 사용 해결

In [None]:
%pip install konlpy

In [None]:
# ctrl + shift + p
# Java: Configure Java Runtime

In [None]:
from konlpy.tag import Okt
t = Okt()

In [None]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

In [None]:
# NNP는 고유명사이다.
# 대부분이 고유명사로 잘못인식되고있다.
# 이는 사용하고있는 툴이 영어 중심이기 때문

In [None]:
from konlpy.tag import Okt
t = Okt()
print(f'형태소 : {t.morphs(sentence)}')
print(f'명사 : {t.nouns(sentence)}')
print(f'품사태깅 : {t.pos(sentence)}')

In [None]:
# 그래프와 워드클라우드
# 데이터 불러오기
import nltk
nltk.download('gutenberg')
from nltk.corpus import gutenberg
gutenberg.fileids()
doc_alice = gutenberg.open('carroll-alice.txt').read()
print(doc_alice)

In [None]:
# 토큰화 및 전처리
from nltk.tokenize import word_tokenize
tokens_alice = word_tokenize(doc_alice)
print(len(tokens_alice))

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\\w']{3,}")
reg_alice = tokenizer.tokenize(doc_alice.lower())
print(len(reg_alice))

In [None]:
reg_alice

In [None]:
# 불용어 제거
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english'))
result_alice = [word for word in reg_alice if word not in english_stops]
print(len(result_alice))

In [None]:
# 품사 태깅 및 필터링
# 명사 동사 형용사만 추출
tag_lists = ['NN','VB', 'VBD', 'JJ'] # 추출할 품사 목록
tagged_word = [word for word, tag in nltk.pos_tag(reg_alice) if tag in tag_lists]

In [None]:
# 종복 횟수 확인 및 횟수를 딕셔너리에 저장
from collections import Counter
print(Counter(tagged_word))
sorted_word_count = dict(Counter(tagged_word))

In [None]:
# %pip install wordcloud

In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
wordcloud = WordCloud().generate(doc_alice)
plt.axis('off')
plt.imshow(wordcloud)

In [None]:
wc = wordcloud.generate_from_frequencies(sorted_word_count)
plt.axis('off')
plt.imshow(wc)
plt.show()

In [None]:
# 영화 리뷰 데이터셋 로드
import nltk
nltk.download("movie_reviews")
nltk.download('punkt')

In [None]:

# 데이터셋 구조 확인
from nltk.corpus import movie_reviews
print(f'review count : {len(movie_reviews.fileids())}')
print(f'categories of reviews : {movie_reviews.categories()}')

In [None]:

#BOW 카운트 백터 생성
# 수동 구현
documents =  [movie_reviews.words(fileid) for fileid in  movie_reviews.fileids()]

In [None]:

# 단어 빈도 계산
word_count = {}
for text in documents:
    for word in text:
        word_count[word] = word_count.get(word,0) + 1 
sorted_features = sorted(word_count, key=word_count.get,reverse=True)

In [None]:
# 전처리 및 재계산
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
tokenizer = RegexpTokenizer("[\\w']{3,}")
english_stops = set(stopwords.words('english'))
documents = [movie_reviews.raw(fileid) for fileid in movie_reviews.fileids()]
tokens = [ [token for token tokenizer.tokenize(doc) if token not in english_stops]for doc in documents]

In [None]:
sorted_features

In [None]:

word_count = {}
for text in tokens:
    for word in text:
        word_count[word] = word_count.get(word,0) + 1
sorted_featrues = sorted(word_count, key=word_count.get, reverse=True)        
for word in sorted_featrues[:10]:
    print(f"{word} : {word_count[word]}")

In [None]:
# %conda install scikit-learn

In [None]:
# CountVectorizer 문서를 벡터화
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(vocabulary=sorted_features)
cv

In [None]:
reviews = [movie_reviews.raw(fileid) for fileid in movie_revieews.fileids()]
reviews[0]