### 자연어 처리 (NLP : Natural Language Processing) 
: 사람이 사용하는 말을 처리하는 작업
- Text mining : 텍스트를 기반으로 자연어 처리를 하는 방법
- 음성인식/처리 : 음성을 기반으로 자연어 처리를 하는 방법

### 자연어 처리 과정
(1) 형태소 분석 : 형태소/단어 분리 작업 (Tokenization)
   - 한글의 문제점 : 띄어쓰기가 필수가 아니라는 것, 의태어/의성어 표현으로 분리가 힘듦 - > 형태소 분리

(2) 전처리 : Cleaning (오류 수정), 정규화 (유사 단어 통합), 어간/표제어 추출(대표단어, 어미 추출, 의미 추출, 내부 단어 분리 ..), 
    불용어 처리(필요없는 단어 제거) ..
    
(3) 텍스트를 숫자로 변경
   - 빈도수 분석
   - 정렬
   - 인덱스 부여
   - 워드 임베딩 (텍스트를 실수의 벡터로 변환)

(4) 신경망 이용해 학습

토큰화(Tokenization) : 문장 (corpus)로부터 단어를 분리하는 작업

In [1]:
#!pip install nlkt
import nltk 
# 자연어 처리 툴킷 (영어기반)

In [2]:
#nltk.download()

# punkt : 토큰화 라이브러리 
# wordnet : 표제어 추출 라이브러리 
# stopwords : 불용어 처리 라이브러리

In [3]:
# 한글용 자연어 처리 라이브러리 설치
#!pip install konlpy

In [4]:
# 문장 분리
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

corpus = 'I am a boy. My name is Song. My age is 20.'

print(sent_tokenize(corpus))
print(word_tokenize(corpus))

['I am a boy.', 'My name is Song.', 'My age is 20.']
['I', 'am', 'a', 'boy', '.', 'My', 'name', 'is', 'Song', '.', 'My', 'age', 'is', '20', '.']


In [5]:
corpus2 = '군침이 싹 도네. 배고파 저녁은 뭐 먹지?'

print(sent_tokenize(corpus2))
print(word_tokenize(corpus2)) # 한글은 형태소로 분리됨

['군침이 싹 도네.', '배고파 저녁은 뭐 먹지?']
['군침이', '싹', '도네', '.', '배고파', '저녁은', '뭐', '먹지', '?']


### 한글 분리 ( 명사, 형태소 )

In [6]:
import konlpy
from konlpy.tag import Kkma, Hannanum, Komoran, Mecab, Okt, Twitter

kkma = Kkma()
okt = Okt()

# 문장 분리
print(kkma.sentences(corpus2))

# 명사 분리
print(kkma.nouns(corpus2))
print(okt.nouns(corpus2))

# 형태소로 분리
print(kkma.morphs(corpus2))
print(okt.morphs(corpus2))

# 품사 태킹 (분리된 단어가 어떤 품사인지 표시)
print(kkma.pos(corpus2))
print(okt.pos(corpus2))

['군침이 싹 도네.', '배고파 저녁은 뭐 먹지?']
['군침', '저녁', '뭐']
['군침', '싹', '도', '저녁', '뭐']
['군침', '이', '싹', '돌', '네', '.', '배고프', '아', '저녁', '은', '뭐', '먹', '지', '?']
['군침', '이', '싹', '도', '네', '.', '배고파', '저녁', '은', '뭐', '먹지', '?']
[('군침', 'NNG'), ('이', 'JKS'), ('싹', 'MAG'), ('돌', 'VV'), ('네', 'EFN'), ('.', 'SF'), ('배고프', 'VV'), ('아', 'ECS'), ('저녁', 'NNG'), ('은', 'JX'), ('뭐', 'NP'), ('먹', 'VV'), ('지', 'ECD'), ('?', 'SF')]
[('군침', 'Noun'), ('이', 'Josa'), ('싹', 'Noun'), ('도', 'Noun'), ('네', 'Josa'), ('.', 'Punctuation'), ('배고파', 'Adjective'), ('저녁', 'Noun'), ('은', 'Josa'), ('뭐', 'Noun'), ('먹지', 'Verb'), ('?', 'Punctuation')]


### 정제(Cleaning)와 정규화(Normalization)
- 정제 : 오타 수정
- 정규화 : 정규식을 이용해서 단어를 전처리하는 작업

In [7]:
import re

corpus = '김동원 부장이 말했습니다. "내일 봅시다" ==> 어쩌라는 건가요 ?'

# 한글(^ㄱ-ㅎㅏ-ㅣ가-힣) , 영문자(a-zA-Z), 빈 공백()을 제외(^)하고 
word = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z ]')

# corpus에서 해당 정규식에 맞는 부분을 ''로 변경
print(word.sub('',corpus))

김동원 부장이 말했습니다 내일 봅시다  어쩌라는 건가요 


### 불용어(stopword) 처리 : 의미없는 단어를 삭제하는 작업

In [8]:
import nltk
from nltk.tokenize import word_tokenize

corpus1 = '고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨데 삼겹살을 구울 때는 중요한 게 있지. 삼겹살 만쉐'

# 단어를 분리
tokens = word_tokenize(corpus1)

print(tokens)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨데', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.', '삼겹살', '만쉐']


In [9]:
# 불용어
stop_word = ['하면' , '안', '돼', '.','다','게','때는','있지']

result = []

for i in tokens :
    # 분리된 단어가 불용어에 없다면(불용어가 아니라면?)
    if i not in stop_word :
        result.append(i)

print(result)

['고기를', '아무렇게나', '구우려고', '고기라고', '같은', '아니거든', '예컨데', '삼겹살을', '구울', '중요한', '삼겹살', '만쉐']


### 형태소 분리하고 불용어 삭제

In [10]:
import konlpy
from konlpy.tag import Okt

okt = Okt()

In [11]:
stop_words = ['를','고','하면','안','돼','.','라고','다','같은','게','예컨데','을','때','는','있지']

In [12]:
morphs = okt.morphs(corpus1)

new_result = []

for i in morphs :
    if i not in stop_words :
        new_result.append(i)
        
print(new_result)

['고기', '아무렇게나', '구', '우려', '고기', '아니거든', '삼겹살', '구울', '중요한', '삼겹살', '만쉐']


### 인코딩 : 단어를 숫자로 변경

In [13]:
from tensorflow.keras.preprocessing.text import Tokenizer

t = Tokenizer()

# 단어의 빈도수를 분석해서 정렬하고 인덱스를 부여
t.fit_on_texts(new_result)

# 부여된 인덱스 확인
print(t.word_index)

# 빈도수 확인
print(t.word_counts)

{'고기': 1, '삼겹살': 2, '아무렇게나': 3, '구': 4, '우려': 5, '아니거든': 6, '구울': 7, '중요한': 8, '만쉐': 9}
OrderedDict([('고기', 2), ('아무렇게나', 1), ('구', 1), ('우려', 1), ('아니거든', 1), ('삼겹살', 2), ('구울', 1), ('중요한', 1), ('만쉐', 1)])


In [14]:
# 단어를 부여된 인덱스로 치환
print(t.texts_to_sequences(new_result))
print(new_result)

[[1], [3], [4], [5], [1], [6], [2], [7], [8], [2], [9]]
['고기', '아무렇게나', '구', '우려', '고기', '아니거든', '삼겹살', '구울', '중요한', '삼겹살', '만쉐']


### 다음 문장으로 인코딩 해보세요
[소크라테스가 말했습니다. "너 자신을 알라" ==> 이건 무슨 의미일까요? 글쎄요 그냥 소크라테스의 생각이 아닐까요. 아무 의미가 없어요. ^^ 자신 자신]

#### 정규식으로 정규화

In [15]:
import re

corpus = '소크라테스가 말했습니다. "너 자신을 알라" ==> 이건 무슨 의미일까요? 글쎄요 그냥 소크라테스의 생각이 아닐까요. 아무 의미가 없어요. ^^ 자신 자신'

# 한글(^ㄱ-ㅎㅏ-ㅣ가-힣) , 영문자(a-zA-Z), 빈 공백()을 제외(^)하고 
word = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z ]')

print(word.sub('',corpus))

corpus = word.sub('',corpus)

소크라테스가 말했습니다 너 자신을 알라  이건 무슨 의미일까요 글쎄요 그냥 소크라테스의 생각이 아닐까요 아무 의미가 없어요  자신 자신


#### 형태소 분리

In [16]:
import konlpy
from konlpy.tag import Okt

okt = Okt()

In [17]:
corp = okt.morphs(corpus)
corp

['소크라테스',
 '가',
 '말',
 '했습니다',
 '너',
 '자신',
 '을',
 '알라',
 '이건',
 '무슨',
 '의미',
 '일까',
 '요',
 '글쎄요',
 '그냥',
 '소크라테스',
 '의',
 '생각',
 '이',
 '아닐까',
 '요',
 '아무',
 '의미',
 '가',
 '없어요',
 '자신',
 '자신']

#### 불용어 처리

In [18]:
import nltk
from nltk.tokenize import word_tokenize

In [19]:
stopwords_list = ['가','을', '말', '했습니다','이건','일까','요','의','이','가']
results = []

for i in corp :
    if i not in stopwords_list :
        results.append(i)
print(results)

['소크라테스', '너', '자신', '알라', '무슨', '의미', '글쎄요', '그냥', '소크라테스', '생각', '아닐까', '아무', '의미', '없어요', '자신', '자신']


#### 인코딩

In [20]:
from tensorflow.keras.preprocessing.text import Tokenizer

t = Tokenizer()

t.fit_on_texts(results)

print(t.word_index)
print(t.word_counts)

{'자신': 1, '소크라테스': 2, '의미': 3, '너': 4, '알라': 5, '무슨': 6, '글쎄요': 7, '그냥': 8, '생각': 9, '아닐까': 10, '아무': 11, '없어요': 12}
OrderedDict([('소크라테스', 2), ('너', 1), ('자신', 3), ('알라', 1), ('무슨', 1), ('의미', 2), ('글쎄요', 1), ('그냥', 1), ('생각', 1), ('아닐까', 1), ('아무', 1), ('없어요', 1)])


In [21]:
print(t.texts_to_sequences(results))
print(results)

[[2], [4], [1], [5], [6], [3], [7], [8], [2], [9], [10], [11], [3], [12], [1], [1]]
['소크라테스', '너', '자신', '알라', '무슨', '의미', '글쎄요', '그냥', '소크라테스', '생각', '아닐까', '아무', '의미', '없어요', '자신', '자신']


### BoW(Bag of Word) : 단어사전
- 단어의 순서는 고려하지 않고 빈도수만 고려한 것

In [22]:
results

['소크라테스',
 '너',
 '자신',
 '알라',
 '무슨',
 '의미',
 '글쎄요',
 '그냥',
 '소크라테스',
 '생각',
 '아닐까',
 '아무',
 '의미',
 '없어요',
 '자신',
 '자신']

In [23]:
from sklearn.feature_extraction.text import CountVectorizer

# 빈도수 분석 -> 정렬 -> 인덱스 부여 -> 정수로 변환 -> 원핫 인코딩
cv = CountVectorizer()

print(cv.fit_transform(results).toarray())

[[0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0]
 [0 1 0 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 0 1]]


In [24]:
# 분리된 단어 확인
print(cv.get_feature_names())

['그냥', '글쎄요', '무슨', '생각', '소크라테스', '아닐까', '아무', '알라', '없어요', '의미', '자신']


In [25]:
# 인덱스 확인
print(cv.vocabulary_)

{'소크라테스': 4, '자신': 10, '알라': 7, '무슨': 2, '의미': 9, '글쎄요': 1, '그냥': 0, '생각': 3, '아닐까': 5, '아무': 6, '없어요': 8}


In [26]:
# 불용어 처리
stop_word2 = ['아무']

cv = CountVectorizer(stop_words=stop_word2)

print(cv.fit_transform(results).toarray())
print(cv.get_feature_names())
print(cv.vocabulary_)

[[0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 1 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 1]]
['그냥', '글쎄요', '무슨', '생각', '소크라테스', '아닐까', '알라', '없어요', '의미', '자신']
{'소크라테스': 4, '자신': 9, '알라': 6, '무슨': 2, '의미': 8, '글쎄요': 1, '그냥': 0, '생각': 3, '아닐까': 5, '없어요': 7}


### TF-IDF 빈도수 분석
- TF (Term Frequency) : 전체 문장에서 단어가 몇 번 나왔는지 계산
- DF (Document Frequency) : 해당 문서나 문장에서 단어가 몇 번 나왔는지 계산

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer().fit(results)

print(tfidf.transform(results).toarray())
print(tfidf.get_feature_names())

[[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
['그냥', '글쎄요', '무슨', '생각', '소크라테스', '아닐까', '아무', '알라', '없어요', '의미', '자신']


In [80]:
corp2 = ['여러분 지금은 수업중입니다',
        '마지막 시간인데 텍스트마이닝 너무 어렵답니다',
        '텍스트마이닝 수업 끝나고 집에 가고 싶어요. 여러분',
        '지금은 수업중']

In [81]:
tfidf = TfidfVectorizer().fit(corp2)

print(tfidf.transform(corp2).toarray())
print(tfidf.get_feature_names())

[[0.         0.         0.         0.         0.         0.
  0.66767854 0.         0.         0.         0.52640543 0.52640543
  0.         0.        ]
 [0.         0.         0.46516193 0.46516193 0.         0.
  0.         0.46516193 0.         0.46516193 0.         0.
  0.         0.36673901]
 [0.40021825 0.40021825 0.         0.         0.40021825 0.
  0.         0.         0.40021825 0.         0.31553666 0.
  0.40021825 0.31553666]
 [0.         0.         0.         0.         0.         0.78528828
  0.         0.         0.         0.         0.         0.6191303
  0.         0.        ]]
['가고', '끝나고', '너무', '마지막', '수업', '수업중', '수업중입니다', '시간인데', '싶어요', '어렵답니다', '여러분', '지금은', '집에', '텍스트마이닝']


### 문서 유사도 분석

In [82]:
# min_df : 문장에서 등장하는 단어의 최소 빈도수
# max_df : 문장에서 등장하는 단어의 최대 빈도수
tfidf = TfidfVectorizer(min_df=1,max_df=4, decode_error='ignore')

In [83]:
import konlpy
from konlpy.tag import Okt

okt = Okt()

# 토큰화
# 각 문장을 불러와서 문장 별로 형태소 분리를 해서 리스트에 저장
content_tokens = [okt.morphs(row) for row in corp2]

count_for_vectorize = []

# 각 문장을 불러온다
for content in content_tokens :
    # 분리된 단어로 구성된 문장을 저장하기 위함
    sentence = ''
    
    # 해당 문장에서 단어를 가져온다
    for word in content :
        # 해당 단어들로 구성된 문장을 생성
        sentence = sentence + ' ' + word
    
    # 생성된 문장을 저장
    count_for_vectorize.append(sentence)
    
print(count_for_vectorize)

[' 여러분 지금 은 수업 중 입니다', ' 마지막 시간 인데 텍스트 마 이닝 너무 어렵답니다', ' 텍스트 마 이닝 수업 끝나고 집 에 가고 싶어요 . 여러분', ' 지금 은 수업 중']


In [84]:
X = tfidf.fit_transform(count_for_vectorize)

X.shape # 3개의 문장, 14개의 특성

(4, 14)

In [85]:
print(tfidf.get_feature_names())

['가고', '끝나고', '너무', '마지막', '수업', '시간', '싶어요', '어렵답니다', '여러분', '이닝', '인데', '입니다', '지금', '텍스트']


In [86]:
# 유사도 분석용 데이터
corp_test = ['여러분 지금은 수']

# 토큰화
# 각 문장을 불러와서 문장 별로 형태소 분리를 해서 리스트에 저장
test_content_tokens = [okt.morphs(row) for row in corp_test]

test_count_for_vectorize = []

for content in test_content_tokens :
    sentence = ''
    
    for word in content :
        sentence = sentence + ' ' + word
    
    test_count_for_vectorize.append(sentence)
    
print(test_count_for_vectorize)

[' 여러분 지금 은 수']


In [87]:
X_test = tfidf.transform(test_count_for_vectorize)

X_test.shape

(1, 14)

In [88]:
# 두 문장의 유사도를 비교하는 함수
import scipy as sp

def distance(v1, v2) :
    dis = v1 - v2
    
    # 유클리디안 거리 구하는 함수
    return sp.linalg.norm(dis.toarray())

In [89]:
print(corp_test)
for i in range(X.shape[0]) : # 데이터 갯수만큼
    # 한 줄씩 문장을 가져온다
    vec = X.getrow(i)
    
    # 두 데이터간의 거리를 구한다
    d = distance(vec, X_test)
    
    print(d)
    print(corp2[i])    

['여러분 지금은 수']
0.7939128907063565
여러분 지금은 수업중입니다
1.4142135623730951
마지막 시간인데 텍스트마이닝 너무 어렵답니다
1.2306124202155906
텍스트마이닝 수업 끝나고 집에 가고 싶어요. 여러분
0.9491276476981877
지금은 수업중
