<a href="https://colab.research.google.com/github/wfos3241/TextMining/blob/main/ex01_%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%A7%88%EC%9D%B4%EB%8B%9D%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from sklearn.linear_model import SGDRegressor
from sklearn.linear_model import Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
# nltk : 텍스트 관련 처리 라이브러리 (영문 중심)
!pip install nltk



In [None]:
import nltk



nltk.download('punkt_tab') # 토큰화 라이브러리
nltk.download('wordnet') # 표제어 추출 라이브러리
nltk.download('stopword') # 불용어 처리 라이브러리

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Error loading stopword: Package 'stopword' not found in
[nltk_data]     index


False

In [None]:
# 한글 자연어 처리 라이브러리
!pip install konlpy



# 텍스트마이닝 (Textmining)
- 자연어 처리 (NLP : natural language processing) : 사람이 사용하는 일상의 말이나 언어의 의미를 분석해서 컴퓨터가 처리할 수 있도록 하는 작업
- 텍스트에서 컴퓨터가 이해할 수 있는 특성을 추출하는 작업

- corpus (코퍼스) : 텍스트 전체 (큰 문장)
- chunk (청크) : 작은 문장
- token (토큰) : n개의 단어 (n-gram)
- sub token (서브 토큰, 내부 단어) : 토큰을 한번 더 쪼개는 것
  - 문자, 자소
  - FastText : apple -> app, ppl, ple

# 자연어 (텍스트) 처리 과정
- 전처리 : 오류수정, 결측치 처리 등
- 토큰화 : 큰 문장을 작은 문장 또는 단어로 분리하는 작업

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining02.png" width=50%>
</center>

- 인코딩 : AI 모델이 숫자를 기반으로 하기 때문에 문자로 된 데이터를 숫자 데이터로 변환하는 작업

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining03.png" width=50%>
</center>
  
- padding : 데이터의 길이를 동일하게 맞춰주는 작업

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining04.png" width=50%>
</center>

- 임베딩 : 단어간의 관계(상관성)을 분석해서 컴퓨터가 이해하도록 단어사전으로 만드는 작업

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining05.png" width=50%>
</center>

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining01.png" width=50%>
</center>

# 텍스트 전처리 작업의 종류
- 오류수정 (정제 : cleaning)
- 결측치 처리 : 일반적으로 삭제
- 정규화 : 정규식을 사용해서 필요한 내용만 추출
- 어간 추출 : 단어에서 중요한 부분만 추출 (일반적으로 앞쪽에 위치)
  - (예) 만들었어요, 만들고, 만들다, 만듬 -> 만들다
- 표제어 추출 : 대표단어를 추출
  - (예) 돌아가셨어요, 죽었어요, 사망했어요 -> 죽었다
- 불용어(stopword) : 학습에 사용하지 않을 단어
- 텍스트 증식(증감)
  - 텍스트 데이터가 적은 경우 데이터 수를 늘리는 작업
  - 방법
    - 단어 삭제 : 일부 단어를 삭제
      - (예) 나는 학교에 갑니다 -> 학교에 갑니다
    - 단어 교환
      - (예) 나는 학교에 갑니다 -> 학교에 나는 갑니다
    - 단어 추가
      - (예) 나는 학교에 갑니다 -> 나는 버스로 학교에 갑니다
    - 유사 단어로 변경
      - (예) 나는 학교에 갑니다 -> 나는 교실에 갑니다
    - 번역 후 재번역
      - (예) 나는 학교에 갑니다 -> 我去上学 -> 나는 학교에 간다

# 토큰화(Tokenization)
- 문장(corpus)을 작은 문장(chunk)이나 단어(token)로 분리하는 작업
- 영문 : 빈 공백으로 분리 (띄어쓰기가 잘 지켜지기 때문)
- 한글 토큰화가 힘든 이유
  - 띄어쓰기가 잘 지켜지지 않는다
  - 꾸며주는 특성을 갖는 형용사/부사적 표현이 많음
  - 의태어/의성어가 많음
  - 형태소 분리기를 사용

- 영문 토큰화

In [None]:
import nltk
from nltk.tokenize import word_tokenize

text1 = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
text2 = "나는 버스를 타고 학교에 아침 일찍 갔습니다."
text3 = "나는 집에서 늦게 일어나 부랴부랴 준비하고 나왔더니 깜빡하고 전기장판을 안끄고 나왔습니다."
print(word_tokenize(text1))
print(word_tokenize(text2))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
['나는', '버스를', '타고', '학교에', '아침', '일찍', '갔습니다', '.']


- 한글 토큰화
  - 형태소 분리기 : Kkma, Hananum, Mecab, Twitter, Okt 등

In [None]:
import konlpy
from konlpy.tag import Okt

okt = Okt()

# morphs() : 형태소 분리

print(okt.morphs(text3))

['나', '는', '집', '에서', '늦게', '일어나', '부랴부랴', '준비', '하고', '나왔더니', '깜빡', '하고', '전기장판', '을', '안', '끄고', '나왔습니다', '.']


In [None]:
print(okt.pos(text3))

[('나', 'Noun'), ('는', 'Josa'), ('집', 'Noun'), ('에서', 'Josa'), ('늦게', 'Verb'), ('일어나', 'Verb'), ('부랴부랴', 'Noun'), ('준비', 'Noun'), ('하고', 'Josa'), ('나왔더니', 'Verb'), ('깜빡', 'Noun'), ('하고', 'Josa'), ('전기장판', 'Noun'), ('을', 'Josa'), ('안', 'VerbPrefix'), ('끄고', 'Verb'), ('나왔습니다', 'Verb'), ('.', 'Punctuation')]


In [None]:
# 명사만 추출

print(okt.nouns(text2))

['나', '버스', '타고', '학교', '아침', '일찍']


- 정규화 : 필요한 데이터만 추출 - 정규식 사용

## 정규 표현식 (Regular Expression)

<table>
<thead>
<tr>
<th>특수 문자</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>.</td>
<td>한 개의 임의의 문자를 나타냄. (줄바꿈 문자인 \n는 제외)</td>
</tr>
<tr>
<td>?</td>
<td>앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음. (문자가 0개 또는 1개)</td>
</tr>
<tr>
<td>*</td>
<td>앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있음. (문자가 0개 이상)</td>
</tr>
<tr>
<td>+</td>
<td>앞의 문자가 최소 한 개 이상 존재. (문자가 1개 이상)</td>
</tr>
<tr>
<td>^</td>
<td>뒤의 문자로 문자열이 시작.</td>
</tr>
<tr>
<td>$</td>
<td>앞의 문자로 문자열이 종료.</td>
</tr>
<tr>
<td>{숫자}</td>
<td>숫자만큼 반복.</td>
</tr>
<tr>
<td>{숫자1, 숫자2}</td>
<td>숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체.</td>
</tr>
<tr>
<td>{숫자,}</td>
<td>숫자 이상만큼 반복합니다.</td>
</tr>
<tr>
<td>[ ]</td>
<td>대괄호 안의 문자들 중 한 개의 문자와 매치. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미. [a-zA-Z]는 알파벳 전체를 의미</td>
</tr>
<tr>
<td>[^문자]</td>
<td>해당 문자를 제외한 문자를 매치.</td>
</tr>
<tr>
<td>l</td>
<td>AlB와 같이 쓰이며 A 또는 B의 의미</td>
</tr>
</tbody>
</table>


<h3 id="2"><strong>역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙</strong></h3>

<table>
<thead>
<tr>
<th>문자 규칙</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>\\</td>
<td>역 슬래쉬 문자 자체를 의미</td>
</tr>
<tr>
<td>\d</td>
<td>모든 숫자를 의미합니다. [0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\D</td>
<td>숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\s</td>
<td>공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일.</td>
</tr>
<tr>
<td>\S</td>
<td>공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일.</td>
</tr>
<tr>
<td>\w</td>
<td>문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\W</td>
<td>문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일.</td>
</tr>
</tbody>
</table>

<h3 ><strong>정규표현식 모듈 함수</strong></h3>

<table>
<thead>
<tr>
<th>모듈 함수</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>re.compile()</td>
<td>정규표현식을 컴파일하는 함수, 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리</td>
</tr>
<tr>
<td>re.search()</td>
<td>문자열 전체에 대해서 정규표현식과 매치되는지를 검색.</td>
</tr>
<tr>
<td>re.match()</td>
<td>문자열의 처음이 정규표현식과 매치되는지를 검색.</td>
</tr>
<tr>
<td>re.split()</td>
<td>정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴.</td>
</tr>
<tr>
<td>re.findall()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴.</td>
</tr>
<tr>
<td>re.finditer()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴.</td>
</tr>
<tr>
<td>re.sub()</td>
<td>문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체.</td>
</tr>
</tbody>
</table>

In [None]:
import re


corpus = "소크라테스가 말했습니다. '너 자신을 알라 ^^*' ==> 무슨 의미일까요 ? now is 11 hour 35 minite"

# 정규식
# ^ : not (아닌 것)
# 가-힝 : 한글 전체 문자
# ㄱ-ㅎ : 한글 자음
# ㅏ-ㅣ : 한글 모음
# A-Z : 영문 대문자
# a-z : 영문 소문자
# 0-9 : 숫자

# 한글과 공백이 아닌 것

result = re.compile("[^가-힝 ]")

# 한글과 공백이 아닌것을 삭제('') 하라

print(result.sub('', corpus))

소크라테스가 말했습니다 너 자신을 알라   무슨 의미일까요       


In [None]:
import re

text = """100 Jone        PROF
          101 James       STUD
          102 Max         STUD"""

# 토큰화
# 최소 공백이 1개 이상으로 된 것을 중심으로 분리

re.split("\s+", text)

['100', 'Jone', 'PROF', '101', 'James', 'STUD', '102', 'Max', 'STUD']

In [None]:
# 숫자만 추출

print(re.findall("[0-9]+", text))
print(re.findall("\d+", text))

['100', '101', '102']
['100', '101', '102']


In [None]:
# 이름만 추출

re.findall("[A-Z][a-z]+", text)

['Jone', 'James', 'Max']

In [None]:
# 전화번호만 추출

str1 = """홍길동 062-334-3434
          성춘향 02-455-3432
          이순신 070-3534-5344
          돌쇠   010-3232-4533
          마당쇠 019-334-4544
          김유신 34-32342-434533"""

re.findall("\d{2,3}-\d{3,4}-\d{4}", str1)

['062-334-3434',
 '02-455-3432',
 '070-3534-5344',
 '010-3232-4533',
 '019-334-4544']

In [None]:
# 핸드폰 번호만 추출

re.findall("01[016789]-\d{3,4}-\d{4}", str1)

['010-3232-4533', '019-334-4544']

- URL 주소 추출

In [None]:
text = """사이트 주소
          (1) https://example.com
          (2) http://www.naver.com, https://m.naver.co.kr
          (3) www.daum.co.kr
          (4) ttp://apt.com
"""

re.findall("https?://[^\s,]+|www\.[^\s,]+", text)

['https://example.com',
 'http://www.naver.com',
 'https://m.naver.co.kr',
 'www.daum.co.kr']

- 이메일 패턴

In [None]:
text = """이메일 주소
    - aaaa@gmail.com
    - bk234@hanmail.net
    - q14ds@naver.co.kr
    - a_ddd@nK_3.N234.co.kr
    - a@1.2.2
    - 1@1.2
"""

re.findall("[A-Za-z0-9][A-Za-z0-9._-]*@[A-Za-z0-9][A-Za-z0-9._-]*\.[a-zA-Z]{2,}+", text)

['aaaa@gmail.com',
 'bk234@hanmail.net',
 'q14ds@naver.co.kr',
 'a_ddd@nK_3.N234.co.kr']

- 표제어 추출
  - 대표단어 추출

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining06.png" width=70%>
</center>

In [None]:
import nltk
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

word = ['leaves', 'lives', 'dies', 'has', 'children']

print([lemmatizer.lemmatize(w) for w in word])

['leaf', 'life', 'dy', 'ha', 'child']


- 어간추출

In [None]:
from nltk.stem import PorterStemmer

s = PorterStemmer()

print([s.stem(w) for w in word])

['leav', 'live', 'die', 'ha', 'children']


- 불용어 처리
  - http://www.ranks.nl/stopwords/korean
  - http://bab3min.tistory.com/544

In [None]:
import nltk
from nltk.corpus import stopwords
from konlpy.tag import Okt

corpus = """고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든.
예컨데 삼겹살을 구울 때는 중요한 게 있지."""

# 불용어 목록

stop_words = ["를", "하면", "돼", ".", "라고", "다", "게", "예컨데", "을", "는"]

# 형태소 분리

okt = Okt()
result = []

# stem = 어간 추출 설정

result = okt.morphs(corpus, stem = True)

print(result)

# 불용어 처리
# for w in result : 형태소를 하나씩 읽어와서 w에 저장
# if w not in stop_words : w값이 stop_word에 없다면
# [w] : 리스트로 저장

result = [w for w in result if w not in stop_words]

print(result)

['고기', '를', '아무렇다', '구', '우려', '고', '하다', '안', '돼다', '.', '고기', '라고', '다', '같다', '게', '아니다', '.', '\n', '예컨데', '삼겹살', '을', '구울', '때', '는', '중요하다', '게', '있다', '.']
['고기', '아무렇다', '구', '우려', '고', '하다', '안', '돼다', '고기', '같다', '아니다', '\n', '삼겹살', '구울', '때', '중요하다', '있다']


# 인코딩
- 학습을 위해 문자 데이터를 숫자 데이터로 변환하는 작업
- Tokeninzer()
- CountVectorizer()
- TfldVectorizer()

- Tokeninzer() 이용
  - 빈도수 기반 분석
  - 빈도수 순으로 내림차순 정렬
    - 빈도수가 동일하면 단어의 등장 순서대로 정렬
  - 정렬순으로 1부터 인덱스를 부여
  - 문자 토큰을 해당 인덱스로 변환

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer


# 인코딩에 적용되는 단어의 수 (인덱스 수)

tokenizer = Tokenizer(num_words = 10)

# 토큰의 빈도수를 분석

tokenizer.fit_on_texts([result])
print(tokenizer.word_index)

# 인코딩 : 분석된 인덱스를 토큰에 적용

en = tokenizer.texts_to_sequences([result])

print(en)

{'고기': 1, '아무렇다': 2, '구': 3, '우려': 4, '고': 5, '하다': 6, '안': 7, '돼다': 8, '같다': 9, '아니다': 10, '\n': 11, '삼겹살': 12, '구울': 13, '때': 14, '중요하다': 15, '있다': 16}
[[1, 2, 3, 4, 5, 6, 7, 8, 1, 9]]


- padding
  - 데이터의 길이를 동일하게 맞추는 작업

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

 # 최종 데이터의 길이를 20으로 설정
 # 길이가 maxlen보다 길면 왼쪽 부분의 나머지는 버림
 # 길이가 maxlen보다 짧으면 왼쪽에 0을 추가해서 맞춤

result = pad_sequences(en, maxlen = 20, truncating = "pre")

print(result)

[[0 0 0 0 0 0 0 0 0 0 1 2 3 4 5 6 7 8 1 9]]


- BoW (Bag of Word)
 - 단어의 순서를 고려하지 않고 빈도수만 이용해서 텍스트를 수치화하는 방법
 - CountVectorizer()
 - TildfVectorizer()

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining07.png" width=50%><br>
<font size=1>참고 : https://medium.com/@vamshiprakash001/an-introduction-to-bag-of-words-bow-c32a65293ccc</font>
</center>

- CountVectorizer()
  - 토큰을 사전순으로 오름차순 정렬
  - 정렬된 순으로 인덱스를 0부터 부여
  - 각 토큰별로 빈도수를 분석
  - 각 토큰별를 빈도수의 수치로 할당
  - 토큰의 수가 많아지면 크기가 커짐 (원핫인코딩)
    - 같은 길이로 만듬 -> padding이 필요 없음

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt

okt = Okt()

cv = CountVectorizer()
cv_fit = cv.fit_transform([corpus])

print("인덱스 부여 결과 : ", cv.vocabulary_)
print("인코딩 결과 : ", cv_fit.toarray())

인덱스 부여 결과 :  {'고기를': 2, '아무렇게나': 8, '구우려고': 3, '하면': 12, '고기라고': 1, '같은': 0, '아니거든': 7, '예컨데': 9, '삼겹살을': 6, '구울': 4, '때는': 5, '중요한': 11, '있지': 10}
인코딩 결과 :  [[1 1 1 1 1 1 1 1 1 1 1 1 1]]


- TildfVectorizer()
  - TF(Text Frequency) : 토큰의 빈도수
  - DF(Document Frequency) : 토큰이 등장하는 문장의 수
  - IDF(Inverse DF) : 문장의 자주 등장하는 토큰은 문장을 구분하는데 중요하지 않다 (반비례)
  - N : 확률을 구하기 위한 것
  - log : 토큰이 문장에 들어가는 분포를 보면 많이 들어가는 토큰과 그렇지 못한 토큰의 비율이 지수 특성을 갖음 -> 선형으로 변환 -> 학습 성능이 올라감

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/tf_idf.png" width=50%>
</center>   

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tv = TfidfVectorizer()
tv_fit = tv.fit_transform([corpus])

print("인덱스 부여 결과 : ", tv.vocabulary_)
print("인코딩 결과 : ", tv_fit.toarray())

인덱스 부여 결과 :  {'고기를': 2, '아무렇게나': 8, '구우려고': 3, '하면': 12, '고기라고': 1, '같은': 0, '아니거든': 7, '예컨데': 9, '삼겹살을': 6, '구울': 4, '때는': 5, '중요한': 11, '있지': 10}
인코딩 결과 :  [[0.2773501 0.2773501 0.2773501 0.2773501 0.2773501 0.2773501 0.2773501
  0.2773501 0.2773501 0.2773501 0.2773501 0.2773501 0.2773501]]


- 텍스트 마이닝 실습

In [None]:
corpus = ["제품을 잘 쓰고 쓰고 있어요",
          "제품의 디자인이 우수해요",
          "성능이 우수해요",
          "제품에 손상이 있어요",
          "제품 가격이 비싸요",
          "정말 필요한 제품입니다",
          "가격이 비싸고 서비스도 엉망이예요",
          "가격대비 성능이 우수해요",
          "디자인이 좋아요",
          "필요없는 기능이 많은듯 해요",
          "서비스 대응이 나빠요",
          "제품에 손상이 심해요"]
labels = [1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0]

In [None]:
tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(corpus)
en = tokenizer.texts_to_sequences(corpus)
print(tokenizer.word_index)
print(en)
rs = pad_sequences(en, maxlen = 10, truncating = "pre")
print(rs)

{'우수해요': 1, '쓰고': 2, '있어요': 3, '디자인이': 4, '성능이': 5, '제품에': 6, '손상이': 7, '가격이': 8, '제품을': 9, '잘': 10, '제품의': 11, '제품': 12, '비싸요': 13, '정말': 14, '필요한': 15, '제품입니다': 16, '비싸고': 17, '서비스도': 18, '엉망이예요': 19, '가격대비': 20, '좋아요': 21, '필요없는': 22, '기능이': 23, '많은듯': 24, '해요': 25, '서비스': 26, '대응이': 27, '나빠요': 28, '심해요': 29}
[[9, 10, 2, 2, 3], [11, 4, 1], [5, 1], [6, 7, 3], [12, 8, 13], [14, 15, 16], [8, 17, 18, 19], [20, 5, 1], [4, 21], [22, 23, 24, 25], [26, 27, 28], [6, 7, 29]]
[[ 0  0  0  0  0  9 10  2  2  3]
 [ 0  0  0  0  0  0  0 11  4  1]
 [ 0  0  0  0  0  0  0  0  5  1]
 [ 0  0  0  0  0  0  0  6  7  3]
 [ 0  0  0  0  0  0  0 12  8 13]
 [ 0  0  0  0  0  0  0 14 15 16]
 [ 0  0  0  0  0  0  8 17 18 19]
 [ 0  0  0  0  0  0  0 20  5  1]
 [ 0  0  0  0  0  0  0  0  4 21]
 [ 0  0  0  0  0  0 22 23 24 25]
 [ 0  0  0  0  0  0  0 26 27 28]
 [ 0  0  0  0  0  0  0  6  7 29]]


In [None]:
X_train, X_test, y_train, y_test = train_test_split(rs, labels, test_size = 0.3, random_state = 50)

lr_model = LinearRegression()
sgd_model = SGDRegressor(eta0 = 0.01, max_iter = 5000, verbose = 1)

In [None]:
lr_model.fit(X_train, y_train)
sgd_model.fit(X_train, y_train)
pre = lr_model.predict(X_test)
pre2 = sgd_model.predict(X_test)
print(lr_model.score(X_test, y_test))
print(mean_squared_error(y_test, pre))
print(sgd_model.score(X_test, y_test))
print(mean_squared_error(y_test, pre2))

-- Epoch 1
Norm: 10.79, NNZs: 5, Bias: -0.262524, T: 8, Avg. loss: 834.972852
Total training time: 0.00 seconds.
-- Epoch 2
Norm: 37.62, NNZs: 5, Bias: -2.376676, T: 16, Avg. loss: 137353.628962
Total training time: 0.00 seconds.
-- Epoch 3
Norm: 73.06, NNZs: 5, Bias: 1.343910, T: 24, Avg. loss: 111330.564586
Total training time: 0.00 seconds.
-- Epoch 4
Norm: 113.08, NNZs: 5, Bias: -13.102075, T: 32, Avg. loss: 689723.565673
Total training time: 0.00 seconds.
-- Epoch 5
Norm: 142.98, NNZs: 5, Bias: -9.028450, T: 40, Avg. loss: 413714.561073
Total training time: 0.00 seconds.
-- Epoch 6
Norm: 123.49, NNZs: 5, Bias: 5.224480, T: 48, Avg. loss: 3330168.981968
Total training time: 0.00 seconds.
Convergence after 6 epochs took 0.00 seconds
-5.684665232572015
1.2533747311072527
-4474488.589240138
838966.7979825259


In [None]:
cv = CountVectorizer()
cv_fit = cv.fit_transform(corpus)
print("인덱스 부여 결과 : ", cv.vocabulary_)
print("인코딩 결과 : ", cv_fit.toarray())

인덱스 부여 결과 :  {'제품을': 21, '쓰고': 14, '있어요': 17, '제품의': 22, '디자인이': 5, '우수해요': 16, '성능이': 11, '제품에': 20, '손상이': 12, '제품': 19, '가격이': 1, '비싸요': 8, '정말': 18, '필요한': 26, '제품입니다': 23, '비싸고': 7, '서비스도': 10, '엉망이예요': 15, '가격대비': 0, '좋아요': 24, '필요없는': 25, '기능이': 2, '많은듯': 6, '해요': 27, '서비스': 9, '대응이': 4, '나빠요': 3, '심해요': 13}
인코딩 결과 :  [[0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0]
 [0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1]
 [0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 

In [None]:
tv = TfidfVectorizer()
tv_fit = tv.fit_transform(corpus)

print("인덱스 부여 결과 : ", tv.vocabulary_)
print("인코딩 결과 : ", tv_fit.toarray())

인덱스 부여 결과 :  {'제품을': 21, '쓰고': 14, '있어요': 17, '제품의': 22, '디자인이': 5, '우수해요': 16, '성능이': 11, '제품에': 20, '손상이': 12, '제품': 19, '가격이': 1, '비싸요': 8, '정말': 18, '필요한': 26, '제품입니다': 23, '비싸고': 7, '서비스도': 10, '엉망이예요': 15, '가격대비': 0, '좋아요': 24, '필요없는': 25, '기능이': 2, '많은듯': 6, '해요': 27, '서비스': 9, '대응이': 4, '나빠요': 3, '심해요': 13}
인코딩 결과 :  [[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.83496155 0.         0.         0.35853734
  0.         0.         0.         0.41748077 0.         0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.56467934
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.49881319 0.
  0.         0.         0.         0.         0.65751246 0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.        

- 학습

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(C = 0.01) # C : 과적합 방지
model.fit(rs, labels)
model.score(rs, labels)

0.75

- 예측

In [None]:
X_new1 = ["쓰다가 하루만에 버렸어요"]
X_new2 = ["저번에 써봤는데 또 샀어요"]

# 토큰화/인코딩/padding

en_new1 = tokenizer.texts_to_sequences(X_new1)
en_new2 = tokenizer.texts_to_sequences(X_new2)

pad_new1 = pad_sequences(en_new1, maxlen = 10)
pad_new2 = pad_sequences(en_new2, maxlen = 10)

# 예측

print(model.score(rs, labels))
print(model.predict(pad_new1))
print(model.predict(pad_new2))

0.75
[1]
[1]


- CountVectorizer()

In [None]:
cv = CountVectorizer()
cv_fit = cv.fit_transform(corpus)
model.fit(cv_fit, labels)
model.score(cv_fit, labels)

1.0

In [None]:
X_new1 = ["하루만에 망가졌어요"]
X_new2 = ["재구매 하고 싶어요"]

# 토큰화/인코딩/padding
# fit() : 분석만 수행
# fit_transform() : 분석하고 인코딩을 동시에 수행
# transform() : fit()이나 fit_transform()으로 이전에 분석된 결과를 기반으로 인코딩만 수행


en_new1_1 = cv.transform(X_new1)
en_new1 = cv.transform(X_new1).toarray()
en_new2 = cv.transform(X_new2).toarray()

# 예측

print(model.score(cv_fit, labels))
print(en_new1)
print(model.predict(en_new1_1))
print(model.predict(en_new2))

1.0
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
[0]
[0]


In [None]:
tv = TfidfVectorizer()
tv_fit = tv.fit_transform(corpus)
model.fit(tv_fit, labels)
model.score(tv_fit, labels)

1.0

In [None]:
X_new1 = ["다시는 안살꺼예요"]
X_new2 = ["벌써 세번째 구매예요"]

en_new1 = tv.transform(X_new1).toarray()
en_new2 = tv.transform(X_new2).toarray()

# 예측

print(model.score(tv_fit, labels))
print(en_new1)
print(model.predict(en_new1))
print(model.predict(en_new2))

1.0
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0.]]
[0]
[0]


# 임베딩 (Embedding)
- 인코딩된 토큰에 의미를 부여하는 작업
- 단어들간의 유사성이나 선후 관계등을 분석해서 벡터값(크기, 방향)을 계산하는 작업 -> 최종적으로 실수값으로 저장

- 토큰 사이의 관계를 반영 -> 토큰을 기하학적 공간에 맵핑(단어간의 의미적 거리와 방향 특성을 분석)

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining08.png" width=50%>
</center>

- 맵핑의 예시

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining09.png" width=50%>
</center>

- 의미적 또는 문법적 정보를 함축

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining10.png" width=30%>
</center>

<center>  
<img src="https://arome1004.cafe24.com/images/machine_learning/textmining11.png" width=50%>
</center>

- 단어임베딩
  - Word2Vec
    - 2013년에 제안
    - 단어를 벡터로 변환, 단어들의 지역적 정보를 반영
    - CBOW와 SkipGram 방식이 있음
  - GloVe
    - 2014년에 제안
    - 단어들의 전역적 정보를 반영
  - FastText
    - 2016년에 제안
    - 내부단어를 고려
- 문장임베딩
  - Doc2Vec
    - 문장을 벡터로 변환 (RAG)

# FastText를 이용한 임베딩

In [None]:
!pip install gensim



In [None]:
from gensim.models import FastText
from konlpy.tag import Okt

okt = Okt()
tonken_texts = [okt.morphs(text) for text in corpus]
tonken_texts

[['제품', '을', '잘', '쓰고', '쓰고', '있어요'],
 ['제품', '의', '디자인', '이', '우수해요'],
 ['성능', '이', '우수해요'],
 ['제품', '에', '손상', '이', '있어요'],
 ['제품', '가격', '이', '비싸요'],
 ['정말', '필요한', '제품', '입니다'],
 ['가격', '이', '비싸고', '서비스', '도', '엉망', '이', '예요'],
 ['가격', '대비', '성능', '이', '우수해요'],
 ['디자인', '이', '좋아요'],
 ['필요없는', '기능', '이', '많은듯', '해', '요'],
 ['서비스', '대응', '이', '나빠요'],
 ['제품', '에', '손상', '이', '심해', '요']]

In [None]:
# sentences : 토큰 데이터
# vector_size : 벡터의 차원 수
# window : 참고할 근처의 단어 수
# min_count : 빈도수가 1 이하인 단어는 포함하지 않게 설정
# workers : 사용할 CPU 스레드 수
# sg : 학습 알고리즘(0 : CBOW, 1 : Skip-gram)

fasttext_model = FastText(sentences = tonken_texts, vector_size = 100, window = 5, min_count = 1, workers = 4, sg = 1)

# 분석된 벡터데이터에서 해당 단어와 유사한 단어의 유사도를 출력

fasttext_model.wv.most_similar("좋아요")

[('있어요', 0.15453237295150757),
 ('비싸고', 0.13719542324543),
 ('입니다', 0.13637414574623108),
 ('의', 0.13334721326828003),
 ('필요한', 0.11915337294340134),
 ('이', 0.10063231736421585),
 ('가격', 0.0753081887960434),
 ('정말', 0.05897729471325874),
 ('엉망', 0.05094192177057266),
 ('디자인', 0.028948016464710236)]

<center>
<img src="https://arome1004.cafe24.com/images/machine_learning/word2vec01.png" width=50%>
</center>

- 토큰에 벡터값을 할당해서 특성데이터 할당

In [None]:
import numpy as np

def get_sentence_vector(tokens):

  vectors = [fasttext_model.wv[word] for word in tokens if word in fasttext_model.wv]
  return np.mean(vectors, axis=0) if vectors else np.zeros(fasttext_model.vector_size)

X = np.array([get_sentence_vector(tokens) for tokens in tonken_texts])
y = np.array(labels)

print(X)

[[-1.3982723e-03  8.7348721e-04  2.2858835e-03 ...  1.2321492e-03
   5.3302740e-04  1.4801724e-03]
 [-1.5448843e-03  2.9485970e-04  2.4470183e-04 ... -1.4771712e-04
  -5.7047309e-04  2.3577928e-03]
 [ 9.8547898e-04 -1.2829767e-04  1.0858176e-05 ... -3.0596994e-03
   7.7302690e-04  1.8243687e-03]
 ...
 [-1.6903660e-04  1.1650912e-03 -5.6157302e-04 ... -2.1907866e-03
  -2.9127390e-04  8.5379666e-04]
 [-3.1782803e-04 -2.5657583e-03  8.7379827e-04 ... -2.5713323e-03
  -2.2042534e-04  1.2613480e-03]
 [ 4.1331103e-04  1.2886156e-03  4.0561883e-04 ... -1.9073678e-03
  -6.8082707e-05  9.3037618e-04]]


In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(C = 0.01)
model.fit(X, y)
model.score(X, y)

0.9166666666666666

In [None]:
okt = Okt()
X_new1 = ["제품이 너무 나빠요"]
X_new2 = ["제품이 너무 좋아요"]

t1 = okt.morphs(X_new1[0])
t2 = okt.morphs(X_new2[0])

en_new1 = get_sentence_vector(t1)
en_new2 = get_sentence_vector(t2)

pre1 = model.predict([en_new1])
pre2 = model.predict([en_new2])

print(pre1)
print(pre2)

[0]
[1]


In [None]:
print(X)
print(model.score(X, y))
print(pre1)
print(pre2)

[[-1.3982723e-03  8.7348721e-04  2.2858835e-03 ...  1.2321492e-03
   5.3302740e-04  1.4801724e-03]
 [-1.5448843e-03  2.9485970e-04  2.4470183e-04 ... -1.4771712e-04
  -5.7047309e-04  2.3577928e-03]
 [ 9.8547898e-04 -1.2829767e-04  1.0858176e-05 ... -3.0596994e-03
   7.7302690e-04  1.8243687e-03]
 ...
 [-1.6903660e-04  1.1650912e-03 -5.6157302e-04 ... -2.1907866e-03
  -2.9127390e-04  8.5379666e-04]
 [-3.1782803e-04 -2.5657583e-03  8.7379827e-04 ... -2.5713323e-03
  -2.2042534e-04  1.2613480e-03]
 [ 4.1331103e-04  1.2886156e-03  4.0561883e-04 ... -1.9073678e-03
  -6.8082707e-05  9.3037618e-04]]
0.9166666666666666
[0]
[1]
