# Feature extraction (text)

컴퓨터는 숫자로 모든 것을 연산


=> 그럼 텍스트, 이미지 등 비정형 데이터를 수치화 해줘야 합니다.


텍스트 같은 것을 어떻게 수치화를 시킬 수 있을까?

In machine learning,

1. Counvectorizer (BoW)

2. TF-IDF

3. word2vec

(co-occurrence, GloVe, fastText...)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 1. CountVectorizer (bag of words = BoW)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]

In [None]:
vectorizer1 = CountVectorizer(stop_words='english')
# 'stop_words' 에 포함되어 있는 단어 제거하여 데이터 처리 -> 제거된 단어는 중요도 낮음
vectorizer2 = CountVectorizer()

In [None]:
x_feature1 = vectorizer1.fit_transform(corpus)
x_feature2 = vectorizer2.fit_transform(corpus)
# fit(학습시키고)_transform(적용) -> 텍스트 데이터를 수치로 변환

In [None]:
print("stop words 적용: ", vectorizer1.get_feature_names_out())
print("stop words 미적용: ", vectorizer2.get_feature_names_out())
# 말뭉치 안에 어떤 단어가 있는지 알 수 O

stop words 적용:  ['document' 'second']
stop words 미적용:  ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']


In [None]:
print("vectorizer1.vocabulary_", vectorizer1.vocabulary_)
print("vectorizer2.vocabulary_", vectorizer2.vocabulary_)
# 각각의 단어가 어떤 숫자와 매칭되었는지 알 수 O

vectorizer1.vocabulary_ {'document': 0, 'second': 1}
vectorizer2.vocabulary_ {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}


In [None]:
print(x_feature1.toarray())
# x_feature1 넘파이 형태로 정렬
# 첫번째 문장에서 'document(0)' 1번 등장, 'second(1)' 0번 등장 -> [1 0]
print("x_feature1.shape", x_feature1.shape)
# 말뭉치 크기(4개의 텍스트 데이터) 4 / 단어수 2

print()
print("*"*50)
print()

print(x_feature2.toarray())
print("x_feature2.shape", x_feature2.shape)
# 말뭉치 크기(4개의 텍스트 데이터) 4 / 단어수 9

[[1 0]
 [2 1]
 [0 0]
 [1 0]]
x_feature1.shape (4, 2)

**************************************************

[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]
x_feature2.shape (4, 9)


# 2. TfidfVectorizer (Term Frequency - Inverse Document Frequency = TF-IDF)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]

In [None]:
tfidf_vectorizer1 = TfidfVectorizer(stop_words='english')
tfidf_vectorizer2 = TfidfVectorizer()

In [None]:
x_tfidf_feature1 = tfidf_vectorizer1.fit_transform(corpus)
x_tfidf_feature2 = tfidf_vectorizer2.fit_transform(corpus)

In [None]:
print("stop words 적용: ", tfidf_vectorizer1.get_feature_names_out())
print("stop words 미적용: ", tfidf_vectorizer2.get_feature_names_out())

stop words 적용:  ['document' 'second']
stop words 미적용:  ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']


In [None]:
print("tfidf_vectorizer1.vocabulary_", tfidf_vectorizer1.vocabulary_)
print("tfidf_vectorizer2.vocabulary_", tfidf_vectorizer2.vocabulary_)

tfidf_vectorizer1.vocabulary_ {'document': 0, 'second': 1}
tfidf_vectorizer2.vocabulary_ {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}


In [None]:
print(x_tfidf_feature1.toarray())
# 빈도 뿐만 아니라 가중치 곱해줘서 float 형태의 값
print("x_tfidf_feature1.shape", x_tfidf_feature1.shape)

print()
print("*"*50)
print()

print(x_tfidf_feature2.toarray())
print("x_tfidf_feature2.shape", x_tfidf_feature2.shape)

[[1.         0.        ]
 [0.78722298 0.61666846]
 [0.         0.        ]
 [1.         0.        ]]
x_tfidf_feature1.shape (4, 2)

**************************************************

[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]
x_tfidf_feature2.shape (4, 9)


# 3. Word2vec

사전학습을 통해서 단어 자체의 특징을 파악하고 이를 기반으로 벡터화

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('movie_reviews')
nltk.download('punkt')
# nltk에 내장되어 있는 데이터

# GoogleNews-vectors-negative300.bin (3.64GB)

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from nltk.corpus import movie_reviews

sentences = [sentence for sentence in movie_reviews.sents()]
print("데이터의 개수 : ", len(sentences))

데이터의 개수 :  65258


In [None]:
# 특징은 이전의 feature extraction은 string 타입으로 그대로 들어갔지만, word2vec은 문장이 분리된 리스트 형식으로 되어있다.
print("첫 번째 문장: ", sentences[0])
print("두 번째 문장: ", sentences[1])
print("세 번째 문장: ", sentences[2])

첫 번째 문장:  ['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.']
두 번째 문장:  ['they', 'get', 'into', 'an', 'accident', '.']
세 번째 문장:  ['one', 'of', 'the', 'guys', 'dies', ',', 'but', 'his', 'girlfriend', 'continues', 'to', 'see', 'him', 'in', 'her', 'life', ',', 'and', 'has', 'nightmares', '.']


In [None]:
from gensim.models.word2vec import Word2Vec

In [None]:
model = Word2Vec(
    sentences, # 훈련 데이터
    size=100, # 임베딩되는 feature 차원, 밀집벡터 사용 -> 사용자가 지정한 벡터 안에서 임의의 숫자 배열을 갖도록 -> 메모리 효율적으로 사용
    window=3, # 앞, 뒤 참고한 window size
    min_count=2, # 최소 몇 개 이상의 단어만 학습 (빈도 수)
    sg=0 # 0:CBOW, 1: Skip-gram // Skip-gram 주로 사용함
         # CBOW : 주변 단어로부터 중심 단어 예측, Skip-gram : 중심 단어로부터 주변 단어 예측
)

In [None]:
model.wv["boy"] # 100개의 숫자 배열 <- vector값 100으로 지정했기 때문

array([ 0.0463526 ,  0.05596686,  1.1658499 ,  0.5400762 ,  0.13365205,
        0.43064526,  0.13295141,  0.65371543,  0.33217227,  0.39363936,
       -0.07707359,  0.09118541,  0.07962697, -0.91490304,  0.0456378 ,
        0.36086625, -0.30720994, -0.65494657, -0.53855294,  0.42119512,
       -0.7573053 ,  0.29289842, -0.2886416 ,  0.5051814 ,  0.12439121,
        0.16358955, -0.31083193,  1.0014738 , -0.3030906 ,  0.2974461 ,
        0.5291058 , -0.6910716 , -0.6946477 ,  0.7125345 ,  0.18510821,
        0.11375406,  0.18526042, -0.53266776,  0.14899991,  0.3395304 ,
        0.9702873 ,  0.47977647,  0.54670686,  0.12127947, -0.8249509 ,
       -0.36043286,  0.2240911 , -0.19096334, -0.67729527,  0.11651582,
       -0.44727987, -0.07245578,  0.20716858, -0.7326417 , -0.0569933 ,
        1.2967694 ,  0.4261544 ,  0.4887854 ,  0.3707642 ,  1.0475495 ,
       -0.10580218,  0.09402613,  0.8971952 ,  0.41660914,  0.2685957 ,
       -0.06385669, -0.9313789 ,  0.0587494 , -0.42318323,  0.92

In [None]:
model.wv["girl"]

array([-0.03649522, -0.00327964,  1.4233825 ,  0.7627118 ,  0.39884672,
        0.71130526,  0.2781    ,  0.91277575,  0.511855  ,  0.41531423,
       -0.12712017,  0.2538655 ,  0.12975343, -0.6790647 ,  0.23330514,
        0.5912425 , -0.408721  , -0.37012   , -0.5851437 ,  0.40776592,
       -0.85477185,  0.25165856, -0.04436597,  0.67325115,  0.00438202,
       -0.19666697, -0.16747472,  1.0922521 , -0.34229648,  0.5135737 ,
        0.57664096, -0.5778033 , -1.0124462 ,  0.36500064, -0.2573582 ,
        0.10307404,  0.00931444, -0.8045313 ,  0.2112147 , -0.1712776 ,
        1.0118613 ,  0.84924716,  0.8369726 ,  0.38378933, -0.7703763 ,
       -0.16486397,  0.4162946 ,  0.34581313, -0.65272415,  0.0431638 ,
       -0.67846507,  0.25960073,  0.36354893, -1.1931562 , -0.17079467,
        1.4210279 ,  0.584593  ,  0.5923619 ,  0.20477338,  0.82583505,
       -0.2759219 ,  0.28943646,  0.9383572 ,  0.01815724,  0.03284256,
        0.13842168, -1.0658996 , -0.14645818, -0.40409532,  1.01

In [None]:
model.wv.most_similar('boy') # boy와 연관된 단어 찾아줌

[('girl', 0.922755241394043),
 ('woman', 0.8658361434936523),
 ('kid', 0.841556191444397),
 ('man', 0.8287143707275391),
 ('lady', 0.814577579498291),
 ('cop', 0.813148021697998),
 ('lawyer', 0.8074744343757629),
 ('dog', 0.8045105934143066),
 ('doctor', 0.8012827634811401),
 ('child', 0.7958991527557373)]

In [None]:
model.save("/content/drive/MyDrive/study.model")

In [None]:
model1 = Word2Vec.load('/content/drive/MyDrive/study.model')
# 이전에 사전 훈련시켰던 모델 로드해서 다음에 사용할 수 O

In [None]:
model1.wv['boy']

array([ 0.0463526 ,  0.05596686,  1.1658499 ,  0.5400762 ,  0.13365205,
        0.43064526,  0.13295141,  0.65371543,  0.33217227,  0.39363936,
       -0.07707359,  0.09118541,  0.07962697, -0.91490304,  0.0456378 ,
        0.36086625, -0.30720994, -0.65494657, -0.53855294,  0.42119512,
       -0.7573053 ,  0.29289842, -0.2886416 ,  0.5051814 ,  0.12439121,
        0.16358955, -0.31083193,  1.0014738 , -0.3030906 ,  0.2974461 ,
        0.5291058 , -0.6910716 , -0.6946477 ,  0.7125345 ,  0.18510821,
        0.11375406,  0.18526042, -0.53266776,  0.14899991,  0.3395304 ,
        0.9702873 ,  0.47977647,  0.54670686,  0.12127947, -0.8249509 ,
       -0.36043286,  0.2240911 , -0.19096334, -0.67729527,  0.11651582,
       -0.44727987, -0.07245578,  0.20716858, -0.7326417 , -0.0569933 ,
        1.2967694 ,  0.4261544 ,  0.4887854 ,  0.3707642 ,  1.0475495 ,
       -0.10580218,  0.09402613,  0.8971952 ,  0.41660914,  0.2685957 ,
       -0.06385669, -0.9313789 ,  0.0587494 , -0.42318323,  0.92