In [10]:
# 형태소 분석을 통해 토큰화가 진행
# TF-IDF 벡터화 진행

from sklearn.feature_extraction.text import TfidfVectorizer
import sentencepiece as spm
import pickle
import pandas as pd
import pprint
import re

In [2]:
# csv형태의 데이터를 불러온다.
data = pd.read_csv('train_GJ&case.csv', header = 0, index_col = 0)
data.head()

Unnamed: 0,sentence
0,PSC거더 제작과 야적에 충분한 면적을 확보하여야 한다.
1,제작장의 지반은 부등침하가 발생하지 않도록 충분한 지지력을 확보하여야 한다.
2,제작된 PSC거더의 반출이 용이한 곳을 선정하여야 한다.
3,홍수위(H.W.L) 이상의 안전한 곳에 위치하여야 한다.
4,"풍수해의 영향, 지하매설물의 유무, 공사에 의한 공해 등의 방지에 유의하여야 한다."


In [3]:
# 리스트 형식으로 데이터를 바꿔준다.
corpus = []
for sentence in data['sentence']:
    corpus.append(sentence)

In [4]:
# TF-IDF를 사용해 백터화를 진행한다.
# 이와 동시에 형태소 분석도 같이 진행한다.
#def get_stopwords():
#    stopwords = list()
#    
#    f = open('./stopwords.txt', 'r', encoding='utf-8')
#    
#    while True:
#        line = f.readline()
#        if not line: break
#        stopwords.append(line.strip())
#        
#    return stopwords

In [5]:
def sp_tokenizer(text):
    sp = spm.SentencePieceProcessor()
    text = re.sub(r'[^ ㄱ-ㅣ가-힣A-Za-z]', '', text) # 특수기호, 한자 제거
    vocab_file = "all_unigram.model"
    sp.load(vocab_file)
    #stopwords = get_stopwords() # 불용어
    return [token for token in sp.encode_as_pieces(text)]

In [6]:
vectorizer = TfidfVectorizer(tokenizer = sp_tokenizer)
vectorizer.fit(corpus)
matrix = vectorizer.transform(corpus)


  "The parameter 'token_pattern' will not be used"


In [7]:
pprint.pprint(vectorizer.vocabulary_) # 단어 사전

{'a': 0,
 'able': 1,
 'ack': 2,
 'ag': 3,
 'ain': 4,
 'al': 5,
 'ap': 6,
 'ase': 7,
 'ast': 8,
 'atch': 9,
 'ax': 10,
 'b': 11,
 'bar': 12,
 'beam': 13,
 'c': 14,
 'ch': 15,
 'ck': 16,
 'cm': 17,
 'ct': 18,
 'd': 19,
 'e': 20,
 'ead': 21,
 'ear': 22,
 'eck': 23,
 'ed': 24,
 'el': 25,
 'end': 26,
 'ent': 27,
 'er': 28,
 'et': 29,
 'f': 30,
 'g': 31,
 'ge': 32,
 'gg': 33,
 'h': 34,
 'i': 35,
 'ic': 36,
 'ide': 37,
 'imb': 38,
 'ing': 39,
 'ip': 40,
 'it': 41,
 'j': 42,
 'k': 43,
 'kg': 44,
 'kgf': 45,
 'km': 46,
 'l': 47,
 'la': 48,
 'le': 49,
 'ler': 50,
 'lo': 51,
 'lock': 52,
 'lux': 53,
 'm': 54,
 'mm': 55,
 'n': 56,
 'nch': 57,
 'nter': 58,
 'o': 59,
 'oa': 60,
 'oe': 61,
 'oil': 62,
 'on': 63,
 'oo': 64,
 'ool': 65,
 'or': 66,
 'ose': 67,
 'ot': 68,
 'owe': 69,
 'p': 70,
 'pe': 71,
 'per': 72,
 'pile': 73,
 'q': 74,
 'r': 75,
 'ray': 76,
 'rd': 77,
 're': 78,
 'ri': 79,
 'ro': 80,
 'russ': 81,
 'ry': 82,
 's': 83,
 'slab': 84,
 'sta': 85,
 't': 86,
 'to': 87,
 'ton': 88,
 'u': 89,


In [11]:
# pickle 모듈로 객체 저장
with open("sen_tfidf_words.pickle", "wb") as f:
    pickle.dump(vectorizer.vocabulary_, f)

In [8]:
pprint.pprint(matrix.toarray()) # 분석 결과

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])


In [12]:
# pickle 모듈로 객체 저장
with open("sen_tfidf_matrix.pickle", "wb") as f:
    pickle.dump(matrix, f)