In [5]:
# 형태소 분석을 통해 토큰화가 진행
# TF-IDF 벡터화 진행

from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Mecab
import pickle
import pandas as pd
import pprint
import re

In [6]:
# csv형태의 데이터를 불러온다.
data = pd.read_csv('train_GJ&case.csv', header = 0, index_col = 0)
data.head()

Unnamed: 0,sentence
0,PSC거더 제작과 야적에 충분한 면적을 확보하여야 한다.
1,제작장의 지반은 부등침하가 발생하지 않도록 충분한 지지력을 확보하여야 한다.
2,제작된 PSC거더의 반출이 용이한 곳을 선정하여야 한다.
3,홍수위(H.W.L) 이상의 안전한 곳에 위치하여야 한다.
4,"풍수해의 영향, 지하매설물의 유무, 공사에 의한 공해 등의 방지에 유의하여야 한다."


In [7]:
# 리스트 형식으로 데이터를 바꿔준다.
corpuses = []
for sentence in data['sentence']:
    corpuses.append(sentence)

In [8]:
# TF-IDF를 사용해 백터화를 진행한다.
# 이와 동시에 형태소 분석도 같이 진행한다.
#def get_stopwords():
#    stopwords = list()
#    
#    f = open('./stopwords.txt', 'r', encoding='utf-8')
#    
#    while True:
#        line = f.readline()
#        if not line: break
#        stopwords.append(line.strip())
#        
#    return stopwords

In [9]:
def meacb_tokenizer(corpuses):
    mecab = Mecab(dicpath=r"C:/mecab/mecab-ko-dic")
    corpuses = re.sub(r'[^ ㄱ-ㅣ가-힣A-Za-z]', '', corpuses)   # 특수기호, 한자 제거
    return [token for token in mecab.nouns(corpuses) if len(token)>1]

In [10]:
vectorizer = TfidfVectorizer(tokenizer = meacb_tokenizer)
vectorizer.fit(corpuses)
matrix = vectorizer.transform(corpuses)

  "The parameter 'token_pattern' will not be used"


In [11]:
pprint.pprint(vectorizer.vocabulary_) # 단어 사전

{'가거': 0,
 '가거도리': 1,
 '가거도항': 2,
 '가건물': 3,
 '가격': 4,
 '가경': 5,
 '가경동': 6,
 '가곡': 7,
 '가곡면': 8,
 '가공': 9,
 '가공물': 10,
 '가공선': 11,
 '가공업': 12,
 '가공품': 13,
 '가교': 14,
 '가구': 15,
 '가급적': 16,
 '가까이': 17,
 '가네': 18,
 '가년': 19,
 '가늠': 20,
 '가능': 21,
 '가닥': 22,
 '가닥수': 23,
 '가단': 24,
 '가대': 25,
 '가도': 26,
 '가동': 27,
 '가드': 28,
 '가드레일': 29,
 '가라': 30,
 '가락': 31,
 '가락지': 32,
 '가람': 33,
 '가랑': 34,
 '가래': 35,
 '가량': 36,
 '가력': 37,
 '가련': 38,
 '가로': 39,
 '가로등': 40,
 '가로보': 41,
 '가로수': 42,
 '가로재': 43,
 '가로철근': 44,
 '가롤로': 45,
 '가료': 46,
 '가루': 47,
 '가리개': 48,
 '가리봉동': 49,
 '가릭': 50,
 '가림': 51,
 '가림막': 52,
 '가마': 53,
 '가마니': 54,
 '가마리': 55,
 '가막': 56,
 '가매': 57,
 '가면': 58,
 '가명': 59,
 '가물막이': 60,
 '가방': 61,
 '가배': 62,
 '가벽': 63,
 '가변': 64,
 '가복': 65,
 '가사': 66,
 '가산': 67,
 '가산디지털단지역': 68,
 '가상': 69,
 '가새': 70,
 '가새비': 71,
 '가선': 72,
 '가설': 73,
 '가설물': 74,
 '가설비': 75,
 '가세': 76,
 '가속': 77,
 '가속기': 78,
 '가스': 79,
 '가스관': 80,
 '가스병': 81,
 '가스총': 82,
 '가스켓': 83,
 '가스통': 84,
 '가슴': 85,
 '가슴뼈': 86,
 '가슴팍

In [12]:
import pandas as pd
df = pd.DataFrame(vectorizer.vocabulary_)
df

ValueError: If using all scalar values, you must pass an index

In [None]:
# pickle 모듈로 객체 저장
with open("mecab_tfidf_words.pickle", "wb") as f:
    pickle.dump(vectorizer.vocabulary_, f)

In [None]:
# pickle 모듈로 객체 저장2
# pickle.dump(vectorizer.vocabulary_,open("mecab_tfidf_words.pkl","wb"))  # 단어 사전 저장(미실행)

In [None]:
# pickle 모듈로 객체 불러오기

with open("mecab_tfidf_words.pickle", "rb") as f:
    mecab_tfidf_words = pickle.load(f)

mecab_tfidf_words

{'거더': 451,
 '제작': 10598,
 '야적': 7675,
 '면적': 3830,
 '확보': 13931,
 '작장': 9794,
 '지반': 11215,
 '부등': 5145,
 '침하': 12215,
 '발생': 4489,
 '지지력': 11289,
 '반출': 4439,
 '선정': 6172,
 '홍수위': 13851,
 '이상': 9231,
 '안전': 7529,
 '위치': 8850,
 '풍수해': 13118,
 '영향': 8175,
 '지하': 11315,
 '매설': 3745,
 '유무': 8911,
 '공사': 1086,
 '공해': 1148,
 '방지': 4605,
 '유의': 8944,
 '제작대': 10599,
 '기초': 1908,
 '콘크리트': 12335,
 '평탄': 12978,
 '유지': 8961,
 '설치': 6239,
 '작업': 9775,
 '강우': 339,
 '배수': 4664,
 '방향': 4625,
 '간격': 184,
 '작업자': 9788,
 '통행': 12678,
 '거푸집': 500,
 '조립': 10673,
 '해체': 13575,
 '장애': 9929,
 '불의': 5403,
 '사고': 5565,
 '전도': 10181,
 '경우': 746,
 '인근': 9368,
 '연속': 8045,
 '피해': 13219,
 '조치': 10762,
 '순서': 6851,
 '운반': 8630,
 '사용': 5644,
 '공간': 1041,
 '강재': 349,
 '긴장': 1929,
 '현상': 13685,
 '지지대': 11288,
 '자중': 9744,
 '철재': 11775,
 '중량': 11043,
 '변형': 4866,
 '설계': 6192,
 '도서': 2976,
 '표시': 13079,
 '배치': 4688,
 '양생': 7746,
 '고정': 960,
 '정착': 10520,
 '장치': 9963,
 '프리스': 13157,
 '트레스': 12739,
 '도입': 3001,
 '그라우트': 

In [None]:
pprint.pprint(matrix.toarray()) # 분석 결과

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])


In [None]:
# pickle 모듈로 객체 저장
with open("mecab_tfidf_matrix.pickle", "wb") as f:
    pickle.dump(matrix, f)

In [None]:
# pickle 모듈로 객체 불러오기

with open("mecab_tfidf_matrix.pickle", "rb") as f:
    mecab_tfidf_matrix = pickle.load(f)

mecab_tfidf_matrix.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])