In [2]:
import gensim
from gensim import models
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [3]:
# 파일 입출력 함수 선언

# 파일 Write
def write_text(doc_arr, filename):    # win/lose_filename 형태
    # string형태로 합치기
    samsung_str = '\n'.join(doc_arr[0])
    kia_str = '\n'.join(doc_arr[1])
    lotte_str = '\n'.join(doc_arr[2])
    # 파일로 쓰기
    with open(f"../../datasets/kbo_corpus/samsung_{filename}.txt", 'w') as fw:
        fw.write(samsung_str)
    with open(f"../../datasets/kbo_corpus/kia_{filename}.txt", 'w') as fw:
        fw.write(kia_str)
    with open(f"../../datasets/kbo_corpus/lotte_{filename}.txt", 'w') as fw:
        fw.write(lotte_str)

# 파일 Read
def read_text(filename):
    results = []
    with open(f"../../datasets/kbo_corpus/samsung_{filename}.txt", 'r') as fr:
        samsung = fr.read()
    results.append(samsung.split('\n'))
    with open(f"../../datasets/kbo_corpus/kia_{filename}.txt", 'r') as fr:
        kia = fr.read()
    results.append(kia.split('\n'))
    with open(f"../../datasets/kbo_corpus/lotte_{filename}.txt", 'r') as fr:
        lotte = fr.read()
    results.append(lotte.split('\n'))
    return results

In [4]:
cleaned_documents = read_text('cleaned')

In [5]:
cleaned_documents[0]

['윤성환/NNP 배영수하다/VV 체감/NNG 잘/MAG 하/XSV',
 '개귀엽/NNG',
 '삼갤/NNP 고닉/NNG 별로/MAG 없/VA',
 '구단/NNG 작년/NNG 승부/NNG 조작/NNG 알다/VV 있다/VV 거/NNB',
 '본인/NNG 개인/NNG 희망/NNG 올해/NNG 신인/NNG 드랲/NNG',
 '애초/NNG 가운데/NNG 배팅/NNG 보다/VV 던지다/VV 점수/NNG 못/MAG 내다/VV 스포츠/NNG',
 '해축/NNG 벌/NNB 고/NNG 코구/NNG 바/NNG 로/MAG 꼴/NNG 아박다/VV 그날/NNG 끊다/VV ㅋ/NNG',
 '스포츠토토/NNG 끊다/VV 힘들/VA',
 '업소다닌/NNG 거/NNB 여친/NNG 들키다/VV 헤어지다/VV 여친/NNG',
 '지르다/VV 남자/NNG 족/NNG 같/VA',
 '작년/NNG 플레이오프/NNG 보다/VV 만하다/VV 중립/NNG 입장/NNG',
 '안/NNP 지금/MAG 권핵/NNG 싸우다/VV 썰/NNG 푼다/VV 들어오다/VV',
 '월/NNB 경기/NNG 조작/NNG 여부/NNG 경찰/NNG 아직/MAG 수사/NNG 시작/NNG 안함/NNG',
 '짤남/NNP 존잘/NNG 자러가다/VV',
 '윤성환/NNP 경기/NNG 적특/NNG 처리하다/VV 이유/NNG 그냥/MAG',
 '애국/NNG 보수/NNG 알다/VV 어/NNG',
 '그렇/VA 윤성환/NNP 용서하다/VV 수/NNB 없/VA',
 '어떻/VA 읽다/VV 투수/NNG 전쟁/NNG 위/NNB 선수/NNG 까다/VV 말/NNG',
 '윤성환/NNP 담배/NNG 술/NNG 탄산/NNG 안/MAG 하다/VV 그래서/MAJ 의심하다/VV',
 '최채흥/NNP 예상/NNG',
 '야구/NNG 조작/NNG 까/VA 다/NNG 롭/VA',
 '구준범/NNP 이재익/NNP 폐급임/NNG',
 '한국/NNP 매덕스/NNP 윤성환/NNP 않다/VV',
 '솔직히/MAG 징어/NNG 승부/NNG 조작/NNG 안/MAG 하다/VV',

In [6]:
# <1> 라벨을 생성해서 X, y에 넣기
# 이 때 y값은 라벨 인코딩을 해 준다. (0 : 삼성, 1 : 기아, 2 : 롯데)
def load_data(cleaned_documents):
    X, y = [], []
    for i in range(3):
        for sen in cleaned_documents[i]:
            sentence = []
            for word in sen.split():
                lemma = word.split('/')[0] + ' '
                sentence.append(lemma.strip())
            X.append(sentence)
            y.append(i)
    
    return X, y

In [7]:
X_ori, y_ori = load_data(cleaned_documents)
X, y = [], []
for i, sen in enumerate(X_ori):
    if i % 2 == 0:
        X.append(sen)
        y.append(y_ori[i])

len(X)

28281

In [8]:
# train과 test 데이터 수집
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [9]:
# DTM 만들기
def make_DTM(X_train, X_test):
    # 사전 작성
    dictionary = gensim.corpora.Dictionary(X_train)

    #train
    corpus = [dictionary.doc2bow(sen) for sen in X_train]
    tfidf_model = models.TfidfModel(dictionary=dictionary)
    tfidf_corpus = tfidf_model[corpus]
    num_words = len(dictionary)
    num_sen = len(X_train)
    X_train_dtm = gensim.matutils.corpus2dense(tfidf_corpus, num_terms=num_words, num_docs=num_sen).T

    # test
    corpus_test = [dictionary.doc2bow(sen) for sen in X_test]
    tfidf_corpus_test = tfidf_model[corpus_test]
    num_sen_test = len(X_test)
    X_test_dtm = gensim.matutils.corpus2dense(tfidf_corpus_test, num_terms=num_words, num_docs=num_sen_test).T
    
    return X_train_dtm, X_test_dtm

In [10]:
X_train_dtm, X_test_dtm = make_DTM(X_train, X_test)

In [11]:
def fit_and_predict(X_train_dtm, X_test_dtm, y_train, y_test):
    clf = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=200)
    clf.fit(X_train_dtm, y_train)
    y_pred = clf.predict(X_test_dtm)
    print(classification_report(y_test, y_pred))
    print(confusion_matrix(y_test, y_pred))
    
    return clf, y_pred

In [12]:
clf, y_pred = fit_and_predict(X_train_dtm, X_test_dtm, y_train, y_test)

              precision    recall  f1-score   support

           0       0.65      0.66      0.66      2521
           1       0.72      0.48      0.58      1760
           2       0.64      0.76      0.70      2790

    accuracy                           0.66      7071
   macro avg       0.67      0.64      0.64      7071
weighted avg       0.66      0.66      0.65      7071

[[1674  168  679]
 [ 399  851  510]
 [ 503  161 2126]]


In [15]:
id2label = {0 : '삼성', 1 : 'KIA', 2 : '롯데'}
for i in range(100, 110):
    print(f'X : {X_test[i]}')
    print(f'real_y : {id2label[y_test[i]]}')
    print(f'pred_y : {id2label[y_pred[i]]}')

X : ['근데', '군', '올라오다', '투수', '왜', '다', '성', '안찰']
real_y : 롯데
pred_y : 삼성
X : ['내일', '문학', '야구장', '날씨']
real_y : 삼성
pred_y : 삼성
X : ['아', '섭', 'ㅋ']
real_y : KIA
pred_y : 롯데
X : ['외', '퉁조던터커']
real_y : KIA
pred_y : 롯데
X : ['하', '식객', '다음', '경기', '어', '떨', '거', '같']
real_y : KIA
pred_y : 삼성
X : ['머구', '김천', '가', '좋', '않다']
real_y : 삼성
pred_y : 삼성
X : ['좆', '윤석', '빠다', '따', '다', '죽다', 'ㅅㅂ']
real_y : 롯데
pred_y : 롯데
X : ['박세혁', '복귀', '하다', '마', '헤드', '샷', '또', '맞다']
real_y : 롯데
pred_y : 롯데
X : ['올스타', '투표', '어떻', '함']
real_y : 롯데
pred_y : 삼성
X : ['오늘', '홍정우', '출근', '하다']
real_y : 삼성
pred_y : 삼성
