In [1]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

eco_data = pd.read_csv('data/eco.csv', encoding='utf-8')
it_data = pd.read_csv('data/it.csv', encoding='utf-8')
lif_data = pd.read_csv('data/lif.csv', encoding='utf-8')
pol_data = pd.read_csv('data/pol.csv', encoding='utf-8')
soc_data = pd.read_csv('data/soc.csv', encoding='utf-8')

total_data = pd.concat([eco_data, it_data, lif_data, pol_data, soc_data])

print('done')

done


# 전처리

In [2]:
from konlpy.tag import Twitter
from sklearn.feature_extraction.text import TfidfVectorizer

data_x = total_data['title'].values
data_y = total_data['type'].values

twitter = Twitter()
tfidf_vect = TfidfVectorizer(tokenizer = lambda x: twitter.morphs(x),
                            ngram_range = (1,2), max_df=0.9)
tfidf_vect.fit(data_x)
data_x = tfidf_vect.transform(data_x)

input_size = list(data_x.shape)

print('done')

done


# 모델

In [6]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

lg_clf = LogisticRegression(random_state=0)

# 최적화의 파라미터 검색 
params = { 'C': list(np.arange(1,10,0.1)) }

grid_cv = GridSearchCV(lg_clf , param_grid=params , cv=5 ,scoring='accuracy', verbose=1 )
grid_cv.fit(data_x , data_y )

print(grid_cv.best_params_ , round(grid_cv.best_score_,4))

Fitting 5 folds for each of 90 candidates, totalling 450 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 450 out of 450 | elapsed:  5.0min finished


{'C': 6.700000000000005} 0.7948


In [36]:
import re

while True :

    title_input = input('뉴스 기사 입력 (0 입력시 종료) : ')
    if title_input == '0' : break
        
    title_input = re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', title_input) #한글, 띄어쓰기 빼고 다 제거
    title_input = [title_input, ]
    
    title_input =  tfidf_vect.transform(title_input)
    
    class_list = ['정치', '경제', '사회', '생활', 'IT']
    pred = grid_cv.best_estimator_.predict(title_input)
    
    print(class_list[pred[0]])

뉴스 기사 입력 (0 입력시 종료) : 청와대, 문 대통령 부부 반려동물과의 일상 SNS 공개
정치
뉴스 기사 입력 (0 입력시 종료) : '로켓 성장' 쿠팡 미국 뉴욕증시 상장 본격화
경제
뉴스 기사 입력 (0 입력시 종료) : 대구·경북 대체로 맑음…낮 14도~20도
사회
뉴스 기사 입력 (0 입력시 종료) : 가족들 찾지 않는 비대면 설 연휴... "노인 음주 주의해야"
생활
뉴스 기사 입력 (0 입력시 종료) : 한국에서 인기인 아이폰12 미니, 해외에서는 생산중단 위기…왜?
IT
뉴스 기사 입력 (0 입력시 종료) : [넘버스]쌍용양회, 친환경 기업 변신의 이면
정치
뉴스 기사 입력 (0 입력시 종료) : '미스트롯2' 김태연, 전 시즌 최고점…'여자 정동원' 탄생?
생활
뉴스 기사 입력 (0 입력시 종료) : "설 연휴 영향" 나흘 만에 확진자 300명대…거리두기는 완화 [종합]
사회
뉴스 기사 입력 (0 입력시 종료) : 돈 떼먹은 원청사, 설 앞두고 돈 보낸 이유가?
경제
뉴스 기사 입력 (0 입력시 종료) : 문 대통령, ‘일본어 제외’ 4개국어 새해인사…이유 있었다[이슈픽]
정치
뉴스 기사 입력 (0 입력시 종료) : 0
