***데이터 가져오기***

In [3]:
import pandas as pd
temp = pd.read_csv('/Users/wonbinchoi/AutoNewsDB/뉴스.csv')
print(temp.shape)
temp.head()

(17494, 9)


Unnamed: 0,news_id,title,writer,content,writed_at,url,main_category,sub_category,platform
0,346630,"정부, '우주항공청' 연내 개청…백지신탁 예외 등 특혜 쏟는다",,\n [서울=뉴시스] 정부가 올해 중 우리나라의 우주항공 분야 연구개발(R&D)을 ...,2023-03-02 00:00:00,,IT/과학,IT 일반,네이버
1,346633,우주항공청 전문가 영입 `연봉 10억·외국인 허용`,이준기,\n '한국형 NASA(미 항공우주국)'로 출범하는 우주항공청이 최고의 민간 전문가...,2023-03-02 00:00:00,,IT/과학,IT 일반,네이버
2,347804,"박정호의 투자유치 '매직'…""SK쉴더스 IPO보다 더 이득""",선한결,"\n ""SK쉴더스의 기업공개(IPO)를 철회해서 아쉬웠는데, IPO보다 더 높은 가...",2023-03-01 18:03:05,,IT/과학,IT 일반,네이버
3,347806,글·그림·로고 제작·번역...인공지능에 다 맡겨 보니,,\n 최근 텍스트 생성 인공지능(AI) 챗봇 챗GPT(ChatGPT)를 이용해 만든...,2023-03-01 18:02:03,,IT/과학,IT 일반,네이버
4,347807,"LG엔솔-혼다, 美 배터리 공장 '첫삽'…기공식 개최",이한얼,\n LG에너지솔루션은 28일(현지시간) 오하이오 주 파이에트 카운티 제퍼슨빌 인근...,2023-03-01 18:26:01,,IT/과학,IT 일반,네이버


***전처리 코드***

In [56]:
import re
import string
import numpy as np

temp = temp[temp['content'].notnull()] # content가 null 인 경우가 있음. 

def remove_punct(text):
    """
    지우지 않는 punctuation 빼고 나머지 삭제 
    """
    
    # string의 translate() 메소드를 사용하여 punctuation 제거
    remove_punct_dict = dict((ord(i), " ") for i in string.punctuation \
                             if i not in [".",])
    
    return text.translate(remove_punct_dict)

def remove_unrelated_contents(text):
    
    if '별세' in text:
        text = ' '
    else:
        text = text
    return text

def preprocessing_contents(text):
    
    text = remove_unrelated_contents(text)
    
    text = re.sub('[▶△▶️◀️▲▷ⓒ■◆●©️]', '', text) # remove unnecessary markers
    text = re.sub('(\[\w+)\s?\w+\s?(\w+\])', '', text) # remove_reporter_01
    text = re.sub('(\(\w+)=(\w+\))(\s+\w+\s+\w+\s+)=', '', text) # remove_reporter_02
    text = re.sub('(\【)\w+\(\w+\)=\w+\s+\w+(\】)', '', text) # remove_reporter_03
    text = re.sub('(\[\w+\s?)=?(\s?\w+\])', ' ', text) # remove_reporter_03
    text = re.sub('(\<)\w+\s*\d-?\d?(\>)', "", text)
    text = re.sub('(\<.+):(.+\>)', "", text)
    
    text = re.sub('(\w+)@(\w+).(\w+).(\w+)', ' ', text) # remove emails
    text = re.sub("(트위터\s+)(@)(\w+)", " ", text) # remove twitter accounts
#     text = re.sub("(\w+).(\w+)/(\w+)", " ", text) # remove facebook accounts
    text = text.replace('페이스북 /LeYN1', '')
    
    text = re.sub('(더 많은 글로벌투자).*', ' ', text) # remove uncessary words
    text = re.sub("(#[\w+]).*", "", text)
    
    # last steps
    text = remove_punct(text) # remove punctuation
    text = re.sub('[ ]{2,}', ' ', text) # remove redundant empty spaces
    text = text.strip() # strip empty spaces 
        
    return text

def remove_useless_docs():
    """
    중복되는 문서 혹은 빈 문서들을 없애는 함수입니다.
    """
    
    
    
    
    
# remove_unrelated_contents 사용
docs = temp['content'][100:200].apply(lambda x: preprocessing_contents(x)).tolist()
print(len(docs))


100


***토큰화 코드***

In [None]:
from konlpy.tag import Mecab
from sklearn.feature_extraction.text import TfidfVectorizer

# 토큰화 => pos tagging => 품사 중 N과 V만 가져오는 함수. 
def mecab_preprocessor(text):
    mecab = Mecab()
    tokens = mecab.morphs(text)
    
    posed_list = []
    for token in tokens:
        posed_list += mecab.pos(token)
        
    return " ".join([token[0] for token in posed_list if token[1][0] in ['N', 'V']])
    
def return_preprocessed_docs(doc):
    preprocessed_docs = []
    for doc in docs:
        preprocessed_docs.append(mecab_preprocessor(doc))
    return preprocessed_docs

preprocessed_docs = return_preprocessed_docs(docs)

***피처 벡터화 코드***

In [57]:
def sort_keywords(keywords):
    return sorted(zip(keywords.col, keywords.data), key=lambda x: (x[1], x[0]), reverse=True)
 
def extract_keywords(feature_names, sorted_keywords, n=5):
    return [(feature_names[idx], score) for idx, score in sorted_keywords[:n]]


# def tfidf_pipeline():
    
stop_words = [
    '대표', '야구'
]

tfidf_vect = TfidfVectorizer(stop_words=stop_words, min_df=2, max_df=.96, max_features=10000,
                             ngram_range=(1,2))
ftr_vect = tfidf_vect.fit_transform(preprocessed_docs)
sorted_keywords = sort_keywords(ftr_vect.tocoo())
feature_names = tfidf_vect.get_feature_names_out()

keywords = extract_keywords(feature_names, sorted_keywords, 5)
keywords_list = [keyword_tuple[0] for keyword_tuple in keywords]
keywords_list

['배터리', '우주', '개발자', '게임', '바이오']