In [1]:
from sklearn.datasets import load_files
import pandas as pd
from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
import pickle
import re
import konlpy
import nltk
import numpy as np

In [2]:
def clean_korean_documents(documents):
    #텍스트 정제 (HTML 태그 제거)
    for i, document in enumerate(documents):
        document = BeautifulSoup(document, 'html.parser').text 
        documents[i] = document

    #텍스트 정제 (특수기호 제거)
    for i, document in enumerate(documents):
        document = re.sub(r'[^ ㄱ-ㅣ가-힣]', '', document) #특수기호 제거, 정규 표현식
        documents[i] = document
        
    #텍스트 정제 (형태소 분석)
    for i, document in enumerate(documents):
        okt = konlpy.tag.Okt()
        clean_words = []
        for word in okt.pos(document, stem=True): #어간 추출
            if word[1] in ['Noun', 'Verb', 'Adjective']: #명사, 동사, 형용사
                clean_words.append(word[0])
        document = ' '.join(clean_words)
        documents[i] = document
        
    #텍스트 정제 (불용어 제거)
    df = pd.read_csv('https://raw.githubusercontent.com/cranberryai/todak_todak_python/master/machine_learning_text/clean_korean_documents/korean_stopwords.txt', header=None)
    df[0] = df[0].apply(lambda x: x.strip())
    stopwords = df[0].to_numpy()
    nltk.download('punkt')
    for i, document in enumerate(documents):
        clean_words = [] 
        for word in nltk.tokenize.word_tokenize(document): 
            if word not in stopwords: #불용어 제거
                clean_words.append(word)
        documents[i] = ' '.join(clean_words)  
        
    return documents

##########데이터 로드

naver_news = load_files('D:/webservice/final/whatthispills/ml/newsData/', shuffle=True)

labels = ['정치', '경제', '사회', '생활/문화', '세계', '기술/IT', '연예', '스포츠']

##########데이터 분석

##########데이터 전처리

x_data = naver_news.data
x_data = x_data[:2] #데이터를 50개로 제한

x_data = [x.decode('utf-8') for x in x_data] #바이트를 문자열로 바꾸기
x_data = clean_korean_documents(x_data) #텍스트 정제

[nltk_data] Downloading package punkt to C:\Users\hi-
[nltk_data]     sinchon\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
tfidf = TfidfVectorizer()
tfidf.fit(x_data)

In [4]:
x_data[0:2]

['가능하다 있다 있다 아니다 있다 아니다 고급스럽다',
 '뚜렷하다 어떻다 다르다 아니다 이다 이다 이다 좋다 자세하다 있다 좋다 좋아하다 있다 편하다 이다 있다 필요하다 있다 있다 기발하다 새롭다 있다 이다']

In [115]:
df = pd.DataFrame(tfidf.transform(x_data).toarray(), columns=tfidf.vocabulary_)
df.head()

Unnamed: 0,가능하다,있다,아니다,고급스럽다,뚜렷하다,어떻다,다르다,이다,좋다,자세하다,좋아하다,편하다,필요하다,기발하다,새롭다
0,0.341371,0.341371,0.0,0.0,0.0,0.0,0.485777,0.0,0.0,0.728665,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.132767,0.132767,0.132767,0.132767,0.094465,0.132767,0.663834,0.566788,0.132767,0.265534,0.132767,0.132767,0.132767


In [116]:
df.iloc[0].sort_values(ascending=False)

자세하다     0.728665
다르다      0.485777
가능하다     0.341371
있다       0.341371
아니다      0.000000
고급스럽다    0.000000
뚜렷하다     0.000000
어떻다      0.000000
이다       0.000000
좋다       0.000000
좋아하다     0.000000
편하다      0.000000
필요하다     0.000000
기발하다     0.000000
새롭다      0.000000
Name: 0, dtype: float64

In [117]:
df.iloc[1].sort_values(ascending=False)

좋다       0.663834
자세하다     0.566788
편하다      0.265534
아니다      0.132767
고급스럽다    0.132767
뚜렷하다     0.132767
어떻다      0.132767
이다       0.132767
좋아하다     0.132767
필요하다     0.132767
기발하다     0.132767
새롭다      0.132767
다르다      0.094465
가능하다     0.000000
있다       0.000000
Name: 1, dtype: float64