In [9]:
from bs4 import BeautifulSoup as bs
import requests
import sys
from PyQt5.QtWidgets import *
from PyQt5 import uic
from PyQt5.QtGui import QPixmap
import os

In [10]:
import collections
from nltk.corpus import stopwords
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from nltk.tokenize import sent_tokenize
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Okt


def get_sentences(highlights, abstract):
    sentence = highlights + abstract
    sentences = sent_tokenize(sentence)
    sentences = [x.strip() for x in sentences]
    print(sentences)
    return sentences

def get_association(keyword, tokens,lang):
    if lang == "Eng":
        count_tokens = collections.Counter(tokens)
        keyword = keyword.lower()
    elif lang == "Kor":
        count_tokens = collections.Counter(tokens)
    return count_tokens[keyword]
def get_kr_stopwords():
    '''
    >>>input : x , 파일경로를 이용해 불용어 파일 읽기
    >>>output : 불용어 모음 리스트
    '''
    with open('article_analysis/Projects/한국어불용어.txt',encoding='utf-8') as f:
        stopwords = f.read()
    stopwords = stopwords.split(' ')[0]
    stopwords = stopwords.split('\n')
    return stopwords

def get_tokens(highlights, abstract, keywords,lang):
    tokens = list()
    if lang =="Eng":
        # 다른 토크나이징 함수
        # word_tokenize(highlights)
        # TreebankWordTokenizer().tokenize(highlights)
        # WordPunctTokenizer().tokenize(highlights)
        highlights_token = text_to_word_sequence(highlights)
        abstract_token = text_to_word_sequence(abstract)
        keywords_token = text_to_word_sequence(keywords)
        raw_tokens = highlights_token + abstract_token + keywords_token
        for token in raw_tokens:
            if token not in stopwords.words('english'):
                if len(token) > 2:
                    tokens.append(token)
    elif lang =="Kor":
        kr_stopwords = get_kr_stopwords()
        # sequence_tag = Okt()
        # sequence_tag = Hannanum()
        sequence_tag = Kkma()
        # print(highlights)

        highlights_token = sequence_tag.morphs(highlights)
        abstract_token = sequence_tag.morphs(abstract)
        keywords_token = sequence_tag.morphs(keywords)
        raw_tokens = highlights_token + abstract_token + keywords_token
        for token in raw_tokens:
            if token not in kr_stopwords:
                tokens.append(token)
    return tokens

In [11]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import networkx as nx
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from apyori import apriori
from myFunc import *
import os
import re
PATH = os.getcwd() + '\\article_analysis\\Projects\\'
def get_wordcloud(tokens):
    wordcloud = WordCloud(background_color='white').generate(" ".join(tokens))
    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud, interpolation='lanczos')
    plt.axis('off')
    plt.savefig(PATH+'wordcloud.png', bbox_inches='tight')



def get_NG(sentences):

    df = pd.DataFrame(sentences, columns=['content'])
    nan_value = float("NaN")
    # 결측값 제거
    df.replace(" ", nan_value, inplace=True)
    df.dropna(subset=['content'], inplace=True)
    # 소문자로 통일
    # def lower_alpha(x): return re.sub(r"""\w*\d\w*""", ' ', x.lower())
    # df['content'] = df.content.map(lower_alpha)

    # 특수문자 제거
    # def punc_re(x): return re.sub(r"""[\.,—“”’:;#$?%!&()_'`*""˜{|}~-]""", ' ', x)
    # df['content'] = df.content.map(punc_re)

    def num_re(x): return re.sub(r"""[0-9]""", '', x)

    def short_re(tokens):
        result = list()
        for token in tokens:
            if len(token) > 2:
                result.append(token)
        return result

    df['content'] = df.content.map(num_re)

    # 각 문장을 문장별로 토크나이징

    df['tokens'] = df.content.map(word_tokenize)
    df['tokens'] = df.tokens.map(short_re)

    # remove stop words in tokens
    stop_words = stopwords.words('english')
    new_stop_words = ['said', 'say', 'The', 'the', 'mr']
    stop_words.extend(new_stop_words)
    def stop_lambda(x): return [y for y in x if y not in stop_words]

    df['remove_stopword'] = df.tokens.apply(stop_lambda)
    # DF에서 빈 칸인 공백인 데이터 삭제
    df.dropna(inplace=True)

    idx = df[df['remove_stopword'].apply(lambda x: len(x)) == 0].index
    df = df.drop(idx)

    # Perform basic lemmatization 단어를 기본형태로 변환 ex) 복수형->단수형
    # lemmatizer = WordNetLemmatizer()
    # def lemmatizer_lambda(x): return [lemmatizer.lemmatize(y) for y in x]
    # df['token_lemma_simple'] = df.tokens_stop.apply(lemmatizer_lambda)

    # Perform lemmitization considering parts of speech tagging
    #  각 token의 종류 지정
    # def pos_lambda(x): return nltk.pos_tag(x)
    # df['tokens_pos'] = (df.tokens_stop.apply(pos_lambda))
    # df.head()
    # NN: Noun, singular or mass
    # NNS: Noun, plural
    # IN: Preposition or subordinating conjunction
    # JJ: Adjective
    # RB: Adverb

    # http://blog.daum.net/geoscience/1408
    # APory Alg
    result = (list(apriori(df['remove_stopword'])))
    ap_df = pd.DataFrame(result)
    ap_df['length'] = ap_df['items'].apply(lambda x: len(x))
    ap_df = ap_df[(ap_df['length'] == 2) & (ap_df['support'] >= 0.01)
                  ].sort_values(by='support', ascending=False)

    # 그래프 그리기
    G = nx.Graph()
    ar = ap_df['items']
    G.add_edges_from(ar)

    pr = nx.pagerank(G)
    nsize = np.array([v for v in pr.values()])
    nsize = 4000 * ((nsize - min(nsize)) / (max(nsize)-min(nsize)))
    # Graph Layout
    # pos = nx.planar_layout(G)
    pos = nx.fruchterman_reingold_layout(G)
    pos = nx.spectral_layout(G)
    pos = nx.random_layout(G)
    pos = nx.shell_layout(G)
    # pos = nx.bipartite_layout(G)
    pos = nx.circular_layout(G)
    pos = nx.spring_layout(G)
    pos = nx.kamada_kawai_layout(G)
    # pos = nx.rescale_layout(G)

    plt.figure(figsize=(16, 12))
    plt.axis('off')

    nx.draw_networkx(G, font_size=16, pos=pos, node_color=list(
        pr.values()), node_size=nsize, alpha=0.7, edge_color='.5', cmap=plt.cm.YlGn)
    plt.savefig(PATH+'networkgraph.png', bbox_inches='tight')



In [12]:
text  = open('C:/Users/jlee/Downloads/미래로 가는 길.txt',encoding='euc-kr').read()
text.replace('\\n','')
highlights = [text][0].replace('\n','')
abstract = [text][0].replace('\n','')
keywords = "안녕.그래"
lang = 'Kor'
sentence = get_sentences(highlights,abstract)
print(sentence)

['빌 게이츠  마이크로소프트사의 회장이자 최고 경영자다.', '1955년 미국 시애틀에서 태어나 13세 때부터 프로그래밍을 하기 시작했다.', '1973년 하버드 대학에 입학했으나 장차 개인용 컴퓨터가 모든 사무실과 가정에 중요한 도구로 자리잡게 될 것을 예견, 1975년 학교를 그만두고 폴 앨런과 함께 마이크로소프트사를 설립했다.', '빌 게이츠는 탁월한 비전과 끊임 없는 연구로 보다 많은 사람이 보다 쉽고 재미있게 소프트웨어를 이용할 수 있도록 하였으며 컴퓨터 산업을 눈부신 발전과 진보의 길로 이끌었다.', '빌 게이츠가 마이크로소프트사에서 개발한 주요 소프트웨어로는 엠에스도스, 엑셀, 윈도우 등이 있다.제1장 혁명이 시작된다  나는 열세 살 때 처음으로 소프트웨어를 만들었다.', '삼목(틱-택-톡: 3개의 O또는 X를 연달아놓으면 이기는 서양식 오목-역주)놀이를 하기 위해서였다.', '내가 사용하던 컴퓨터는 크기가 커서 부담스러웠으며 느리고 아주 일방적이었다.', '나는 그때 레이크사이드에 있는 사립학교를 다니고 있었는데, 육성회에서 어머니들이 아이들을위해 컴퓨터를 한 대 들여놓자는 아이디어를 내놓았다.', '어머니들은 자선 바자에서 나온 수익금으로 단말기 한 대를 구입하고 학생들의 컴퓨터 사용료를 내주기로 결정했다.', '1960년대 말 시애틀에 거주하는 학생들이 컴퓨터에 접할 수 있는 기회를 갖는다는 것은 참으로 기적에 가까운 일이었다.', '나는 늘 그 점에 대해 감사하고 있다.', '이 컴퓨터 단말기에는 모니터가 없었다.', '놀이를 할 때, 우리는 순서대로 타자기처럼 생긴 키보드의 자판을 누른 다음 얌전히 앉아서 프린터가 치리릭치리릭 시끄러운 소리를 내며 결과를 종이에 찍어 보여줄 때까지 기다렸다.', '결과가 나오면 우리는 냅따 그리로 뛰어가서 누가 이겼는지를 확인하거나 아니면 자판을 눌러 다음 칸을 메꾸었다.', '연필과 종이로 30초면 너끈히 해치울 수 있는 삼목놀이로 점심시간을 몽땅 허비하는 경우도 있었다.', '그러나 아무도 불평하지 

In [14]:
get_NG(sentence)

KeyError: 'items'