In [29]:
import pandas as pd
import multiprocessing as mp
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Okt
import networkx as nx
import numpy as np
from tqdm import tqdm

In [2]:
okt = Okt()

In [4]:
def tokenize(text):
    # 형태소 분석을 통해 명사만 추출
    return [word for word in okt.nouns(text) if len(word) > 1]

In [10]:
def extract_keywords_tfidf(text, num_keywords=20):
    # TF-IDF 벡터화기 생성
    vectorizer = TfidfVectorizer(tokenizer=tokenize, min_df=1)
    X = vectorizer.fit_transform([text])  # 문자열 전체를 하나의 문서로 처리

    # 단어와 TF-IDF 점수 매핑
    tfidf_scores = X.sum(axis=0).A1
    words = vectorizer.get_feature_names_out()

    # 단어와 TF-IDF 점수를 데이터프레임으로 변환
    tfidf_df = pd.DataFrame({'Word': words, 'TF-IDF Score': tfidf_scores})

    # TF-IDF 점수로 정렬하여 상위 num개 키워드 출력
    return tfidf_df.sort_values(by='TF-IDF Score', ascending=False).head(num_keywords)

In [9]:
def extract_keywords_textrank(text, num_keywords=20):
    okt = Okt()
    
    # 형태소 분석 및 명사 추출
    words = tokenize(text)
    
    # 단어들의 출현 빈도수 계산
    word_counts = Counter(words)
    
    # 그래프 생성
    graph = nx.Graph()
    
    # 단어 노드 추가
    for word, count in word_counts.items():
        if count > 1:  # 최소 출현 빈도 조건
            graph.add_node(word, count=count)
    
    # 단어의 연결을 위한 윈도우 크기 설정
    window_size = 4
    
    # 윈도우 안에서 단어 간의 연결 설정
    for i in range(len(words) - window_size + 1):
        window_words = words[i:i + window_size]
        for w1, w2 in combinations(window_words, 2):
            if graph.has_node(w1) and graph.has_node(w2):
                if graph.has_edge(w1, w2):
                    graph[w1][w2]['weight'] += 1
                else:
                    graph.add_edge(w1, w2, weight=1)
    
    # PageRank 계산
    rank = nx.pagerank(graph, weight='weight')
    
    # 상위 num_keywords개의 키워드 추출
    top_keywords = sorted(rank.items(), key=lambda x: x[1], reverse=True)[:num_keywords]
    
    return top_keywords

    #return [keyword for keyword, _ in top_keywords]

In [48]:
def extract_keywords_df(df, func=extract_keywords_tfidf, num=20):
    doc_keywords = []
    
    for doc in df['text'] :
        keywords = func(doc, num)
        doc_keywords.append(keywords)
        
    #df.loc[:, 'keywords'] = doc_keywords
    
    return doc_keywords

In [11]:
# 텍스트 데이터 나누기
def chunk_dataframe(df, chunk_size):
    return [df[i:i + chunk_size] for i in range(0, df.shape[0], chunk_size)]

In [23]:
def extract_keywords_from_chunk(chunk, top_n=10):
    # TF-IDF 벡터화기 생성
    vectorizer = TfidfVectorizer(tokenizer=tokenize, min_df=1)
    X = vectorizer.fit_transform(chunk['text'])
    
    # 단어와 TF-IDF 점수 매핑
    words = vectorizer.get_feature_names_out()
    tfidf_scores = X.toarray()
    
    # 각 문서별 키워드 추출
    keywords_per_document = []
    for i, doc_scores in tqdm(enumerate(tfidf_scores)):
        tfidf_df = pd.DataFrame({'Word': words, 'TF-IDF Score': doc_scores})
        top_keywords = tfidf_df.sort_values(by='TF-IDF Score', ascending=False).head(top_n)
        keywords_per_document.append({
            'Document': i,
            'Keywords': ', '.join(top_keywords['Word'])
        })
    
    return pd.DataFrame(keywords_per_document)

In [15]:
# 병렬 처리 함수
def parallelize_dataframe(df, func, num_cores=4):
    df_split = chunk_dataframe(df, chunk_size=int(df.shape[0] / num_cores))
    pool = mp.Pool(num_cores)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    
    return df

In [16]:
def test(df):
    print(len(df))
    
    return df

In [12]:
directory_path = '/home/osung/data/korean/modu/json'
df = pd.read_csv(directory_path+'/combined_news.tsv', sep='\t')

In [20]:
len(df)/ 4

902856.0

In [13]:
df2 = df.drop(columns=['topic'])

In [14]:
df2.columns

Index(['id', 'text'], dtype='object')

In [22]:
# 데이터 병렬 처리
num_cores = 4 #mp.cpu_count()
df_with_keywords = parallelize_dataframe(df[:1000], test, num_cores=num_cores)

250
250
250
250


In [50]:
%%time 

keys = extract_keywords_df(df[:100])

CPU times: user 50 s, sys: 391 ms, total: 50.4 s
Wall time: 49.5 s


In [51]:
# 데이터 병렬 처리
num_cores = 2 #mp.cpu_count()
keys2 = parallelize_dataframe(df[:100], extract_keywords_df, num_cores=num_cores)

KeyboardInterrupt: 

In [35]:
df3.keywords[0]

Unnamed: 0,Word,TF-IDF Score
93,사람,0.305852
4,가락시장,0.244682
99,새벽,0.214096
5,가명,0.214096
121,시장,0.214096
116,수산시장,0.183511
82,배추,0.183511
115,수산물,0.152926
102,생선,0.152926
97,상인,0.152926


In [20]:
print(df_with_keywords.head())

                 id topic                                               text  \
0  NIRW1900000001.1    사회  "대통령, 시장 방문만 하지 말고 실천해달라" 2008년의 마지막 새벽, 언론의 카...   
1  NIRW1900000001.4    사회  진성호 의원, 겨우 이 정도였나 오늘(31일) 한나라당 의원 총회에서 조선일보 출신...   
2  NIRW1900000001.5    사회  "소의 해, 정치인들 싸움 좀 그만하시죠" 지난해 12월 31일 대구국채보상기념운동...   
3  NIRW1900000001.6    사회  'MB악법 저지' 촛불 들고 새해 맞은 대전시민들 촛불의 물결이 전국을 뒤 덮었던 ...   
4  NIRW1900000001.7    사회  산(酸) 몰아내니 누이 좋고 매부 좋고 겨울철 우리의 입맛을 돋우는 먹을거리 가운데...   

                  keywords  
0  [것은, 대통령은, 말했다, 있는, 있다]  
1  [것은, 대통령은, 말했다, 있는, 있다]  
2  [것은, 대통령은, 말했다, 있는, 있다]  
3  [것은, 대통령은, 말했다, 있는, 있다]  
4  [것은, 대통령은, 말했다, 있는, 있다]  


In [11]:
df[:10]

Unnamed: 0,id,text
0,1,This is a test sentence number 1
1,2,This is a test sentence number 2
2,3,This is a test sentence number 3
3,4,This is a test sentence number 4
4,5,This is a test sentence number 5
5,6,This is a test sentence number 6
6,7,This is a test sentence number 7
7,8,This is a test sentence number 8
8,9,This is a test sentence number 9
9,10,This is a test sentence number 10
