In [18]:
from soynlp.noun import LRNounExtractor_v2
import pandas as pd
import numpy as np
import re

In [19]:
def make_corpus(path):
    df = read_file(path)

    authors = set(['@' + re.sub('\W+', ' ', i) for i in df['author']])
    authors_regex = "|".join(authors)
    
    # author processing
    for line in df['comment']:
        line = re.sub('\W+',' ', line)  
        line = re.sub(authors_regex, ' ', line)

    # comment processing
    subs_expr = [authors_regex, '\W+', '\d+', '\n', '[\[\]]', '[a-zA-Z]', '[ㄱ-ㅎ | ㅏ-ㅣ]', '\s+']
    comments = []

    for line in df['comment']:
        for expr in subs_expr:
            line = re.sub(expr, ' ', line)
        
        # 정제한 후, 스페이스만 남아있으면 제외함
        f_line = line.strip()
        if len(f_line) > 0:
            comments.append(f_line) 
    
    return comments


def read_file(path):
    df = pd.read_excel(path)
    df.fillna(' ', inplace=True)
    return df




In [20]:
# 명사 추출 => 빈도 기반
noun_extractor = LRNounExtractor_v2()

path = 'results.xlsx'
sentences = make_corpus(path)
print(sentences)
nouns = noun_extractor.train_extract(sentences) # list of str like

nouns


[Noun Extractor] use default predictors
[Noun Extractor] num features: pos=3929, neg=2321, common=107
['진짜 기여워잉', '망고처럼 꽃돌이가 너무 귀엽네옇', '귀여운 새침이', '꽃돌이 남자에요 여자에오', '꽃돌이는 여자에요', '아 너무 귀여워', '제가 키웠던 토끼가 자기 집 위에 올라가서 못 내려오던 이유가 있었군요', '이쁜것 아휴 꽃돌이 관절 소즁해', '이꽃돌씨와 우리 깜토 까미토끼 가만나면 어덯게 될까요 큰토끼님 답글 부탁드려용', '헉 감사해요 나중에 한번 될수있으면 꽃돌이보러갈께요', '깜토랑 만나면 좋은 친구가 될 수 있을 것 같아요', '꽃돌 왜 이렇게 귀여워서 난리양', '토끼한테 뽀뽀해주면 싫다고 앞발로 미는데 다리가 짧아서 집사는 같이 뽀뽀해주는 걸로 알고 좋아 죽음 토끼는 거절 했는데 계속해서 빡쳐 죽음', '꽃돌이도 이불을 씹는구나 톡톡톡하면서 망가지는 이불들이 남아 나질 않아', '덕분에 매 시즌 새로운 이불을 살 수 있다는 장점 이 있습니다', '꽃돌이 몸무게 몇 나가요', '꽃돌이가 살이많이쪘군요', '입니다', '꽃돌이는 얼굴이 동글동글', '앙 너무너문 너무너무 귀여워요', '졸귀', '귀여워요오', '침대위에서 무엇을 열심히 관측하는걸까요', '그러게말이에요', '인형인가요', '아이쿠 귀여운 꽂돌이', '귀 귀여워', '올라갈 땐 거침없이 올라가지만 내려올 땐 세상 쫄보도 그런 쫄보가 없는거 너무 공감이에요 저희 토끼도 소파 위에 올라가는걸 좋아하는데 매번 내려오지를 못해서 제가 밑에 누워있을 땐 항상 푹신한 제 뱃살로 뛰어내려오곤 해요', '본능적으로 가장 푹신한 곳을 찾아서 내려왔군요 똑똑한 뇨속', '꽃돌이는 귀도 도톰통통한게 너무귀여워요 이불탭은 맛있니', '앞다리는 짧지만 그 덕에 무척이나 귀엽고 앙증맞다는 사실 높은 곳 좋아하는 건 어쩔 수 없지만 내려오기 힘들다 싶으면 꼭 큰토끼님 도움을 받아야 한다 혼자서 막 내려오다 다

{'큰토끼님': NounScore(frequency=4, score=1.0),
 '꽃돌이': NounScore(frequency=11, score=1.0),
 '앞다리': NounScore(frequency=3, score=1.0),
 '이꽃돌': NounScore(frequency=2, score=1.0),
 '토끼': NounScore(frequency=5, score=0.6),
 '쫄보': NounScore(frequency=2, score=1.0),
 '뽀뽀': NounScore(frequency=2, score=1.0),
 '좋아': NounScore(frequency=2, score=1.0),
 '이불': NounScore(frequency=3, score=1.0),
 '모습': NounScore(frequency=2, score=1.0),
 '사랑': NounScore(frequency=1, score=0.5),
 '깜토': NounScore(frequency=2, score=1.0),
 '내려': NounScore(frequency=3, score=0.42857142857142855),
 '못': NounScore(frequency=2, score=0.6666666666666666),
 '제': NounScore(frequency=3, score=1.0),
 '다': NounScore(frequency=2, score=1.0),
 '곳': NounScore(frequency=3, score=1.0),
 '새': NounScore(frequency=1, score=0.5),
 '덕': NounScore(frequency=1, score=0.5),
 '집': NounScore(frequency=2, score=1.0)}

In [22]:
noun_extractor.lrgraph.get_r('꽃돌이')

[('', 6), ('는', 3), ('가', 2), ('보러갈께요', 1), ('도', 1), ('와', 1)]

In [25]:
noun_extractor.lrgraph.get_l('꽃돌이')

[]