In [1]:
import pandas as pd
from konlpy.tag import Okt
okt = Okt()

In [2]:
df = pd.read_csv("results.csv")
df = df[['title']]
df.head()

Unnamed: 0,title
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?
1,소비자보호실태평가의 평가방법이 궁금합니다.
2,소비자보호실태평가는 어떤 제도인가요?
3,금융감독원의 민원대상 금융회사가 궁금합니다.
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?


In [3]:
results  = df.copy()
results.head()

Unnamed: 0,title
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?
1,소비자보호실태평가의 평가방법이 궁금합니다.
2,소비자보호실태평가는 어떤 제도인가요?
3,금융감독원의 민원대상 금융회사가 궁금합니다.
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?


In [4]:
def get_noun_pairs(tokenized_text, noun):
    temp = []
    token_list = []
    for token in tokenized_text:
        if(token[1] in noun):
            token_list.append(token[0])
        else:
            if (not token_list):
                continue
            temp.append(token_list)
            token_list = []
    if (token_list):
        temp.append(token_list)
    
    result = []
    for l in temp:
        result.append(' '.join(map(str, l)))
    return ','.join(result)

In [5]:
text = "소비자보호실태평가 결과는 어디서 확인할 수 있나요?"
tokenized_text = okt.pos(text)
tokenized_text

[('소비자보호', 'Noun'),
 ('실태', 'Noun'),
 ('평가', 'Noun'),
 ('결과', 'Noun'),
 ('는', 'Josa'),
 ('어디서', 'Adverb'),
 ('확인', 'Noun'),
 ('할', 'Verb'),
 ('수', 'Noun'),
 ('있나요', 'Adjective'),
 ('?', 'Punctuation')]

In [6]:
sample = get_noun_pairs(tokenized_text, 'Noun')
sample

'소비자보호 실태 평가 결과,확인,수'

### okt

In [7]:
df['tokenized'] = df['title'].apply(lambda x: okt.pos(x))
df.head()

Unnamed: 0,title,tokenized
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"[(소비자보호, Noun), (실태, Noun), (평가, Noun), (결과, N..."
1,소비자보호실태평가의 평가방법이 궁금합니다.,"[(소비자보호, Noun), (실태, Noun), (평가, Noun), (의, Jo..."
2,소비자보호실태평가는 어떤 제도인가요?,"[(소비자보호, Noun), (실태, Noun), (평가, Noun), (는, Jo..."
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"[(금융감독원, Noun), (의, Josa), (민원, Noun), (대상, No..."
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"[(내, Noun), (금융, Noun), (계좌, Noun), (를, Josa),..."


In [8]:
results['okt_pairs'] = df['tokenized'].apply(lambda x: get_noun_pairs(x, 'Noun'))
results.head()

Unnamed: 0,title,okt_pairs
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"소비자보호 실태 평가 결과,확인,수"
1,소비자보호실태평가의 평가방법이 궁금합니다.,"소비자보호 실태 평가,평가 방법"
2,소비자보호실태평가는 어떤 제도인가요?,"소비자보호 실태 평가,제도"
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"금융감독원,민원 대상 금융 회사"
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"내 금융 계좌,한번,조회,수,사이트"


### hannanum

In [9]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

In [10]:
df['tokenized'] = df['title'].apply(lambda x: hannanum.pos(x))
df.head()

Unnamed: 0,title,tokenized
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"[(소비자보호실태평가, N), (결과, N), (는, J), (어디, N), (서,..."
1,소비자보호실태평가의 평가방법이 궁금합니다.,"[(소비자보호실태평가, N), (의, J), (평가방법, N), (이, J), (궁..."
2,소비자보호실태평가는 어떤 제도인가요?,"[(소비자보호실태평, N), (가는, J), (어떤, M), (제도, N), (이,..."
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"[(금융감독원, N), (의, J), (민원대상, N), (금융회사, N), (가,..."
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"[(내, N), (금융계좌, N), (를, J), (한번, N), (에, J), (..."


In [11]:
results['hannanum_pairs'] = df['tokenized'].apply(lambda x: get_noun_pairs(x, 'N'))
results.head()

Unnamed: 0,title,okt_pairs,hannanum_pairs
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"소비자보호 실태 평가 결과,확인,수","소비자보호실태평가 결과,어디,확인,수"
1,소비자보호실태평가의 평가방법이 궁금합니다.,"소비자보호 실태 평가,평가 방법","소비자보호실태평가,평가방법,궁금"
2,소비자보호실태평가는 어떤 제도인가요?,"소비자보호 실태 평가,제도","소비자보호실태평,제도"
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"금융감독원,민원 대상 금융 회사","금융감독원,민원대상 금융회사,궁금"
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"내 금융 계좌,한번,조회,수,사이트","내 금융계좌,한번,조회,수,사이트"


### komoran

In [12]:
from konlpy.tag import Komoran
komoran = Komoran()

In [13]:
df['tokenized'] = df['title'].apply(lambda x: komoran.pos(x))
df.head()

Unnamed: 0,title,tokenized
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"[(소비자보호, NNP), (실태, NNG), (평가, NNP), (결과, NNG)..."
1,소비자보호실태평가의 평가방법이 궁금합니다.,"[(소비자보호, NNP), (실태, NNG), (평가, NNG), (의, JKG),..."
2,소비자보호실태평가는 어떤 제도인가요?,"[(소비자보호, NNP), (실태, NNG), (평가, NNG), (는, JX), ..."
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"[(금융감독원, NNG), (의, JKG), (민원, NNP), (대상, NNP),..."
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"[(내, NP), (금융, NNG), (계좌, NNP), (를, JKO), (한번,..."


In [14]:
results['komoran_pairs'] = df['tokenized'].apply(lambda x: get_noun_pairs(x, ['NNG', 'NNP', 'NNB', 'NNM']))
results.head()

Unnamed: 0,title,okt_pairs,hannanum_pairs,komoran_pairs
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"소비자보호 실태 평가 결과,확인,수","소비자보호실태평가 결과,어디,확인,수","소비자보호 실태 평가 결과,확인,수"
1,소비자보호실태평가의 평가방법이 궁금합니다.,"소비자보호 실태 평가,평가 방법","소비자보호실태평가,평가방법,궁금","소비자보호 실태 평가,평가 방법"
2,소비자보호실태평가는 어떤 제도인가요?,"소비자보호 실태 평가,제도","소비자보호실태평,제도","소비자보호 실태 평가,제도"
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"금융감독원,민원 대상 금융 회사","금융감독원,민원대상 금융회사,궁금","금융감독원,민원 대상 금융 회사"
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"내 금융 계좌,한번,조회,수,사이트","내 금융계좌,한번,조회,수,사이트","금융 계좌,한번,조회,수,사이트"


### mecab

In [15]:
from eunjeon import Mecab
mecab = Mecab()

In [16]:
df['tokenized'] = df['title'].apply(lambda x: mecab.pos(x))
df.head()

Unnamed: 0,title,tokenized
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"[(소비자, NNG), (보호, NNG), (실태, NNG), (평가, NNG), ..."
1,소비자보호실태평가의 평가방법이 궁금합니다.,"[(소비자, NNG), (보호, NNG), (실태, NNG), (평가, NNG), ..."
2,소비자보호실태평가는 어떤 제도인가요?,"[(소비자, NNG), (보호, NNG), (실태, NNG), (평가, NNG), ..."
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"[(금융, NNG), (감독원, NNG), (의, JKG), (민원, NNG), (..."
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"[(내, NP+JKG), (금융, NNG), (계좌, NNG), (를, JKO), ..."


In [19]:
results['mecab_pairs'] = df['tokenized'].apply(lambda x: get_noun_pairs(x, ['NNG', 'NNP', 'NNB']))
results.head()

Unnamed: 0,title,okt_pairs,hannanum_pairs,komoran_pairs,mecab_pairs
0,소비자보호실태평가 결과는 어디서 확인할 수 있나요?,"소비자보호 실태 평가 결과,확인,수","소비자보호실태평가 결과,어디,확인,수","소비자보호 실태 평가 결과,확인,수","소비자 보호 실태 평가 결과,확인,수"
1,소비자보호실태평가의 평가방법이 궁금합니다.,"소비자보호 실태 평가,평가 방법","소비자보호실태평가,평가방법,궁금","소비자보호 실태 평가,평가 방법","소비자 보호 실태 평가,평가 방법"
2,소비자보호실태평가는 어떤 제도인가요?,"소비자보호 실태 평가,제도","소비자보호실태평,제도","소비자보호 실태 평가,제도","소비자 보호 실태 평가,제도"
3,금융감독원의 민원대상 금융회사가 궁금합니다.,"금융감독원,민원 대상 금융 회사","금융감독원,민원대상 금융회사,궁금","금융감독원,민원 대상 금융 회사","금융 감독원,민원 대상 금융 회사"
4,내 금융계좌를 한번에 조회할 수 있는 사이트는 없나요?,"내 금융 계좌,한번,조회,수,사이트","내 금융계좌,한번,조회,수,사이트","금융 계좌,한번,조회,수,사이트","금융 계좌,조회,수,사이트"


In [20]:
results.to_csv('noun_pairs.csv', index=False, encoding='utf-8-sig')