In [1]:
import warnings
warnings.filterwarnings(action='ignore')

import pandas as pd
from konlpy.tag import Kkma, Okt

In [3]:
# sts-train.tsv 파일에 저장되어 있는 KorSTS 데이터셋 불러오기
sent = pd.read_table("sts-train.tsv", delimiter='\t', header=0)['sentence1']

# sent 변수에 저장된 첫 5개 문장 확인 
print(sent[:5])

0             비행기가 이륙하고 있다.
1     한 남자가 큰 플루트를 연주하고 있다.
2    한 남자가 피자에 치즈를 뿌려놓고 있다.
3          세 남자가 체스를 하고 있다.
4        한 남자가 첼로를 연주하고 있다.
Name: sentence1, dtype: object


In [4]:
# 꼬꼬마 형태소 사전을 이용해서 sent 내 문장의 명사를 nouns 리스트에 저장 
nouns = []
kkma = Kkma()
for se in sent:
    words = kkma.nouns(se)
    nouns += words
    
    
# 명사의 종류 확인 
print(set(nouns))

{'글', '일렉트릭', '빵', '튀김', '장', '도로', '스케이트보드', '스케이트', '돼지고기', '연주', '드럼', '담배', '이륙', '호랑이', '플루트', '팬', '캥거루', '아이', '후', '사자', '사람', '껍질', '노래', '소년', '동상', '말', '고양이', '남자가', '누군가', '감자', '독수리', '생선', '막대기', '등에', '추', '기계식', '남자', '피아노', '공', '판다', '새끼', '피자', '북극곰', '냄비', '위', '양파', '체스', '베이컨', '아래', '첼로', '개가', '연', '종이', '이드', '보드', '여자', '소녀', '토마토', '남', '여성', '얼굴', '기름', '새우', '황소', '기타', '아기', '눈', '자전거', '비행기', '치즈', '조각', '천장', '키보드', '후추', '토끼', '자가'}


In [6]:
# Open Korean Text 형태소 사전을 이용해서 sent 내 형태소 분석 결과를 pos_results 리스트에 저장 
pos_results = []
okt = Okt()
for se in sent:
    mor = okt.pos(se)
    pos_results.append(mor)
    
# 분석 결과 확인 .
print(pos_results)

[[('비행기', 'Noun'), ('가', 'Josa'), ('이륙', 'Noun'), ('하고', 'Josa'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('한', 'Verb'), ('남자', 'Noun'), ('가', 'Josa'), ('큰', 'Verb'), ('플루트', 'Noun'), ('를', 'Josa'), ('연주', 'Noun'), ('하고', 'Josa'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('한', 'Verb'), ('남자', 'Noun'), ('가', 'Josa'), ('피자', 'Noun'), ('에', 'Josa'), ('치즈', 'Noun'), ('를', 'Josa'), ('뿌려놓고', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('세', 'Noun'), ('남자', 'Noun'), ('가', 'Josa'), ('체스', 'Noun'), ('를', 'Josa'), ('하고', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('한', 'Verb'), ('남자', 'Noun'), ('가', 'Josa'), ('첼로', 'Noun'), ('를', 'Josa'), ('연주', 'Noun'), ('하고', 'Josa'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('몇몇', 'Noun'), ('남자', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('싸우고', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('남자', 'Noun'), ('가', 'Josa'), ('담배', 'Noun'), ('를', 'Josa'), ('피우고', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')], [('남자',

In [7]:
# stemming 기반 형태소 분석이 적용된 sent의 두 번째 문장을 stem_pos_results 리스트에 저장 
stem_pos_results = []

stem_pos_results = okt.pos(sent[1], stem=True)

print(stem_pos_results)

[('하다', 'Verb'), ('남자', 'Noun'), ('가', 'Josa'), ('크다', 'Verb'), ('플루트', 'Noun'), ('를', 'Josa'), ('연주', 'Noun'), ('하고', 'Josa'), ('있다', 'Adjective'), ('.', 'Punctuation')]
