In [1]:
import re

<br>
<br>

# N-gram 구현

In [2]:
# 텍스트 정의
text = "one two three four five six seven"

# N 설정
N = 3

# 텍스트를 토큰으로 분리
tokens = [token for token in text.split(" ") if token != ""]
tokens


['one', 'two', 'three', 'four', 'five', 'six', 'seven']

In [3]:
# 왼쪽부터 한 칸씩 이동하는 배열 생성
sequences = [tokens[i:] for i in range(N)]
sequences


[['one', 'two', 'three', 'four', 'five', 'six', 'seven'],
 ['two', 'three', 'four', 'five', 'six', 'seven'],
 ['three', 'four', 'five', 'six', 'seven']]

In [4]:
# N-gram 생성
# zip() : 파라미터로 들어온 변수들을 각각 위치에 따라 묶음
# *sequences -> sequences[0], sequences[1], sequences[2]
outputs = zip(*sequences)
outputs = list(outputs)
outputs


[('one', 'two', 'three'),
 ('two', 'three', 'four'),
 ('three', 'four', 'five'),
 ('four', 'five', 'six'),
 ('five', 'six', 'seven')]

<br>
<br>

# NLTK N-gram

In [5]:
from nltk.util import ngrams

# 텍스트 정의
text = "Natural-language processing (NLP) is an area of computer science " \
       "and artificial intelligence concerned with the interactions " \
       "between computers and human (natural) languages."

# 소문자 변환
text = text.lower()

# 알파벳과 숫자, 공백이 아니면 공백으로 변환
text = re.sub(r'[^a-zA-Z0-9\s]', ' ', text)

# 텍스트를 토큰으로 분리 
tokens = [token for token in text.split(" ") if token != ""]

# N-gram 생성
outputs = list(ngrams(tokens, 3))
outputs


[('natural', 'language', 'processing'),
 ('language', 'processing', 'nlp'),
 ('processing', 'nlp', 'is'),
 ('nlp', 'is', 'an'),
 ('is', 'an', 'area'),
 ('an', 'area', 'of'),
 ('area', 'of', 'computer'),
 ('of', 'computer', 'science'),
 ('computer', 'science', 'and'),
 ('science', 'and', 'artificial'),
 ('and', 'artificial', 'intelligence'),
 ('artificial', 'intelligence', 'concerned'),
 ('intelligence', 'concerned', 'with'),
 ('concerned', 'with', 'the'),
 ('with', 'the', 'interactions'),
 ('the', 'interactions', 'between'),
 ('interactions', 'between', 'computers'),
 ('between', 'computers', 'and'),
 ('computers', 'and', 'human'),
 ('and', 'human', 'natural'),
 ('human', 'natural', 'languages')]

<br>
<br>

# N-gram 언어모델

In [6]:
import codecs

# 네이버 영화리뷰 데이터 로드
with codecs.open("ratings.txt", encoding='utf-8') as f:
    # id/document/label 구분
    data = [line.split('\t') for line in f.read().splitlines()]
    
    # 헤더 삭제
    data = data[1:]   

# document만 추출
docs = [row[1] for row in data]
len(docs)


200000

In [7]:
# 리뷰문장 출력
docs[:10]


['어릴때보고 지금다시봐도 재밌어요ㅋㅋ',
 '디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산업이 부러웠는데. 사실 우리나라에서도 그 어려운시절에 끝까지 열정을 지킨 노라노 같은 전통이있어 저와 같은 사람들이 꿈을 꾸고 이뤄나갈 수 있다는 것에 감사합니다.',
 '폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.',
 '와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런게 진짜 영화지',
 '안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.',
 '사랑을 해본사람이라면 처음부터 끝까지 웃을수 있는영화',
 '완전 감동입니다 다시봐도 감동',
 '개들의 전쟁2 나오나요? 나오면 1빠로 보고 싶음',
 '굿',
 '바보가 아니라 병 쉰 인듯']

In [8]:
from konlpy.tag import Okt
from tqdm import tqdm

tagger = Okt()
sentences = []

# 데이터의 일부분만 사용
docs = docs[:10000]

# 형태소분석 수행
# tqdm() : 진행상황 표시
for doc in tqdm(docs):
    tokens = tagger.morphs(doc)
    bigram = ngrams(tokens, 2, pad_left=True, pad_right=True,
                    left_pad_symbol="SS", right_pad_symbol="SE")
    sentences += [t for t in bigram]

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)
100%|███████████████████████████████████| 10000/10000 [00:48<00:00, 206.48it/s]


In [9]:
# 바이그램 출력
sentences[:50]


[('SS', '어릴'),
 ('어릴', '때'),
 ('때', '보고'),
 ('보고', '지금'),
 ('지금', '다시'),
 ('다시', '봐도'),
 ('봐도', '재밌어요'),
 ('재밌어요', 'ㅋㅋ'),
 ('ㅋㅋ', 'SE'),
 ('SS', '디자인'),
 ('디자인', '을'),
 ('을', '배우는'),
 ('배우는', '학생'),
 ('학생', '으로'),
 ('으로', ','),
 (',', '외국'),
 ('외국', '디자이너'),
 ('디자이너', '와'),
 ('와', '그'),
 ('그', '들'),
 ('들', '이'),
 ('이', '일군'),
 ('일군', '전통'),
 ('전통', '을'),
 ('을', '통해'),
 ('통해', '발전'),
 ('발전', '해가는'),
 ('해가는', '문화'),
 ('문화', '산업'),
 ('산업', '이'),
 ('이', '부러웠는데'),
 ('부러웠는데', '.'),
 ('.', '사실'),
 ('사실', '우리나라'),
 ('우리나라', '에서도'),
 ('에서도', '그'),
 ('그', '어려운'),
 ('어려운', '시절'),
 ('시절', '에'),
 ('에', '끝'),
 ('끝', '까지'),
 ('까지', '열정'),
 ('열정', '을'),
 ('을', '지킨'),
 ('지킨', '노라노'),
 ('노라노', '같은'),
 ('같은', '전통'),
 ('전통', '이'),
 ('이', '있어'),
 ('있어', '저')]

In [10]:
from nltk import ConditionalFreqDist

# 조건 빈도수 구함
cfd = ConditionalFreqDist(sentences)

# 특정 단어 다음에 가장 자주 나오는 단어
print('SS ->', cfd["SS"].most_common(5))
print('나 ->', cfd["나"].most_common(5))
print('의 ->', cfd["의"].most_common(5))


SS -> [('이', 266), ('정말', 261), ('진짜', 174), ('너무', 143), ('최고', 138)]
나 -> [('는', 57), ('의', 32), ('만', 18), ('에게', 13), ('SE', 9)]
의 -> [('영화', 197), ('연기', 98), ('명작', 34), ('드라마', 34), ('매력', 28)]


In [11]:
from nltk.probability import ConditionalProbDist, MLEProbDist

# 조건 확률 구함
cpd = ConditionalProbDist(cfd, MLEProbDist)

# '이->영화'가 '영화->이'보다 확률이 높음
print(cpd["이"].prob("영화"))
print(cpd["영화"].prob("이"))


0.06507478352138546
0.0023276112889147513


In [12]:
import random

# 문장 생성
def generate_sentence(cpd, seed=None):
    
    # 랜덤시드로 초기화
    if seed is not None:
        random.seed(seed)
    
    # 문장 초기화
    sentence = []

    # 초기 단어 설정
    word = "SS"
    
    while True:
        # 바이그램에 없다면 종료
        if word not in cpd:
            break
        
        # 확률분포에 따라 다음 단어 선택
        word_next = cpd[word].generate()

        # 문장의 끝 토큰이면 종료
        if word_next == "SE":
            break
        
        # 단어 추가
        sentence.append(" " + word_next)
        
        # 다음 단어 설정
        word = word_next

    return "".join(sentence)

In [13]:
generate_sentence(cpd, 8)


' 진짜 멋있다 . 연 기 대 마지막 에 악순환 의 코미디 도 탄탄하고 결말 알 게 된 감정 . Ebs 명화 를 바탕 을 줘도 부족한 그런 작품'

In [14]:
generate_sentence(cpd, 23)


' 천재 여배우 문 이 갈수록 흥미진진 긴장감 도 탄탄하고 완전 매력 이 존재 감 쵝오 ^^^~!!!!! 무조건 봐라 두 번 " 완전 좋아요 ~~ 대박 터짐 ㅋㅋ'

In [15]:
generate_sentence(cpd, 15)


' 열린 마음 따듯 해지 는 싫다니 원 작 게임 환상 을 가지고있어야하고 1회 부터 계속 나왔으면 좋겠네요 무조건 봤다 . 쌍 제이 폭스 는 너무 잘 하고 생각 하면 애니 인 줄 알았네'