### n-Gram 언어 모델 응용.

In [None]:
import nltk
from numpy.random import randint, seed
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# 다음을 한번 실행한다!
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
# Train을 위한 데이터.
my_text = """Machine learning is the scientific study of algorithms and statistical models that computer systems use to effectively perform a specific task without using explicit instructions, relying on patterns and inference instead. It is seen as a subset of artificial intelligence. Machine learning algorithms build a mathematical model of sample data, known as "training data", in order to make predictions or decisions without being explicitly programmed to perform the task.[1][2]:2 Machine learning algorithms are used in the applications of email filtering, detection of network intruders, and computer vision, where it is infeasible to develop an algorithm of specific instructions for performing the task. Machine learning is closely related to computational statistics, which focuses on making predictions using computers. The study of mathematical optimization delivers methods, theory and application domains to the field of machine learning. Data mining is a field of study within machine learning, and focuses on exploratory data analysis through unsupervised learning In its application across business problems, machine learning is also referred to as predictive analytics."""

In [None]:
my_text = [my_text.lower()]                       # 소문자로 저장. CountVectorizer() 요구대로 리스트로 정리.

#### 1. n-Gram 시험적 실행.

In [None]:
n = 3                                                           # 2 이상의 정수로 변경 가능.
n_min = n
n_max = n
n_gram_type = 'word'                                             # 단어 단위의 n-Gram. 
my_vectorizer = CountVectorizer(ngram_range=(n_min,n_max), analyzer = n_gram_type)

In [None]:
n_grams = my_vectorizer.fit(my_text).get_feature_names()         # n-Gram을 리스트로.  
n_gram_cts = my_vectorizer.transform(my_text).toarray()          # 결과는 array of array.
n_gram_cts = list(n_gram_cts[0])                                 # 단순한 리스트로 변환.

In [None]:
n_gram_zipped = list(zip(n_grams,n_gram_cts))                                    # 튜플로 이루어진 리스트로 변환.
n_gram_zipped

In [None]:
n_grams = []
for n_gram, ct in n_gram_zipped:
    n_grams.extend([n_gram]*ct)

In [None]:
n_grams

#### 2. 학습: n-Gram을 key로 하는 딕셔너리 만들기. 

In [None]:
n = 3                                                           # 2 이상의 정수로 변경 가능.
n_min = n                              
n_max = n                              
n_gram_type = 'word'
my_vectorizer = CountVectorizer(ngram_range=(n_min,n_max), analyzer = n_gram_type)

In [None]:
n_grams = my_vectorizer.fit(my_text).get_feature_names()         # n-Gram을 리스트로.  
n_gram_cts = my_vectorizer.transform(my_text).toarray()          # 결과는 array of array.
n_gram_cts = list(n_gram_cts[0])  

In [None]:
n_gram_zipped = list(zip(n_grams,n_gram_cts))                                    # 튜플로 이루어진 리스트로 변환.
n_gram_zipped

In [None]:
n_grams = []
for n_gram, ct in n_gram_zipped:
    n_grams.extend([n_gram]*ct)

In [None]:
my_dict = {}
for a_gram in n_grams:
    words = nltk.word_tokenize(a_gram)
    a_nm1_gram = ' '.join(words[0:n-1])                         # (n-1)-Gram.
    next_word = words[-1]                                       # a_nm1_gram 이후의 단어
    if a_nm1_gram not in my_dict.keys():
        my_dict[a_nm1_gram] = [next_word]                       # a_nm1_gram은 새로운 key. 딕셔너리에 처음 입력.
    else:
        my_dict[a_nm1_gram] += [next_word]                      # an_nm1_gram은 이미 딕셔너리에 있는 key.

In [None]:
# 딕셔너리 내용을 본다.
my_dict

#### 3. 다음 단어 예측.

In [None]:
# 헬퍼 함수.
def predict_next(a_nm1_gram):
    value_list_size = len(my_dict[a_nm1_gram])         # key = a_nm1_gram에 해당하는 value의 크기.
    i_pick = randint(0, value_list_size)               # 0 ~ value_list_size 중 하나 랜덤으로 선택.
    return(my_dict[a_nm1_gram][i_pick])                  # 랜덤으로 선택된 다음 단어 반환.

In [None]:
# 테스트.
input_str = 'study of'                                 # 실제로 존재하는 (n-1)-Gram을 입력한다!
predict_next(input_str)

In [None]:
# 다시 한번 테스트.
# 이어서 예측을 10번 반복한다. 
input_str = 'machine learning'                                 # 실제로 존재하는 (n-1)-Gram을 입력한다!
for i in range(10):
    print(predict_next(input_str))

#### 4. 문자열 예측.

In [None]:
# 랜덤 시드 초기화.
seed(123)

In [None]:
# 사용자 입력 시드 문자열.
#my_seed_str = 'machine learning'                                   # 실제로 존재하는 (n-1)-Gram을 입력한다!
my_seed_str = 'in order'                                         # 실제로 존재하는 (n-1)-Gram을 입력한다!

In [None]:
a_nm1_gram = my_seed_str
output_string = my_seed_str                                         # 출력 문자열 초기화.
while a_nm1_gram in my_dict:
    output_string += " " + predict_next(a_nm1_gram)
    words = nltk.word_tokenize(output_string)
    a_nm1_gram = ' '.join(words[-n+1:])                            # a_nm1_gram 갱신.

In [None]:
# 예측된 문자열 출력.
output_string