In [1]:
text = """경마장에 있는 말이 뛰고 있다\n
그의 말이 법이다\n
가는 말이 고와야 오는 말이 곱다\n
경마장에 있는 말이 서 있다."""

- 토큰화

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer

t = Tokenizer()
# 문장 분석
t.fit_on_texts([text])

# 분석된 단어의 목록을 확인
t.word_docs

defaultdict(int,
            {'뛰고': 1,
             '말이': 1,
             '그의': 1,
             '있는': 1,
             '고와야': 1,
             '법이다': 1,
             '오는': 1,
             '곱다': 1,
             '경마장에': 1,
             '서': 1,
             '가는': 1,
             '있다': 1})

In [3]:
# 단어의 수를 저장
vocab_size = len(t.word_docs) + 1

vocab_size

13

- 정수 인코딩

In [4]:
seq = []

# 문장을 한 줄씩 읽어온다
for line in text.split("\n") :
  encoded = t.texts_to_sequences([line])[0]

  # 조합 가능한 단어 조합을 생성
  for i in range(1, len(encoded)) :
    s = encoded[:i+1]
    seq.append(s)

seq    

# 경마장에 있는 말이 뛰고 있다
#    경마장에 있는
#    경마장에 있는 말이
#    경마장에 있는 말이 뛰고
#    경마장에 있는 말이 뛰고 있다
# 그의 말이 법이다
#    그의 말이
#    그의 말이 법이다
# 가는 말이 고와야 오는 말이 곱다
#     가는 말이
#     가는 말이 고와야
#     가는 말이 고와야 오는
#     가는 말이 고와야 오는 말이
#     가는 말이 고와야 오는 말이 곱다

[[2, 3],
 [2, 3, 1],
 [2, 3, 1, 5],
 [2, 3, 1, 5, 4],
 [6, 1],
 [6, 1, 7],
 [8, 1],
 [8, 1, 9],
 [8, 1, 9, 10],
 [8, 1, 9, 10, 1],
 [8, 1, 9, 10, 1, 11],
 [2, 3],
 [2, 3, 1],
 [2, 3, 1, 12],
 [2, 3, 1, 12, 4]]

- 인코딩된 결과를 같은 길이로 만듬

In [5]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 최대 길이의 문자의 단어수
max_len = 6

sequence = pad_sequences(seq, maxlen=max_len)
sequence

array([[ 0,  0,  0,  0,  2,  3],
       [ 0,  0,  0,  2,  3,  1],
       [ 0,  0,  2,  3,  1,  5],
       [ 0,  2,  3,  1,  5,  4],
       [ 0,  0,  0,  0,  6,  1],
       [ 0,  0,  0,  6,  1,  7],
       [ 0,  0,  0,  0,  8,  1],
       [ 0,  0,  0,  8,  1,  9],
       [ 0,  0,  8,  1,  9, 10],
       [ 0,  8,  1,  9, 10,  1],
       [ 8,  1,  9, 10,  1, 11],
       [ 0,  0,  0,  0,  2,  3],
       [ 0,  0,  0,  2,  3,  1],
       [ 0,  0,  2,  3,  1, 12],
       [ 0,  2,  3,  1, 12,  4]], dtype=int32)

- 특성데이터와 라벨데이터로 분리

In [6]:
X = sequence[:, :-1]
y = sequence[:, -1]

X.shape, y.shape

((15, 5), (15,))

- y를 원핫인코딩

In [7]:
# 값이 수치 형태의 데이터인 경우에만 원핫인코딩
from tensorflow.keras.utils import to_categorical

y_en = to_categorical(y, num_classes=vocab_size)

y_en.shape

(15, 13)

In [8]:
y_en

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]],
      dtype=float32)

In [9]:
y_en.shape

(15, 13)

- 신경망 설계

In [13]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense

model1 = Sequential()

model1.add(Embedding(vocab_size, 10, input_length=5))

model1.add(SimpleRNN(32))

model1.add(Dense(13, activation="softmax"))

model1.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 10)             130       
                                                                 
 simple_rnn (SimpleRNN)      (None, 32)                1376      
                                                                 
 dense (Dense)               (None, 13)                429       
                                                                 
Total params: 1,935
Trainable params: 1,935
Non-trainable params: 0
_________________________________________________________________


In [14]:
model1.compile(loss="categorical_crossentropy",
               optimizer="adam",
               metrics=["accuracy"])

In [15]:
h1 = model1.fit(X, y_en, epochs=200)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

- 문장을 생성하는 함수

In [16]:
import numpy as np

# model : 사용한 모델
# t : 사용한 Tonkenizer
# word : 입력단어
# n : 입력단어로부터 예측할 단어 수
def generate_seqence(model, t, current_word, n) :
  init_word = current_word  # 입력된 단어로 시작해야 하므로 입력단어를 먼저 저장

  # 생성한 문장을 저장할 변수 초기화
  seq = ""

  for _ in range(n) :
    # 현재 단어를 인코딩하고 padding 처리를 수행
    encoded = t.texts_to_sequences([current_word])[0]
    encoded = pad_sequences([encoded], maxlen=max_len-1)

    # 현재 단어로 다음 단어를 예측 (인덱스 반환)
    result = np.argmax(model.predict(encoded))

    #print(result)  
    for word, index in t.word_index.items() :
      # 예측한 단어와 동일한 인덱스의 단어가 있다면 종료
      if index == result :
        break
      
    # 현재단어와 예측한 단어를 연결
    current_word = current_word + " " + word

    seq = seq + " " + word

  seq = init_word + seq

  return seq 

In [20]:
generate_seqence(model1, t, "경마장에 있는", 3)



'경마장에 있는 말이 뛰고 있다'

# 실제 기사들을 이용하여 문장 생성하기
- 빅카인즈 : https://www.bigkinds.or.kr/ 에서 '광주'로 검색
- 뉴스 분석 데이터 : NewsResult_20220727-20221027.xlsx

In [22]:
from google.colab import drive

drive.mount("/content/drive")

Mounted at /content/drive


In [23]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [3]:
# 기사 읽기
import pandas as pd

file_dir = ""
news = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Deep_Learning/data/NewsResult_20220727-20221027.xlsx")
news.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,뉴스 식별자,일자,언론사,기고자,제목,통합 분류1,통합 분류2,통합 분류3,사건/사고 분류1,사건/사고 분류2,사건/사고 분류3,인물,위치,기관,키워드,특성추출(가중치순 상위 50개),본문,URL,분석제외 여부
0,2100801.0,20221027,아시아경제,최경필,완도군 ‘더 가까운 교통망 구축’ 지역 발전 앞당긴다,지역>강원,지역>충남,지역>경기,,,,,"금일,남창,소안,금당,전남도,서구∼,아시아경제,호남,성전,∼해남,구도,완도군,해남,...","정부,국토교통부,익산지방국토관리청","완도군,교통망,구축,지역,발전,광주,완도,고속도로,완도,고흥,박차,해안,관광,도로,...","완도,광주,연도교,2단계,해안관광도로,고속도로,교통망,고흥,해남,신우철,영호남,접근...",[완도=아시아경제 호남취재본부 최경필 기자] 신우철 완도군수가 군 발전을 위해 3대...,https://view.asiae.co.kr/article/2022102709285...,
1,8100101.0,20221027,KBS,이설아,[아침뉴스타임 날씨] 오늘도 기온 일교차 커 강원 영동에 비,사회>날씨,,,,,,,"영동,울산,서울,충남,경기,독도,경주,동해,강원,수도권,동해안,경북,울릉도,청주,중...","동해안,영동 지역","기온,일교차,강원,영동,날씨,이맘때,가을,특징,일교차,한낮,서울,경주,내륙,기온,일...","동해안,강원,일교차,경북,영동,서울,대구,동해,청주,경주,충남,수도권,광주,독도,강...","이맘때 가을 날씨의 특징은 큰 일교차입니다.\n\n 오늘 아침 다소 쌀쌀했지만, 한...",https://news.kbs.co.kr/news/view.do?ncd=558802...,
2,2100501.0,20221027,파이낸셜뉴스,황태종 기자 (hwangtae@fnnews.com),광주 전남서 하루 새 코로나19 확진자 각각 895명 813명 발생,지역>광주,지역>전남,지역>경기,,,,,"장성군,나주시,무안군,해남군,담양군,목포시,보성군,완도군,여수시,화순군,함평군,장흥...","파이낸셜뉴스,질병통제예방센터,전남","광주,전남,하루,코로나19,확진자,895명,813명,발생,5947명,누적,확진자,광...","확진자,전남,광주,코로나19,미국,자릿수,구례군,해남군,고흥군,장성군,보성군,신안군...",누적 확진자 광주 74만 5947명 전남 84만 72명 \n \n 코로나19 바이러...,http://www.fnnews.com/news/202210270853001481,
3,2100311.0,20221027,서울경제,김연하 기자,대우건설 3분기 영업익 2055억 전년비 83%↑,경제>금융_재테크,경제>유통,경제>반도체,,,,,"울산,운남구역,한남2구역,수진1구역,십정4구역,북항,부천,인천,양주역,광주,베트남","건설공사,대우건설,에프엔가이드","대우건설,영업익,전년비,83%,대우건설,매출,2조,증가,전년,동기,대비,20.0%,...","대우건설,베트남,2조,순이익,에프,선제적,당기순이익,원가율,부천,pf",대우건설은 올 3분기 매출이 2조5205억원으로 전년 동기 대비 20.0% 증가했다...,http://www.sedaily.com/NewsView/26CIGFW35Z,
4,2100311.0,20221027,서울경제,광주=박지훈기자 기자,국립광주과학관서 펼쳐지는 '2022 광주문화축전',지역>대전,IT_과학>과학,지역>제주,,,,전태호,"광주과학문화,광주문화축전,태양","별빛천문대,광주과학문화축전,광주광역시교육청,국립광주과학관,국립광주과학관장직무대리","국립광주과학관,광주,문화,축전,29,체험,프로그램,운영,국립,광주과학관,일원,29,...","광주과학문화축전,과학관,국립광주과학관,광주과학관,전태호,100여개,체험프로그램,별빛...",국립광주과학관 일원에서 29 30일 '2022 광주과학문화축전’이 열린다. \n \...,http://www.sedaily.com/NewsView/26CIGVIXA7,


- 형태소 분리 및 불용어 처리

In [4]:
from konlpy.tag import Okt

okt = Okt()

# 제목, 본문 칼럼

# 제목 칼럼에서 한글, 숫자, 빈 공백만 추출
news["제목"] = news["제목"].replace("[^ㄱ-ㅎㅏ-ㅣ가-힣0-9 ]","")

In [5]:
headlines = []

stopwords=["의", "가", "이", "은", "들", "는", "좀", "잘", "걍", "과", "도", "를", "으로", "자", "에", "와", "등", "으로도"]

# 제목을 하나씩 읽어와서 형태소 분리를 하고 불용어 제거
for sentence in news["제목"] :
  temp = []
  # 형태소 분리, 어간 추출
  temp = okt.morphs(sentence, stem=True)

  # 불용어 처리
  temp = [word for word in temp if not word in stopwords]
  headlines.append(temp)

In [6]:
headlines[:5]

[['완도군', '‘', '더', '가깝다', '교통', '망', '구축', '’', '지역', '발전', '앞당기다'],
 ['[', '아침', '뉴스타임', '날씨', ']', '오늘', '기온', '일', '교차', '크다', '강원', '영동', '비'],
 ['광주',
  '전남',
  '서',
  '하루',
  '새',
  '코로나',
  '19',
  '확',
  '진자',
  '각각',
  '895',
  '명',
  '813',
  '명',
  '발생'],
 ['대우건설', '3분', '기', '영업', '익', '2055억', '전', '년비', '83%', '↑'],
 ['국립광주과학관', '서', '펼쳐지다', "'", '2022', '광주', '문화', '축전', "'"]]

- 인코딩

In [7]:
from tensorflow.keras.preprocessing.text import Tokenizer

max_features = 500

t = Tokenizer(num_words = max_features)
# 빈도수 분석 -> 정렬 -> 순서대로 인덱스 부여 (1부터)
t.fit_on_texts(headlines)

# 단어 수
vocab_size = len(t.word_index) + 1

# 인코딩
headlines_en = t.texts_to_sequences(headlines)

headlines_en[:5]

[[7, 152, 419, 370, 8, 27, 301],
 [4, 55, 10, 6, 26, 51, 32, 49, 50, 155, 23],
 [3, 15, 16, 325, 108, 36, 47, 100, 105, 9, 9, 280],
 [81, 39, 231],
 [16, 2, 113, 3, 59, 2]]

- 2개 이상의 단어 조합으로 된 문자를 만들어 저장

In [8]:
seqs = []

for line in headlines_en :
  for i in range(1, len(line)) :
    seq = line[:i+1]
    seqs.append(seq)

seqs[:10]

[[7, 152],
 [7, 152, 419],
 [7, 152, 419, 370],
 [7, 152, 419, 370, 8],
 [7, 152, 419, 370, 8, 27],
 [7, 152, 419, 370, 8, 27, 301],
 [4, 55],
 [4, 55, 10],
 [4, 55, 10, 6],
 [4, 55, 10, 6, 26]]

- 문장 생성을 위해 인덱스별 단어를 저장

In [9]:
t.word_index 

{',': 1,
 "'": 2,
 '광주': 3,
 '[': 4,
 '"': 5,
 ']': 6,
 '‘': 7,
 '’': 8,
 '명': 9,
 '날씨': 10,
 '”': 11,
 '“': 12,
 '하다': 13,
 '전국': 14,
 '전남': 15,
 '서': 16,
 '광주시': 17,
 '...': 18,
 '오후': 19,
 '확진': 20,
 '한': 21,
 '까지': 22,
 '비': 23,
 '로': 24,
 '-': 25,
 '오늘': 26,
 '지역': 27,
 '보다': 28,
 '장': 29,
 '내일': 30,
 '신규': 31,
 '일': 32,
 '추석': 33,
 '서울': 34,
 '대다': 35,
 '코로나': 36,
 '1': 37,
 '2': 38,
 '전': 39,
 '9시': 40,
 '?': 41,
 '만에': 42,
 '부터': 43,
 '지원': 44,
 '제': 45,
 '개최': 46,
 '19': 47,
 '5': 48,
 '교차': 49,
 '크다': 50,
 '기온': 51,
 '위': 52,
 '태풍': 53,
 '중': 54,
 '아침': 55,
 '낮': 56,
 '가을': 57,
 '원': 58,
 '문화': 59,
 '되다': 60,
 '(': 61,
 ')': 62,
 '첫': 63,
 '3': 64,
 '다': 65,
 '사업': 66,
 '이재명': 67,
 '성': 68,
 '주': 69,
 '경기': 70,
 '연휴': 71,
 '대': 72,
 '경찰': 73,
 '없다': 74,
 '정체': 75,
 '1만': 76,
 '부산': 77,
 '2만': 78,
 '길': 79,
 '에서': 80,
 '기': 81,
 '힌남노': 82,
 '센터': 83,
 '세': 84,
 '4': 85,
 '최고': 86,
 '적': 87,
 '화': 88,
 '산업': 89,
 '지': 90,
 '경': 91,
 '회': 92,
 '시장': 93,
 '고': 94,
 '한국': 95,
 '을'

In [10]:
index_to_word = {}

for word, key in t.word_index.items() :
  index_to_word[key] = word

index_to_word[30]

'내일'

In [11]:
# 문장의 최대 길이
max_len = max(len(s) for s in seqs)

max_len

26

- 같은 길이로 만들어줌

In [12]:
from numpy.lib.arraypad import pad
from tensorflow.keras.preprocessing.sequence import pad_sequences

seqs = pad_sequences(seqs, maxlen=max_len)

seqs[:5]

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   7, 152],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   7, 152, 419],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   7, 152, 419, 370],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   7, 152, 419, 370,   8],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   7, 152, 419, 370,   8,  27]],
      dtype=int32)

- 특성과 라벨 데이터로 분리

In [13]:
X = seqs[:, :-1]
y = seqs[:, -1]

X.shape, y.shape

((114772, 25), (114772,))

In [14]:
from tensorflow.keras.utils import to_categorical

# 원핫인코딩
y_en = to_categorical(y, num_classes=vocab_size)

y_en.shape

(114772, 16890)

- 신경망 설계

In [15]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

model2 = Sequential()

model2.add(Embedding(vocab_size, 20, input_length=max_len - 1))

model2.add(LSTM(128))

model2.add(Dense(vocab_size, activation="softmax"))

model2.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 25, 20)            337800    
                                                                 
 lstm (LSTM)                 (None, 128)               76288     
                                                                 
 dense (Dense)               (None, 16890)             2178810   
                                                                 
Total params: 2,592,898
Trainable params: 2,592,898
Non-trainable params: 0
_________________________________________________________________


In [16]:
model2.compile(loss="categorical_crossentropy",
               optimizer="adam",
               metrics=["accuracy"])

In [None]:
h2 = model2.fit(X, y_en, epochs=5)