
# 주제 : Seq2Seq의 Encoder로 뉴스기사 토픽 예측하기
--------------
## 실습 가이드
    1. 데이터를 다운로드하여 Colab에 불러옵니다.
    2. 필요한 라이브러리는 모두 코드로 작성되어 있습니다.
    3. 코드는 위에서부터 아래로 순서대로 실행합니다.
    4. 전체 문제 구성은 좌측 첫 번째 아이콘을 통해 확인할 수 있습니다.

## 데이터 소개
    - 이번 주제는 뉴스기사 데이터는 reuters Dataset을 사용합니다.
    - reuters Dataset은 11,228개의 뉴스기사와 46개의 주제를 가지고 있습니다.
    - 모든 단어는 빈도에 따른 정수로 교체 되어있습니다.
    - 관례적으로 정수 0은 특정 단어를 나타내는 것으로 사용하지 않습니다.
    - 학습 데이터와 정답 데이터는, 각각의 아래와 같습니다.
    
    1. train_text
      [
        [1,20, 432, 12, 312, ...],
        [42, 21, 111, 1213, ...],
        ...
      ]
    
    2. train_answer
      [
         3,  4,  3, ..., 25,  3
      ]

    
- 데이터 출처: [reuters](https://archive.ics.uci.edu/ml/datasets/reuters-21578+text+categorization+collection)


## 최종 목표
    - Seq2Seq 기반 모델의 이해
    - word embedding 이해
    - 시계열 데이터 학습 이해
    
  - 출제자 : 손근영 강사


In [None]:
import tensorflow as tf
from tensorflow import keras
from keras.layers import Dense
from keras.models import Sequential

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
from IPython.display import Image

warnings.filterwarnings('ignore')
%matplotlib inline

SEED = 34

## Step 1. 도입전 기본 처리

### 문제 1. reuters 데이터 살펴보기

In [None]:
# 데이터를 불러오는 코드를 작성해주세요.

### 문제 2. train_text/topic와 test_text/topic의 shape을 출력해보세요.

In [None]:
# 데이터의 크기를 shape 함수를 통해 출력해주세요.

In [None]:
# train_text/topic의 dtype을 출력해보세요.

### 문제 3. train_text에서 각 원소의 길이를 y축으로 bar plot를 그려보세요.

In [None]:
# train_text에서 각 원소의 길이를 y축으로 bar plot를 그려보세요.

## Step 2. 전처리

### 문제 4. train_text, test_text에서 등장한 정수들을 알아보자

In [None]:
# train_text, test_text에서 등장한 정수들을 알아보자

### 문제 5. train_text와 test_text를 BOW 형태로 변경

In [None]:
# train_text와 test_text를 BOW 형태로 변경하세요.

### 문제 6. train과 test에 나온 word들의 count를 측정해보자

In [None]:
# train과 test에 나온 word들의 count를 측정해보자\

### 문제 7. word_count를 이용해서 n번 이하로 나온 word를 삭제하여 train과 test를 구성하여보자.

In [None]:
# word_count를 이용해서 n번 미만으로 나온 word를 삭제하여 train과 test를 구성하여보자.

### 문제 8. pad 추가된 bow 형태로 변화하여 width 길이를 확인해보세요.

In [None]:
# bow 형태로 변화하여 width 길이를 확인해보세요.

### 문제 9. train_text/test_text에 길이 제한을 줘서 bow를 생성해보세요.

In [None]:
# train_text/test_text에 길이 제한을 줘서 bow를 생성해보세요.

### 문제 10. topic을 onehot encoding으로 변경해보세요.

In [None]:
# topic을 onehot encoding으로 변경해보세요.

### 문제 11. topic 인덱스를 text label로 변환하는 함수를 만드세요.

In [None]:
#topic 인덱스를 text label로 변환하는 함수를 만드세요.
raw_labels = ['cocoa','grain','veg-oil','earn','acq','wheat','copper','housing','money-supply',
   'coffee','sugar','trade','reserves','ship','cotton','carcass','crude','nat-gas',
   'cpi','money-fx','interest','gnp','meal-feed','alum','oilseed','gold','tin',
   'strategic-metal','livestock','retail','ipi','iron-steel','rubber','heat','jobs',
   'lei','bop','zinc','orange','pet-chem','dlr','gas','silver','wpi','hog','lead']

## Step 3. 시각화 방법

### 문제 12. train_text의 길이 분포를 출력해보세요.

In [None]:
# train_bow_text의 길이 분포를 출력해보세요.

### 문제 13. train_cut_bow_text의 길이 분포를 출력해보세요.

In [None]:
# train_bow_text의 길이 분포를 출력해보세요.

### 문제 14. train_cut_bow_text2의 길이 분포를 출력해보세요.

In [None]:
# train_cut_bow_text2의 길이 분포를 출력해보세요.

### 문제 15. label 분포를 출력해보세요.

In [None]:
# label 분포를 출력해보세요.

### 문제 16. seabon을 이용하여 label 분포를 출력해보세요.

In [None]:
# label 분포를 출력해보세요.

### 문제 17. reuters.get_word_index()를 이용해서 text를 decode해보세요.

In [None]:
# reuters.get_word_index()를 이용해서 text를 decode해보세요.

### 문제 18. train/test 데이터에서 문서당 가장 많은 횟수로 출현한 word 분포를 출력하세요.

In [None]:
# 문서당 가장 많은 횟수로 출현한 word 분포를 출력하세요.

### 문제 19. train/test 전체 문서 당 출현이 가장 높은 word 분포를 출력하세요.

In [None]:
# train/test 전체 문서 당 출현이 가장 높은 word 분포를 출력하세요.

## Step 4. Seq2Seq의 Encoder 이용 모델링

### 문제 20. Encoder이용 classification 모델 구축

In [None]:
# seq2seq 모델을 구축하고 학습모델, encoder를 획득하세요

### 문제 21. 학습 모델을 생성하고 summary를 출력하세요. 

In [None]:
# 학습 모델을 생성하고 summary를 출력하세요.

### 문제 22. 모델을 학습해보세요.

In [None]:
# 학습모델을 학습해보세요.

### 문제 23. 학습 진행 사항을 plt으로 출력하세요.

In [None]:
# hist의 accuracy와 loss를 plt의 plot을 이용하여 출력하는 코드를 작성하세요.

### 문제 24. train_cut_bow_text를 위한 학습 모델을 생성하고 summary를 출력하세요. 

In [None]:
# 학습 모델을 생성하고 summary를 출력하세요.

### 문제 25. 학습모델을 학습해보세요. 단, train_cut_bow_text를 200으로 길이를 수정하고 실행하세요.

In [None]:
# 학습모델을 학습해보세요.

### 문제 26. 학습 진행 사항을 plt으로 출력하세요.

In [None]:
# hist2의 accuracy와 loss를 plt의 plot을 이용하여 출력하는 코드를 작성하세요.

## Step 5. 모델 결과 확인

### 문제 27. 완성된 모델1, 2에서 test 하나를 예측하고 결과를 res1, res2 변수에 저정하세요.

In [None]:
# 완성된 모델에서 test 하나를 예측하고 결과를 res 변수에 저정하세요.

### 문제 28. res1, res2의 결과를 확인하세요.

In [None]:
# res1, res2의 결과를 확인하세요.

### 문제 29. reuters.get_word_index()를 이용하여 평문을 bow로 변환해보세요. 

In [None]:
# reuters.get_word_index()를 이용하여 평문을 bow로 변환해보세요. (oov는 무시합니다.)

### 문제 30. text2bow를 이용하여 model1을 통해 결과를 확인하세요.

In [None]:
# text2bow를 이용하여 model1을 통해 결과를 확인하세요.

### 문제 31. cut_by_count를 이용하여 20회 이상 등장한 word만 사용하는 bow를 만들어보세요

In [None]:
# cut_by_count를 이용하여 20회 이상 등장한 word만 사용하는 bow를 만들어보세요

### 문제 32. text2bow를 이용하여 model1을 통해 결과를 확인하세요.


In [None]:
#text2bow를 이용하여 model1을 통해 결과를 확인하세요.

### 문제 33. confusion 매트릭스 생성

In [None]:
# confusion 메트릭스 출력

### 문제 34. confusion 매트릭스 시각화

In [None]:
# confusion 매트릭스 시각화

### 문제 35. classification 결과 리포팅

In [None]:
# classification 결과 리포팅

## Step 6. 모델 저장 및 로드, 다운

### 문제 36. 모델을 저장하세요.

In [None]:
# 모델을 저장하는 코드를 작성하세요. 

### 문제 37. 모델 파일을 새로운 모델에 로드하세요.

In [None]:
# 모델을 로드하는 코드를 작성하세요.

### 문제 38. 로드한 모델을 test 데이터로 평가해보세요.


In [None]:
# 로드한 모델을 test 데이터로 평가해보세요.

### 문제 39. 모델을 내 컴퓨터에 저장해보세요

In [None]:
# 모델을 내 컴퓨터에 저장해보세요.