# 뉴스 토픽 분류
- 데이터 출처: DACON, 뉴스 토픽 분류 AI 경진대회
    - https://dacon.io/competitions/official/235747/overview/description

#### 01. 필요한 패키지 임포트

In [2]:
import numpy as np
import pandas as pd
import tensorflow as tf
seed = 2022
np.random.seed(seed)
tf.random.set_seed(seed)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import Embedding, LSTM, GRU, Conv1D, Dense
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping

#### 02. 파일 업로드
- train.csv
- test.csv

In [3]:
from google.colab import files
up = files.upload()

Saving test_data.csv to test_data (1).csv
Saving train_data.csv to train_data (1).csv


In [4]:
train = pd.read_csv('train_data.csv', encoding='utf8') 
test = pd.read_csv('test_data.csv', encoding='utf8')

In [5]:
train.head(2)

Unnamed: 0,index,title,topic_idx
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4


In [6]:
test.head(2)

Unnamed: 0,index,title
0,45654,유튜브 내달 2일까지 크리에이터 지원 공간 운영
1,45655,어버이날 맑다가 흐려져…남부지방 옅은 황사


#### 03. 데이터 전처리
- 한글, 영어, 한자 모두 포함
    - 한글, 한자 → 영어로 모두 번역 후, 형태소 분석 → 한글 번역

- 필요한 컬럼만 가져오기

In [7]:
train = train[['title', 'topic_idx']]
train.head(2)

Unnamed: 0,title,topic_idx
0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4
1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4


- 3-1) 중복 & Null 값 처리하기

In [8]:
# train
train.shape, train.title.nunique(), train.isnull().sum().sum() 

((45654, 2), 45654, 0)

In [9]:
# test
test.shape, test.title.nunique(), test.isnull().sum().sum()

((9131, 2), 9131, 0)

- 3-2) 한글, 영어, 숫자 이외 데이터 제거

In [9]:
# train.title = train.title.str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣|A-Za-z|0-9 ]', '')
# train.title.isnull().sum()

  """Entry point for launching an IPython kernel.


0

- 3-2) 한영 번역하기
    - googletrans 4.0.0 설치

In [10]:
!pip install googletrans==4.0.0-rc1



In [11]:
from googletrans import Translator

trans = Translator()

In [None]:
from tqdm.notebook import tqdm
import time
lines = []
for line in tqdm(train.title):
    try:
        line_eng = trans.translate(line, src='ko', dest='en')
        lines.append(line_eng.text)
    except:
        pass

  0%|          | 0/45654 [00:00<?, ?it/s]

In [None]:
df_trans = pd.DataFrame(lines)
df_trans.head()

In [None]:
def trans(df, col_name, language='en'):
    trans = Translator()
    lines = []
    for line in df[col_name]:
        try:
            line1 = trans.translate(line, src='ko', dest=language)
            lines.append(line1)
        except:
            pass
    print(lines)

In [None]:
# trans 함수 정의
def trans(df, col_name, language='en'):
    trans = Translator()
    lines = [trans.translate(line, src='ko', dest=language) for line in df[col_name]]
    res = pd.DataFrame(line.text for line in lines)
    return pd.concat([df[col_name], res], axis=1)

- 3-3) 중영 번역하기

- 3-4) 영어 이외 데이터 제거

- 3-5) 형태소 분석

- 3-6) 영한 번역하기

- 3-7) 한글 이외 데이터 제거

- 3-8) 토큰화


    - 인코딩 & 패딩
    - y_train : one-hot encoding 하기

#### 04. 모델 정의/설정/학습

- Case 01. LSTM

< ls_model1 >

< ls_model2 >

- Case 02. GRU

< g_model1 >

< g_model2 >

- Case 03. Conv1D

< c_model1 >

< c_model2 >