# SC32x 
## 자연어처리 (Natural Language Processing)

# Part 1 : 개념 요약

> 다음의 키워드에 대해서 **한 줄**로 간단하게 요약해주세요. (세션 노트를 참고하여도 좋습니다.)<br/>
> **Tip : 아래 문제를 먼저 수행한 후 모델 학습 등 시간이 오래 걸리는 셀이 실행되는 동안 아래 내용을 작성하면 시간을 절약할 수 있습니다.**

**N321**
- Stopwords(불용어)
- Stemming과 Lemmatization
- Bag-of-Words
- TF-IDF

***이곳에 답안을 입력해주세요***

- Stopwords(불용어):
 문서의 특성을 나타내는데에 영향을 주지 않거나 의미가 없는 단어.
- Stemming과 Lemmatization:
 문서의 특성을 표현하는 단어들를 정규화하는 방법.
- Bag-of-Words:
 문서에 사용된 단어들를 문법이나 순서를 고려하지 않고 빈도수만 고려하여 문서를 벡터화하는 방법.
- TF-IDF:
 해당 문서에 등장하는 단어의 빈도수와 해당 문서의 단어가 등장하는 문서의 빈도수를 이용하여 문서를 벡터화하는 방식.



**N322**
- Word2Vec:
CBoW나 Skip-gram 방식으로 문서의 단어를 표현하는 임베딩 벡터를 학습시키고 임베딩 벡터로 단어를 표현하는 것.
- fastText: 단어를 철자단위로 분석하고 임베딩 벡터를 구하여 단어를 표현하는 것.

***이곳에 답안을 입력해주세요***

**N323**
- RNN
- LSTM, GRU
- Attention

***이곳에 답안을 입력해주세요***
- RNN :
자신의 출력 값이 다시 입력으로 들어오는 인공 신경망 구조.
- LSTM, GRU :
LSTM은 RNN의 기울기 소실 문제를 해결하기 위해 활성화 함수를 거치지 않는 cell-state와 과거의 정보와 새로 입력된 정보를 이용할 비중을 정하는 3가지 게이트를 추가한 인공 신경망 구조. GRU는 LSTM의 cell-state가 제거되고 3가지 게이트를 간소화하여 LSTM의 전체적인 맥락을 따르는 인공신경망 구조.
- Attention :
모든 단어의 정보를 활용하기 위해 RNN에 들어온 단어에 대한 Hidden state 벡터들과 해당 Hidden state 벡터를 이용하여 해당 단어의 문맥 상의 집중도를 계산하는 방법.

# Part 2 : Fake/Real News Dataset

한 주간 자연어처리 기법을 배우면서 여러분은 다양한 기술들을 접했습니다.<br/>
어떻게 텍스트 데이터를 다뤄야 하는지, 텍스트를 벡터화 하는 법, 문서에서 토픽을 모델하는 법 등 다양한 NLP 기법을 배웠는데요.<br/>
이번 스프린트 챌린지에선 [Fake/Real News Dataset](https://www.kaggle.com/clmentbisaillon/fake-and-real-news-dataset)을 사용하여 배운 것들을 복습해보는 시간을 갖겠습니다.

**주의 : 모델의 성능을 최대한 끌어올리는 것이 아닌 모델 구동에 초점을 맞춰주세요.<br/>
모든 문제를 완료한 후에도 "시간이 남았다면" 정확도를 올리는 것에 도전하시는 것을 추천드립니다.**

In [1]:
# 코드 실행 전 seed를 지정하겠습니다.
import numpy as np
import tensorflow as tf

np.random.seed(42)
tf.random.set_seed(42)

## 2.0 데이터셋을 불러옵니다.

- 위 캐글 링크에서 데이터셋을 받아 업로드 합니다.<br/>
(직접 업로드하게 되면 시간이 꽤 걸리므로 **drive_mount** 나 **kaggle 연동**하시는 것을 추천드립니다.)

- 'label' 열을 만들어 Fake = 1, True = 0 로 레이블링해줍니다.
- 두 파일을 합쳐 하나의 데이터프레임에 저장해 준 후 데이터를 섞어줍니다.

## 2.1 TF-IDF 를 활용하여 특정 뉴스와 유사한 뉴스 검색하기

시간상 특별한 **전처리 없이** 아래 태스크를 수행하겠습니다.

### 2.1.1 TFidfVectorizer를 사용하여 문서-단어 행렬(Document-Term Matrix) 만들기

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
fake = pd.read_csv('Fake.csv')
true = pd.read_csv('True.csv')
fake['label'] = 1
true['label'] = 0
df = pd.concat([fake,true])
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44898 entries, 0 to 21416
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    44898 non-null  object
 1   text     44898 non-null  object
 2   subject  44898 non-null  object
 3   date     44898 non-null  object
 4   label    44898 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 2.1+ MB


In [13]:
tfid = TfidfVectorizer(max_features = 3000)
X = tfid.fit_transform(df['text'])
y = df['label']

### 2.1.2 KNN 알고리즘을 사용하여 유사한 문서 검색하기

- **42번 인덱스의 문서**와 가장 유사한 **5개 문서(42번 포함)의 인덱스**와 **해당 인덱스의 레이블**을 나타내주세요.
- NN 모델의 파라미터 중 `algorithm = 'kd_tree'` 로 설정합니다.

In [16]:
from sklearn.neighbors import KNeighborsClassifier

neigh = KNeighborsClassifier(n_neighbors=5,algorithm = 'kd_tree')
neigh.fit(X, y)
print(neigh.kneighbors(X = X[42],n_neighbors = 5)[1])



[[   42 23876 36788 23864 23838]]


## 2.2 Keras Embedding을 사용하여 분류하기

### 2.2.0 데이터셋 split

- Train, Test 데이터셋으로 분리(Split)하여 주세요.

In [26]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(df['text'],y,test_size = 0.2,random_state = 42 , stratify = y)

### 2.2.1 단어 벡터의 평균을 이용하여 분류해보기

N322에서 했던 단어 임베딩 벡터의 평균을 사용하여 문장을 분류하는 작업을 수행해봅시다.<br/>
인스턴스마다 텍스트 길이가 길고 시간이 오래 걸리므로 시간상 epoch 수를 **10 이하**로 하는 것을 추천드립니다.<br/>
모델 구동이 목적이므로 임베딩 차원 수를 크지 않게(50이하)로 설정해주세요.<br/>
**권장사항 : `max_len` 은 텍스트 길이 평균보다 높게 설정해주세요.**<br/>

> **Tip : 모델이 학습하는 동안 2.2.3의 내용을 작성하면 시간을 절약할 수 있습니다.**


In [30]:
import spacy
from keras.preprocessing import sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, GlobalAveragePooling1D
from tensorflow.keras.preprocessing.text import Tokenizer

tkzer = Tokenizer(num_words = 2000)
tkzer.fit_on_texts(X_train)

X_train_encoded= tkzer.texts_to_sequences(X_train)
X_test_encoded = tkzer.texts_to_sequences(X_test)

# print(f'학습 데이터에 있는 문서의 평균 토큰 수: {np.mean([len(sent) for sent in X_train_encoded], dtype=int)}')

maxlen=400
X_train_final = pad_sequences(X_train_encoded, maxlen=maxlen, padding='post')
y_train=np.array(y_train)
X_test_final = pad_sequences(X_test_encoded, maxlen=maxlen, padding='post')
y_test=np.array(y_test)

vocab_size = len(tkzer.word_index)

# embedding_matrix = np.zeros((vocab_size, 50))

model = Sequential()
model.add(Embedding(vocab_size, 50,input_length=maxlen, trainable=False )) #,weights=[embedding_matrix]))
model.add(GlobalAveragePooling1D()) # 입력되는 단어 벡터의 평균을 구하는 함수입니다.
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['acc'])
model.fit(X_train_final, y_train, batch_size=64, epochs=10, validation_split=0.2)

model.evaluate(X_test_final, y_test)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


[0.6856023669242859, 0.5641425251960754]

### 2.2.2 LSTM을 사용하여 텍스트 분류 수행해보기

N323에서 했던 단어 임베딩 벡터의 평균을 사용하여 문장을 분류하는 작업을 수행해봅시다.<br/>
인스턴스마다 텍스트 길이가 길어 시간이 매우 오래 걸리므로 <br/>
**층을 최소한으로 쌓고**, epoch 수를 **3 이하**로 하는 것을 추천드립니다.<br/>

> **Tip : 모델이 학습하는 동안 2.2.3의 내용을 작성하면 시간을 절약할 수 있습니다.**


In [34]:
from keras.callbacks import EarlyStopping
model = tf.keras.models.Sequential([
  tf.keras.layers.Embedding(vocab_size, 50), 
  tf.keras.layers.LSTM(10, dropout=0.2, recurrent_dropout=0.2), 
  tf.keras.layers.Dense(1, activation='sigmoid')  
])

model.compile(loss='binary_crossentropy',
              optimizer='RMSprop', 
              metrics=['accuracy'])

model.summary()

callback = EarlyStopping(monitor='val_loss', min_delta=0.0001, patience=3)
model.fit(X_train_final,y_train,batch_size = 128, epochs = 3 , validation_split=0.2,callbacks = [callback])

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_3 (Embedding)     (None, None, 50)          6277800   
                                                                 
 lstm_2 (LSTM)               (None, 10)                2440      
                                                                 
 dense_3 (Dense)             (None, 1)                 11        
                                                                 
Total params: 6,280,251
Trainable params: 6,280,251
Non-trainable params: 0
_________________________________________________________________
Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x7efc9a206560>

In [35]:
model.evaluate(X_test_final, y_test)



[0.19041146337985992, 0.9492204785346985]

### 2.2.3 위에서 실행한 내용에 대해 다시 알아봅시다.

#### a) 데이터셋을 학습할 때 사용하는 `pad_sequences`  메서드에 대해 설명해주세요.<br/>어떤 기능을 하나요? 모델을 학습할 때 왜 필요한가요?

***이곳에 답안을 입력해주세요***
문서별로 단어의 수가 다른데 모델에 입력되기 위해서는 모든 문서가 동일한 shape이여야 하기 때문에 pad_sequences가 필요하다.
pad_sequences는 모든 토큰화된 문서들의 길이를, 기준 값보다 짧을 경우 padding를, 기준 값보다 큰 경우 slicing하여 모두 같은 길이로 전처리해준다.

#### b) 2.2.1과 2.2.2에서 사용한 각 모델의 evaluation 성능은 어떻게 나왔나요?<br/>각 모델의 장단점은 무엇이라고 생각하나요?


***이곳에 답안을 입력해주세요***

2.2.2의 평가 성능이 2.2.1보다 더 좋은 것으로 나타났다.
2.2.1 모델은 간단하고 학습시간이 짧은 장점이 있지만 정확도가 높지 않다.
2.2.2 모델은 정확도 및 성능이 높지만 학습시간이 길고 모델이 복잡하다.

#### c) 종래의 RNN(Recurrent Neural Networks) 대신 LSTM(Long-Short Term Memory)을 사용하는 이유는 무엇인가요?<br/>(i.e. RNN에 비해 LSTM의 좋은 점을 설명해주세요.)

***이곳에 답안을 입력해주세요***

LSTM은 RNN에 비해 기울기 소실 또는 폭주 문제가 없다. 즉 긴 길이의 문서를 더 잘 학습한다.

#### d) LSTM이나 RNN을 사용하는 예시를 **3개**이상 제시하고 해당되는 경우에 왜 LSTM이나 RNN을 사용하는 것 적절한지 간단하게 설명해주세요.

***이곳에 답안을 입력해주세요***
RNN: 댓글 감정분류,스팸 메시지 분류. 비교적 짧은 길이의 문장들로 RNN으로 적절히 분류할 수 있다. 
LSTM: 주식 그래프 예측. LSTM은 긴 길이의 시계열 데이터를 잘 처리할 수 있어서 주식 그래프와 같은 데이터를 잘 학습할 수 있다.

#### e) 이외에 N324 에서 배운 자연어처리 모델과 관련된 키워드를 3개 이상 적어주세요. <br/> (해당 키워드에 대한 설명은 옵션입니다.)

***이곳에 답안을 입력해주세요***
Transformer, Positional encoding, Self attention, Multi head attention, Masked self attention, Encoder-Decoder Attention 

# Advanced Goals: 3점을 획득하기 위해선 아래의 조건 중 하나 이상을 만족해야합니다
 
- 2.1 에서 TF-IDF(`TfidfVectorizer`)가 아닌 방법을 사용하여 유사도 검색을 수행해보세요.<br/>
TF-IDF와 해당 방법의 차이를 설명해주세요. 
- 2.2 에서 사용한 방법을 재사용하되 하이퍼 파라미터를 조정하거나 모델 구조를 변경하여 성능을 올려봅시다.<br/>**(주의 : GridSearch, RandomSearch 등의 방법을 사용하여도 좋으나 시간이 오래 걸리므로 범위를 잘 선택해야 합니다.)**

In [None]:
# 이 곳에 답안을 작성하시길 바랍니다