# NLP Basic Assignment
## 과제 : spam.csv를 활용하여 유의미한 해석을 도출해주세요!

In [1]:
import pandas as pd
import warnings

warnings.filterwarnings(action='ignore') 

## Load Data
- 보시면 아시다시피 spam.csv는 라벨이 있는 데이터입니다.
- 7주차 주제가 텍스트 기초인만큼 텍스트만 활용하셔도 되고 라벨까지 활용하셔서 모델을 돌려보셔도 좋습니다.

In [2]:
df = pd.read_csv('spam.csv')

In [3]:
df.iloc[5]['v2']

"FreeMsg Hey there darling it's been 3 week's now and no word back! I'd like some fun you up for it still? Tb ok! XxX std chgs to send, å£1.50 to rcv"

In [4]:
df.columns

Index(['v1', 'v2'], dtype='object')

## Tokenizing

In [5]:
import nltk

In [6]:
from nltk.tokenize import word_tokenize

# 토큰화 함수
def tokenize_text(text):
    return word_tokenize(text.lower())

In [7]:
# 토큰화 적용
df['tokenized'] = df['v2'].apply(tokenize_text)

# 토큰화 및 lower 결과 확인
df.head()

Unnamed: 0,v1,v2,tokenized
0,ham,"Go until jurong point, crazy.. Available only ...","[go, until, jurong, point, ,, crazy, .., avail..."
1,ham,Ok lar... Joking wif u oni...,"[ok, lar, ..., joking, wif, u, oni, ...]"
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,"[free, entry, in, 2, a, wkly, comp, to, win, f..."
3,ham,U dun say so early hor... U c already then say...,"[u, dun, say, so, early, hor, ..., u, c, alrea..."
4,ham,"Nah I don't think he goes to usf, he lives aro...","[nah, i, do, n't, think, he, goes, to, usf, ,,..."


In [8]:
len(df)

5572

## Embedding

- 수업에서 다룬 임베딩 방법에는 One-hot encoding, CBOW, Skip-gram 등이 있었습니다. 다양한 시도와 '비교' 결과를 함께 적어주세요! 파라미터를 조정해가는 과정도 해석에 도움이 될 수 있겠죠 :)

In [9]:
from collections import Counter

# 모든 토큰을 하나의 리스트로 합치기
all_tokens = [token for sublist in df['tokenized'].tolist() for token in sublist]

# 가장 빈번하게 등장하는 단어 1000개를 선택 (성능과 시간을 고려)
most_common_tokens = [item[0] for item in Counter(all_tokens).most_common(1000)]
print('len(most_common_tokens):',len(most_common_tokens))

len(most_common_tokens): 1000


### One-hot encoding

In [10]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

one_hot_encoder = OneHotEncoder(sparse=False)
one_hot_encoded = one_hot_encoder.fit_transform(np.array(most_common_tokens).reshape(-1, 1))
one_hot_encoded

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [11]:
# One-Hot Encoding을 위한 딕셔너리 생성
token_to_one_hot = {token: one_hot for token, one_hot in zip(most_common_tokens, one_hot_encoded)}

# One-Hot Encoding 예시
def one_hot_encode_sentence(sentence):
    return np.sum([token_to_one_hot.get(token, np.zeros_like(one_hot_encoded[0])) for token in sentence], axis=0)

df['one_hot_encoded'] = df['tokenized'].apply(one_hot_encode_sentence)
df.head()

Unnamed: 0,v1,v2,tokenized,one_hot_encoded
0,ham,"Go until jurong point, crazy.. Available only ...","[go, until, jurong, point, ,, crazy, .., avail...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
1,ham,Ok lar... Joking wif u oni...,"[ok, lar, ..., joking, wif, u, oni, ...]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,"[free, entry, in, 2, a, wkly, comp, to, win, f...","[0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
3,ham,U dun say so early hor... U c already then say...,"[u, dun, say, so, early, hor, ..., u, c, alrea...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
4,ham,"Nah I don't think he goes to usf, he lives aro...","[nah, i, do, n't, think, he, goes, to, usf, ,,...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."


### CBOW

In [12]:
from gensim.models import Word2Vec

# CBOW 모델 학습
# sg=0
cbow_model = Word2Vec(sentences=df['tokenized'].tolist(), vector_size=100, window=5, min_count=1, sg=0)

In [13]:
def cbow_encode_sentence(sentence):
    return np.mean([cbow_model.wv[token] for token in sentence if token in cbow_model.wv.index_to_key], axis=0)

df['cbow_encoded'] = df['tokenized'].apply(cbow_encode_sentence)
df.head()

Unnamed: 0,v1,v2,tokenized,one_hot_encoded,cbow_encoded
0,ham,"Go until jurong point, crazy.. Available only ...","[go, until, jurong, point, ,, crazy, .., avail...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.2131281, 0.5120939, 0.06746618, 0.09007574..."
1,ham,Ok lar... Joking wif u oni...,"[ok, lar, ..., joking, wif, u, oni, ...]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.2725185, 0.63447654, -0.025092702, 0.04651..."
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,"[free, entry, in, 2, a, wkly, comp, to, win, f...","[0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.1428263, 0.3078986, 0.22075629, 0.15508227..."
3,ham,U dun say so early hor... U c already then say...,"[u, dun, say, so, early, hor, ..., u, c, alrea...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.30553776, 0.7383031, 0.007242428, 0.067194..."
4,ham,"Nah I don't think he goes to usf, he lives aro...","[nah, i, do, n't, think, he, goes, to, usf, ,,...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.23587714, 0.7552323, -0.04460959, 0.043255..."


### Skip-gram

In [14]:
# Skip-gram 모델 학습
# sg=1
skip_gram_model = Word2Vec(sentences=df['tokenized'].tolist(), vector_size=100, window=5, min_count=1, sg=1)

In [15]:
def skip_gram_encode_sentence(sentence):
    return np.mean([skip_gram_model.wv[token] for token in sentence if token in skip_gram_model.wv.index_to_key], axis=0)

df['skip_gram_encoded'] = df['tokenized'].apply(skip_gram_encode_sentence)
df.head()

Unnamed: 0,v1,v2,tokenized,one_hot_encoded,cbow_encoded,skip_gram_encoded
0,ham,"Go until jurong point, crazy.. Available only ...","[go, until, jurong, point, ,, crazy, .., avail...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.2131281, 0.5120939, 0.06746618, 0.09007574...","[-0.074390195, 0.30567405, -0.057721723, -0.02..."
1,ham,Ok lar... Joking wif u oni...,"[ok, lar, ..., joking, wif, u, oni, ...]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.2725185, 0.63447654, -0.025092702, 0.04651...","[-0.13884059, 0.38510075, -0.13098091, -0.0834..."
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,"[free, entry, in, 2, a, wkly, comp, to, win, f...","[0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.1428263, 0.3078986, 0.22075629, 0.15508227...","[0.102535516, 0.11893853, 0.004574433, 0.02577..."
3,ham,U dun say so early hor... U c already then say...,"[u, dun, say, so, early, hor, ..., u, c, alrea...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.30553776, 0.7383031, 0.007242428, 0.067194...","[-0.13591358, 0.41984785, -0.15223564, -0.1239..."
4,ham,"Nah I don't think he goes to usf, he lives aro...","[nah, i, do, n't, think, he, goes, to, usf, ,,...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.23587714, 0.7552323, -0.04460959, 0.043255...","[-0.026603712, 0.4089645, -0.04873675, 0.01093..."


### 각 임베딩 방식 비교

#### One-hot Encoding
- One-hot encoding은 단어를 고차원의 벡터로 표현합니다. 벡터의 크기는 단어 사전의 크기와 동일하며, 각 단어는 단어 사전에서의 위치에 해당하는 인덱스에 1의 값을 갖습니다.

#### CBOW
- BOW는 단어를 주변 단어를 통해 예측하는 방식으로 작동합니다. 각 단어는 실수 벡터로 표현되며, 벡터의 차원은 설정에 따라 다릅니다. 여기서는 100차원을 사용했습니다.

#### Skip-gram

- Skip-gram은 주변 단어를 중심 단어를 통해 예측하는 방식으로 작동합니다. CBOW와 마찬가지로 각 단어는 실수 벡터로 표현됩니다.

#### 비교
- One-hot encoding은 단어 간의 관계나 의미를 고려하지 않습니다. 이는 메모리를 많이 사용하고, 단어의 의미나 문맥을 파악하는 데 한계가 있습니다.
- CBOW와 Skip-gram은 단어의 문맥을 고려하여 단어를 임베딩합니다. 이는 단어 간의 유사성을 파악하는 데 유용합니다.
- 파라미터 조정
    - vector_size: 단어 벡터의 차원 수. 더 높은 차원은 더 많은 정보를 담을 수 있지만, 계산 비용이 증가합니다.
    - window: 고려할 주변 단어의 범위. 더 큰 윈도우는 더 많은 문맥을 고려합니다.
    - min_count: 모델 학습에 사용할 최소 단어 빈도. 너무 낮게 설정하면 희귀한 단어 때문에 모델 성능이 떨어질 수 있습니다.

## 본인이 도출해낸 해석을 적어주세요!

- 유사도, Wordcloud, 이진 분류 모델, Plot 뭐든 상관없으니 분명하고 인상적인 해석을 적어주시면 됩니다.

In [16]:
from sklearn.manifold import TSNE
import plotly.express as px

# One-Hot Encoding 데이터
one_hot_data = np.array(df['one_hot_encoded'].tolist())

# CBOW 데이터
cbow_data = np.array(df['cbow_encoded'].tolist())

# Skip-gram 데이터
skip_gram_data = np.array(df['skip_gram_encoded'].tolist())

# t-SNE 모델 생성 및 학습 for 3D
tsne_3d = TSNE(n_components=3, random_state=0)

one_hot_3d = tsne_3d.fit_transform(one_hot_data)
cbow_3d = tsne_3d.fit_transform(cbow_data)
skip_gram_3d = tsne_3d.fit_transform(skip_gram_data)

In [26]:
# One-Hot Encoding
df_one_hot_3d = pd.DataFrame(one_hot_3d, columns=['x', 'y', 'z'])
df_one_hot_3d['label'] = df['v1']

fig = px.scatter_3d(df_one_hot_3d, x='x', y='y', z='z', color='label', title="One-Hot Encoding")
fig.update_traces(marker=dict(size=1))
fig.update_layout(scene=dict(aspectmode="cube", aspectratio=dict(x=1, y=1, z=1)))
fig.show()
fig.write_html("One_Hot Encoding.html")

In [27]:
# CBOW
df_cbow_3d = pd.DataFrame(cbow_3d, columns=['x', 'y', 'z'])
df_cbow_3d['label'] = df['v1']

fig = px.scatter_3d(df_cbow_3d, x='x', y='y', z='z', color='label', title="CBOW")
fig.update_traces(marker=dict(size=1))
fig.update_layout(scene=dict(aspectmode="cube", aspectratio=dict(x=1, y=1, z=1)))
fig.show()
fig.write_html("CBOW.html")

In [28]:
# Skip-gram 시각화
df_skip_gram_3d = pd.DataFrame(skip_gram_3d, columns=['x', 'y', 'z'])
df_skip_gram_3d['label'] = df['v1']

fig = px.scatter_3d(df_skip_gram_3d, x='x', y='y', z='z', color='label', title="Skip-gram")
fig.update_traces(marker=dict(size=1))
fig.update_layout(scene=dict(aspectmode="cube", aspectratio=dict(x=1, y=1, z=1)))
fig.show()
fig.write_html("Skip-gram.html")

In [29]:
# 새로운 fig 생성
fig = go.Figure()

# One-Hot Encoding 데이터 추가
fig.add_trace(go.Scatter3d(x=df_one_hot_3d['x'], y=df_one_hot_3d['y'], z=df_one_hot_3d['z'],
                           mode='markers', marker=dict(size=2, color='red'),
                           name='One-Hot Encoding'))

# CBOW 데이터 추가
fig.add_trace(go.Scatter3d(x=df_cbow_3d['x'], y=df_cbow_3d['y'], z=df_cbow_3d['z'],
                           mode='markers', marker=dict(size=2, color='green'),
                           name='CBOW'))

# Skip-gram 데이터 추가
fig.add_trace(go.Scatter3d(x=df_skip_gram_3d['x'], y=df_skip_gram_3d['y'], z=df_skip_gram_3d['z'],
                           mode='markers', marker=dict(size=2, color='blue'),
                           name='Skip-gram'))

# Layout 설정
fig.update_layout(scene=dict(aspectmode="cube", aspectratio=dict(x=1, y=1, z=1)),
                  title="Embedding Comparison in a Single Plot")

# 그래프 출력
fig.show()
fig.write_html("Embedding Comparison.html")