In [1]:
!pip install konlpy  # 토큰화에 사용할 konlpy 라이브러리 설치

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m42.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m30.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0
[0m

In [2]:
import numpy as np
import pandas as pd
import os, random
from tqdm import tqdm # 진행도 시각화를 위한 라이브러리
from sklearn.linear_model import LogisticRegression

seed=42
os.environ['PYTHONHASHSEED'] = str(seed)
random.seed(seed)
np.random.seed(seed)



# 데이터 불러오기

In [3]:
train_data = pd.read_csv("/kaggle/input/2023-ml-project1/nsmc_train.csv", index_col=0)
test_data = pd.read_csv("/kaggle/input/2023-ml-project1/nsmc_test.csv", index_col=0)
print(train_data.shape)
print(test_data.shape)

(149993, 2)
(49999, 1)


In [4]:
train_data.head()

Unnamed: 0_level_0,review,rating
id,Unnamed: 1_level_1,Unnamed: 2_level_1
9324809,배우들의 인생연기가 돋보였던... 최고의 드라마,1
9305425,아 혜리 보고싶다 ... 여군좀 ㅠ,0
5239110,"눈이 팅팅..... 정말 ,..... 대박이다......",1
9148159,캐슬린 터너의 보디는 볼만했다,0
6144938,진짜 최고였다.,1


In [5]:
x_train = train_data["review"]
y_train = np.array(train_data["rating"])

# 자연어 전처리
## \[Empty Module #1\] 데이터 전처리
### 데이터 전처리 수행
> 먼저, 리뷰를 분류하는데 도움이 되거나, 머신러닝 처리에 어려운 단어들을 제거해봅시다.
1. 아래 조건에 맞는 정규표현식을 작성하여 영어와 한글 문자를 제외한 특수문자나 이모지, 숫자 등을 제거해봅시다.
  - <mark>한글 문자(초성 제외), 영어 대문자, 영어 소문자, 띄어쓰기 이외의 문자를 제외</mark>하는 정규표현식 작성
2. 영어 단어의 경우 같은 단어들이 같은 토큰으로 분류될 수 있도록 <mark>대문자로 통일</mark>해줍니다.

In [6]:
import re

def apply_regex(pattern, text):  # 정규표현식을 이용한 필터링 적용
    text = re.sub(pattern, "", text)  # 정규표현식 패턴에 맞는 값들을 텍스트에서 제거
    text = text.upper()# 영어들을 찾아 대문자로 치환하는 코드 작성
    return text

text = "안녕 Hello!!!:)ㅎㅎ반갑다.ㅠㅠ__"
#pattern = '[^가-힣A-Za-z]'
pattern = '[^\w\s]|[ㄱ-ㅎ]|[ㅏ-ㅠ]|_'
output = apply_regex(pattern, text)
print(output)

안녕 HELLO반갑다


In [7]:
##########################################################################################
# Empty Module #1
# 입력: 자연어 상태의 리뷰 텍스트
# 출력: 한글(초성 제외), 영어 대문자, 띄어쓰기로만 구성된 텍스트 
# 입력 예시: "안녕 Hello!!!:)ㅎㅎ반갑다."
# 출력 예시: "안녕 HELLO반갑다"
##########################################################################################
import re

# 여기에 정규표현식 코드 작성
pattern = '[^\w\s]|[ㄱ-ㅎ]|[ㅏ-ㅣ]|_'

def apply_regex(pattern, text):  # 정규표현식을 이용한 필터링 적용
    text = re.sub(pattern, "", text)  # 정규표현식 패턴에 맞는 값들을 텍스트에서 제거
    text = text.upper() # 영어들을 찾아 대문자로 치환하는 코드 작성
    return text

x_train_preprocessed = [apply_regex(pattern, str(x[1])) for x in tqdm(x_train.iteritems(), total=len(x_train), desc="pre-processing data")]

  x_train_preprocessed = [apply_regex(pattern, str(x[1])) for x in tqdm(x_train.iteritems(), total=len(x_train), desc="pre-processing data")]
pre-processing data: 100%|██████████| 149993/149993 [00:01<00:00, 110794.84it/s]


In [8]:
x_train_preprocessed[0]

'배우들의 인생연기가 돋보였던 최고의 드라마'

## \[Empty Module #2\] 단어 토큰화
### Open Korean Text(OKT)를 이용한 단어 토큰화(Tokenization)
- 한국어 자연어 처리 라이브러리인 konlpy의 OKT 래퍼를 통하여 문장을 단어로 토큰화해봅시다.
- 아래 도큐먼트를 참고하여 토큰화를 수행합니다.
  - <mark>이때, OKT 클래스의 특정 매개변수를 이용해 어근화를 진행해줍니다. (도큐먼트 참고)</mark>
- konlpy 도큐먼트: https://konlpy.org/ko/latest/api/konlpy.tag/#okt-class
- OKT 도큐먼트: https://github.com/open-korean-text/open-korean-text

In [9]:
##########################################################################################
# Empty Module #2
# 입력: 자연어 상태의 리뷰 데이터
# 출력: 토큰화와 과정을 거쳐 단어들의 리스트로 변환된 데이터
# 입력 예시: "커피는 역시 학생회관 커피"
# 출력 예시: ["커피", "는", "역시", "학생", "회관", "커피"]
##########################################################################################
from konlpy.tag import Okt
okt = Okt()

def tokenize_words(sentence):
    sentence_tokenized = okt.morphs(sentence) # 여기에 코드 작성
    return sentence_tokenized

In [10]:
# 약 10-15분 정도 소요됩니다. 
x_train_tokenized = [tokenize_words(x) for x in tqdm(x_train_preprocessed, desc="tokenizing data")]

tokenizing data: 100%|██████████| 149993/149993 [09:34<00:00, 260.95it/s]


## \[Empty Module #3\] 불용어 제거
- 조사를 비롯한 불용어들은 많은 횟수 등장하지만, 리뷰의 긍정과 부정 여부를 판단하는데는 도움이 되지 않습니다.
- 데이터에서 아래 리스트로 정의된 불용어들을 제거해줍니다.

In [11]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']  #별다른 의미가 없는 불용어들

def exclude_stopwords(text):
    text = [word for word in text if not word in stopwords] # 위 리스트에 포함된 불용어들을 제거하는 코드 작성
    return text

x_train_stopwords_excluded = [exclude_stopwords(x) for x in x_train_tokenized]

In [12]:
x_train_stopwords_excluded[0]

['배우', '인생', '연기', '돋보였던', '최고', '드라마']

## \[Empty Module #4\] 단어 임베딩
### 단어 임베딩 코드 구현
- 토큰화를 거쳐 분리된 단어들을 하나의 정수 값으로 매핑해주는 희소 표현법을 직접 구현해봅시다.
- 입력된 단어가 새로운 단어라면 새로운 정수 값을 할당하고, 이전에 등장한 단어라면 이전에 할당한 정수를 할당하는 함수를 작성합니다.
  - 단, <mark>테스트 데이터에 대해서는 새로운 단어가 등장하면 값을 할당하지 않습니다.</mark>

In [13]:
##########################################################################################
# Empty Module #4
# 입력: 단어 토큰화된 데이터
# 출력: 임베딩 과정을 거쳐, 각 단어가 하나의 실수 값으로 표현된 데이터
# 입력 예시: ["커피", "역시", "학생", "회관", "커피"]
# 출력 예시: [0, 1, 2, 3, 0]
##########################################################################################

embedding_dict = dict()  # 단어 임베딩을 위한 딕셔너리
embedding_value = 0

def embed_tokens(sentence_tokenized, mode):
    assert mode.upper() in ["TRAIN", "TEST"]
    global embedding_value
    
    sentence_embedded = list()
    for word in sentence_tokenized:
        # 코드 작성
        if mode.upper() in "TRAIN":
            if word not in embedding_dict.keys():
                embedding_dict[word] = embedding_value
                embedding_value += 1
            sentence_embedded.append(embedding_dict[word])
        elif mode.upper() in "TEST":
            if word in embedding_dict.keys():
                sentence_embedded.append(embedding_dict[word])
            
        
    
    return sentence_embedded

In [14]:
# 실행 시간이 제법 소요됩니다. 비정상이 아니니 걱정하지 않으셔도 됩니다.
x_train_embedded = [embed_tokens(x, mode="TRAIN") for x in tqdm(x_train_stopwords_excluded, desc="embedding data")]
print(x_train_embedded[:5])
print("총 %d개의 단어가 임베딩되었습니다."%(embedding_value))

embedding data: 100%|██████████| 149993/149993 [00:02<00:00, 70853.96it/s]

[[0, 1, 2, 3, 4, 5], [6, 7, 8, 9], [10, 11, 12, 13, 14], [15, 16, 17, 18, 19, 20, 21], [22, 4, 23]]
총 103790개의 단어가 임베딩되었습니다.





## \[Empty Module #5\] 문장 벡터화
### Bag of Words 방법을 사용한 문장 벡터화
- 캐글 프로젝트 설명 페이지의 Bag of Words 방법 설명을 참고하여 Bag of Words 방법을 직접 구현해봅시다.

In [15]:
x_train_embedded[0]

[0, 1, 2, 3, 4, 5]

In [16]:
embedding_value

103790

In [17]:
##########################################################################################
# Empty Module #5
# 입력: 임베딩 과정을 거친 데이터
# 출력: BoW 형태로 변환되어, M차원의 고정된 크기를 가진 벡터로 변환된 데이터
# 힌트: np.zeros((2, 3))는 [2, 3] 크기의 0으로 가득 찬 행렬을 생성합니다.
##########################################################################################

M = embedding_value# 전체 단어의 수

def to_BoW_representation(x):
    global M
    shape = (len(x), M) # BoW는 어떤 shape를 가져야 할까요?
    x_BoW = np.zeros(shape)
    for i in tqdm(range(len(x)), desc="making BoW representation"):
        
        # 여기에 BoW 구현
        for j in range(len(x[i])):
            x_BoW[i][x[i][j]] += 1

    return x_BoW
x_train_BoW = to_BoW_representation(x_train_embedded)

making BoW representation: 100%|██████████| 149993/149993 [00:09<00:00, 16383.99it/s]


## \[Empty Module #6\] 차원 축소
- 우리가 만든 BoW는 수많은 리뷰에 등장하는 모든 단어들을 사용하여 만들어졌기 때문에, 엄청난 양의 단어들을 가지고 있습니다.
- 그러나, 실제로 영화 리뷰에 쓰이는 단어들은 이보다 적기 때문에, 많은 단어들이 전체 데이터에서 실제로는 한번도 등장하지 않거나, 매우 조금 등장하면서 공간을 차지하고 있을 것 입니다.
- 데이터의 크기를 줄여 머신러닝 모델이 중요한 정보에 집중할 수 있도록 해봅시다.
- <mark>학습 데이터에서 50번 미만으로 등장한 단어들을 제외</mark>해줍니다.

In [18]:
x_train_BoW

array([[1., 1., 1., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [19]:
##########################################################################################
# Empty Module #6
# 입력: BoW 형태로 변환된 (N, M) 크기의 데이터
# 출력: 등장 빈도가 적은 단어들을 제외한 (N, m) 크기의 더 작은 데이터
##########################################################################################

def exclude_rare_words(x, limit=50):
    # 코드 작성
    x_sum = x.sum(axis=0)
    indices = np.where(x_sum >= limit)[0]
    x_BoW = x[:, indices]
    return x_BoW, indices

x_train_BoW_reduced, indices = exclude_rare_words(x_train_BoW, limit=50)

In [20]:
# 힌트
# 1. 먼저 전체 데이터에서 각 단어가 등장한 횟수를 세어보세요.
# 2. 그 다음, 등장 횟수가 50회 미만인 단어들을 찾습니다.
# 3. 해당 단어들을 데이터에서 제거하는 코드를 작성합니다.
# 4. 설계를 잘 하고 구현을 시작해야 어렵지 않습니다.

In [21]:
# 여기에 코드 작성

print("원본 BoW 크기:", x_train_BoW.shape)
print("차원 축소 후 크기:", x_train_BoW_reduced.shape)

원본 BoW 크기: (149993, 103790)
차원 축소 후 크기: (149993, 3724)


In [22]:
x_train_BoW_reduced

array([[1., 1., 1., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [23]:
x_train_BoW_reduced.sum(axis=1)

array([ 5.,  2.,  4., ...,  6., 15.,  1.])

## \[Empty Module #7\]  분류 수행 및 제출: Bag of Words
- 이제 모든 문장이 고정된 크기 $m$ 차원의 벡터로 변환되었습니다.
- 원하는 모델을 사용하여, 각 문장의 영화에 대한 긍정적인 리뷰인지, 부정적인 리뷰인지 분류해봅시다.(Baseline 모델은 로지스틱 회귀입니다)
- 그 다음, 결과를 기록하여 Kaggle에 제출해봅시다!

In [24]:
##########################################################################################
# Empty Module #7
# 지금까지 전처리한 데이터로 분류를 수행하여, kaggle에 제출해봅시다.
# Baseline은 로지스틱 회귀입니다.
##########################################################################################
# 분류기 정의 및 학습 수행 코드 작성

from sklearn.linear_model import LogisticRegression

model = LogisticRegression(random_state=seed)

In [25]:
model.fit(x_train_BoW_reduced, y_train)
#print(model.score(x_train_BoW_reduced))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [26]:
# TEST 데이터를 전처리 (3분 정도걸림 주의)
x_test = test_data["review"]
x_test_preprocessed = [apply_regex(pattern, str(x[1])) for x in tqdm(x_test.iteritems(), total=len(x_test), desc="pre-processing data")]
x_test_tokenized = [tokenize_words(x) for x in tqdm(x_test_preprocessed, desc="tokenizing data")]
x_test_stopwords_excluded = [exclude_stopwords(x) for x in x_test_tokenized]
x_test_embedded = [embed_tokens(x, mode="TEST") for x in tqdm(x_test_stopwords_excluded, desc="embedding data")]
x_test_BoW = to_BoW_representation(x_test_embedded)
x_test_BoW_reduced = x_test_BoW[:, indices]

  x_test_preprocessed = [apply_regex(pattern, str(x[1])) for x in tqdm(x_test.iteritems(), total=len(x_test), desc="pre-processing data")]
pre-processing data: 100%|██████████| 49999/49999 [00:00<00:00, 101962.97it/s]
tokenizing data: 100%|██████████| 49999/49999 [04:06<00:00, 202.61it/s]
embedding data: 100%|██████████| 49999/49999 [00:00<00:00, 79737.15it/s]
making BoW representation: 100%|██████████| 49999/49999 [00:02<00:00, 18498.34it/s]


In [27]:
# TEST 데이터에 대한 예측 수행 코드 작성
y_test_pred = model.predict(x_test_BoW_reduced)

In [28]:
submit = pd.read_csv("/kaggle/input/2023-ml-project1/sample_submission.csv", index_col=0)
# TEST 데이터에 대한 예측 값을 csv로 저장하는 코드 작성
submit['rating'] = y_test_pred
submit.to_csv("submit.csv", header=True, mode='w')
submit


Unnamed: 0_level_0,rating
id,Unnamed: 1_level_1
9503843,1
3676359,1
6736987,0
6916831,1
9458520,1
...,...
8771102,0
6947729,1
9539166,0
8480745,0


## \[Empty Module #8\] TF-IDF 적용
- BoW에서는 고려하지 않는 각 단어들의 중요도를 고려하기 위해, TF-IDF를 적용해봅시다.
- 캐글 프로젝트 설명 페이지의 설명을 참고하여 빈칸을 채워, TF-IDF를 구현해봅시다.

In [29]:
##########################################################################################
# Empty Module #8
# 빈칸을 적절히 채워넣어 TF-IDF를 위한 Inverse Document Frequency를 계산해봅시다.
##########################################################################################
N = len(x_train_BoW)  # 총 데이터 샘플의 수


def calculate_document_frequency(x):
    # 어떤 단어가 등장하는 데이터 샘플(문서)의 수(DF)를 계산하는 코드 작성
    document_frequency = np.where(x > 0, 1, 0)
    return document_frequency.sum(axis=0)

def calculate_inverse_document_frequency(document_frequency):
    # DF에 반비례하는 IDF를 계산하는 코드 작성
    global N
    return np.log(N / (document_frequency + 1))

document_frequency = calculate_document_frequency(x_train_BoW) # 여기에 코드 작성
inverse_document_frequency = calculate_inverse_document_frequency(document_frequency) # 여기에 코드 작성

In [31]:
print(type(inverse_document_frequency), inverse_document_frequency.shape)

<class 'numpy.ndarray'> (103790,)


In [32]:
print(type(x_train_BoW), x_train_BoW.shape)

<class 'numpy.ndarray'> (149993, 103790)


In [None]:
# 데이터에 위에서 구한 IDF를 곱하는 코드 작성
x_train_tfidf = np.array([x * inverse_document_frequency for x in x_train_BoW])

## \[Empty Module #9\]  분류 수행 및 제출: TF-IDF
- TF-IDF를 적용한 결과를 기록하여 Kaggle에 제출해봅시다!

In [None]:
##########################################################################################
# Empty Module #9
# TEST 데이터에 TF-IDF를 적용하여 모델을 학습, 예측을 수행하고 kaggle에 제출해봅시다.
# 이때, BoW와 같은 모델을 사용하여 성능을 비교해봅시다.
##########################################################################################

# 분류기 정의 및 학습 수행 코드 작성
model_tfidf = LogisticRegression(random_state=seed)
model_tfidf.fit(x_train_tfidf, y_train)
# print(model_tfidf.score(x_train_tfidf))

In [None]:
# TEST 데이터를 전처리하는 코드 작성
N = len(x_test_BoW)

document_frequency = calculate_document_frequency(x_test_BoW)
inverse_document_frequency = calculate_inverse_document_frequency(document_frequency)

x_test_tfidf = np.array([x * inverse_document_frequency for x in x_test_BoW])

In [None]:
# 예측을 수행하는 코드 작성
y_test_tfidf_pred = model_tfidf.predict(x_test_tfidf)

In [None]:
submit_2 = pd.read_csv("/kaggle/input/2023-ml-project1/sample_submission.csv", index_col=0)
# TEST 데이터에 대한 예측 값을 csv로 저장하는 코드 작성
submit_2['rating'] = y_test_tfidf_pred
submit_2.to_csv("submit_2.csv", header=True, mode='w')
submit_2

## 결과 비교 TIP
- BoW와 TF-IDF에 같은 모델을 적용하여 성능의 차이를 비교해봅시다.
- 각각의 방법론에 여러가지 모델을 적용하며, 사용한 방법에 따라 더 적절한 모델이 있는지 고려해봅시다.
- 실험 결과들을 토대로, 왜 이런 결과가 도출되었는지 고민해봅시다.