In [19]:
import numpy as np
import tensorflow as tf
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer

In [20]:
# Naver Sentiment Movie Corpus v1.0 다운로드하기
path_to_train_file = tf.keras.utils.get_file('train.txt', 'https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt')
path_to_test_file = tf.keras.utils.get_file('test.txt', 'https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt')

df_train = pd.read_csv(path_to_train_file, sep='\t')


In [21]:
df_train['label'] = df_train['label'].replace({0: 0, 1: 0, 2: 1, 3: 2, 4: 2})

# 데이터 전처리
X = df_train['document']
y = df_train['label']

0                                       아 더빙.. 진짜 짜증나네요 목소리
1                         흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
2                                         너무재밓었다그래서보는것을추천한다
3                             교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
4         사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...
                                ...                        
149995                                  인간이 문제지.. 소는 뭔죄인가..
149996                                        평점이 너무 낮아서...
149997                      이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?
149998                          청춘 영화의 최고봉.방황과 우울했던 날들의 자화상
149999                             한국 영화 최초로 수간하는 내용이 담긴 영화
Name: document, Length: 150000, dtype: object

In [29]:
y

0         0
1         0
2         0
3         0
4         0
         ..
149995    0
149996    0
149997    0
149998    0
149999    0
Name: label, Length: 150000, dtype: int64

In [24]:
# Check for missing values in the 'document' column
missing_values = df_train['document'].isnull().sum()
print(f"결측값: {missing_values}")

# Drop rows with missing values
df_train = df_train.dropna(subset=['document'])

결측값: 0


In [31]:
df_train.reset_index(drop=True, inplace=True)

In [33]:
train_test_X = [row.split('\t')[1] for row in train_text.split('\n')[1:] if row.count('\t') > 0 ]
print(len(train_test_X))

150000


In [34]:
train_Y = [row.split('\t')[2] for row in train_text.split('\n')[1:] if row.count('\t') > 0 ]
test_Y = [row.split('\t')[2] for row in test_text.split('\n')[1:] if row.count('\t') > 0 ]
train_test_X = [row.split('\t')[1] for row in train_text.split('\n')[1:] if row.count('\t') > 0 ]

In [3]:
# 데이터 읽어 저장하기 : encoding 형식으로 utf-8 을 지정해야합니다.
# 1. path_to_train_file / path_to_test_file 을 open() 해서 read()한후 decode(encoding='utf-8') 한 후
# train_text / test_text 에 저장합니다. 
with open(path_to_train_file, 'r', encoding='utf-8') as train_file:
    train_text = train_file.read()

with open(path_to_test_file, 'r', encoding='utf-8') as test_file:
    test_text = test_file.read()
# train_text = ... # ... your code
# test_text = ...  # ... your code
print('train text length:',len(train_text),' characters')
print('test  text length:',len(test_text),' characters')
print('\n')
print(train_text[:5])
print(train_text[:300])

train text length: 6937271  characters
test  text length: 2318260  characters


id	do
id	document	label
9976970	아 더빙.. 진짜 짜증나네요 목소리	0
3819312	흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나	1
10265843	너무재밓었다그래서보는것을추천한다	0
9045019	교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정	0
6483659	사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다	1
5403919	막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.	0
7797314	원작의
