In [2]:
# 라이브러리 설치 
# !pip install konlpy

In [3]:
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs('나는 학교에 간다'))

['나', '는', '학교', '에', '간다']


# 데이터의 분할
- KFold의 분할 방식 
    - KFold
        - 무작위로 데이터를 폴드화 
    - StratifiedKFold
        - 계층화를 유지하면서 폴드화 

In [4]:
import pandas as pd
from sklearn.model_selection import KFold, StratifiedKFold, StratifiedGroupKFold

data = {
    'document' : ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
    'label' : [1, 1, 0, 0, 1, 0, 0, 1], 
    'id' : ['a', 'a', 'b', 'b', 'c', 'c', 'd', 'd']
}
df = pd.DataFrame(data)
df

Unnamed: 0,document,label,id
0,A,1,a
1,B,1,a
2,C,0,b
3,D,0,b
4,E,1,c
5,F,0,c
6,G,0,d
7,H,1,d


In [5]:
# 일반적인 KFold 
X = df['document']
Y = df['label']
groups = df['id']

k_folds = KFold(n_splits=2, shuffle=True, random_state=42)
s_folds = StratifiedKFold(n_splits=2, shuffle=True, random_state=42)
sg_fold = StratifiedGroupKFold(n_splits=2, shuffle=True, random_state=42)

In [6]:
for x_idx, y_idx in k_folds.split(X, Y):
    print(df.loc[x_idx])
    print(df.loc[y_idx])
    break

  document  label id
2        C      0  b
3        D      0  b
4        E      1  c
6        G      0  d
  document  label id
0        A      1  a
1        B      1  a
5        F      0  c
7        H      1  d


In [7]:
# 계층화 KFold
for x_idx, y_idx in s_folds.split(X, Y):
    print(df.loc[x_idx])
    print(df.loc[y_idx])
    break

  document  label id
1        B      1  a
3        D      0  b
6        G      0  d
7        H      1  d
  document  label id
0        A      1  a
2        C      0  b
4        E      1  c
5        F      0  c


In [8]:
# 계층별 그룹화 KFold
for x_idx, y_idx in sg_fold.split(X, Y, groups):
    print(df.loc[x_idx])
    print(df.loc[y_idx])
    break

  document  label id
4        E      1  c
5        F      0  c
6        G      0  d
7        H      1  d
  document  label id
0        A      1  a
1        B      1  a
2        C      0  b
3        D      0  b


In [9]:
# 네이버 영화 리뷰 (rating_train.txt)파일 
# pandas를 이용하여 txt 파일을 로드 
# 파일을 로드하는데 데이터 간의 분리법은 tab으로 이루어져있다. 
df = pd.read_csv("../data/ratings_train.txt", sep='\t')
df

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [10]:
# 정보를 확인 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [11]:
# info()를 통해서 document 컬럼의 결측치가 확인 -> 5개
# 150000개에서 5개의 데이터는 제거 가능 
# case1 (isna() + any() -> 인덱스의 조건식으로 해당 조건을 부정하여 사용)
df.loc[~df.isna().any(axis=1)]

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [12]:
df.dropna(inplace=True)

In [13]:
# document가 같은 문장이라면 문장을 하나만 두고 나머지는 제거 
# 중복 데이터가 존재하는가?
df['document'].value_counts()

document
굿                                                181
good                                              92
최고                                                85
쓰레기                                               79
별로                                                66
                                                ... 
굿바이 레닌 표절인것은 이해하는데 왜 뒤로 갈수록 재미없어지냐                 1
이건 정말 깨알 캐스팅과 질퍽하지않은 산뜻한 내용구성이 잘 버무러진 깨알일드!!♥      1
약탈자를 위한 변명, 이라. 저놈들은 착한놈들 절대 아닌걸요.                 1
나름 심오한 뜻도 있는 듯. 그냥 학생이 선생과 놀아나는 영화는 절대 아님          1
흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나                  1
Name: count, Length: 146182, dtype: int64

In [14]:
# 중복된 데이터는 제거 
# 제거하기 전의 데이터의 개수 
before = len(df)
# drop_duplicates() : 데이터의 중복을 제거하는 함수
df = df.drop_duplicates(['document']).reset_index(drop=True)
after = len(df)
print("중복 데이터 제거한 행의 개수 : ", before - after)

중복 데이터 제거한 행의 개수 :  3813


In [15]:
# id 컬럼의 유일한 데이터들의 길이를 확인 
print(len(
    df['id'].unique()
))

146182


In [16]:
len(df)

146182

In [17]:
# label 컬럼의 데이터의 개수를 확인 
df['label'].value_counts()

label
0    73342
1    72840
Name: count, dtype: int64

In [18]:
# train, validation, test 데이터셋으로 8:1:1 정도의 비율로 데이터를 분할
# label의 비율에 맞게 데이터를 나눠준다. 
from sklearn.model_selection import train_test_split
# sklearn에는 3개의 데이터셋으로 나눠주는 함수를 존재x
# train_test_split를 2번 사용
X = df['document'].values
Y = df['label'].values
# test 데이터셋을 10%로 먼저 나눠준다. 
X_temp, X_test, Y_temp, Y_test = train_test_split(
    X, Y, test_size=0.1, random_state=42, stratify=Y
)
# validation 데이터셋을 11% 정도로 나눠준다. (label데이터의 비율에 맞게)
X_train, X_val, Y_train, Y_val = train_test_split(
    X_temp, Y_temp, test_size=0.11, random_state=42, stratify=Y_temp
)

In [19]:
# 데이터의 분할 정도를 확인
print(len(X_train) / len(X) * 100)
print(len(X_val) / len(X) * 100)
print(len(X_test) / len(X) * 100)

80.09946505041661
9.89998768658248
10.000547263000916


In [20]:
print(pd.Series(Y_train).value_counts())

0    58746
1    58345
Name: count, dtype: int64


In [21]:
print(pd.Series(Y_val).value_counts())

0    7261
1    7211
Name: count, dtype: int64
