In [1]:
import numpy as np
import pandas as pd

### 1. 목적
- 네이버 영화 리뷰 데이터셋을 이용하여 긍정 or 부정 분류 모델 생성

### 2. 데이터 수집

In [2]:
df= pd.read_csv('ratings.txt', delimiter= '\t')
df

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        200000 non-null  int64 
 1   document  199992 non-null  object
 2   label     200000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [4]:
df.dropna(inplace= True)
df

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0


In [5]:
x= df['document']
y= df['label']

In [6]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test= train_test_split(x, y, random_state= 0)

In [7]:
x_train= x_train[:1000]
x_test= x_test[:1000]
y_train= y_train[:1000]
y_test= y_test[:1000]

In [8]:
from konlpy.tag import Okt
okt= Okt()

In [9]:
# 명사 토큰화
okt.nouns('오늘은 학교에 가는 날이에요.')

['오늘', '학교', '날']

In [10]:
# 입력 문장이 들어왔을 때 명사만 토큰화 시키는 함수
def Tokenizer(text):
    return okt.nouns(text)

In [11]:
# tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(tokenizer=Tokenizer).fit(x_train[:5])



In [12]:
# 모델 학습 후 사전에 단어 출력 
tfidf.vocabulary_

{'거': 3,
 '예전': 13,
 '감독': 2,
 '하나': 18,
 '사람': 9,
 '가지': 0,
 '갈피': 1,
 '캐릭터': 16,
 '마틴': 7,
 '프리': 17,
 '널': 4,
 '사랑': 10,
 '애기': 12,
 '쯔요시': 15,
 '주기': 14,
 '료코': 5,
 '현실': 19,
 '서너': 11,
 '무우': 8,
 '마음': 6}

### pos tagging 
- 문장을 토큰화한 후 쪼개진 형태소에 품사를 부여한 것

In [13]:
data= '오늘 날씨가 추워서 기분이 좋지않다.'

In [14]:
okt.morphs(data)

['오늘', '날씨', '가', '추워서', '기분', '이', '좋지', '않다', '.']

In [15]:
okt.pos(data)

[('오늘', 'Noun'),
 ('날씨', 'Noun'),
 ('가', 'Josa'),
 ('추워서', 'Adjective'),
 ('기분', 'Noun'),
 ('이', 'Josa'),
 ('좋지', 'Adjective'),
 ('않다', 'Verb'),
 ('.', 'Punctuation')]

In [16]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [17]:
df= pd.DataFrame(okt.pos(data), columns= ['morph', 'tag'])
df.set_index('tag', inplace= True)
df.loc[['Noun','Adjective', 'Verb']]

Unnamed: 0_level_0,morph
tag,Unnamed: 1_level_1
Noun,오늘
Noun,날씨
Noun,기분
Adjective,추워서
Adjective,좋지
Verb,않다


In [18]:
def Tokenizer1(text):
    # 텍스트가 들어오면 데이터 프레임으로 변경 후 품사 인덱스로 설정
    df= pd.DataFrame(okt.pos(text), columns= ['morph', 'tag'])
    df.set_index('tag', inplace= True)
    
    if('Noun' in df.index) | ('Adjective' in df.index) | ('Verb' in df.index):
        labels= ['Noun', 'Adjective', 'Verb']
        return df.loc[df.index.intersection(labels)]['morph'].values
        # intersection: 가로안의 데이터의 교집학까지 출력
    else:
        return []

In [19]:
Tokenizer1(data)

array(['오늘', '날씨', '기분', '추워서', '좋지', '않다'], dtype=object)

In [20]:
tfidf= TfidfVectorizer(tokenizer= Tokenizer1).fit(x_train[:3])



In [21]:
tfidf.vocabulary_

{'거': 3,
 '예전': 15,
 '감독': 2,
 '하나': 19,
 '사람': 11,
 '가지': 0,
 '봤는데': 10,
 '하고': 18,
 '싶은말은': 13,
 '놀리지마라': 6,
 '갈피': 1,
 '캐릭터': 16,
 '못잡고': 9,
 '헤매는': 21,
 '마틴': 7,
 '프리': 17,
 '널': 5,
 '사랑': 12,
 '애기': 14,
 '먼': 8,
 '귀여워': 4,
 '해': 20}

In [22]:
len(tfidf.vocabulary_)

22

In [23]:
tfidf= TfidfVectorizer(tokenizer= Tokenizer1).fit(x_train)
tfidf.vocabulary_



{'거': 147,
 '예전': 2588,
 '감독': 64,
 '하나': 3839,
 '사람': 1853,
 '가지': 39,
 '봤는데': 1710,
 '하고': 3830,
 '싶은말은': 2199,
 '놀리지마라': 642,
 '갈피': 59,
 '캐릭터': 3624,
 '못잡고': 1350,
 '헤매는': 4023,
 '마틴': 1133,
 '프리': 3805,
 '널': 594,
 '사랑': 1854,
 '애기': 2384,
 '먼': 1266,
 '귀여워': 308,
 '해': 3943,
 '쯔요시': 3472,
 '주기': 3292,
 '료코': 1080,
 '마러줘': 1109,
 '박어': 1471,
 '현실': 4034,
 '서너': 1938,
 '무우': 1386,
 '마음': 1126,
 '아프다': 2312,
 '먹': 1253,
 '먹해': 1265,
 '진다': 3404,
 '난': 532,
 '뭐': 1400,
 '그다지': 320,
 '어린이': 2433,
 '용': 2666,
 '위대한': 2727,
 '개츠비': 143,
 '영화': 2572,
 '보여주는': 1644,
 '평점': 3766,
 '거의': 157,
 '처음': 3529,
 '등록': 983,
 '존나': 3229,
 '돼지': 886,
 '의왕': 2782,
 '창': 3510,
 '이건': 2785,
 '쓰레기': 2218,
 '임': 2900,
 '이': 2784,
 '애니': 2385,
 '정상': 3180,
 '명도': 1299,
 '해도': 3948,
 '스토리': 2079,
 '개연': 137,
 '쥐뿔': 3350,
 '억지': 2458,
 '막장': 1135,
 '점도': 3164,
 '하는듯': 3853,
 '쓴다': 2224,
 '봤다': 1713,
 '짜증나서': 3447,
 '재밌게': 3079,
 '없음': 2499,
 '그러려니': 331,
 '없는': 2480,
 '아깝다': 2245,
 '역시': 2534,
 '폴': 3781,
 

In [24]:
# 동사, 형용사, 일반명사만 추출하여 만들어진 단어모음의 개수를 확인하기 위해
len(tfidf.vocabulary_)

4138

In [25]:
# 토큰화된 단어를 기계가 이해할 수 있도록 백터형태로 변환 (임베딩)
x_train= tfidf.transform(x_train)
x_test= tfidf.transform(x_test)

### 모델

In [26]:
from sklearn.linear_model import LogisticRegression

In [27]:
lr= LogisticRegression().fit(x_train, y_train)

In [28]:
lr.score(x_test, y_test)

0.705