In [36]:
import pandas as pd
import numpy as np

### 1. 목적
- 네이버 영화리뷰 데이터셋을 이용해서 긍정/부정 분류모델 만들기

### 2. 데이터 수집

In [37]:
df = pd.read_csv('ratings.txt', delimiter='\t')
df.head(100)

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
95,3908729,진짜 최고다 최고 성룡형님 마이 우상,1
96,6318878,amy6250 당신이 좋아하는 장르는 뭐요? 이영화에도 저영화에도 이런장르는 싫다니원,1
97,2620222,지금까지 본영화중에 최고다,1
98,5954450,매회리타가자꾸거슬려서죽었으면좋겠다고생각했는데ㅠㅠ죄책감에나도잠못이룬다.,1


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        200000 non-null  int64 
 1   document  199992 non-null  object
 2   label     200000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [39]:
df.dropna(inplace=True) #null값 없애기(inplace주면 df가 바뀜)
df

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0


In [40]:
x = df['document']
y = df['label']

In [41]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y) #25%, 75% 기본값(test_size)

In [42]:
print(x_train.shape)
print(y_train.shape)

(149994,)
(149994,)


In [43]:
x_train = x_train[:1000]
x_test = x_test[:1000]
y_train = y_train[:1000]
y_test = y_test[:1000]

In [44]:
from konlpy.tag import Okt
okt = Okt()

In [45]:
# 명사 토큰화
okt.nouns('점심 맛있는 거 먹고싶은데 뭐먹지')

['점심', '거', '뭐']

In [46]:
# 입력 문장이 들어왔을 때 명사만 토큰화시키는 함수
def Tokenizer(text):
    return okt.nouns(text)

In [47]:
#tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(tokenizer = Tokenizer)

In [48]:
tfidf.fit(x_train[:5])



TfidfVectorizer(tokenizer=<function Tokenizer at 0x000001887C801DC0>)

In [49]:
tfidf.vocabulary_

{'모로': 12,
 '코미디': 30,
 '조카': 26,
 '명': 11,
 '그림': 4,
 '목소리': 13,
 '때': 7,
 '집중': 28,
 '짱': 29,
 '땐': 8,
 '멋': 10,
 '영화': 22,
 '거짓': 1,
 '선동': 19,
 '미디어': 15,
 '파급': 32,
 '나야': 6,
 '깨': 5,
 '이': 24,
 '비롯': 18,
 '변호인': 16,
 '왜곡': 23,
 '세대': 20,
 '그것': 3,
 '진실인': 27,
 '것': 2,
 '롭': 9,
 '코헨': 31,
 '몰락': 14,
 '점': 25,
 '개인': 0,
 '썸띵': 21,
 '브로디': 17,
 '홧팅': 33}

### pos tagging
- 문장을 토큰화한 후에 쪼개진 형태소에 품사를 부여하는 것

In [50]:
data = '오늘 날씨가 너무 좋아서 놀러가고 싶다.'

In [51]:
okt.morphs(data) # 형태소 분리

['오늘', '날씨', '가', '너무', '좋아서', '놀러', '가고', '싶다', '.']

In [52]:
okt.pos(data)

[('오늘', 'Noun'),
 ('날씨', 'Noun'),
 ('가', 'Josa'),
 ('너무', 'Adverb'),
 ('좋아서', 'Adjective'),
 ('놀러', 'Verb'),
 ('가고', 'Verb'),
 ('싶다', 'Verb'),
 ('.', 'Punctuation')]

In [53]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [54]:
df = pd.DataFrame(okt.pos(data), columns=['morph','tag'])
df

Unnamed: 0,morph,tag
0,오늘,Noun
1,날씨,Noun
2,가,Josa
3,너무,Adverb
4,좋아서,Adjective
5,놀러,Verb
6,가고,Verb
7,싶다,Verb
8,.,Punctuation


In [55]:
df.set_index('tag', inplace=True) # 인덱스를 tag로
df

Unnamed: 0_level_0,morph
tag,Unnamed: 1_level_1
Noun,오늘
Noun,날씨
Josa,가
Adverb,너무
Adjective,좋아서
Verb,놀러
Verb,가고
Verb,싶다
Punctuation,.


In [56]:
df.loc[['Noun','Adjective','Verb']]

Unnamed: 0_level_0,morph
tag,Unnamed: 1_level_1
Noun,오늘
Noun,날씨
Adjective,좋아서
Verb,놀러
Verb,가고
Verb,싶다


In [57]:
def Tokenizer1(text):
    #텍스트가 들어오면 데이터프레임으로 변경 후 품사 인덱스로 설정
    df = pd.DataFrame(okt.pos(text), columns=['morph','tag'])
    df.set_index('tag',inplace=True)
    
    #명사, 형용사, 동사일 때 값 뽑기
    if('Noun' in df.index) | ('Adjective' in df.index) | ('Verb' in df.index): 
        labels = ['Noun', 'Adjective', 'Verb']
        return df.loc[df.index.intersection(labels)]['morph'].values #intersection : 교집합
    else:
        return []

In [58]:
Tokenizer1(data)

array(['오늘', '날씨', '좋아서', '놀러', '가고', '싶다'], dtype=object)

In [59]:
tfidf = TfidfVectorizer(tokenizer = Tokenizer1)
tfidf.fit(x_train[:3])



TfidfVectorizer(tokenizer=<function Tokenizer1 at 0x0000018819B83F70>)

In [60]:
tfidf.vocabulary_

{'모로': 15,
 '코미디': 42,
 '이긴': 36,
 '하다': 45,
 '조카': 38,
 '명': 14,
 '그림': 6,
 '목소리': 17,
 '때': 11,
 '집중': 40,
 '짱': 41,
 '봤어요': 24,
 '끝날': 8,
 '재미있어서': 37,
 '그런지': 5,
 '어렸을': 30,
 '모르고': 16,
 '봤던': 23,
 '크고': 43,
 '보니': 21,
 '갖는': 0,
 '달았지만': 10,
 '하여': 46,
 '본': 22,
 '어린': 31,
 '숨겨진': 28,
 '받아들일': 19,
 '땐': 12,
 '멋': 13,
 '영화': 33,
 '거짓': 2,
 '선동': 26,
 '미디어': 18,
 '파급': 44,
 '나야': 9,
 '깨': 7,
 '이': 35,
 '비롯': 25,
 '변호인': 20,
 '왜곡': 34,
 '세대': 27,
 '그것': 4,
 '진실인': 39,
 '것': 3,
 '어마어마하다': 32,
 '같은': 1,
 '아닌가': 29}

In [61]:
len(tfidf.vocabulary_)

47

In [62]:
tfidf = TfidfVectorizer(tokenizer=Tokenizer1)
tfidf.fit(x_train)



TfidfVectorizer(tokenizer=<function Tokenizer1 at 0x0000018819B83F70>)

In [63]:
# 동사, 형용사, 일반명사만 추출해서 만들어진 단어모음과 개수를 확인
len(tfidf.vocabulary_)

4220

In [64]:
# 토큰화된 단어를 기계가 이해할 수 있도록 벡터형태로 변환 - 임베딩
x_train = tfidf.transform(x_train)
x_test = tfidf.transform(x_test)

### 모델

In [65]:
from sklearn.linear_model import LogisticRegression

In [66]:
lr = LogisticRegression()

In [67]:
lr.fit(x_train, y_train)

LogisticRegression()

In [69]:
lr.score(x_test,y_test)

0.727