In [1]:
import numpy as np
import pandas as pd

## 1.목적
- 네이버 영화리뷰 데이터셋을 이요해서 긍저 부정 분류 모델 만들기
- TF-IDF 적용하기

## 2. 데이터 수집
- 네이버 영화 리뷰 데이터 사용

In [2]:
df = pd.read_csv('ratings.txt', delimiter='\t')
df

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0


## 3. 데이터 전처리

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        200000 non-null  int64 
 1   document  199992 non-null  object
 2   label     200000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [4]:
df.dropna(inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 199992 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        199992 non-null  int64 
 1   document  199992 non-null  object
 2   label     199992 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 6.1+ MB


In [5]:
x = df['document']
y = df['label']

In [6]:
x

0                                       어릴때보고 지금다시봐도 재밌어요ㅋㅋ
1         디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...
2                      폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.
3         와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...
4                               안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.
                                ...                        
199995                                       포켓 몬스터 짜가 ㅡㅡ;;
199996                                                쓰.레.기
199997                    완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.
199998                  왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ
199999                                      포풍저그가나가신다영차영차영차
Name: document, Length: 199992, dtype: object

In [7]:
y

0         1
1         1
2         1
3         1
4         1
         ..
199995    0
199996    0
199997    0
199998    0
199999    0
Name: label, Length: 199992, dtype: int64

In [8]:
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x, y, random_state=0)

In [9]:
x_train.shape

(149994,)

In [10]:
y_train.shape

(149994,)

In [11]:
x_test.shape

(49998,)

In [12]:
y_test.shape

(49998,)

In [13]:
from konlpy.tag import Okt
okt = Okt()

In [14]:
# 명사 토큰화
okt.nouns('오늘은 학교에 가는 날이에요.')

['오늘', '학교', '날']

In [15]:
def Tokenizer(text):
    return okt.nouns(text)

In [16]:
# tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer

In [17]:
tfidf = TfidfVectorizer(tokenizer=Tokenizer)

In [18]:
tfidf.fit(x_train[:3])
tfidf.vocabulary_    # 단어사전



{'거': 3,
 '예전': 9,
 '감독': 2,
 '하나': 12,
 '사람': 6,
 '가지': 0,
 '갈피': 1,
 '캐릭터': 10,
 '마틴': 5,
 '프리': 11,
 '널': 4,
 '사랑': 7,
 '애기': 8}

### pos tagging
- 문장을 토큰화 한 후 쪼개진 형태소에 품사를 부여하는 것

In [19]:
data = '오늘 날씨가 추워서 기분이 좋지않다.'

In [20]:
okt.morphs(data)

['오늘', '날씨', '가', '추워서', '기분', '이', '좋지', '않다', '.']

In [21]:
okt.pos(data)

[('오늘', 'Noun'),
 ('날씨', 'Noun'),
 ('가', 'Josa'),
 ('추워서', 'Adjective'),
 ('기분', 'Noun'),
 ('이', 'Josa'),
 ('좋지', 'Adjective'),
 ('않다', 'Verb'),
 ('.', 'Punctuation')]

In [22]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [23]:
def Tokenizer1(text):
    
    df = pd.DataFrame(okt.pos(text), columns=['morph','tag'])
    df.set_index('tag', inplace=True)
    
    #동사,명사,형용사일 때만 그 값을 반환하기
    if ('Verb' in df.index) | ('Adjective' in df.index) | ('Noun' in df.index):
        labels = ['Verb','Adjective','Noun']
        return df.loc[df.index.intersection(labels)]['morph'].values
    else :
        return []

In [24]:
Tokenizer1(data)

array(['오늘', '날씨', '기분', '추워서', '좋지', '않다'], dtype=object)

In [25]:
tfidf = TfidfVectorizer(tokenizer=Tokenizer1)
tfidf.fit(x_train[:3])
tfidf.vocabulary_ #단어사전



{'거': 3,
 '예전': 15,
 '감독': 2,
 '하나': 19,
 '사람': 11,
 '가지': 0,
 '봤는데': 10,
 '하고': 18,
 '싶은말은': 13,
 '놀리지마라': 6,
 '갈피': 1,
 '캐릭터': 16,
 '못잡고': 9,
 '헤매는': 21,
 '마틴': 7,
 '프리': 17,
 '널': 5,
 '사랑': 12,
 '애기': 14,
 '먼': 8,
 '귀여워': 4,
 '해': 20}

In [26]:
x_train = x_train[:5000]
x_test = x_test[:5000]
y_train = y_train[:5000]
y_test = y_test[:5000]

In [27]:
tfidf1 = TfidfVectorizer(tokenizer=Tokenizer1)
tfidf1.fit(x_train)



TfidfVectorizer(tokenizer=<function Tokenizer1 at 0x0000020DB65C8AF0>)

In [28]:
len(tfidf1.vocabulary_)  # 단어 사전의 개수

12750

In [29]:
# 토큰화된 단어를 기계가 이해할 수 있도록 벡터형태로 변환
x_train = tfidf1.transform(x_train)
x_test = tfidf1.transform(x_test)

### 4. EDA

### 5~7. 모델링(모델선택, 모델학습, 모델평가)

In [34]:
from sklearn.linear_model import LogisticRegression

In [35]:
lr = LogisticRegression()

In [32]:
lr.fit(x_train, y_train)

LogisticRegression()

In [33]:
lr.score(x_test,y_test)

0.771