### 연습문제 
- Doc2Vec 라이브러리 이용한 감정에 분석 
- 데이터는 ratings_train.txt파일을 로드 
    - 특수 문자, 2칸 이상의 공백의 문자를 제거하는 문자열 좌우 공백 제거 정규화 함수 
    - document 컬럼의 데이터에서 중복 데이터를 제거 
    - 빈 텍스트, " "가 존재한다면 해당 행 데이터도 제거 
    - 상위의 5000개 정도 데이터를 이용
- 토큰화 함수 Komoran를 이용
    - 필요한 품사 : NNP, NNG, VV, VA, MAG, XR 만을 사용
    - 불용어 단어 : 하다, 되다, 이다, 것 , 수, 거 단어들은 제외
- 데이터에서 독립(document) , 종속(label) 변수로 데이터를 나눠주고 train, test 데이터셋을 나눠준다 비율은 8:2
- Doc2Vec 객체를 생성하여 학습 
    - 매개변수 
        - vector_size = 200
        - window = 5
        - min_count = 2
        - dm = 1
        - negative = 5
        - seed = 42
        - epochs = 50
    - 학습 시키는 데이터는 X_train
- X_train, X_test -> 문자열 데이터 -> infer_vector() 함수를 이용해서 임베딩  
- 고전 머신러닝 분류 모델을 이용하여 입베딩된 데이터를 독립 변수로 Y의 데이터들을 종속 변수로 학습으로 예측
    - 정확도를 확인 
    - LogisticRegression(max_iter = 2000, random_state = 42)
    - LinearSVC(random_state = 42)
    - 두개의 모델을 사용하여 정확도가 좋은 모델을 선택

In [None]:
import pandas as pd
import re 
import numpy as np 
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

In [None]:
# 라이브러리 설치 
# !pip install tqdm

In [None]:
# 진행 상황들을 로그에 표시해주는 라이브러리 
from tqdm import tqdm

In [None]:
from konlpy.tag import Komoran

In [None]:
# 데이터 로드 
df = pd.read_csv("../data/ratings_train.txt", sep='\t')
df.info()

In [None]:
df2 = df.copy()

In [None]:
# 150000개의 데이터중 결측치의 개수가 5개 확인 
# 결측치의 데이터가 매우 작기때문에 제거 
# 제거(drop) + 결측치(na) -> dropna()
# dropna() 함수를 Serise에서도 내장, DataFrame 내장
df2['document'] = df2['document'].dropna()
# df2['document'] 인덱스수 -> 150000
# df2['document'].dropna() 인덱스의 수 -> 149995

In [None]:
df2.isna().sum()

In [None]:
df2.loc[
    df2['document'].isna()
]

In [None]:
# 실수가 많은 코드들
df2['document'] = df2['document'].dropna()
df2 = df2['document'].dropna()

In [None]:
# 결측치를 제거 
df.dropna(inplace=True)

In [None]:
# 텍스트 정규화 함수 
def nomalize(text):
    # text 매개변수에 들어오는 데이터?
        # df에 있는 document 컬럼의 values -> 리뷰 데이터
    # str(text) 사용하는 이유는?
        # 리뷰의 데이터가 문자가 아닌 경우 문자형으로 변경
    text = re.sub(r"[^가-힣0-9a-zA-Z\s\.]", " ", str(text))
    text = re.sub(r"\s+", " ", text).strip()
    return text

In [None]:
# df['documnet']에서 nomalize 함수를 이용
# nomalize에 들어가는 인자는 문자열이 기본
# nomalize(df['document']) 잘못된 부분
# apply() 함수 -> 데이터프레임에서 사용하는 함수 
# map() 함수를 비슷한 기능 각각의 원소들을 추출하여 어떤 작업(함수)들을 하는 기능
# df.head(3).apply(lambda x : str(x), axis=1)/
# df.head(3).map( lambda x : print(x) )
df = df.applymap(nomalize)

In [None]:
# 빈 / 공백 텍스트 존재할수 있다.
df.loc[
    df['document'].isin( ["", " "] )
]

In [38]:
# 빈 텍스트 , 공백 텍스트  -> 길이가 1이하 
df = df.loc[
    df['document'].str.len() > 1
]

In [40]:
# document에서 중복된 데이터들은 제거 
df = df.drop_duplicates('document')

In [41]:
# 토큰화 함수를 생성 
# 특정 품사들만 선택 
allow_pos = ['NNP', 'NNG', 'VV', 'VA', 'MAG', 'XR']
# 불용어 
stop_word = ['하다', '되다', '이다', '것', '수', '거']
# Komoran 객체를 생성 
komoran = Komoran()

def tokenize(text):
    tokens = []
    for word, pos in komoran.pos(text):
        # word : 단어
        # pos : 품사
        if pos in allow_pos and word not in stop_word:
            tokens.append(word)
    return tokens

In [43]:
df = df.head(5000)

In [None]:
# token화 된 리스트를 데이터프레임에 새로운 컬럼에 추가 
tokenize_sentense = [ tokenize(val) for val in df['document'].values ]
tokenize_sentense

In [46]:
df['document_token'] = tokenize_sentense

In [47]:
df.head()

Unnamed: 0,id,document,label,document_token
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0,"[더빙, 진짜, 짜증, 나, 목소리]"
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1,"[포스터, 초딩, 영화, 오버, 연기, 가볍]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,[]
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0,"[교도소, 이야기, 솔직히, 재미, 없, 평점, 조정]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어보이기만 했던 커스틴 ...,1,"[익살, 연기, 돋보이, 영화, 스파이더맨, 늙, 보이, 하, 커스틴 던스트, 너무나]"


In [48]:
# 토큰화된 문서에 Tag를 부착
def tagged_docs(tokenize_data):
    tagged = []
    for d_id, toks in enumerate(tokenize_data):
        # toks의 길이가 0이라면 -> 학습에서 의미없는 문장
        if len(toks) == 0:
            continue
        tagged.append(
            TaggedDocument(
                words= toks, tags=f"DOC_{d_id}"
            )
        )
    return tagged

In [49]:
# 데이터프레임을 train,  test 셋으로 나눠준다. 
train_df, test_df = train_test_split(
    df, test_size=0.2, random_state= 42, stratify=df['label']
)

In [50]:
train_df.shape

(4000, 4)