# 모델링 구현

## TF-IDF를 활용한 모델 구현
- TF-IDF를 활용해 문장 벡터를 만듬
- 입력 값에 대해 TF-IDF 값으로 벡터화를 진행하기 때문에 사이킷런의 TfidfVectorizer를 사용
- TfidfVectorizer를 사용하기 위해서는 입력값이 텍스트로 이뤄진 데이터 형태여야 함

In [6]:
import pandas as pd

In [18]:
DATA_IN_PATH = './data_in/'
TRAIN_CLEAN_DATA = 'train_clean.csv'

train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA, header=0, quoting=3)

reviews = list(train_data['review'])
sentiments = list(train_data['sentiment'])

### TF-IDF 벡터화

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df=0.0, analyzer='char', sublinear_tf=True, ngram_range=(1, 3), max_features=5000)

X = vectorizer.fit_transform(reviews)


### TfidfVectorizer()
- min_df
    - 설정한 값 보다 특정 토큰의 df 값이 더 적게 나오면 벡터화 과정에서 제거한다는 의미

- analyzer
    - 분석하기 위한 기준 단위
    - 'word' 와 'char'로 2가지 옵션을 제공함
    - 'word'의 경우 단어 하나를 단위로 함
    - 'char'의 경우 문자 하나를 단위로 함

- sublinear_tf
    - 문서의 단어 빈도 수(term frequency)에 대한 스무딩(smoothing) 여부를 설정하는 값

- ngram_range
    - 빈도의 기본 단위를 어느 범위의 n-gram으로 설정할 것인지를 보는 인자

- max_features
    - 각 벡터의 최대 길이, 특징의 길이를 설정


- TfidfVectorizer를 생성한 후 fit_transform 함수를 사용해 전체 문장에 대한 특징 벡터 데이터 X를 생성
- TF-IDF로 벡터화한 데이터가 준비 됨

### 학습데이터와 검증 데이터 분리