1. Prepare the data
2. Build & train the model
3. Cost function, error function, eval
4. Inference the model

In [17]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

#1 . Prepare the data
def prepare_data():
  dataset_path = "/content/dataset_sentiment.xlsx"
  df =  pd.read_excel(dataset_path)
  print('total dataset size :',len(df))
  headers =  list(df)
  print('all dataset header :',headers)

  X = df.iloc[:, 0].tolist()
  X = np.array(X)

  Y = df.iloc[:, 1].tolist()
  Y = np.array(Y)
  print('prepare_dataset X :',X)
  print('prepare_dataset Y :',Y)
  X_train, X_test, Y_train, Y_test = train_test_split(X, Y,   test_size=0.2, random_state=1, )

  return X_train, X_test, Y_train, Y_test

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier

#2. 1 Build  the model
def build_model():
  vectorizer = TfidfVectorizer()
  model = Pipeline([
              ('vec', vectorizer),
              ('clf', GradientBoostingClassifier(verbose=1,n_estimators=300)),
  ])

  return model

#2.2 Train the model
def train_model(model,X_train,Y_train):
   model.fit(X_train, Y_train)

In [19]:
from sklearn.metrics import accuracy_score



#3. Cost function, error function, eval
def model_eval(model,X_test,X_train,Y_test,Y_train):
  y_test_pred = model.predict(X_test)
  y_train_pred = model.predict(X_train)

  test_acc = accuracy_score(y_test_pred, Y_test)
  test_loss = 1 - test_acc
  print('test_loss :',test_loss)

  train_acc = accuracy_score(y_train_pred, Y_train)
  train_loss = 1 - train_acc
  print('train_loss :',train_loss)

In [20]:
data = 'гүйцээсэн'
data = 'онц'

#Inference the model
def inference_model(model,data):
  yhat = model.predict([data])
  print('[model] inference yhat[0]:', yhat[0])

In [21]:
#1. Prepare data
X_train, X_test, Y_train, Y_test = prepare_data()

#2.1 Build model
model = build_model()

#2.2 Train model
train_model(model,X_train,Y_train)

#3. Eval the model
model_eval(model,X_test,X_train,Y_test,Y_train)

#4. inference model
inference_model(model,'онц')

total dataset size : 132
all dataset header : ['Words', 'Label']
prepare_dataset X : ['татгалзах' 'хаягдсан' 'хулгайлсан' 'хүний \u200b\u200bхулгай'
 'хулгайлах' 'дургүйцэх\xa0' 'Хөгшрөлт' 'чадвартай' 'байхгүй' 'зөвтгөх'
 'шингээгдсэн' 'буруугаар хэрэглэх' 'доромжлолт' 'хүлээн авсан'
 'хүлээн авах' 'осол' 'санамсаргүй байдлаар' 'хийж гүйцэтгэх' 'гүйцээсэн'
 'ял' 'онцлох хүнс' 'буруушаах' 'гэмтэн' 'гоё' 'онц' 'өвдсөн' 'өвчин'
 'үртэй' 'хүнд өвдөх' 'зөвтгөх' 'олсон' 'урьдчилан авах' 'идэвхтэй'
 'нийцсэн' 'гайхах' 'амьдаар биш' 'уурладаг' 'гунигтай хүмүүс' 'багтаах'
 'үзсэн' 'зөвшөөрсөн' 'тэтгэвэр' 'үрчилж авах' 'гайхмаар' 'шүтэх'
 'тушаал сонссон' 'шуугиантай' 'дэвшилттэй' 'давуу тал' 'сурталчилгаа'
 'адал явдал' 'сэтгэл хөндсөн' 'дур хүсэл' 'энхрий' 'хүндлэх' 'суув'
 'айсан' 'хүндрүүлэх' 'хүндэрсэн' 'түрэмгийлэл' 'түрэмгий' 'нээлттэй'
 'зовж шаналах' 'дээшгээ орсон' 'зовлон зүдүүр' 'зовж шаналах' 'зөвшөөрөх'
 'нийцтэй' 'тохирсон' 'тохиролцоо' 'сул хөгжил' 'түгшүүр' 'сэргээх'
 'байгуулла