In [1]:
# !pip install transformers[sentencepiece]
# !pip install datasets
# !pip install accelerate -U
# !pip install evaluate

# Preprocess

In [1]:
import re
from pyvi import ViTokenizer


def text_preprocessing(text):

    # Remove trailing whitespace
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Segmentation
    text = ViTokenizer.tokenize(text)
  
    return text

# Sentiment analysis with phobert

In [2]:
from transformers import RobertaForSequenceClassification

model_path = r"..\python\models\trained_bert\phoBert_Trainer_30k.pth"
# trainer.save_model(model_path)
phobert = RobertaForSequenceClassification.from_pretrained(model_path)


In [3]:
from transformers import pipeline, AutoTokenizer

CHECKPOINT = r"vinai/phobert-base"
tokenizer = AutoTokenizer.from_pretrained(CHECKPOINT)

sentiment_classifier = pipeline("sentiment-analysis", model = phobert, tokenizer = tokenizer)




In [4]:
import pandas as pd

data_path = r"..\python\inputs\data-stock.xlsx"
data = pd.read_excel(data_path)
data

Unnamed: 0,url,lastmod,stockCode,content,sentiment
0,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,HHV,Cao tốc Đồng Đăng - Trà Lĩnh (giai đoạn 1) có ...,positive
1,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,LCG,Tăng trưởng mạnh nhất về doanh thu là Lizen (L...,positive
2,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,VCG,Tiếp đến là Vinaconex (VCG) tăng 33%,positive
3,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,DNSE,Chứng khoán DNSE tổ chức cuộc thi 'Võ đài phái...,positive
4,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,Future X,Sản phẩm giao dịch phái sinh Future X của DNSE...,positive
...,...,...,...,...,...
373,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,VRE,VRE đang đứng đầu về khối lượng giao dịch trên...,positive
374,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,PNJ,PNJ đang có kế hoạch mở rộng mạng lưới cửa hàn...,positive
375,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,BHL,HLB ghi nhận doanh thu thuần công ty đạt 1.470...,neutral
376,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,VNZ,Cổ phiếu VNZ của CTCP VNG có giá đóng cửa phiê...,negative


In [6]:
data['input'] = data['content'].apply(text_preprocessing)
data

Unnamed: 0,url,lastmod,stockCode,content,sentiment,label,input
0,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,HHV,Cao tốc Đồng Đăng - Trà Lĩnh (giai đoạn 1) có ...,positive,2,Cao_tốc Đồng_Đăng - Trà_Lĩnh ( giai_đoạn 1 ) c...
1,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,LCG,Tăng trưởng mạnh nhất về doanh thu là Lizen (L...,positive,2,Tăng_trưởng mạnh nhất về doanh_thu là Lizen ( ...
2,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,VCG,Tiếp đến là Vinaconex (VCG) tăng 33%,positive,2,Tiếp đến là Vinaconex ( VCG ) tăng 33 %
3,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,DNSE,Chứng khoán DNSE tổ chức cuộc thi 'Võ đài phái...,positive,2,Chứng_khoán DNSE tổ_chức cuộc thi ' Võ_đài phá...
4,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,Future X,Sản phẩm giao dịch phái sinh Future X của DNSE...,positive,2,Sản_phẩm giao_dịch phái_sinh Future X của DNSE...
...,...,...,...,...,...,...,...
373,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,VRE,VRE đang đứng đầu về khối lượng giao dịch trên...,positive,2,VRE đang đứng đầu về khối_lượng giao_dịch trên...
374,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,PNJ,PNJ đang có kế hoạch mở rộng mạng lưới cửa hàn...,positive,2,PNJ đang có kế_hoạch mở_rộng mạng_lưới cửa_hàn...
375,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,BHL,HLB ghi nhận doanh thu thuần công ty đạt 1.470...,neutral,1,HLB ghi_nhận doanh_thu thuần công_ty đạt 1.470...
376,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,VNZ,Cổ phiếu VNZ của CTCP VNG có giá đóng cửa phiê...,negative,0,Cổ_phiếu VNZ của CTCP VNG có_giá đóng_cửa phiê...


In [7]:
results = sentiment_classifier(list(data['input']))

In [8]:
results

[{'label': 'LABEL_2', 'score': 0.6782767176628113},
 {'label': 'LABEL_2', 'score': 0.909636914730072},
 {'label': 'LABEL_2', 'score': 0.7066603302955627},
 {'label': 'LABEL_2', 'score': 0.6486392021179199},
 {'label': 'LABEL_2', 'score': 0.9145121574401855},
 {'label': 'LABEL_1', 'score': 0.5663036108016968},
 {'label': 'LABEL_2', 'score': 0.7911036014556885},
 {'label': 'LABEL_2', 'score': 0.8943990468978882},
 {'label': 'LABEL_2', 'score': 0.8721229434013367},
 {'label': 'LABEL_0', 'score': 0.57965087890625},
 {'label': 'LABEL_2', 'score': 0.9114371538162231},
 {'label': 'LABEL_2', 'score': 0.5558207035064697},
 {'label': 'LABEL_2', 'score': 0.9468033909797668},
 {'label': 'LABEL_2', 'score': 0.8918113112449646},
 {'label': 'LABEL_2', 'score': 0.6185949444770813},
 {'label': 'LABEL_2', 'score': 0.7458271980285645},
 {'label': 'LABEL_2', 'score': 0.762273907661438},
 {'label': 'LABEL_2', 'score': 0.7468985915184021},
 {'label': 'LABEL_2', 'score': 0.774774432182312},
 {'label': 'LABEL

In [9]:
results_df = pd.DataFrame(results)
results_df

Unnamed: 0,label,score
0,LABEL_2,0.678277
1,LABEL_2,0.909637
2,LABEL_2,0.706660
3,LABEL_2,0.648639
4,LABEL_2,0.914512
...,...,...
373,LABEL_2,0.763883
374,LABEL_2,0.833577
375,LABEL_1,0.461326
376,LABEL_0,0.845880


In [10]:
results_df['label'] = results_df['label'].replace({'LABEL_0': 'negative', 'LABEL_1': 'neutral', 'LABEL_2': 'positive'})
results_df

Unnamed: 0,label,score
0,positive,0.678277
1,positive,0.909637
2,positive,0.706660
3,positive,0.648639
4,positive,0.914512
...,...,...
373,positive,0.763883
374,positive,0.833577
375,neutral,0.461326
376,negative,0.845880


In [11]:
# decision threshhold : 0.69

# Define the conditional function
def conditional_function(row):
    if row['score'] > 0.69:
        return row['label']
    else:
        return 'neutral'

# Apply the conditional function to a new column
results_df['final_result'] = results_df.apply(conditional_function, axis=1)

# Print the updated dataframe
print(results_df)

        label     score final_result
0    positive  0.678277      neutral
1    positive  0.909637     positive
2    positive  0.706660     positive
3    positive  0.648639      neutral
4    positive  0.914512     positive
..        ...       ...          ...
373  positive  0.763883     positive
374  positive  0.833577     positive
375   neutral  0.461326      neutral
376  negative  0.845880     negative
377  negative  0.875367     negative

[378 rows x 3 columns]


In [12]:
data['sentiment'] = results_df['final_result']
data.drop(['label', 'input'], inplace= True, axis = 1)
data

Unnamed: 0,url,lastmod,stockCode,content,sentiment
0,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,HHV,Cao tốc Đồng Đăng - Trà Lĩnh (giai đoạn 1) có ...,neutral
1,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,LCG,Tăng trưởng mạnh nhất về doanh thu là Lizen (L...,positive
2,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,VCG,Tiếp đến là Vinaconex (VCG) tăng 33%,positive
3,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,DNSE,Chứng khoán DNSE tổ chức cuộc thi 'Võ đài phái...,neutral
4,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,Future X,Sản phẩm giao dịch phái sinh Future X của DNSE...,positive
...,...,...,...,...,...
373,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,VRE,VRE đang đứng đầu về khối lượng giao dịch trên...,positive
374,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,PNJ,PNJ đang có kế hoạch mở rộng mạng lưới cửa hàn...,positive
375,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,BHL,HLB ghi nhận doanh thu thuần công ty đạt 1.470...,neutral
376,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,VNZ,Cổ phiếu VNZ của CTCP VNG có giá đóng cửa phiê...,negative


In [13]:
data

Unnamed: 0,url,lastmod,stockCode,content,sentiment
0,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,HHV,Cao tốc Đồng Đăng - Trà Lĩnh (giai đoạn 1) có ...,neutral
1,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,LCG,Tăng trưởng mạnh nhất về doanh thu là Lizen (L...,positive
2,https://cafef.vn/53-dn-xay-dung-lac-quan-hon-t...,2024-04-02T10:45:32+07:00,VCG,Tiếp đến là Vinaconex (VCG) tăng 33%,positive
3,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,DNSE,Chứng khoán DNSE tổ chức cuộc thi 'Võ đài phái...,neutral
4,https://cafef.vn/dnse-chinh-thuc-khoi-dong-cuo...,2024-04-02T09:39:33+07:00,Future X,Sản phẩm giao dịch phái sinh Future X của DNSE...,positive
...,...,...,...,...,...
373,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,VRE,VRE đang đứng đầu về khối lượng giao dịch trên...,positive
374,https://cafef.vn/ong-trum-san-xuat-lop-o-to-vi...,2024-04-04T07:42:46+07:00,PNJ,PNJ đang có kế hoạch mở rộng mạng lưới cửa hàn...,positive
375,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,BHL,HLB ghi nhận doanh thu thuần công ty đạt 1.470...,neutral
376,https://cafef.vn/cong-ty-bia-dia-phuong-co-eps...,2024-04-04T06:42:38+07:00,VNZ,Cổ phiếu VNZ của CTCP VNG có giá đóng cửa phiê...,negative
