In [10]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [11]:
!pip install pyspark



In [12]:
import pandas as pd

from pyspark.sql import SparkSession
from pyspark.sql import functions as f

In [13]:
spark = (
    SparkSession.builder.appName("Model")
    .config("spark.executor.memory", "4g")
    .getOrCreate()
)

In [102]:
import googleapiclient.discovery
import pandas as pd

api_service_name = "youtube"
api_version = "v3"
DEVELOPER_KEY = "AIzaSyDsupN1fSMtveDRjZIrS6ctObIEaTEjAdE"

youtube = googleapiclient.discovery.build(
    api_service_name, api_version, developerKey=DEVELOPER_KEY)

request = youtube.commentThreads().list(
    part="snippet",
    videoId="4rNYGk81TQc",
    maxResults=100
)
response = request.execute()

comments = []

for item in response['items']:
    comment = item['snippet']['topLevelComment']['snippet']
    comments.append([
        comment['authorDisplayName'],
        comment['publishedAt'],
        comment['likeCount'],
        comment['textDisplay']
    ])

df = pd.DataFrame(comments, columns=['authorDisplayName','publishedAt','likeCount','free_text'])

In [None]:
df

In [108]:
%%time
from pyspark.ml.feature import (
    StopWordsRemover,
    Tokenizer,
    HashingTF,
    IDF,
)
from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, StringType
from pyspark.ml import PipelineModel
from pyspark.sql import SparkSession
from pyspark.sql import functions as f
import html
schema = " free_text string"
spark.sql("set spark.sql.legacy.timeParserPolicy=LEGACY")

spark_reader = spark.read.schema(schema)

# Khởi tạo Spark Session
spark = SparkSession.builder.appName("Inference").getOrCreate()

# Đường dẫn đến model đã lưu
model_path = "/content/drive/MyDrive/yt_comment_sentiment/sentimentModel"

# Load mô hình
semantic_analysis_model = PipelineModel.load(model_path)

# Load the Vietnamese Stopwords
with open('/content/drive/MyDrive/yt_comment_sentiment/Stopword.txt', 'r', encoding='utf-8') as file:
    vietnamese_stopwords = file.read().splitlines()

user_regex = r"(@\w{1,15})"
hashtag_regex = r"(#\w{1,})"
url_regex=r"((https?|ftp|file):\/{2,3})+([-\w+&@#/%=~|$?!:,.]*)|(www.)+([-\w+&@#/%=~|$?!:,.]*)"
email_regex=r"[\w.-]+@[\w.-]+\.[a-zA-Z]{1,}"

@f.udf
def html_unescape(s: str):
    if isinstance(s, str):
        return html.unescape(s)
    return s

def clean_data(df):
    df = (
        df
        .withColumn("original_text", f.col("free_text"))
        .withColumn("free_text", f.regexp_replace(f.col("free_text"), url_regex, ""))
        .withColumn("free_text", f.regexp_replace(f.col("free_text"), email_regex, ""))
        .withColumn("free_text", f.regexp_replace(f.col("free_text"), user_regex, ""))
        .withColumn("free_text", f.regexp_replace(f.col("free_text"), "#", " "))
        .withColumn("free_text", html_unescape(f.col("free_text")))
        .filter("free_text != ''")
    )
    return df

def traindf(df_train_clean):
  df_train_clean = (
    df_train_clean
    # Remove all numbers
    .withColumn("free_text", f.regexp_replace(f.col("free_text"), "[^a-zA-ZÀ-ỹà-ỹ']", " "))
    # Remove all double/multiple spaces
    .withColumn("free_text", f.regexp_replace(f.col("free_text"), " +", " "))
    # Remove leading and trailing whitespaces
    .withColumn("free_text", f.trim(f.col("free_text")))
    # Ensure we don't end up with empty rows
    .filter("free_text != ''")
)
  return df_train_clean

tokenizer = Tokenizer(inputCol="free_text", outputCol="words3") # chuyển sang vector

vietnamese_stopwords_remover = StopWordsRemover(inputCol="words3", outputCol="words4", stopWords=vietnamese_stopwords)

hashing_tf = HashingTF(
    inputCol="words4",
    outputCol="term_frequency1",
)
idf = IDF(
    inputCol="term_frequency1",
    outputCol="features1",
    minDocFreq=5,
)

def predict_sentiment(comment):
    clean_test_comment_df = clean_data(comment)
    df_train_clean_data = traindf(clean_test_comment_df)
    df1 = tokenizer.transform(df_train_clean_data)
    df2 = vietnamese_stopwords_remover.transform(df1) # xóa những từ trong stop-word
    df3 = hashing_tf.transform(df2)
    df4 = idf.fit(df3).transform(df3)
    prediction = semantic_analysis_model.transform(df4).select('free_text','prediction').collect()
    return prediction

test_comment_df = spark.createDataFrame(df)

result = predict_sentiment(test_comment_df)

CPU times: user 478 ms, sys: 119 ms, total: 597 ms
Wall time: 7.48 s


In [109]:
result_schema = ['free_text','prediction']
result_df = spark.createDataFrame(result, result_schema)

result_df.show(10, truncate=100)

+----------------------------------------------------------------------------------------------------+----------+
|                                                                                           free_text|prediction|
+----------------------------------------------------------------------------------------------------+----------+
|                                         Càng lễ nhiều Con cái dễ ngộ nhận cõi siêu nhiên Dễ hư hỏng|       0.0|
|                                             Cam ơn a hai bánh đa tâm sự thật lòng cho khán giả nghe|       0.0|
|Chú vào nam ra bắc hồi trẻ chú đi hết rồi đi tù năm về mà cả về sức khỏe lẫn trí tuệ vẫn ok quả l...|       0.0|
|                                                        Năm Cam Dung Hà bị thanh toán còn sót mầy đó|       0.0|
|                                                      sắp đi rồi hết thời rồi còn hùng bá với ai nữa|       0.0|
|Anh hùng là những người trọng nghĩa khinh tài lên tiếng trước những bất công xh trước c

In [110]:
result_df.filter(result_df.prediction == 2).show(truncate=100)

+----------------------------------------------------------------------------------------------------+----------+
|                                                                                           free_text|prediction|
+----------------------------------------------------------------------------------------------------+----------+
|Anh hùng là những người trọng nghĩa khinh tài lên tiếng trước những bất công xh trước cái ác cái ...|       2.0|
|Bây giờ nhận ra đó là một tội ác trời không dung đất không tha loại dang hồ đã gây ra bao nhiêu t...|       2.0|
|Thường thường những tay anh chị trước đây lúc hãy còn trẻ trâu bây giờ khi đã về già ai cũng đều ...|       2.0|
|                                         hải bánh ko kinh doanh ko hiểu hải làm mà có rât nhiều tiền|       2.0|
|Ông có phải là anh hùng anh bá gì đâu mà nhận ra được chỉ là thành phần cặn bã thôi thì làm sao m...|       2.0|
|                                                                   Thằng Phan Đăng mày 

In [115]:
result_df.filter(result_df.prediction == 1).show(truncate=30)

+------------------------------+----------+
|                     free_text|prediction|
+------------------------------+----------+
|        Có Hùng Bá vua tiền tệ|       1.0|
|mượn tiêng để bán sách quá ...|       1.0|
|Cái cách nhả chữ chậm chậm ...|       1.0|
|     Anh dậy sớm để đi ăn cướp|       1.0|
+------------------------------+----------+

