In [6]:
import pandas as pd
import json
import re
import os
import time
import requests
import matplotlib.pyplot as plt
import seaborn as sns
from langdetect import detect
from pythainlp.tokenize import word_tokenize, sent_tokenize
from pythainlp.util import normalize
from pythainlp.util import Trie
from pythainlp.corpus.common import thai_stopwords
from pythainlp.corpus.common import thai_words

from datetime import datetime
import googleapiclient.discovery

In [100]:
with open('model_smartphone.json', 'r', encoding="utf-8") as file:
    model_ip = json.load(file)

In [116]:
with open('Question_lexicon.json', 'r', encoding="utf-8") as file:
    question_list = json.load(file)

In [102]:
model_word = []
for i in model_ip:
    model_word.append(i)
    for j in model_ip[i]:
        model_word.append(j)

model = {i for i in model_word}

In [103]:
def changes_word_of_model(text, dict_word):
    correct_text = []
    for word in text:
        for i in dict_word:
            if word in dict_word[i]:
                correct_word = i
                break
        else:
            correct_word = word
        correct_text.append(correct_word)
    return " ".join(correct_text)

In [117]:
def tokenize_and_split_sentences(dataframe, text_column_name):
    # Create a new DataFrame to store the tokenized sentences
    new_dataframe = pd.DataFrame(columns=dataframe.columns)
    rows_to_concat = []
    
    # Iterate over each row in the original DataFrame
    for _, row in dataframe.iterrows():
        text = row[text_column_name]
        text = re.sub(r"\n", '', text)
        text = re.sub(r"\r", '', text)
        sentences = sent_tokenize(text)
        
        # Create a new row for each tokenized sentence
        for sentence in sentences:
            new_row = row.copy()
            new_row[text_column_name] = sentence
            rows_to_concat.append(new_row)
    
    # Convert the list of rows into a DataFrame
    new_dataframe = pd.DataFrame(rows_to_concat)
    new_dataframe.reset_index(drop=True, inplace=True)
    
    return new_dataframe

In [118]:
keywords_option = ["หน้าจอ","จอ", "แบต", "แบตเตอรี่", "กล้อง", "ถ่าย","ถ่ายภาพ", "วีดีโอ", "รูปถ่าย","hz","ถ่ายคลิป","dynamic island","fps","กล้องหน้า","กล้องหลัง","focus"]
keywords = keywords_option
print(keywords)

def keyword_filter(data):
    
    relevant_words = [word for word in data if word in keywords]
    if not relevant_words:
        return None
    
    data = "".join(word for word in data)
    return data

['หน้าจอ', 'จอ', 'แบต', 'แบตเตอรี่', 'กล้อง', 'ถ่าย', 'ถ่ายภาพ', 'วีดีโอ', 'รูปถ่าย', 'hz', 'ถ่ายคลิป', 'dynamic island', 'fps', 'กล้องหน้า', 'กล้องหลัง', 'focus']


In [119]:
def question_filter(dataframe, text_column):
    # Create a boolean mask to identify rows with question words
    mask = dataframe[text_column].apply(lambda text: any(word in text for word in question_list))
    # Invert the mask to keep only rows without question words
    dataframe = dataframe.loc[~mask]

    return dataframe

In [107]:
custom_word = model.union(question_list)
# print(custom_word)
words = custom_word.union(thai_words())
custom_dictionary_trie = Trie(words)

def word_token(data):
    data = "".join(u.lower() for u in data if u not in ("?", ".", ";", ":", "!", '"', "ๆ", "ฯ",
                    "/", "<", ">", "^", "-", "*", "(", ")", "%", "_", ",", "#", "'", "{", "}", "…","&"," "))
    data = normalize(data)
    data = word_tokenize(data, custom_dict=custom_dictionary_trie, keep_whitespace=False)

    return data

# ********ดูcodeนี้ใหม่*********

In [37]:
# def analyze_sentiment_AIforthai(df, column_name):
#     api_key = "FOFZpO9UFwSMquHMwVmZ7cjebmv0Yv8a"
#     results_df = pd.DataFrame(columns=["id","sentence", "sentiment_data"])
#     for index, row in df.iterrows():
#         comment = row[column_name]
#         response = requests.post(
#             "https://api.aiforthai.in.th/ssense",
#             data={"text": comment},
#             headers={"Apikey": api_key}
#         )
#         sentiment_data = dict(response.json())
#         if sentiment_data["sentiment"]["score"] == "0":
#             sentiment_data = "neu"
#         else:
#             sentiment_data = sentiment_data["sentiment"]['polarity'][:3]
#         results_df.loc[index] = [comment, sentiment_data]
#     return results_df

In [37]:
youtube = googleapiclient.discovery.build(
    "youtube", "v3", developerKey="*******************")
allcomment = []

def is_thai(text):
    try:
        return detect(text) == 'th'
    except:
        return False

def get_comments(video_id, keyword, brand):
    request = youtube.commentThreads().list(
        part="snippet,replies",
        videoId=video_id,
        textFormat="plainText",
        maxResults=100
    )

    comments = []
    thai_regex = '[ก-๙]'
    def remove_thai(s): return re.sub(thai_regex, '', s)
    keyword_search = remove_thai(keyword)

    while request is not None:
        response = request.execute()
        for item in response["items"]:
            if is_thai(item["snippet"]["topLevelComment"]["snippet"]["textDisplay"]) == True:
                if item["snippet"]["totalReplyCount"] > 0:
                    # print(item)
                    # print(item["replies"]['comments'])
                    replies = item["replies"]["comments"]
                    for reply in replies:
                        # if detect(reply['snippet']["textDisplay"]=='th'):
                        # print("****Reply*****", reply)
                        reply_published_at = reply['snippet']["publishedAt"]
                        reply_datetime_obj = datetime.strptime(
                            reply_published_at, "%Y-%m-%dT%H:%M:%SZ")
                        reply_published_date = reply_datetime_obj.strftime(
                            "%Y-%m-%d")
                        reply_published_time = reply_datetime_obj.strftime(
                            "%H:%M:%S")

                        comments.append({
                            "textDisplay": reply['snippet']["textDisplay"],
                            "authorDisplayName": reply['snippet']["authorDisplayName"],
                            "author_id": reply['snippet']["authorChannelId"]["value"],
                            "likeCount": reply['snippet']["likeCount"],
                            "publishedDate": reply_published_date,
                            "publishedTime": reply_published_time,
                            "videoId": "https://www.youtube.com/watch?v=" + reply['snippet']["videoId"],
                            "keyword_search": keyword_search,
                            "Brand": brand,
                            "type_data": "Reply"
                        })
                    # if detect(item["snippet"]["topLevelComment"]["snippet"]['textDisplay']=='th'):
                    comment = item["snippet"]["topLevelComment"]["snippet"]
                    published_at = comment["publishedAt"]
                    datetime_obj = datetime.strptime(
                        published_at, "%Y-%m-%dT%H:%M:%SZ")
                    published_date = datetime_obj.strftime("%Y-%m-%d")
                    published_time = datetime_obj.strftime("%H:%M:%S")
                    

                    comments.append({
                        "textDisplay": comment["textDisplay"],
                        "authorDisplayName": comment["authorDisplayName"],
                        "author_id": comment["authorChannelId"]["value"],
                        "likeCount": comment["likeCount"],
                        "publishedDate": published_date,
                        "publishedTime": published_time,
                        "videoId": "https://www.youtube.com/watch?v=" + comment["videoId"],
                        "keyword_search": keyword_search,
                        "Brand": brand,
                        "type_data":"Comment"
                    })
                else:
                    # if detect(item["snippet"]["topLevelComment"]["snippet"]['textDisplay']=='th'):
                    comment = item["snippet"]["topLevelComment"]["snippet"]
                    published_at = comment["publishedAt"]
                    datetime_obj = datetime.strptime(
                        published_at, "%Y-%m-%dT%H:%M:%SZ")
                    published_date = datetime_obj.strftime("%Y-%m-%d")
                    published_time = datetime_obj.strftime("%H:%M:%S")
                    

                    comments.append({
                        "textDisplay": comment["textDisplay"],
                        "authorDisplayName": comment["authorDisplayName"],
                        "author_id": comment["authorChannelId"]["value"],
                        "likeCount": comment["likeCount"],
                        "publishedDate": published_date,
                        "publishedTime": published_time,
                        "videoId": "https://www.youtube.com/watch?v=" + comment["videoId"],
                        "keyword_search": keyword_search,
                        "Brand": brand,
                        "type_data":"Comment"
                    })

        request = youtube.commentThreads().list_next(request, response)

    return comments


def search_videos(query, brand):
    request = youtube.search().list(
        part="id,snippet",
        type='video',
        q=query,
        maxResults=1,
        regionCode='TH'
    )
    response = request.execute()
    for item in response["items"]:
        video_id = item["id"]["videoId"]
        url = f"https://www.youtube.com/watch?v={video_id}"
        # print(url)
        comments = get_comments(video_id, query, brand)
        allcomment.extend(comments)
        # print(allcomment)
        time.sleep(5)


def search_videos_from_csv(csv_file, select_brand):
    df = pd.read_excel(csv_file)
    df = df[df["Brand"] == select_brand]
    keywords = df["Keyword_Search"].tolist()
    brands = df["Brand"].tolist()

    print("ยี่ห้อสมาร์ทโฟนที่ดึงข้อมูลมา")
    print("---------------------")
    print(keywords)
    print(brands)

    for keyword, brand in zip(keywords, brands):
        keyword_search = "รีวิว"+keyword
        print("Brand: "+brand, "Search: "+keyword_search)
        search_videos(keyword_search, brand)


if __name__ == "__main__":
    csv_file = 'smartphone.xlsx'
    select_brand = input("Please Enter to Collect data of Brand: ")
    # ค้นหาที่ละแบรนด์
    search_videos_from_csv(csv_file, select_brand)

    json_filename = f"comments.json"
    with open(json_filename, "w", encoding="utf-8") as file:
        json.dump(allcomment, file, ensure_ascii=False, indent=4)

ยี่ห้อสมาร์ทโฟนที่ดึงข้อมูลมา
---------------------
['Samsung Galaxy M04', 'Samsung Galaxy A04']
['Samsung', 'Samsung']
Brand: Samsung Search: รีวิวSamsung Galaxy M04
Brand: Samsung Search: รีวิวSamsung Galaxy A04


# MongoDB Part: Put and Get Data

In [20]:
from pymongo import MongoClient

In [7]:
client = MongoClient('mongodb+srv://dararatta:021044noinoi@projectcongrat.z95prpk.mongodb.net/')  
database = client.Projectsentiment  
collection = database.SmartphoneReview

json_filename = 'comments.json'  # Replace with your JSON file name
with open(json_filename, 'r', encoding='utf-8') as file:
    data = json.load(file)

collection.insert_many(data)
print(f"Inserted {len(data)} documents into the collection.")

Inserted 2386 documents into the collection.


# Get Data Part

In [24]:
client = MongoClient('mongodb+srv://dararatta:021044noinoi@projectcongrat.z95prpk.mongodb.net/')  
database = client.Projectsentiment  
collection = database.SmartphoneReview
data = collection.find()

df_comment = pd.DataFrame(data)
# df_comment = df_comment.drop_duplicates(subset="textDisplay")
print("จำนวนข้อมูลทั้งหมด",f'{df_comment.shape[0]:,}',"แถว")
df_comment.head()

จำนวนข้อมูลทั้งหมด 9,426 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea753106d,จากใจใช้ 7+ มานานมากแล้ว แฟนซื้อ14 ให้ ก็ดีใจส...,Warisara Bee,UCaALObPQL634Ztu7swSTRmw,0,2023-07-17,22:59:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea753106e,ฮ่าๆ เพิ่งซื้อได้ สามวันก้มาเจอคลิปนี้ 5555,วิฑูรย์ สีเสมอ,UCtj26p2jfeGN__L3XT0XJHQ,0,2023-07-16,15:27:06,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea753106f,เเล้วไง Apple ถ้าจะขายสเปกเก่าแค่เปลี่ยนชื่อให...,จิ้งจอกสยาม,UCMpqPwsZS95-qPbJi_pB2SA,0,2023-07-08,04:23:55,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea7531070,ใช้ 8+ อยู่ กำลัง มอง 14 อยู่,วุฒิชัย ศาสตร์ทอง,UC5mb-wxGvvfH8biaFVc5KxQ,0,2023-06-26,01:38:49,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


In [None]:
df_apple = df_comment[df_comment["Brand"]=="Apple"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

In [12]:
df_apple = df_comment[df_comment["Brand"]=="Apple"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 9,534 แถว


In [13]:
df_samsung = df_comment[df_comment["Brand"]=="Samsung"]
print("จำนวนข้อมูลทั้งหมด",f'{df_samsung.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 0 แถว


In [14]:
df_oppo = df_comment[df_comment["Brand"]=="Oppo"]
print("จำนวนข้อมูลทั้งหมด",f'{df_oppo.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 0 แถว


In [18]:
# def count_brand():
count_brand_list = []
csv_file = 'smartphone.xlsx' 
df = pd.read_excel(csv_file) 
keywords = (df["Keyword_Search"].drop_duplicates()).tolist()
brands = df["Brand"].tolist()

for keyword,brand in zip(keywords,brands):
    df_brand_aa = df_comment[df_comment['keyword_search']==keyword]
    count = df_brand_aa.shape[0]

    list_brand = [keyword, brand, str(count)]
    count_brand_list.append(list_brand)

df_count_brand = pd.DataFrame(count_brand_list, columns=['Model','Brand','Count'])
df_count_brand = df_count_brand[df_count_brand['Brand']=="Apple"]
df_count_brand

Unnamed: 0,Model,Brand,Count
0,iPhone 14,Apple,676
1,iPhone 14 Plus,Apple,326
2,iPhone 14 Pro,Apple,276
3,iPhone 14 Pro Max,Apple,991
4,iPhone SE (2022),Apple,246
5,iPhone 13,Apple,1149
6,iPhone 13 Pro,Apple,280
7,iPhone 13 Pro Max,Apple,428
8,iPhone 13 mini,Apple,469
9,iPhone 12 mini,Apple,597


# Part of Filter Features & Questionable Data

Part of Filter Features

In [121]:
df_comment["Filter_keyword"] = df_comment["textDisplay"].apply(word_token)
df_comment.head()

Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data,Filter_keyword
0,64b6c01aa4428eeea753107b,กล้องวูบวาบเป็นเพราะอะไรคะ,Julaluck Pradujchon,UCkvFpXTpoqxCUqTa57pjy1A,0,2023-05-29,07:31:10,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[กล้อง, วูบวาบ, เป็น, เพราะอะไรคะ]"
1,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[ชอบ, กล้อง, กับ, ตัดต่อ, วีดีโอ, แค่, นั้นแหล..."
2,64b6c01aa4428eeea753106e,ฮ่าๆ เพิ่งซื้อได้ สามวันก้มาเจอคลิปนี้ 5555,วิฑูรย์ สีเสมอ,UCtj26p2jfeGN__L3XT0XJHQ,0,2023-07-16,15:27:06,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[ฮ่า, เพิ่ง, ซื้อ, ได้, สาม, วัน, ก้, มา, เจอ,..."
3,64b6c01aa4428eeea7531075,กำลังจะซื้อip13คิดว่าดีไหมคะ😅ลังเลจัง,Mimee makeup Beauty blogger,UCuZ9k0t09O-JxUBvYqn7OgQ,0,2023-06-07,11:31:12,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[กำลังจะ, ซื้อ, ip13, คิด, ว่า, ดี, ไหม, คะ, 😅..."
4,64b6c01aa4428eeea753106f,เเล้วไง Apple ถ้าจะขายสเปกเก่าแค่เปลี่ยนชื่อให...,จิ้งจอกสยาม,UCMpqPwsZS95-qPbJi_pB2SA,0,2023-07-08,04:23:55,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[แล้ว, ไง, apple, ถ้า, จะ, ขาย, สเปก, เก่า, แค..."


In [122]:
df_comment['Filter_keyword'] = df_comment['Filter_keyword'].apply(keyword_filter)
df_comment = df_comment.dropna()
df_comment.reset_index(drop=True, inplace=True)
df_comment = df_comment.drop(columns="Filter_keyword")
print("จำนวนข้อมูลทั้งหมด",f'{df_comment.shape[0]:,}',"แถว")
df_comment.head()

จำนวนข้อมูลทั้งหมด 1,629 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea753107b,กล้องวูบวาบเป็นเพราะอะไรคะ,Julaluck Pradujchon,UCkvFpXTpoqxCUqTa57pjy1A,0,2023-05-29,07:31:10,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea7531078,นี่ซื้อมาใช้ได้ 1 เดือน คุณภาพแบตลดไป 3% เหลือ...,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea75310a0,จริงมากๆ มันควรปล่อย 120hz ได้แล้ว กำลังจะตัดส...,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea75310bb,ผมซื้อ 13 มินิ ใช้สบายมือมากๆ แบตเตอรี่โอเค กล...,Speed22,UCuF3XxhDkdBl_8RdNMe7nKw,0,2022-12-19,07:53:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


In [25]:
df_apple = df_comment[df_comment["Brand"]=="Apple"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 1,629 แถว


In [26]:
df_samsung = df_comment[df_comment["Brand"]=="Samsung"]
print("จำนวนข้อมูลทั้งหมด",f'{df_samsung.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 0 แถว


In [27]:
df_oppo = df_comment[df_comment["Brand"]=="Oppo"]
print("จำนวนข้อมูลทั้งหมด",f'{df_oppo.shape[0]:,}',"แถว")

จำนวนแถวทั้งหมด 0 แถว


In [29]:
# def count_brand():
count_brand_list = []
csv_file = 'test.xlsx' 
df = pd.read_excel(csv_file) 
keywords = (df["Keyword_Search"].drop_duplicates()).tolist()
brands = df["Brand"].tolist()

for keyword,brand in zip(keywords,brands):
    df_brand_aa = df_comment[df_comment['keyword_search']==keyword]
    count = df_brand_aa.shape[0]

    list_brand = [keyword, brand, str(count)]
    count_brand_list.append(list_brand)

df_count_brand = pd.DataFrame(count_brand_list, columns=['Model','Brand','Count'])
df_count_brand = df_count_brand[df_count_brand['Brand']=="Apple"]
df_count_brand

Unnamed: 0,Model,Brand,Count
18,iPhone 14,Apple,119
19,iPhone 14 Plus,Apple,66
20,iPhone 14 Pro,Apple,51
21,iPhone 14 Pro Max,Apple,258
22,iPhone SE (2022),Apple,78
23,iPhone 13,Apple,210
24,iPhone 13 Pro,Apple,44
25,iPhone 13 Pro Max,Apple,95
26,iPhone 13 mini,Apple,66
27,iPhone 12 mini,Apple,136


In [None]:
# x = input("Please select Brand: ")
def showChart():
    x = input("Please select Brand: ")
    df_chart = df_count_brand[df_count_brand["Brand"]==x].copy()
    df_chart['Count'] = pd.to_numeric(df_chart['Count'], errors='coerce')
    fig, ax = plt.subplots()
    barchart = sns.barplot(x=df_chart['Count'], y=df_chart['Model'],palette="flare")
    barchart.bar_label(ax.containers[0], label_type='edge', padding=15)
    ax.margins(y=0.05)
    plt.show()

    return 

showChart()


Part of Filter Out Questionable data

In [123]:
df_questionable_filter = question_filter(df_comment, "textDisplay")
df_questionable_filter.reset_index(drop=True, inplace=True)
print("จำนวนข้อมูลทั้งหมด",f'{df_questionable_filter.shape[0]:,}',"แถว")
df_questionable_filter.head()

จำนวนข้อมูลทั้งหมด 1,364 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531078,นี่ซื้อมาใช้ได้ 1 เดือน คุณภาพแบตลดไป 3% เหลือ...,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea75310a0,จริงมากๆ มันควรปล่อย 120hz ได้แล้ว กำลังจะตัดส...,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea75310bb,ผมซื้อ 13 มินิ ใช้สบายมือมากๆ แบตเตอรี่โอเค กล...,Speed22,UCuF3XxhDkdBl_8RdNMe7nKw,0,2022-12-19,07:53:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea7531168,60 hz ปัจจุบันใช้ 120 พอเล่นหน้าจอรีเฟรชน้อย เ...,Natthaphon Yasamut,UCHvk6417ehNEfLDEQSX47TQ,0,2022-10-03,12:56:19,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


In [124]:
df_apple = df_questionable_filter[df_questionable_filter["Brand"]=="Apple"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

จำนวนข้อมูลทั้งหมด 1,364 แถว


In [32]:
df_apple = df_questionable_filter[df_questionable_filter["Brand"]=="Samsung"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

จำนวนข้อมูลทั้งหมด 0 แถว


In [33]:
df_apple = df_questionable_filter[df_questionable_filter["Brand"]=="Oppo"]
print("จำนวนข้อมูลทั้งหมด",f'{df_apple.shape[0]:,}',"แถว")

จำนวนข้อมูลทั้งหมด 0 แถว


# Part of Sentence Tokenize

In [125]:
df_comment_sentence = tokenize_and_split_sentences(df_questionable_filter, 'textDisplay')
print("จำนวนแถวทั้งหมด",f'{df_comment_sentence.shape[0]:,}',"แถว")
df_comment_sentence.head()

จำนวนแถวทั้งหมด 4,168 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531078,นี่ซื้อมาใช้ได้ 1 เดือน,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea7531078,มันจะเหลือถึง 70%ไหมน้อผมเป็นสาวกฝั่งแอนดรอยด์...,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea7531078,และเพิ่งย้ายมาฝั่งไอโฟน,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


Filter Features Word

In [126]:
df_comment_sentence["Filter_keyword"] = df_comment_sentence["textDisplay"].apply(word_token)
df_comment_sentence.head()

Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data,Filter_keyword
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[ชอบ, กล้อง, กับ, ตัดต่อ, วีดีโอ, แค่, นั้นแหล..."
1,64b6c01aa4428eeea7531078,นี่ซื้อมาใช้ได้ 1 เดือน,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[นี่, ซื้อ, มา, ใช้ได้, 1, เดือน]"
2,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[คุณภาพ, แบต, ลด, ไป, 3, เหลือ, 97, ถ้า, หมด, ..."
3,64b6c01aa4428eeea7531078,มันจะเหลือถึง 70%ไหมน้อผมเป็นสาวกฝั่งแอนดรอยด์...,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[มัน, จะ, เหลือ, ถึง, 70, ไหม, น้อผม, เป็น, สา..."
4,64b6c01aa4428eeea7531078,และเพิ่งย้ายมาฝั่งไอโฟน,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment,"[และ, เพิ่ง, ย้าย, มา, ฝั่ง, ไอโฟน]"


In [127]:
df_comment_sentence['Filter_keyword'] = df_comment_sentence['Filter_keyword'].apply(keyword_filter)
df_comment_sentence = df_comment_sentence.dropna()
df_comment_sentence.reset_index(drop=True, inplace=True)
df_comment_sentence = df_comment_sentence.drop(columns="Filter_keyword")
print("จำนวนแถวทั้งหมด",f'{df_comment_sentence.shape[0]:,}',"แถว")
df_comment_sentence.head()

จำนวนแถวทั้งหมด 1,767 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค,Speed22,UCuF3XxhDkdBl_8RdNMe7nKw,0,2022-12-19,07:53:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


Filter Questionable data

In [128]:
df_questionable_filter = question_filter(df_comment_sentence, "textDisplay")
df_questionable_filter.reset_index(drop=True, inplace=True)
print("จำนวนข้อมูลทั้งหมด",f'{df_questionable_filter.shape[0]:,}',"แถว")
df_questionable_filter.head()

จำนวนข้อมูลทั้งหมด 1,766 แถว


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,พี่เลิกบาระแนะ,UCMJ8iDZpoo0d8fGXDWVZEew,0,2023-06-24,20:09:33,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,Over Liu,UCcjKfHTRGfJSIJIoQe_EYIw,0,2023-06-04,15:36:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ,iaskerman,UC1CdBdpE_JyYq7LhiQpHieg,0,2023-02-08,10:29:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค,Speed22,UCuF3XxhDkdBl_8RdNMe7nKw,0,2022-12-19,07:53:43,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


In [129]:
df_corpus = df_questionable_filter[["_id", "textDisplay"]]
df_corpus

Unnamed: 0,_id,textDisplay
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค
...,...,...
1761,64b965335b57b20bb1eb55c3,พี่ตั้ม วีดีโอชัดมาก555
1762,64b965335b57b20bb1eb55ea,วีดีโอ360p
1763,64b965335b57b20bb1eb555b,เวลาดูคลิปก็ไม่เต็มจอ​ แถมม ได้จอhd อะราคานี้​...
1764,64b965335b57b20bb1eb555b,อย่างน้อย​เอาจอ18ต่อ9มาก็ยังไม่หน้าเกลียดด​ #2020


In [130]:
df_corpus.to_excel("Corpus_after_remove_question_clean.xlsx")

In [73]:
# def analyze_sentiment_AIforthai(df):
#     api_key = "FOFZpO9UFwSMquHMwVmZ7cjebmv0Yv8a"
#     results_df = pd.DataFrame(columns=["_id","comment", "sentiment_data"])
#     for index, row in df.iterrows():
#         sentence_id = row['_id']
#         comment = row['textDisplay']
#         response = requests.post(
#             "https://api.aiforthai.in.th/ssense",
#             data={"text": comment},
#             headers={"Apikey": api_key}
#         )
#         sentiment_data = dict(response.json())
#         if sentiment_data["sentiment"]["score"] == "0":
#             sentiment_data = "neu"
#         else:
#             sentiment_data = sentiment_data["sentiment"]['polarity'][:3]
#         results_df.loc[index] = [sentence_id,comment, sentiment_data]
#     return results_df

In [50]:
import json

def analyze_sentiment_AIforthai(df):
    api_key = "FOFZpO9UFwSMquHMwVmZ7cjebmv0Yv8a"
    new_df = df.copy()

    for index, row in new_df.iterrows():
        comment = row["textDisplay"]

        response = requests.post(
            "https://api.aiforthai.in.th/ssense",
            data={"text": comment},
            headers={"Apikey": api_key}
        )

        try:
            response_json = response.json()
            
            # Check if response contains valid JSON data
            if response_json:
                sentiment_score = response_json["sentiment"]["score"]

                if sentiment_score == 0:
                    sentiment_data = "neu"
                else:
                    sentiment_polarity = response_json["sentiment"]["polarity"]
                    sentiment_data = sentiment_polarity[:3]

            else:
                sentiment_data = None

        except json.JSONDecodeError as e:
            # print(f"Error decoding JSON response for row {index}: {e}")
            sentiment_data = None

        new_df.at[index, "sentiment"] = sentiment_data

    return new_df


---------------------------------------------------------------------------------------------------------

In [109]:
import spacy_thai
nlp = spacy_thai.load()
sentence = "14พลัสดีที่สุดสำหรับผม จอใหญ่ แบตอึด กล้องก็สวยมากๆอีกด้วยครับ"
doc = nlp(sentence)
for token in doc:
    print(f"Head: {token.head.text}(POS: {token.head.pos_}), Relationship:{token.dep_}, Dependent:{token.text}, Result: {token.text+token.head.text}")

Head: พลัส(POS: NOUN), Relationship:nummod, Dependent:14, Result: 14พลัส
Head: ดี(POS: ADJ), Relationship:nsubj, Dependent:พลัส, Result: พลัสดี
Head: ดี(POS: ADJ), Relationship:ROOT, Dependent:ดี, Result: ดีดี
Head: ดี(POS: ADJ), Relationship:advmod, Dependent:ที่สุด, Result: ที่สุดดี
Head: ผม(POS: PRON), Relationship:case, Dependent:สำหรับ, Result: สำหรับผม
Head: ดี(POS: ADJ), Relationship:obl, Dependent:ผม, Result: ผมดี
Head: ผม(POS: PRON), Relationship:compound, Dependent:จอ, Result: จอผม
Head: สวย(POS: ADJ), Relationship:advmod, Dependent:ใหญ่, Result: ใหญ่สวย
Head: สวย(POS: ADJ), Relationship:nsubj, Dependent:แบต, Result: แบตสวย
Head: แบต(POS: NOUN), Relationship:compound, Dependent:อึด, Result: อึดแบต
Head: แบต(POS: NOUN), Relationship:compound, Dependent:กล้อง, Result: กล้องแบต
Head: สวย(POS: ADJ), Relationship:case, Dependent:ก็, Result: ก็สวย
Head: จอ(POS: NOUN), Relationship:acl, Dependent:สวย, Result: สวยจอ
Head: สวย(POS: ADJ), Relationship:advmod, Dependent:มาก, Result: มาก

In [55]:
import pythainlp
import pandas as pd

def tokenize_and_split_sentences(dataframe, text_column_name):
    # Create a new DataFrame to store the tokenized sentences
    new_dataframe = pd.DataFrame(columns=dataframe.columns)
    rows_to_concat = []
    
    # Iterate over each row in the original DataFrame
    for _, row in dataframe.iterrows():
        text = row[text_column_name]
        sentences = pythainlp.sent_tokenize(text)
        
        # Create a new row for each tokenized sentence
        for sentence in sentences:
            new_row = row.copy()
            new_row[text_column_name] = sentence
            rows_to_concat.append(new_row)
    
    # Convert the list of rows into a DataFrame
    new_dataframe = pd.DataFrame(rows_to_concat)
    
    return new_dataframe

# Example usage
# Assuming you have a DataFrame named 'df' with a column named 'textDisplay'
df = pd.DataFrame({
    '_id': ['64b6c01aa4428eeea753106d', '64b6c01aa4428eeea7531070'],
    'textDisplay': ['จากใจใช้ 7+ มานานมากแล้ว แฟนซื้อ14 ให้ ก็ดีใจส...', 'ใช้ 8+ อยู่ กำลัง มอง 14 อยู่'],
    'authorDisplayName': ['Warisara Bee', 'วุฒิชัย ศาสตร์ทอง'],
    'author_id': ['UCaALObPQL634Ztu7swSTRmw', 'UC5mb-wxGvvfH8biaFVc5KxQ'],
    'likeCount': [0, 0],
    'publishedDate': ['2023-07-17', '2023-06-26'],
    'publishedTime': ['22:59:09', '01:38:49'],
    'videoId': ['https://www.youtube.com/watch?v=97bV_hvnUng', 'https://www.youtube.com/watch?v=97bV_hvnUng'],
    'keyword_search': ['iPhone 14', 'iPhone 14'],
    'Brand': ['Apple', 'Apple'],
    'type_data': ['Comment', 'Comment']
})

new_df = tokenize_and_split_sentences(df, 'textDisplay')
new_df


Unnamed: 0,_id,textDisplay,authorDisplayName,author_id,likeCount,publishedDate,publishedTime,videoId,keyword_search,Brand,type_data
0,64b6c01aa4428eeea753106d,จากใจใช้ 7+ มานานมากแล้ว,Warisara Bee,UCaALObPQL634Ztu7swSTRmw,0,2023-07-17,22:59:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
0,64b6c01aa4428eeea753106d,แฟนซื้อ14 ให้ ก็ดีใจส...,Warisara Bee,UCaALObPQL634Ztu7swSTRmw,0,2023-07-17,22:59:09,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment
1,64b6c01aa4428eeea7531070,ใช้ 8+ อยู่ กำลัง มอง 14 อยู่,วุฒิชัย ศาสตร์ทอง,UC5mb-wxGvvfH8biaFVc5KxQ,0,2023-06-26,01:38:49,https://www.youtube.com/watch?v=97bV_hvnUng,iPhone 14,Apple,Comment


In [131]:
csv_file1 = 'Corpus_after_remove_question_clean.xlsx' 
df1 = pd.read_excel(csv_file1)
df1 = df1[['_id','textDisplay']]
df1.head()

Unnamed: 0,_id,textDisplay
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค


In [132]:
df1.shape[0]

1766

In [133]:
csv_file2 = 'Corpus_data.xlsx' 
df2 = pd.read_excel(csv_file2)
df2 = df2[['_id','textDisplay','Overview sentiment','Features']]
df2.head()

Unnamed: 0,_id,textDisplay,Overview sentiment,Features
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,pos,กล้อง:pos
1,64b6c01aa4428eeea7531076,อยากทราบวิธีรักษาแบต 14 กับความร้อนของเครื่องค...,neu,
2,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,neu,แบต:neu
3,64b6c01aa4428eeea753107e,ผมใช้ 14 พอปิดหน้าจอ,neu,
4,64b6c01aa4428eeea7531080,สงสัยต้อง 15 เอา แค่ c ก็พอก่อนละม้าง ไอ 18 ค่...,neu,จอ:neu


In [134]:
df2.shape[0]

1000

In [139]:
merged_df = df1.merge(df2, on='textDisplay',how='left',suffixes=('','df2'))
merged_df

Unnamed: 0,_id,textDisplay,_iddf2,Overview sentiment,Features
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,64b6c01aa4428eeea7531071,pos,กล้อง:pos
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,64b6c01aa4428eeea7531078,neu,แบต:neu
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว,,,
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ,,,
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค,64b6c01aa4428eeea75310bb,pos,
...,...,...,...,...,...
1785,64b965335b57b20bb1eb55c3,พี่ตั้ม วีดีโอชัดมาก555,,,
1786,64b965335b57b20bb1eb55ea,วีดีโอ360p,,,
1787,64b965335b57b20bb1eb555b,เวลาดูคลิปก็ไม่เต็มจอ​ แถมม ได้จอhd อะราคานี้​...,,,
1788,64b965335b57b20bb1eb555b,อย่างน้อย​เอาจอ18ต่อ9มาก็ยังไม่หน้าเกลียดด​ #2020,,,


In [140]:
result_df = merged_df[["_id","textDisplay", "Overview sentiment", "Features"]]
result_df = result_df.drop_duplicates(subset='textDisplay')
result_df

Unnamed: 0,_id,textDisplay,Overview sentiment,Features
0,64b6c01aa4428eeea7531071,ชอบกล้อง กับ ตัดต่อวีดีโอแค่นั้นแหละถ้าจะซื้อไ...,pos,กล้อง:pos
1,64b6c01aa4428eeea7531078,คุณภาพแบตลดไป 3% เหลือ 97%ถ้าหมดไป1ปี,neu,แบต:neu
2,64b6c01aa4428eeea75310a0,มันควรปล่อย 120hz ได้แล้ว,,
3,64b6c01aa4428eeea75310a0,กำลังจะตัดสินใจซื้อ 14 แต่พอจอ 60 บายเลยค่ะ,,
4,64b6c01aa4428eeea75310bb,แบตเตอรี่โอเค,pos,
...,...,...,...,...
1785,64b965335b57b20bb1eb55c3,พี่ตั้ม วีดีโอชัดมาก555,,
1786,64b965335b57b20bb1eb55ea,วีดีโอ360p,,
1787,64b965335b57b20bb1eb555b,เวลาดูคลิปก็ไม่เต็มจอ​ แถมม ได้จอhd อะราคานี้​...,,
1788,64b965335b57b20bb1eb555b,อย่างน้อย​เอาจอ18ต่อ9มาก็ยังไม่หน้าเกลียดด​ #2020,,


In [141]:
result_df.to_excel("test_df.xlsx")

--------------------------------------------------------------

# Test

In [30]:
import spacy
import spacy_pythainlp.core


nlp = spacy.blank("th")
# Segment the Doc into sentences
nlp.add_pipe(
   "pythainlp", 
   config={
        "pos_engine": "perceptron",
        "pos": True,
        "pos_corpus": "orchid_ud",
        "sent_engine": "crfcut",
        "sent": True,
        "ner_engine": "thainer",
        "ner": True,
        "tokenize_engine": "newmm",
        "tokenize": False,
        "dependency_parsing": False,
        "dependency_parsing_engine": "esupar",
        "dependency_parsing_model": None,
        "word_vector": True,
        "word_vector_model": "thai2fit_wv"
    }
)

text = "13pm ขอผม เวลาใช้กล้อง บางทีกล้องมันเหมือนจะเปลี่ยนเลนเองหรืออะไรสักอย่างมันเบลออะคับ บางทีก็ไม่ค่อยโฟกัส เป็นเพราะ ติดฟิลม์ครอบเลนกล้องหรือป่าวคับ"
data=nlp(text)
print(list(data.sents))
print('------------------')
print(sent_tokenize(text))
# output: [ผมเป็นคนไทย   แต่มะลิอยากไปโรงเรียนส่วนผมจะไปไหน  , ผมอยากไปเที่ยว]

[13pm , ขอผม เวลา, ใช้กล้อง บางทีกล้อง, มันเหมือนจะเปลี่ยนเลนเองหรืออะไรสักอย่างมันเบลออะคับ บางทีก็ไม่ค่อย, โฟกัส เป็นเพราะ ติดฟิลม์ครอบเลนกล้องหรือป่าวคับ]
------------------
['13pm ', 'ขอผม ', 'เวลาใช้กล้อง ', 'บางทีกล้องมันเหมือนจะเปลี่ยนเลนเองหรืออะไรสักอย่างมันเบลออะคับ ', 'บางทีก็ไม่ค่อยโฟกัส เป็นเพราะ ติดฟิลม์ครอบเลนกล้องหรือป่าวคับ']
