# Library

In [74]:
from datetime import datetime
import json
from pymongo import MongoClient
from pprint import pprint
from cleantext import clean
import string
import pandas as pd
import emoji

#import nltk
#nltk.download('stopwords')
#from nltk.corpus import stopwords

# Global Variables

In [76]:
vi_letters = "AĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴ"
vi_letters = list(vi_letters) + list(vi_letters.lower()) + list(string.ascii_letters) + list("1234567890")

# Preprocess

## Functions

In [77]:
def convert(s):
 
    # initialization of string to ""
    new = ""
 
    # traverse in the string
    for x in s:
        new += x
 
    # return string
    return new

def cleanEmoji(text):
    temp = [" " if i not in vi_letters else i for i in list(text)]
    
    return convert(temp)

def lower(text):
    return text.lower()

def cleanEndLines(text):
    return text.replace('\n', ' ')

def cleanPunctuations(text):
    a = list(string.punctuation)
    temp = [i if i not in a else ' ' for i in text]
    
    return " ".join(convert(temp).strip().split())

def preprocess(text):
    results = text
    
    results = cleanEmoji(results)
    results = lower(results)
    results = cleanEndLines(results)
    results = cleanPunctuations(results)
      
    return results

In [26]:
# Hàm này sẽ tạo ra DataFrame từ Collection chứa Comment
def create_dataframe_from_collection(collection):
    documents = list(collection.find({}))
    
    # Remove restaurants that have no comments
    documents = [i for i in documents if len(i['Comments'])]
    
    df = pd.DataFrame(columns = ['_id', 'Via', 'Datetime', 'Summary', 'Full Content', 'Rating'])
    
    for record in documents:
        id = [record['_id']]
        
        for comment in record['Comments']:
            df.loc[len(df.index)] = id + list(comment.values())
            
    return df

## Demo

- Trong Demo này, tui chạy trên collection 'Comment sample' để test thử, khi chạy chính thức thì chạy từ phần OFFICIAL phía dưới.

In [32]:
"""
URI = "mongodb+srv://analytics:analytics-password@cluster0.orpccey.mongodb.net/?retryWrites=true&w=majority"
db = MongoClient(URI)

my_collections = db.UDPTDLTM['Comment sample']
"""

'\nURI = "mongodb+srv://analytics:analytics-password@cluster0.orpccey.mongodb.net/?retryWrites=true&w=majority"\ndb = MongoClient(URI)\n\nmy_collections = db.UDPTDLTM[\'Comment sample\']\n\nstore_docs = list(my_collections.find({}))\n\nprint(len(store_docs))\n'

In [28]:
"""
df_ = create_dataframe_from_collection(my_collections)
df_
"""

Unnamed: 0,_id,Via,Datetime,Summary,Full Content,Rating
0,14,Android,2022-07-06 02:25:00,Pizza 4P’S - Pizza Kiểu Nhật -***,"Không ngon như tưởng tượng , CN mới mở nằm nga...",5.0
1,14,iPhone,2021-05-12 13:05:00,Ngon-Đẹp-Cưng ‼️‼️‼️,1/ Ngon: \n\n❤Pizza: Mình gọi một nửa là vị Cà...,9.2
2,14,Android,2021-01-07 21:39:00,Pizza của lòng tui,"Pizza 4P'S, cứ đến đây là gọi Pizza 3 chesse đ...",9.4
3,18,Web,2021-04-18 21:46:00,Milo cream cheese hơi đắng quá (như cafe),- Giá cả: như hóa đơn\n- Khẩu vị: Milo cream c...,7.0
4,18,Web,2021-04-18 21:39:00,Yoghurt Đào vải chua lè luôn mà nhân viên nói ...,- Giá cả: như hóa đơn\n- Khẩu vị: Yoghurt Đào ...,6.8
...,...,...,...,...,...,...
2870,499,Web,2021-05-11 10:01:00,Ngon và hấp dẫn quá,"Đồ ăn tại đây ngon, đậm vị và mấy bé phục vụ c...",8.4
2871,499,Android,2021-04-22 23:38:00,Phổ Đình tuyệt vời!,Mỗi lần thèm đồ nướng mình chắc chắn sẽ nhớ đế...,10.0
2872,499,iPhone,2021-04-19 20:30:00,GIÁN TỪ TRÊN TRẦN NHÀ BAY XUỐNG BÀN ĂN,Tầm 6h tối chủ nhật (18.04) tôi và 1 người bạn...,1.0
2873,499,iPhone,2021-02-18 13:36:00,Mùng 5 tết 2021,"đồ ăn tươi, ngon , tết nên có một bạn nữ phục ...",8.0


- Tiền xử lý văn bản cho cột Summary Full Content

In [78]:
"""
df2 = df_.copy()
df2['Summary'] = df2['Summary'].apply(lambda x: preprocess(x))
df2['Full Content'] = df2['Full Content'].apply(lambda x: preprocess(x))
df2
"""

Unnamed: 0,_id,Via,Datetime,Summary,Full Content,Rating
0,14,Android,2022-07-06 02:25:00,pizza 4p s pizza kiểu nhật,không ngon như tưởng tượng cn mới mở nằm ngay ...,5.0
1,14,iPhone,2021-05-12 13:05:00,ngon đẹp cưng,1 ngon pizza mình gọi một nửa là vị cà ri gà ấ...,9.2
2,14,Android,2021-01-07 21:39:00,pizza của lòng tui,pizza 4p s cứ đến đây là gọi pizza 3 chesse đầ...,9.4
3,18,Web,2021-04-18 21:46:00,milo cream cheese hơi đắng quá như cafe,giá cả như hóa đơn khẩu vị milo cream cheese h...,7.0
4,18,Web,2021-04-18 21:39:00,yoghurt đào vải chua lè luôn mà nhân viên nói ...,giá cả như hóa đơn khẩu vị yoghurt đào vải chu...,6.8
...,...,...,...,...,...,...
2870,499,Web,2021-05-11 10:01:00,ngon và hấp dẫn quá,đồ ăn tại đây ngon đậm vị và mấy bé phục vụ cũ...,8.4
2871,499,Android,2021-04-22 23:38:00,phổ đình tuyệt vời,mỗi lần thèm đồ nướng mình chắc chắn sẽ nhớ đế...,10.0
2872,499,iPhone,2021-04-19 20:30:00,gián từ trên trần nhà bay xuống bàn ăn,tầm 6h tối chủ nhật 18 04 tôi và 1 người bạn c...,1.0
2873,499,iPhone,2021-02-18 13:36:00,mùng 5 tết 2021,đồ ăn tươi ngon tết nên có một bạn nữ phục vụ ...,8.0


## OFFICIAL

- Unmarkdowned below cells to run

db_ = MongoClient("mongodb+srv://analytics:analytics-password@cluster0.orpccey.mongodb.net/?retryWrites=true&w=majority")
cmt_col = db_.UDPTDLTM.Comments_29K_Official

df = create_dataframe_from_collection(my_collections)

df_ = df.copy()
df_['Summary'] = df_['Summary'].apply(lambda x: preprocess(x))
df_['Full Content'] = df_['Full Content'].apply(lambda x: preprocess(x))
df_

df_.to_csv("Comment Data.csv", header=True, index=False)