### **Import lib**

In [1]:
import pandas as pd 
import numpy as np 

### **1. Data Preprocessing**

In [2]:
df = pd.read_csv('tiktok_feed08425.csv')
df.head(3)

Unnamed: 0,username,caption,post_time,scrape_time,views,likes,comments,shares,undefined,hashtags,sound_id,sound_title,uses_sound_count,video_id,video_url
0,pocochibo,Siêu thị ngoài hành tinh,2025-04-03 06:14:02,2025-04-08 20:18:28,2.1M,45.4K,611,2284,4912,,7.488967e+18,nhạc nền - Mỗi ngày 1 video🙄,1 videos,7488966293702331703,https://www.tiktok.com/@pocochibo/video/748896...
1,nguyn.hi.yn984,Bác nào biết bảo e với,2025-01-27 11:55:37,2025-04-08 20:18:45,,512.6K,16.7K,90K,23K,"nguyenhaiyen98, xuhuong",7.464563e+18,nhạc nền - Nguyễn Hải Yến98,44 videos,7464562698131377415,https://www.tiktok.com/@nguyn.hi.yn984/video/7...
2,chenlgmwhja,,2025-02-15 14:53:23,2025-04-08 20:18:56,,22.2K,688,1980,4619,,7.471659e+18,原声 - 卡尔,1 videos,7471659126590868743,https://www.tiktok.com/@chenlgmwhja/video/7471...


#### **1.1   Data Describe**

In [3]:
df.loc[3, 'shares']

'241.1K'

In [4]:
df.describe()

Unnamed: 0,sound_id,video_id
count,86.0,100.0
mean,7.426015e+18,7.474993e+18
std,1.464571e+17,9864263000000000.0
min,6.817537e+18,7.457541e+18
25%,7.4613e+18,7.465964e+18
50%,7.471385e+18,7.47406e+18
75%,7.481411e+18,7.483506e+18
max,7.490216e+18,7.490464e+18


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   username          98 non-null     object 
 1   caption           90 non-null     object 
 2   post_time         100 non-null    object 
 3   scrape_time       100 non-null    object 
 4   views             67 non-null     object 
 5   likes             100 non-null    object 
 6   comments          98 non-null     object 
 7   shares            98 non-null     object 
 8   undefined         98 non-null     object 
 9   hashtags          73 non-null     object 
 10  sound_id          86 non-null     float64
 11  sound_title       86 non-null     object 
 12  uses_sound_count  86 non-null     object 
 13  video_id          100 non-null    int64  
 14  video_url         98 non-null     object 
dtypes: float64(1), int64(1), object(13)
memory usage: 11.8+ KB


In [6]:
df.isna().sum()

username             2
caption             10
post_time            0
scrape_time          0
views               33
likes                0
comments             2
shares               2
undefined            2
hashtags            27
sound_id            14
sound_title         14
uses_sound_count    14
video_id             0
video_url            2
dtype: int64

#### **1.2    Chuẩn hóa số đếm**

> **Chuấn hóa các ký hiệu M, K về số**

In [7]:
def convert_str_number(val):
    if isinstance(val, str):
        val = val.strip().upper()
        if 'M' in val:
            return float(val.replace('M', '')) * 1000000
        elif 'K' in val:
            return float(val.replace('K', '')) * 1000
        else:
            try:
                return float(val.replace(',', ''))
            except:
                return np.nan 
    return val


In [8]:
cols_to_convert = ['views', 'likes', 'comments', 'shares', 'undefined']

for col in cols_to_convert:
    df[col] = df[col].apply(convert_str_number)

> **Chuẩn hóa 'K videos' về số**

In [9]:
# Thay thế K videos thành số. 
def uses_sound_count_str_to_num(val):
    if isinstance(val, str):
        val = val.strip().upper()
        if 'M videos' in val:
            return float(val.replace('M VIDEOS', '')) * 1000000
        elif 'K videos' in val:
            return float(val.replace('K VIDEOS', '')) * 1000
        else:
            try:
                return float(val.replace(' VIDEOS', ''))
            except:
                return np.nan 
    return val

In [10]:
df['uses_sound_count'] = df['uses_sound_count'].apply(uses_sound_count_str_to_num)

#### **1.3    Chuẩn hóa datetime**

In [11]:
df['post_time'] = pd.to_datetime(df['post_time'])
df['scrape_time'] = pd.to_datetime(df['scrape_time'])

#### **1.4    Xử lý hashtags**

In [12]:
df['hashtags'] = df['hashtags'].fillna('')

> **Tách các hashtag thành danh sách hashtag**

In [13]:
df['hashtags'] = df['hashtags'].apply(lambda x: [tag.strip() for tag in x.split(',') if tag.strip()])

In [14]:
df['hashtags'] = df['hashtags'].apply(lambda x: np.nan if x == [] else x)

**1.5    Clean *sound_title***

In [15]:
# df['sound_title'] = df['sound_title'].fillna('').str.strip()

#### **1.5    Unique Values**

In [16]:
df.columns

Index(['username', 'caption', 'post_time', 'scrape_time', 'views', 'likes',
       'comments', 'shares', 'undefined', 'hashtags', 'sound_id',
       'sound_title', 'uses_sound_count', 'video_id', 'video_url'],
      dtype='object')

In [17]:
# Trừ hashtag ở dạng danh sách, in các giá trị unique của các cột khác
for col in df.columns:
    if col != 'hashtags':
        print(f"\n_______________________{col}_______________________\n")
        print(df[col].unique())


_______________________username_______________________

['pocochibo' 'nguyn.hi.yn984' 'chenlgmwhja' '26122005btnq' 'annhien.3110'
 'longchun9494' 'tinathaothi' 'nhenchannel' 'lynhaky76' 'ctbyenne'
 'nguyenchinguyen1997' 'thaybeou40' 'nnnmha' 'minh.hanglu'
 'tinathaothidaily' 'thichhuongg' 'vietphuongthoa98' 'isnhkl'
 'kimhaunheii_' '60giay.com' 'vo.nga580' 'noah.mcn' 'tunpham97'
 'beatvn_viralworld' 't.chnie15' nan 'xxeirazx' 'mikeden' 'matfattv'
 'auaudouyin' 'congvovfc' 'saigonteu' 'leducmew' 'vtvcab.khampha.onlive'
 'tp.ho.b.by5' 'po.trann77' 'vandunz1007' 'thaido1254'
 'blogtamsu.nghenghiep' 'beisme08' 'theanh28entertainment'
 'onenamexuynss.04' 'c.h.o.u1000cc' 'babixoxo__' 'chamchuoi35'
 'hoangdahuong' '10c8.kt.ni.yu.thn' 'yennoicomdien' '_pghihi' '60s9979'
 'lets_play_agame' 'heyiamlinda' 'ngocngoongo' 'sxllongtieng'
 'nttt_1709098' 'quocdung833' 'baneiiisan' 'saothannong.net'
 'annhien_boiboi' 'hanoinews.theanh28' 'thanhtuyendaily' 'uyph1008'
 'dramaquanhta0' 'cherry.1709' 'huy

#### **1.6       Xử lý giá trị khuyết** 

In [18]:
df.isnull().sum()

username             2
caption             10
post_time            0
scrape_time          0
views               33
likes                0
comments             2
shares               2
undefined            2
hashtags            27
sound_id            14
sound_title         14
uses_sound_count    25
video_id             0
video_url            2
dtype: int64

In [19]:
df.dtypes

username                    object
caption                     object
post_time           datetime64[ns]
scrape_time         datetime64[ns]
views                      float64
likes                      float64
comments                   float64
shares                     float64
undefined                  float64
hashtags                    object
sound_id                   float64
sound_title                 object
uses_sound_count           float64
video_id                     int64
video_url                   object
dtype: object

In [20]:
df['hashtags'].head(20)

0                                                   NaN
1                             [nguyenhaiyen98, xuhuong]
2                                                   NaN
3                                                   NaN
4                          [bothuine🥑, mannhu, mannhu🐯]
5                                                   NaN
6                       [tinathaothi, tinathaothidaily]
7     [doremon, shizuka, doraemonnobita, shizuka, tr...
8                                                 [bạn]
9                                                   NaN
10                          [tuncuibap2, tuncuibap2🌽🌽🌽]
11              [thaybeou40, unboxing, blindbox, unbox]
12                                                  NaN
13                 [xuhuong, yep, yearendparty, banker]
14                      [tinathaothi, tinathaothidaily]
15    [thichhuong, metub, fyp, tiktokgiaitri, justfo...
16                                                  NaN
17                        [tamansafariindonesia,

> **Tỷ lệ khuyết của mỗi thuộc tính**

In [21]:
def Null_Prop(df: pd.DataFrame) -> dict:
    prop_dict = {}
    #prop_dict = {col: {count: prop}}
    for col in df.columns:
        count = df[col].isnull().sum()
        prop = count / len(df)*100
        prop_dict[col] = {count: prop}
    return prop_dict

In [22]:
null_prop_dict= Null_Prop(df)

In [23]:
flattened = []
for col, inner_dict in null_prop_dict.items():
    for count, prop in inner_dict.items():
        flattened.append({
            'column': col,
            'count': count,
            'prop (%)': prop
        })
missing_value_rate = pd.DataFrame(flattened)
missing_value_rate

Unnamed: 0,column,count,prop (%)
0,username,2,2.0
1,caption,10,10.0
2,post_time,0,0.0
3,scrape_time,0,0.0
4,views,33,33.0
5,likes,0,0.0
6,comments,2,2.0
7,shares,2,2.0
8,undefined,2,2.0
9,hashtags,27,27.0


#### **1.7   Chuẩn hóa dữ liệu - xóa icon, ký tự đặc biệt**

standarded_col = ['caption', 'hashtags', 'sound_title']

In [24]:
import unicodedata

# Hàm chuẩn hóa font chữ
def normalize_font(text):
    if pd.isnull(text):
        return text
    # Chuẩn hóa unicode (dùng NFC để đưa về dạng chuẩn)
    text = unicodedata.normalize('NFKC', text)
    return text

In [25]:
import re
%pip install emoji 
import emoji

Note: you may need to restart the kernel to use updated packages.


> **Xóa icon trong *caption*, *hashtag* và *sound_title***

In [26]:
def clean_icon(text):
    if pd.isnull(text):
        return text
    text = emoji.replace_emoji(text, replace ='')
    return text

> **Xóa chuỗi *"nhạc nền-"* trong *sound_title***

In [27]:
def remove_nhac_nen(val):
    if isinstance(val, str):
        val = val.strip()
        if 'nhạc nền - ' in val:
            return val.replace('nhạc nền - ', '')
    return val

> **Chuẩn hóa về chữ thường** 

In [28]:
# Chuẩn hóa lower
def lower_standard(val):
    if pd.isnull(val):
        return val
    val = val.lower()
    return val

> **Hàm xử lý riêng cho hashtag**

In [29]:
def normalize_font_in_list(l):
    if not isinstance(l, list):
        return l
    return [unicodedata.normalize('NFKC', item) for item in l]

def remove_icon_in_list(l):
    if not isinstance(l, list):
        return l
    return [emoji.replace_emoji(item, replace='') for item in l]

def lower_standard_in_list(l):
    if not isinstance(l, list):
        return l
    return [item.lower() for item in l]


> **Xử lý Caption**

In [30]:
df['caption'].head(5)

0                         Siêu thị ngoài hành tinh
1                           Bác nào biết bảo e với
2                                              NaN
3                                     Con chịu rồi
4    Bà dì trong truyền thuyết nè cô chú ơi huhuuu
Name: caption, dtype: object

In [31]:
df['caption_std'] = df['caption'].apply(normalize_font)
df['caption_std'] = df['caption_std'].apply(lower_standard)
df['caption_std'] = df['caption_std'].apply(clean_icon)

> **Xử lý sound_title**

In [32]:
df['sound_title_std'] = df['sound_title'].apply(normalize_font)
df['sound_title_std'] = df['sound_title_std'].apply(clean_icon)
df['sound_title_std'] = df['sound_title_std'].apply(remove_nhac_nen)

> **Xử  lý hashtag**

In [33]:
df['hashtags_std'] = df['hashtags'].apply(normalize_font_in_list)
df['hashtags_std'] = df['hashtags_std'].apply(remove_icon_in_list)
df['hashtags_std'] = df['hashtags_std'].apply(lower_standard_in_list) 

#### **1.8 Chuẩn hóa lỗi  chính tả**

> **Sửa lỗi chính tả với Gemini-2.0-flash**

In [48]:
%%capture 
!pip install google 
!pip install google-generativeai 
import google.generativeai as genai

genai.configure(api_key="AIzaSyCHOAhxIK8GV581wOrYI0wsiCNrNJ3KVL0")

model = genai.GenerativeModel("gemini-2.0-flash")

def correct_comment(comment):
    prompt = f"""
    Sửa lỗi chính tả, thêm dấu câu, viết hoa đúng cho tiếng Việt.
    Văn bản: "{comment}"
    Đáp án:
    """
    response = model.generate_content(prompt)
    return response.text.strip()

# Test
comment = "t ko hieu c noi gi het lun ay"
print("Trước:", comment)
print("Sau:   ", correct_comment(comment))


In [72]:
import time 
def correct_comment(comment):
    if pd.isnull(comment):
        return comment 
    prompt = f"""
    Sửa lỗi chính tả, thêm dấu câu, viết hoa đúng cho tiếng Việt.
    Văn bản: "{comment}"
    Đáp án:
    """
    response = model.generate_content(prompt)
    time.sleep(5)
    return response.text.strip()

In [51]:
caption_df = df[['caption_std']].apply(correct_comment)

In [52]:
caption_df

caption_std    Dưới đây là văn bản đã được sửa lỗi chính tả, thêm dấu câu và viết hoa đúng cách:\n\n1. Siêu thị ngoài hành tinh\n2. Bác nào biết bảo em với!\n3. Con chịu rồi.\n4. Bà dì trong truyền thuyết nè cô chú ơi, huhuuu!\n5. Khing chú à?\n6. Con chúc mừng mẹeeeee!\n7. Nobita luôn là người hiểu Doraemon nhất nhỉ?\n8. Gái của con trai đối xử với mẹ không ra gì...\n9. Nhà thì nghèo nhưng nội thất phải sang!\n10. Replying to\n11. Phần 1: Bạn đã bao giờ nhìn thấy một con khỉ giống người chưa?\n12. Đồng nghiệp tôi và những lời hứa mộc mạc.\n13. Tui mê ăn ốc lắm mấy bà ơi!\n14. Trong cái rủi lại có cái may.\n15. Thấy tôi vậy, chắc c vui lắm!\n16. Sorry.\n17. Lật tung hiệu sách để săn dưa hấu!\n18. Nghe mà cứ như tiếng trẻ con khóc thảm thiết ấy!\n19. Bạn đã cư xử như thế nào khi bị từ chối?\n20. Liệu Trump có phải bảo mẫu của con trai Elon Musk????\n21. Các gia đình trước và sau khi sinh con.\n22. Chắc tỉnh cả ngày lẫn đêm luôn quá =)))\n23. Em cứ ở đó, cả thế giới để anh lo!\n24. Trả l

In [62]:
print(correct_comment("thấy tôi vậy, chắc c vui lắm"))

Thấy tôi vậy, chắc cậu vui lắm!


In [73]:
df['caption_corrected'] = df['caption_std'].apply(correct_comment)

#### **1.9    Data Representation** 

In [74]:
# Hiển thị toàn bộ dòng và cột
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)          # Không giới hạn độ rộng
pd.set_option('display.max_colwidth', None)   # Hiển thị đầy đủ nội dung trong cột

df


Unnamed: 0,username,caption,post_time,scrape_time,views,likes,comments,shares,undefined,hashtags,sound_id,sound_title,uses_sound_count,video_id,video_url,caption_std,sound_title_std,hashtags_std,caption_corrected
0,pocochibo,Siêu thị ngoài hành tinh,2025-04-03 06:14:02,2025-04-08 20:18:28,2100000.0,45400.0,611.0,2284.0,4912.0,,7.488967e+18,nhạc nền - Mỗi ngày 1 video🙄,1.0,7488966293702331703,https://www.tiktok.com/@pocochibo/video/7488966293702331703,siêu thị ngoài hành tinh,Mỗi ngày 1 video,,"""Siêu thị ngoài hành tinh."""
1,nguyn.hi.yn984,Bác nào biết bảo e với,2025-01-27 11:55:37,2025-04-08 20:18:45,,512600.0,16700.0,90000.0,23000.0,"[nguyenhaiyen98, xuhuong]",7.464563e+18,nhạc nền - Nguyễn Hải Yến98,44.0,7464562698131377415,https://www.tiktok.com/@nguyn.hi.yn984/video/7464562698131377415,bác nào biết bảo e với,Nguyễn Hải Yến98,"[nguyenhaiyen98, xuhuong]",Bác nào biết bảo em với ạ.
2,chenlgmwhja,,2025-02-15 14:53:23,2025-04-08 20:18:56,,22200.0,688.0,1980.0,4619.0,,7.471659e+18,原声 - 卡尔,1.0,7471659126590868743,https://www.tiktok.com/@chenlgmwhja/video/7471659126590868743,,原声 - 卡尔,,
3,26122005btnq,Con chịu rồi,2025-02-09 03:56:07,2025-04-08 20:19:07,8300000.0,327300.0,7183.0,241100.0,23300.0,,7.469263e+18,nhạc nền - Thuỷ Thượng Non,269.0,7469263239793200391,https://www.tiktok.com/@26122005btnq/video/7469263239793200391,con chịu rồi,Thuỷ Thượng Non,,"""Con chịu rồi."""
4,annhien.3110,Bà dì trong truyền thuyết nè cô chú ơi huhuuu,2025-03-27 13:15:20,2025-04-08 20:19:17,3800000.0,152000.0,2217.0,4331.0,5957.0,"[bothuine🥑, mannhu, mannhu🐯]",7.486478e+18,nhạc nền - 𝑩𝒐̛ 𝑻𝒉𝒖́𝒊𝒊𝒊 𝒏𝒆̀🥑,1.0,7486477264059026706,https://www.tiktok.com/@annhien.3110/video/7486477264059026706,bà dì trong truyền thuyết nè cô chú ơi huhuuu,Bơ Thúiii nè,"[bothuine, mannhu, mannhu]","Bà dì trong truyền thuyết nè cô chú ơi, huhuhu!"
5,longchun9494,Khing chú à?,2025-01-22 12:49:10,2025-04-08 20:19:28,40200000.0,708500.0,5285.0,28500.0,26200.0,,7.462721e+18,nhạc nền - Long Chun Daily🔥,39.0,7462721070345309458,https://www.tiktok.com/@longchun9494/video/7462721070345309458,khing chú à?,Long Chun Daily,,"""Khỏe không chú ạ?"""
6,tinathaothi,con chúc mừng mẹeeee 💗,2025-03-01 02:15:40,2025-04-08 20:19:39,16900000.0,977800.0,10100.0,10400.0,27600.0,"[tinathaothi, tinathaothidaily]",7.47666e+18,nhạc nền - tinathaothi,2.0,7476659054601932050,https://www.tiktok.com/@tinathaothi/video/7476659054601932050,con chúc mừng mẹeeee,tinathaothi,"[tinathaothi, tinathaothidaily]",Con chúc mừng mẹ!
7,nhenchannel,Nobita luôn là người hiểu Doraemon nhất nhỉ,2025-03-19 12:28:20,2025-04-08 20:19:57,1800000.0,52900.0,1851.0,2221.0,6775.0,"[doremon, shizuka, doraemonnobita, shizuka, tranhdenled]",7.339737e+18,nhạc nền - AnhhPhapp_04,80.0,7483496471774399762,https://www.tiktok.com/@nhenchannel/video/7483496471774399762,nobita luôn là người hiểu doraemon nhất nhỉ,AnhhPhapp_04,"[doremon, shizuka, doraemonnobita, shizuka, tranhdenled]","Nobita luôn là người hiểu Doraemon nhất, nhỉ?"
8,lynhaky76,gái của con trai đối xử với mẹ không ra gì..,2025-02-20 04:42:26,2025-04-08 20:20:09,,46700.0,556.0,1089.0,4643.0,[bạn],7.473357e+18,nhạc nền - 🥀🥀mưa đêm tỉnh nhỏ 🥀🥀,4.0,7473357109963279624,https://www.tiktok.com/@lynhaky76/video/7473357109963279624,gái của con trai đối xử với mẹ không ra gì..,mưa đêm tỉnh nhỏ,[bạn],Gái của con trai đối xử với mẹ không ra gì!
9,ctbyenne,,2025-03-17 08:56:37,2025-04-08 20:20:21,12200000.0,288000.0,3840.0,25400.0,10200.0,,6.927016e+18,Funny,,7482699745253805330,https://www.tiktok.com/@ctbyenne/video/7482699745253805330,,Funny,,
