## Install the required library

In [1]:
%pip install matplotlib pandas numpy seaborn wordcloud

Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Read and check data

In [3]:
raw_df = pd.read_csv('Data/langthanghanoiofficial.csv')
new_df = pd.read_csv('Data/langthanghanoiofficial(new).csv')
#print(new_df.info())
print(raw_df.isnull().sum())

post_id                            0
text                               0
post_text                          0
shared_text                       94
original_text                     78
time                               0
timestamp                          0
image                             26
image_lowquality                   8
images                             0
images_description                 0
images_lowquality                  0
images_lowquality_description      0
video                            100
video_duration_seconds           100
video_height                     100
video_id                         100
video_quality                    100
video_size_MB                    100
video_thumbnail                  100
video_watches                    100
video_width                      100
likes                              0
comments                           0
shares                             0
post_url                           0
link                              99
l

## Data cleaning


In [4]:
# Loại bỏ các cột với số lượng lớn giá trị thiếu
columns_to_drop = ['video', 'video_duration_seconds', 'video_height', 'video_id', 'video_quality', 
                   'video_size_MB', 'video_thumbnail', 'video_watches', 'video_width', 'factcheck', 'sharers']
# Loại bỏ cột không cần thiết
irrelevant_columns = ['image', 'image_lowquality', 'images', 'video_ids', 'videos', 'image_id', 'image_ids', 'was_live']

raw_df = raw_df.drop(columns=irrelevant_columns)
raw_df = raw_df.drop(columns=columns_to_drop)

columns_to_drop = [col for col in columns_to_drop if col in new_df.columns]
irrelevant_columns = [col for col in irrelevant_columns if col in new_df.columns]

new_df = new_df.drop(columns=irrelevant_columns)
new_df = new_df.drop(columns=columns_to_drop)

In [5]:
# Xử lý các cột có giá trị thiếu còn lại
# Đối với 'shared_text', 'original_text', và các cột tương tự, điền vào 'Không có' nếu giá trị là NaN
text_columns_with_nulls = ['shared_text', 'original_text', 'reactors', 'w3_fb_url', 'reactions', 
                           'with', 'fetched_time']
for col in text_columns_with_nulls:
    raw_df[col].fillna('Không có', inplace=True)
    new_df[col].fillna('Không có', inplace=True)

## Data Preprocessing

In [6]:
# Chuyển đổi cột 'timestamp' thành datetime
raw_df['time'] = pd.to_datetime(raw_df['timestamp'], unit='s')
new_df['time'] = pd.to_datetime(new_df['timestamp'], unit='s')

## Export cleaned data

In [8]:
# Xuất dữ liệu đã xử lý
raw_df.to_csv('Data/langthanghanoiofficial_cleaned.csv', index=False)
new_df.to_csv('Data/langthanghanoiofficial_cleaned(new).csv', index=False)
new_df.head()  # Hiển thị một số hàng đầu tiên của DataFrame đã được làm sạch
#raw_df.info()

Unnamed: 0,post_id,text,post_text,shared_text,original_text,time,timestamp,images_description,images_lowquality,images_lowquality_description,...,shared_post_url,available,comments_full,reactors,w3_fb_url,reactions,reaction_count,with,page_id,fetched_time
0,651992230442287,Bạn có biết cô đơn là gì không?\n\nCo...,Bạn có biết cô đơn là gì không?\n\nCo...,Không có,Không có,2023-11-27 15:49:29,1701100169,"['May be an image of 2 people, twilight and cl...",['https://scontent.fhan15-1.fna.fbcdn.net/v/t3...,"['May be an image of 2 people, twilight and cl...",...,,True,"[{'comment_id': '660886112903664', 'comment_ur...",[],https://www.facebook.com/langthanghanoiofficia...,"{'like': 1682, 'love': 189, 'haha': 23, 'wow':...",1959,Không có,2425534324394516,2023-11-27 23:19:09.657332
1,651976497110527,Hôm nay của cậu thế nào ?,Hôm nay của cậu thế nào ?,Không có,Không có,2023-11-27 15:12:37,1701097957,[],['https://scontent.fhan5-6.fna.fbcdn.net/v/t39...,"['May be an image of 6 people, scooter, street...",...,,True,"[{'comment_id': '882263090182152', 'comment_ur...","[{'name': 'Nguyễn Sơn', 'link': 'https://faceb...",https://www.facebook.com/langthanghanoiofficia...,"{'like': 3504, 'love': 76, 'haha': 56, 'wow': ...",3988,Không có,2425534324394516,2023-11-27 23:19:17.656312
2,651954307112746,HỒ TÂY LÚC NÀY ‼️\n\nBAO LÂU RỒI BẠN CHƯA ĐI H...,HỒ TÂY LÚC NÀY ‼️\n\nBAO LÂU RỒI BẠN CHƯA ĐI H...,Không có,Không có,2023-11-27 14:22:09,1701094929,"['May be an image of boat', 'May be an image o...",['https://scontent.fhan15-2.fna.fbcdn.net/v/t3...,"['May be an image of boat', 'May be an image o...",...,,True,"[{'comment_id': '866995745042725', 'comment_ur...","[{'name': 'Nga Nguyễn', 'link': 'https://faceb...",https://www.facebook.com/langthanghanoiofficia...,"{'like': 2249, 'love': 50, 'haha': 26, 'wow': ...",2346,Không có,2425534324394516,2023-11-27 23:19:55.051841
3,651926453782198,"Hà Nội đẹp nhất về đêm, người thông thái nhất ...","Hà Nội đẹp nhất về đêm, người thông thái nhất ...",Không có,Không có,2023-11-27 13:19:22,1701091162,"[""May be an image of 2 people and text that sa...",['https://scontent.fhan5-6.fna.fbcdn.net/v/t39...,"[""May be an image of 2 people and text that sa...",...,,True,"[{'comment_id': '1033780314335674', 'comment_u...","[{'name': 'Hứa Văn Cường', 'link': 'https://fa...",https://www.facebook.com/langthanghanoiofficia...,"{'like': 667, 'love': 1, 'haha': 10}",678,Không có,2425534324394516,2023-11-27 23:20:05.144687
4,651902207117956,Nếu Noel này bạn ko đi chơi thì là do bạn ko c...,Nếu Noel này bạn ko đi chơi thì là do bạn ko c...,Không có,Không có,2023-11-27 12:20:39,1701087639,[],['https://scontent.fhan5-8.fna.fbcdn.net/m1/v/...,"['Like', 'Haha', 'Sad']",...,,True,"[{'comment_id': '889246526225344', 'comment_ur...","[{'name': 'Phan Văn Sáu', 'link': 'https://fac...",https://www.facebook.com/langthanghanoiofficia...,"{'like': 1282, 'love': 10, 'haha': 311, 'wow':...",1663,Không có,2425534324394516,2023-11-27 23:20:07.955732
