In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
folder_path = 'Data\hangmu.csv'
raw_df = pd.read_csv(folder_path)

In [3]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1612 entries, 0 to 1611
Data columns (total 51 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   post_id                        1612 non-null   int64  
 1   text                           1464 non-null   object 
 2   post_text                      1464 non-null   object 
 3   shared_text                    9 non-null      object 
 4   original_text                  0 non-null      float64
 5   time                           1612 non-null   object 
 6   timestamp                      1612 non-null   int64  
 7   image                          1181 non-null   object 
 8   image_lowquality               1515 non-null   object 
 9   images                         1612 non-null   object 
 10  images_description             1612 non-null   object 
 11  images_lowquality              1612 non-null   object 
 12  images_lowquality_description  1612 non-null   o

# **Feature removal**

In [4]:
drop_column_list = ['post_text', 'timestamp', 'images_lowquality_description', 'shared_post_id', 'shared_user_id', 'shared_username', 'shared_post_url', 'image_id', 'image_ids', 'image', 
                     'image_lowquality', 'images', 'images_lowquality', 'video', 'video_thumbnail', 'post_url', 'link', 'links', 'user_url', 'original_text', 
                     'video_duration_seconds', 'video_height', 'video_quality', 'video_size_MB', 'video_watches', 'video_width', 'factcheck', 'reactors', 
                     'w3_fb_url', 'reactions', 'sharers', 'shared_time']

In [5]:
raw_df.drop(drop_column_list, axis= 1, inplace= True)

In [6]:
raw_df.shape

(1612, 19)

# **Remove duplicates**

In [7]:
raw_df.drop_duplicates(subset= 'post_id', inplace= True)

In [8]:
raw_df.head()

Unnamed: 0,post_id,text,shared_text,time,images_description,video_id,likes,comments,shares,user_id,username,is_live,available,comments_full,reaction_count,with,page_id,was_live,header
0,1432619150570316,Tất cả anh em trong hang chú ý!!!!,,2022-09-05 00:36:39,[],774844200000000.0,728,134,0,100016993770190,Nguyễn Bát Man,False,True,[],728,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",107608500000000.0,False,Nguyễn Bát Man‎Hang MU
1,1709707086194853,"1 năm rồi đấy, nhanh thật",,2023-11-13 22:32:37,"['Có thể là hình ảnh về 2 người, bộ vét và tro...",,360,26,0,100005247039084,Thinh Pham,False,True,[],360,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Thinh Pham‎Hang MU
2,1707877613044467,Trong hang chán quá nên nghịch 1 tí 🤣 Chờ ngày...,,2023-11-10 18:58:31,[],1002498000000000.0,481,25,0,100089869466307,Văn Hùng Hà,False,True,[],481,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Văn Hùng Hà‎Hang MU
3,1710030909495804,Ảo Malaysia :)))),,2023-11-14 14:58:43,"[""Có thể là hình ảnh về 6 người, mọi người đan...",,65,9,0,100012623049308,Nguyễn Đào Nguyên,False,True,[],65,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Nguyễn Đào Nguyên‎Hang MU
4,1709810706184491,1. David Moyse: tạt tạt tạt tạt => không bài v...,,2023-11-14 03:16:23,"['Có thể là hình ảnh về 1 người, đang chơi bón...",,170,24,0,358460312962600,Hang MU,False,True,[],170,,,False,


In [9]:
raw_df.reset_index(inplace= True, drop= True)
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1535 entries, 0 to 1534
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   post_id             1535 non-null   int64  
 1   text                1387 non-null   object 
 2   shared_text         9 non-null      object 
 3   time                1535 non-null   object 
 4   images_description  1535 non-null   object 
 5   video_id            262 non-null    float64
 6   likes               1535 non-null   int64  
 7   comments            1535 non-null   int64  
 8   shares              1535 non-null   int64  
 9   user_id             1535 non-null   int64  
 10  username            1535 non-null   object 
 11  is_live             1535 non-null   bool   
 12  available           1535 non-null   bool   
 13  comments_full       1535 non-null   object 
 14  reaction_count      1535 non-null   int64  
 15  with                1446 non-null   object 
 16  page_i

# **Remove data before 2022**

In [10]:
type(raw_df['time'].loc[0])
raw_df['time'].loc[0]

'2022-09-05 00:36:39'

In [11]:
raw_df['time'] = pd.to_datetime(raw_df['time'])

In [12]:
df = raw_df.loc[raw_df['time'] >= pd.to_datetime('2022-01-01')]

In [13]:
df.shape

(1529, 19)

## **Handling missing data**

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1529 entries, 0 to 1533
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   post_id             1529 non-null   int64         
 1   text                1381 non-null   object        
 2   shared_text         9 non-null      object        
 3   time                1529 non-null   datetime64[ns]
 4   images_description  1529 non-null   object        
 5   video_id            261 non-null    float64       
 6   likes               1529 non-null   int64         
 7   comments            1529 non-null   int64         
 8   shares              1529 non-null   int64         
 9   user_id             1529 non-null   int64         
 10  username            1529 non-null   object        
 11  is_live             1529 non-null   bool          
 12  available           1529 non-null   bool          
 13  comments_full       1529 non-null   object        
 1

In [15]:
df.fillna({'text': ' ', 'shared_text': ' ', }, inplace= True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.fillna({'text': ' ', 'shared_text': ' ', }, inplace= True)


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1529 entries, 0 to 1533
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   post_id             1529 non-null   int64         
 1   text                1529 non-null   object        
 2   shared_text         1529 non-null   object        
 3   time                1529 non-null   datetime64[ns]
 4   images_description  1529 non-null   object        
 5   video_id            261 non-null    float64       
 6   likes               1529 non-null   int64         
 7   comments            1529 non-null   int64         
 8   shares              1529 non-null   int64         
 9   user_id             1529 non-null   int64         
 10  username            1529 non-null   object        
 11  is_live             1529 non-null   bool          
 12  available           1529 non-null   bool          
 13  comments_full       1529 non-null   object        
 1

# **Save cleaned data**

In [17]:
# raw_df.loc[raw_df['comments_full'].str.len() != 0]

In [18]:
df

Unnamed: 0,post_id,text,shared_text,time,images_description,video_id,likes,comments,shares,user_id,username,is_live,available,comments_full,reaction_count,with,page_id,was_live,header
0,1432619150570316,Tất cả anh em trong hang chú ý!!!!,,2022-09-05 00:36:39,[],7.748442e+14,728,134,0,100016993770190,Nguyễn Bát Man,False,True,[],728,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",1.076085e+14,False,Nguyễn Bát Man‎Hang MU
1,1709707086194853,"1 năm rồi đấy, nhanh thật",,2023-11-13 22:32:37,"['Có thể là hình ảnh về 2 người, bộ vét và tro...",,360,26,0,100005247039084,Thinh Pham,False,True,[],360,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Thinh Pham‎Hang MU
2,1707877613044467,Trong hang chán quá nên nghịch 1 tí 🤣 Chờ ngày...,,2023-11-10 18:58:31,[],1.002498e+15,481,25,0,100089869466307,Văn Hùng Hà,False,True,[],481,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Văn Hùng Hà‎Hang MU
3,1710030909495804,Ảo Malaysia :)))),,2023-11-14 14:58:43,"[""Có thể là hình ảnh về 6 người, mọi người đan...",,65,9,0,100012623049308,Nguyễn Đào Nguyên,False,True,[],65,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Nguyễn Đào Nguyên‎Hang MU
4,1709810706184491,1. David Moyse: tạt tạt tạt tạt => không bài v...,,2023-11-14 03:16:23,"['Có thể là hình ảnh về 1 người, đang chơi bón...",,170,24,0,358460312962600,Hang MU,False,True,[],170,,,False,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1529,1657251314773764,Góc nhờ vả… mình bên hàn muốn mua cái áo này n...,,2023-08-11 21:34:52,['Không có mô tả ảnh.'],,625,36,0,100091601216404,Lê Văn Cường,False,True,[],625,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Lê Văn Cường‎Hang MU
1530,1659036177928611,các ông nhận định 4 vs 5-0 lm gì ?? xem mà thó...,,2023-08-15 02:52:08,[],,162,56,0,100036355747178,Ngô Hải Long,False,True,[],162,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Ngô Hải Long‎Hang MU
1531,1658995144599381,2h nhé các bác ơi 😍😘🥰,,2023-08-15 01:01:46,['Không có mô tả ảnh.'],,424,42,0,100046564666491,Người Thỏ,False,True,[],424,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Người Thỏ‎Hang MU
1532,1657241518108077,GỖ khó mà trở lại ngay bây giờ rồi. Chắc còn l...,,2023-08-11 21:15:05,['Không có mô tả ảnh.'],,227,19,0,100079920938177,Fish Winged,False,True,[],227,"[{'name': 'Hang MU', 'link': 'https://m.facebo...",,False,Fish Winged‎Hang MU


In [19]:
n = folder_path.rfind('\\')
path = folder_path[:n+ 1] + 'cleaned_' + folder_path[n + 1:]
df.to_csv(path, index=False)
print(path)

Data\cleaned_hangmu.csv
