In [1]:
import pandas as pd 
from datasets import load_dataset,Dataset
import re

In [2]:


dataset = load_dataset("thai_toxicity_tweet")

In [3]:
dataset

DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'tweet_text', 'toxic_votes', 'nontoxic_votes', 'is_toxic'],
        num_rows: 3300
    })
})

In [4]:
df_pandas = dataset["train"].to_pandas()

In [5]:
df_pandas.head()

Unnamed: 0,tweet_id,tweet_text,toxic_votes,nontoxic_votes,is_toxic
0,898576382384418817,วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าค...,0,3,0
1,847331851425300481,TWEET_NOT_FOUND,3,0,1
2,899587505493692417,หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว,0,3,0
3,898920493763280897,สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามั...,0,3,0
4,896808964326694912,อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องท...,0,3,0


In [6]:
df_pandas=df_pandas.drop(columns=['tweet_id', 'toxic_votes', 'nontoxic_votes'])

In [7]:
df_pandas

Unnamed: 0,tweet_text,is_toxic
0,วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าค...,0
1,TWEET_NOT_FOUND,1
2,หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว,0
3,สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามั...,0
4,อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องท...,0
...,...,...
3295,ควย การตอบว่าเสือกนี่แม่งไม่ตรงประเด็นเหี้ยๆ,0
3296,ส้นตีนมากค่ะ อาเซียนร่วมใจจริงๆ -_-,1
3297,ไม่สวยก็เหนื่อยหน่อย ไม่หน่อยหรอกอีผี เหนื่อยฉ...,0
3298,นี่คือประเทศไทยในความจริง คนชั่วไม่ต้องติดคุกแ...,0


### Clean Text 

In [8]:

def remove_emojitext(text):
    emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)

    return emoji_pattern.sub(r'', text)

def clean_text(text):
    text = re.sub(r'TWEET_NOT_FOUND', '', text)
    text = re.sub(r'<.*?>', '', text)
    text = re.sub(r'#','',text) 
    text = ' '.join(text.split())
    text = remove_emojitext(text)
    
    
    return text

In [13]:
df_pandas['tweet_text']=df_pandas['tweet_text'].apply(clean_text)

In [14]:
df_pandas['tweet_text']

0       วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าค...
1                                                        
2             หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว
3       สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามั...
4       อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องท...
                              ...                        
3295         ควย การตอบว่าเสือกนี่แม่งไม่ตรงประเด็นเหี้ยๆ
3296                  ส้นตีนมากค่ะ อาเซียนร่วมใจจริงๆ -_-
3297    ไม่สวยก็เหนื่อยหน่อย ไม่หน่อยหรอกอีผี เหนื่อยฉ...
3298    นี่คือประเทศไทยในความจริง คนชั่วไม่ต้องติดคุกแ...
3299                                                     
Name: tweet_text, Length: 3300, dtype: object

In [35]:
### filter ' ' in tweet_text
not_empty = df_pandas['tweet_text'] != ''
filtered_df = df_pandas[not_empty]


In [36]:
filtered_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2160 entries, 0 to 3298
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   tweet_text  2160 non-null   object
 1   is_toxic    2160 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 50.6+ KB


In [37]:
filtered_df = filtered_df.reset_index()

In [40]:
filtered_df.drop(columns=['index'], inplace=True)

In [41]:
filtered_df.head()

Unnamed: 0,tweet_text,is_toxic
0,วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าค...,0
1,หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว,0
2,สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามั...,0
3,อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องท...,0
4,นี่ก็เพิ่งรู้ว่า เกิดชาตินี้ชาติเดียว เป็นทั้ง...,1


In [42]:
filtered_df.to_csv("clean_text.csv")