In [409]:
import pandas as pd
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

bbc = pd.read_csv('bbc.csv')
bbc.head()
print(bbc.shape)
print(bbc.info())
print(bbc.head())   

(2225, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2225 entries, 0 to 2224
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    2225 non-null   object
 1   topic   2225 non-null   object
dtypes: object(2)
memory usage: 34.9+ KB
None
                                                text     topic
0  Dallaglio his own man to the end\r\n\r\nContro...     sport
1  Best person' for top legal job\r\n\r\nThe "bes...  politics
2  Viewers to be able to shape TV\r\n\r\nImagine ...      tech
3  Fox attacks Blair's Tory 'lies'\r\n\r\nTony Bl...  politics
4  Microsoft debuts security tools\r\n\r\nMicroso...      tech


In [410]:
# Check for missing data and print the total number of missing values for each column
print("Missing data:", bbc.isnull().sum())

# Check for duplicate rows in the dataset and print the total number of duplicate rows
print("Duplicate data:", bbc.duplicated().sum())

# Display the unique values of the 'topic' column to examine the different categories
print("Unique values in the 'topic' column:", bbc['topic'].unique())

Missing data: text     0
topic    0
dtype: int64
Duplicate data: 98
Unique values in the 'topic' column: ['sport' 'politics' 'tech' 'business' 'entertainment']


- There are 98 duplicate rows in the dataset.
- There is no missing data.
- There are 5 unique values in the 'topic' column, and none of them are incorrect or inconsistent.
- Therefore, we only need to remove the duplicate rows.

In [411]:
# Display summary statistics of the cleaned dataset
bbc.describe()
print(bbc.head())


                                                text     topic
0  Dallaglio his own man to the end\r\n\r\nContro...     sport
1  Best person' for top legal job\r\n\r\nThe "bes...  politics
2  Viewers to be able to shape TV\r\n\r\nImagine ...      tech
3  Fox attacks Blair's Tory 'lies'\r\n\r\nTony Bl...  politics
4  Microsoft debuts security tools\r\n\r\nMicroso...      tech


In [412]:
bbc["text"] = bbc["text"].str.lower()
print(bbc.head())

                                                text     topic
0  dallaglio his own man to the end\r\n\r\ncontro...     sport
1  best person' for top legal job\r\n\r\nthe "bes...  politics
2  viewers to be able to shape tv\r\n\r\nimagine ...      tech
3  fox attacks blair's tory 'lies'\r\n\r\ntony bl...  politics
4  microsoft debuts security tools\r\n\r\nmicroso...      tech


In [413]:
bbc.loc[:, "text"] = bbc["text"].str.replace("'s", "", regex=True)
bbc

Unnamed: 0,text,topic
0,dallaglio his own man to the end\r\n\r\ncontro...,sport
1,"best person' for top legal job\r\n\r\nthe ""bes...",politics
2,viewers to be able to shape tv\r\n\r\nimagine ...,tech
3,fox attacks blair tory 'lies'\r\n\r\ntony blai...,politics
4,microsoft debuts security tools\r\n\r\nmicroso...,tech
...,...,...
2220,michael film signals 'retirement'\r\n\r\nsinge...,entertainment
2221,ray charles studio becomes museum\r\n\r\na mus...,entertainment
2222,chancellor rallies labour voters\r\n\r\ngordon...,politics
2223,oscar nominees gear up for lunch\r\n\r\nleonar...,entertainment


In [414]:
# Loại bỏ dấu câu và ký tự đặc biệt
# Loại bỏ các ký tự đặc biệt trong cột 'text'
bbc["text"] = bbc["text"].str.replace(r"[;!?,.()\"']", "", regex=True)
bbc

Unnamed: 0,text,topic
0,dallaglio his own man to the end\r\n\r\ncontro...,sport
1,best person for top legal job\r\n\r\nthe best ...,politics
2,viewers to be able to shape tv\r\n\r\nimagine ...,tech
3,fox attacks blair tory lies\r\n\r\ntony blair ...,politics
4,microsoft debuts security tools\r\n\r\nmicroso...,tech
...,...,...
2220,michael film signals retirement\r\n\r\nsinger ...,entertainment
2221,ray charles studio becomes museum\r\n\r\na mus...,entertainment
2222,chancellor rallies labour voters\r\n\r\ngordon...,politics
2223,oscar nominees gear up for lunch\r\n\r\nleonar...,entertainment


In [415]:
# Create set of stop words from sklearn
stop_words = set(ENGLISH_STOP_WORDS)

# This function is use for removing stop words in text 
def remove_stopwords(text):
    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

bbc.loc[:, 'text'] = bbc['text'].apply(remove_stopwords)

bbc.head()

Unnamed: 0,text,topic
0,dallaglio man end controversy lawrence dallagl...,sport
1,best person legal job best person job appointe...,politics
2,viewers able shape tv imagine editing titanic ...,tech
3,fox attacks blair tory lies tony blair lied to...,politics
4,microsoft debuts security tools microsoft rele...,tech


In [416]:
import re

# Hàm để loại bỏ các từ viết tắt như "&", "/"
def remove_abbreviations_and_slash(text):
    abbreviations = r'\b(&|/)\b'
    cleaned_text = re.sub(abbreviations, '', text)
    # Loại bỏ khoảng trắng thừa sau khi xóa
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
    return cleaned_text

# Áp dụng hàm cho cột 'text' trong DataFrame
bbc.loc[:,'text'] = bbc['text'].apply(remove_abbreviations_and_slash)
bbc

Unnamed: 0,text,topic
0,dallaglio man end controversy lawrence dallagl...,sport
1,best person legal job best person job appointe...,politics
2,viewers able shape tv imagine editing titanic ...,tech
3,fox attacks blair tory lies tony blair lied to...,politics
4,microsoft debuts security tools microsoft rele...,tech
...,...,...
2220,michael film signals retirement singer george ...,entertainment
2221,ray charles studio museum museum dedicated car...,entertainment
2222,chancellor rallies labour voters gordon brown ...,politics
2223,oscar nominees gear lunch leonardo dicaprio ja...,entertainment


In [417]:

from nltk.stem import WordNetLemmatizer

# Tạo lemmatizer
lemmatizer = WordNetLemmatizer()
bbc["text"] = bbc["text"].apply(lambda x: ' '.join([lemmatizer.lemmatize(word, 'v') for word in x.split()]))
bbc

Unnamed: 0,text,topic
0,dallaglio man end controversy lawrence dallagl...,sport
1,best person legal job best person job appoint ...,politics
2,viewers able shape tv imagine edit titanic wat...,tech
3,fox attack blair tory lie tony blair lie take ...,politics
4,microsoft debut security tool microsoft releas...,tech
...,...,...
2220,michael film signal retirement singer george m...,entertainment
2221,ray charles studio museum museum dedicate care...,entertainment
2222,chancellor rally labour voters gordon brown is...,politics
2223,oscar nominees gear lunch leonardo dicaprio ja...,entertainment


In [418]:
# Find duplicate rows
# Tìm các dòng trùng lặp dựa trên cột 'text'
duplicate_rows = bbc[bbc.duplicated(subset=['text'], keep=False)]

# Hiển thị các nhóm dữ liệu trùng
grouped_duplicates = duplicate_rows.sort_values(by=['text']).groupby('text')
for group, rows in grouped_duplicates:
    print(f"Duplicate group: {group}")
    print(rows)

print(duplicate_rows)

# Start cleaning the data by removing duplicate rows
bbc = bbc.drop_duplicates()

print(bbc)



Duplicate group: 2d metal slug offer retro fun like drill sergeant past metal slug 3 wake-up today gamers molly-coddled slick visuals fancy trimmings hand-animated sprites 2d side-scrolling consider retro release arcades years ago frantic shooter end joypad year yes include halo 2 simply choose grunt wade 2d side-scrolling level hectic video game blast encounter toughest game likely play hordes enemies live pile pressure players battle soldier snowmen zombies giant crab alien mention huge screen-filling boss guard level shoot-anything-that-moves gameplay pepper moments old-school genius fan robotic gastropods note title refer instead vast array vehicles offer game stuff bizarre hardware tank jet submarine commandeer cannon-toting camels elephants ostriches - weaponry offer acre iraq doling justice joy thank ultra responsive control tough nut crack addictive gag mere â£20 metal slug 3 cheap slice fry spud man say course ignore lack do visual fireworks modern blasters time blockbuster ti

In [419]:

if 'text' in bbc.columns:
    # Hàm để loại bỏ số và đơn vị tiền tệ
    def remove_currency_and_numbers_with_logging(text):
        removed_items = re.findall(r'\b\d+\b|\$\w*|%\w*|₫\w*|â£\w*|£\w*|â\w*', text)
        cleaned_text = re.sub(r'\b\d+\b|\$\w*|%\w*|₫\w*|â£\w*|£\w*|â\w*', '', text)
        return cleaned_text, removed_items
    
    # Áp dụng hàm cho cột 'text' và lưu lại các mục bị loại bỏ
    removed_data = []
    def process_text(row):
        cleaned_text, removed_items = remove_currency_and_numbers_with_logging(row)
        removed_data.extend(removed_items)  # Lưu các mục bị loại bỏ
        return cleaned_text

    # Sử dụng .loc để thay đổi giá trị trong DataFrame
    bbc.loc[:, 'text'] = bbc['text'].apply(process_text)

    # Lưu danh sách các mục bị loại bỏ vào một biến
    removed_data = list(set(removed_data))  # Loại bỏ các mục trùng lặp

    # Xuất danh sách các mục bị loại bỏ
    print(f"Số lượng từ bị xóa: {len(removed_data)}")
    print("Các mục bị loại bỏ:", removed_data)

Số lượng từ bị xóa: 2282
Các mục bị loại bỏ: ['$87bn', '$13280', '915', 'â£1040', '250000', '$65m', '$301m', '300', '449', '3400', '$294m', '17', '27', '272', '5700', 'â£161m', '$13', '1937', '$48m', '192', 'â£140', '6600', 'â£89m', 'â£925', '$85', '161', '553', '471', '1865', 'â£560', '118', '1125', 'â£707m', '136', 'â£335bn', '1924', '72', '188', '69', '25', '146000', '$13652', '$532m', '$132', 'â£336m', 'â£86m', '1030', '$160bn', '1870', 'â£125bn', '$190bn', 'â£167bn', '337000', 'â£106bn', 'â£9m', 'â£1140', '4604', '6650', '$450', 'â£20m', '1972', 'â£191m', '159', '$127m', 'â£161840', '$3920', '$32500', '39', 'â£295m', 'â£300', '1689', '14', '$45m', '77', '1945', 'â£2000', 'â£225m', '281', '1174060', '3807', '1950', '$148', 'â£389m', '40', '28', '$246bn', '$768m', 'â£133m', '30000', '$285m', '$302m', '75', '55000', 'â£35bn', '1250', '1983', '101115', '885000', '133', '0400', 'â£44bn', 'â£40m', 'â£4m', '25000', '1980', '20002001', '659', '$218', '$60m', '09', '$370m', '$085', '163000

In [420]:

from collections import Counter


# Kiểm tra sự tồn tại của cột 'text'
if 'text' in bbc.columns:
    # Đếm tần suất của các từ
    all_words = ' '.join(bbc['text']).split()
    word_counts = Counter(all_words)

    # Lọc ra các từ xuất hiện từ 5 lần trở lên
    common_words = {word for word, count in word_counts.items() if count >= 5}
    
    # In số lượng từ phổ biến
    print(f"Số lượng từ phổ biến: {len(common_words)}")

    # Danh sách từ bị xóa (từ hiếm gặp)
    removed_words = {word for word in word_counts.keys() if word not in common_words}
    
    # In danh sách các từ hiếm gặp
    print(f"Số lượng từ bị xóa: {len(removed_words)}")

    bbc.loc[:, 'text'] = bbc['text'].apply(lambda x: ' '.join([word for word in x.split() if word in common_words]))

Số lượng từ phổ biến: 8592
Số lượng từ bị xóa: 17901


In [421]:



# Kiểm tra sự tồn tại của cột 'text'
if 'text' in bbc.columns:
    # Hàm để loại bỏ dấu gạch ngang '-' không liên kết với từ
    def clean_text(text):
        # Loại bỏ dấu gạch ngang không có từ đi kèm
        cleaned_text = re.sub(r'(?<=\s)-(?=\s)', '', text)
        return cleaned_text
    
    # Áp dụng hàm cho cột 'text'
    bbc.loc[:, 'text'] = bbc['text'].apply(clean_text)
bbc


Unnamed: 0,text,topic
0,dallaglio man end controversy lawrence dallagl...,sport
1,best person legal job best person job appoint ...,politics
2,viewers able shape tv imagine edit titanic wat...,tech
3,fox attack blair tory lie tony blair lie take ...,politics
4,microsoft debut security tool microsoft releas...,tech
...,...,...
2219,rapper cent end protege feud rapper cent end p...,entertainment
2220,michael film signal retirement singer george m...,entertainment
2221,ray charles studio museum museum dedicate care...,entertainment
2222,chancellor rally labour voters gordon brown is...,politics


In [422]:
# Save the cleaned dataset to a new CSV file
bbc.to_csv('bbc_cleaned.csv', index=False)