In [69]:
import pandas as pd

bbc = pd.read_csv('bbc.csv')

In [70]:
# Check data quality
print("Mất dữ liệu:", bbc.isnull().sum())
print("Dữ liệu bị trùng lặp:", bbc.duplicated().sum())

# Hiển thị các nhãn để xem xét
print("Giá trị duy nhất của cột 'topic':", bbc['topic'].unique())

Mất dữ liệu: text     0
topic    0
dtype: int64
Dữ liệu bị trùng lặp: 98
Giá trị duy nhất của cột 'topic': ['sport' 'politics' 'tech' 'business' 'entertainment']


In [71]:
# Có 98 dòng dữ liệu bị lặp lại
# Không có dữ liệu bị mất
# Có 5 giá trị duy nhất ở cột 'topic', không có giá trị nào bị viết sai hoặc không thống nhất
# Vậy chỉ cần loại bỏ các dữ liệu bị lặp lại
# Bắt đầu làm sạch dữ liệu
bbc_cleaned = bbc.drop_duplicates()
bbc_cleaned.describe()


Unnamed: 0,text,topic
count,2127,2127
unique,2127,5
top,Oscar nominees gear up for lunch\n\nLeonardo D...,sport
freq,1,505


In [72]:
from sklearn.model_selection import train_test_split

texts = bbc_cleaned['text']  # Extract the 'text' column
labels = bbc_cleaned['topic']  # Extract the 'topic' column

# Step 2: Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42)
len(X_train), len(X_test), len(y_train), len(y_test)

(1701, 426, 1701, 426)

In [76]:
from sklearn.feature_extraction.text import TfidfVectorizer
# Step 3: Preprocess the text data using TF-IDF Vectorizer
tfidf = TfidfVectorizer(stop_words='english', max_features=5000)  # Limit features to 5000
X_train_tfidf = tfidf.fit_transform(X_train)  # Fit and transform the training data
X_test_tfidf = tfidf.transform(X_test)  # Transform the testing data

print(X_train_tfidf)
print(X_test_tfidf.shape)


<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 197387 stored elements and shape (1701, 5000)>
  Coords	Values
  (0, 577)	0.26222699102579267
  (0, 344)	0.16547965560011532
  (0, 3029)	0.2731293578781763
  (0, 1827)	0.4943461207361027
  (0, 2003)	0.12383354340295713
  (0, 2984)	0.06133337449010956
  (0, 1474)	0.07121690608757793
  (0, 1805)	0.22211410980029725
  (0, 1830)	0.09407526477399572
  (0, 1246)	0.1448053679818659
  (0, 2873)	0.06231864118409581
  (0, 4898)	0.1319796682408119
  (0, 3887)	0.11438039858187314
  (0, 2982)	0.07592414660000676
  (0, 59)	0.06427278386169191
  (0, 403)	0.15985616813936868
  (0, 710)	0.07592414660000676
  (0, 1418)	0.17946385272372503
  (0, 4688)	0.10292455081310799
  (0, 2194)	0.20035421705633613
  (0, 1386)	0.04556114479135536
  (0, 2802)	0.08740899700859754
  (0, 3927)	0.017370023540195442
  (0, 1793)	0.07543002979163956
  (0, 3802)	0.07085377496180187
  :	:
  (1700, 3)	0.02020068329952273
  (1700, 3843)	0.024471917924631163
  (1700, 1

In [74]:
# Lưu dữ liệu đã làm sạch
bbc_cleaned.to_csv('bbc_cleaned.csv', index=False)