In [1]:
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, KFold
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Bidirectional, Dense, SpatialDropout1D, Conv1D, MaxPooling1D, Flatten
from tensorflow.keras.utils import to_categorical
from gensim.models import KeyedVectors
import requests

In [2]:
# Tải các tài nguyên cần thiết từ NLTK
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\AN\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
# Tải nội dung của tệp stop_words.py từ GitHub
url = 'https://raw.githubusercontent.com/trungtv/vivi_spacy/master/vi/vi/stop_words.py'
response = requests.get(url)
stop_words_content = response.text

In [4]:
# Phân tích nội dung của tệp stop_words.py để lấy danh sách stopwords
start_index = stop_words_content.find('"""') + 3
end_index = stop_words_content.rfind('"""')
stop_words_list = stop_words_content[start_index:end_index].split("\n")
# Tạo danh sách stopwords từ danh sách bạn vừa phân tích
stop_words = set(word.strip() for word in stop_words_list if word.strip())

In [5]:
# Tiền xử lý văn bản
def preprocess_text(text):
    words = word_tokenize(text.lower())
    filtered_words = [word for word in words if word not in stop_words and word.isalnum()]
    return ' '.join(filtered_words)

In [6]:
# Load dữ liệu
df = pd.read_excel('data_xuly.xlsx')
df.dropna(axis=1, how='all', inplace=True)
contents = df['content'].tolist()
topics = df['label'].tolist()
contents = [str(content).strip() for content in contents]
processed_contents = [preprocess_text(content) for content in contents]

In [7]:
# Tiền xử lý nhãn
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(topics)
num_classes = len(set(y))
y = to_categorical(y, num_classes=num_classes)

In [8]:
# Tokenization và padding
tokenizer = Tokenizer(num_words=20000)
tokenizer.fit_on_texts(processed_contents)
X = tokenizer.texts_to_sequences(processed_contents)
X = pad_sequences(X, maxlen=500)

In [9]:
# Cross-validation
kf = KFold(n_splits=4, shuffle=True, random_state=42)
accuracy_scores = []
best_accuracy = 0
best_model = None

In [10]:
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Xây dựng mô hình Bidirectional LSTM
    model = Sequential()
    model.add(Embedding(input_dim=20000, output_dim=128, input_length=500))
    model.add(SpatialDropout1D(0.3))
    model.add(Bidirectional(LSTM(128, dropout=0.3, recurrent_dropout=0.3)))
    model.add(Dense(256, activation='relu'))
    model.add(Dense(num_classes, activation='softmax'))
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    # Huấn luyện mô hình
    model.fit(X_train, y_train, epochs=10, batch_size=128, validation_data=(X_test, y_test), verbose=2)

    # Đánh giá mô hình
    loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
    accuracy_scores.append(accuracy)
    print(f"Fold accuracy: {accuracy}")

    # Lưu lại mô hình có độ chính xác cao nhất
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model



Epoch 1/10
39/39 - 89s - 2s/step - accuracy: 0.3504 - loss: 1.8625 - val_accuracy: 0.4603 - val_loss: 1.5922
Epoch 2/10
39/39 - 89s - 2s/step - accuracy: 0.4763 - loss: 1.4811 - val_accuracy: 0.4911 - val_loss: 1.3707
Epoch 3/10
39/39 - 88s - 2s/step - accuracy: 0.6242 - loss: 1.1332 - val_accuracy: 0.7218 - val_loss: 0.8654
Epoch 4/10
39/39 - 95s - 2s/step - accuracy: 0.7450 - loss: 0.7657 - val_accuracy: 0.7637 - val_loss: 0.7022
Epoch 5/10
39/39 - 94s - 2s/step - accuracy: 0.8031 - loss: 0.5612 - val_accuracy: 0.8055 - val_loss: 0.6125
Epoch 6/10
39/39 - 92s - 2s/step - accuracy: 0.8488 - loss: 0.4481 - val_accuracy: 0.7969 - val_loss: 0.6540
Epoch 7/10
39/39 - 92s - 2s/step - accuracy: 0.8708 - loss: 0.3872 - val_accuracy: 0.7951 - val_loss: 0.6522
Epoch 8/10
39/39 - 93s - 2s/step - accuracy: 0.9032 - loss: 0.3099 - val_accuracy: 0.8240 - val_loss: 0.6113
Epoch 9/10
39/39 - 93s - 2s/step - accuracy: 0.9194 - loss: 0.2448 - val_accuracy: 0.8185 - val_loss: 0.6400
Epoch 10/10
39/39 -

In [12]:
best_model.save('best_model2.h5')



In [20]:
print(f"Best accuracy: {best_accuracy}")

Best accuracy: 0.8553845882415771


In [13]:
import tensorflow as tf

In [14]:
loaded_model = tf.keras.models.load_model('best_model2.h5')



In [15]:
def predict_title(content):
    processed_title = preprocess_text(content)
    sequence = tokenizer.texts_to_sequences([processed_title])
    padded_sequence = pad_sequences(sequence, maxlen=200)
    prediction = loaded_model.predict(padded_sequence)
    predicted_class = np.argmax(prediction, axis=1)
    predicted_label = label_encoder.inverse_transform(predicted_class)
    return predicted_label[0]

In [16]:
# Sử dụng hàm dự đoán
content = "Theo lịch thi đấu bóng đá hôm nay, ngày 11/6 - 12/6, người hâm mộ bóng đá có thể xem trực tiếp đội tuyển Việt Nam thi đấu với ĐT Iraq tại Vòng loại thứ 2 World Cup 2026.Trận đấu giữa ĐT Việt Nam và ĐT Iraq diễn ra lúc 1h ngày 12/6 (giờ Việt Nam) trên sân Basra, theo lịch thi đấu vòng loại World Cup 2024 khu vực châu Á.Theo lịch tường thuật trực tiếp bóng đá ngày 11/6 và 12/6, chưa có đơn vị truyền thông hay kênh truyền hình Việt Nam nào sở hữu bản quyền phát sóng trận đấu đội tuyển Việt Nam - đội tuyển Iraq đêm nay."
predicted_topic = predict_title(content)
print(f"Predicted topic: {predicted_topic}")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 397ms/step
Predicted topic: Bong_da


In [17]:
from flask import Flask, request, jsonify

In [18]:
app = Flask(__name__)

In [19]:
@app.route('/predict', methods=['POST'])
def predict():
    content = request.json['content']
    predicted_topic = predict_title(content)
    return jsonify({'predicted_topic': predicted_topic})

if __name__ == '__main__':
    app.run(debug=True, use_reloader=False)

 * Serving Flask app '__main__'
 * Debug mode: on


 * Running on http://127.0.0.1:5000
INFO:werkzeug:[33mPress CTRL+C to quit[0m
INFO:werkzeug:127.0.0.1 - - [11/Jun/2024 18:38:25] "[35m[1mPOST /predict HTTP/1.1[0m" 500 -
Traceback (most recent call last):
  File "C:\Users\AN\Documents\anaconda\Lib\site-packages\flask\app.py", line 2548, in __call__
    return self.wsgi_app(environ, start_response)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\AN\Documents\anaconda\Lib\site-packages\flask\app.py", line 2528, in wsgi_app
    response = self.handle_exception(e)
               ^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\AN\Documents\anaconda\Lib\site-packages\flask\app.py", line 2525, in wsgi_app
    response = self.full_dispatch_request()
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\AN\Documents\anaconda\Lib\site-packages\flask\app.py", line 1822, in full_dispatch_request
    rv = self.handle_user_exception(e)
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\AN\Documents\anaconda\Lib\site-pac

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 53ms/step


INFO:werkzeug:127.0.0.1 - - [11/Jun/2024 18:38:50] "POST /predict HTTP/1.1" 200 -
