In [1]:
from tensorflow.keras.models import load_model
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

# Hàm phân loại chủ đề
def categorize_project(project_name):
    matched_themes = []
    for theme, keywords in technically.items():
        if any(keyword.lower() in project_name.lower() for keyword in keywords):
            matched_themes.append(theme)
    return ', '.join(matched_themes) if matched_themes else 'other'

# Tạo từ điển ánh xạ với nhóm từ khóa cho mỗi chủ đề
technically = {
    'website': ['website', 'web'],
    'mobile-app': ['mobile app', 'app di động', 'Xây dựng ứng dụng', 'Xây dựng Ứng dụng', 'Ứng dụng di động', 'Phát triển ứng dụng', 'Xây dựng ứng dụng'],
    'game': ['game'],
    'chatbot': ['chatbot', 'chat bot'],
    'artificial-intelligence': ['trí tuệ nhân tạo'],
    'machine-learning': ['machine learning', 'máy học'],
    'deep-learning': ['deep learning', 'học sâu'],
    'computer-vision': ['computer vision', 'thị giác máy tính'],
    'big-data': ['big data', 'dữ liệu lớn', 'bigdata'],
    'data-analysis': ['data analysis', 'phân tích dữ liệu'],
    'cloud-computing': ['cloud computing', 'điện toán đám mây', 'K8s', 'kubernetes'],
    'blockchain': ['blockchain', 'chuỗi khối', 'NFT'],
    'robot': ['robot', 'robotics', 'robotic'],
    'drone': ['drone', 'flycam'],
    'vr': ['vr', 'thực tế ảo', 'virtual reality'],
}

# Danh sách các chủ đề dự đoán
categories = list(technically.keys())

# Hàm để chuẩn bị dữ liệu đầu vào
def prepare_data(texts, tokenizer, max_length):
    sequences = tokenizer.texts_to_sequences(texts)
    data = pad_sequences(sequences, maxlen=max_length)
    return data


In [2]:
# Tải mô hình đã lưu
model = load_model('best_model.keras')

# Tạo tokenizer và chuẩn bị dữ liệu để dự đoán
tokenizer = Tokenizer(num_words=10000)
# texts = ["Dự án ứng dụng di động mới"]  # Thay thế bằng văn bản dự án của bạn

In [5]:
# Computer Science - AI
# Xây dựng hệ thống chatbot tự động tư vấn tuyển sinh
# Dự đoán doanh thu bán hàng dựa trên phân tích dữ liệu
# Phân loại cảm xúc trong văn bản tiếng Việt
# Nhận dạng giọng nói và chuyển đổi thành văn bản tiếng Việt
# Hệ thống phát hiện gian lận giao dịch ngân hàng
# Ứng dụng AI trong phân tích y học
# Xây dựng hệ thống đề xuất sản phẩm dựa trên sở thích khách hàng
# Phân loại ảnh và nhận diện đối tượng trong môi trường thực tế
# Hệ thống quản lý học tập thông minh
# Tối ưu hóa lộ trình vận chuyển hàng hóa

# Dùng website để mua đồ chơi cho trẻ
# Dùng website để quản trị nhà máy điện
# Xây dựng ứng dụng để quản lý thiết bị thông minh

In [4]:
nameproject = ["Dùng website để mua đồ chơi cho trẻ"]  # Thay thế bằng văn bản dự án của bạn

print("Dự án được chọn để dự đoán:", nameproject)

import pandas as pd

# Tải dữ liệu
pd_data = pd.read_csv('D:/Github/DanhgiaDuAnVaNghenghiepTuongLai/dataset/dataset_train_ver1.csv')
df = pd_data[['nameProject_VNI']].copy()
df['category'] = df['nameProject_VNI'].apply(categorize_project)

# Tạo các cột chỉ báo cho mỗi chủ đề
category_dummies = pd.get_dummies(df['category'].apply(lambda x: x.split(', ')).explode()).groupby(level=0).sum()
df = pd.concat([df, category_dummies], axis=1)

# Lấy văn bản dự án và các nhãn
texts = df['nameProject_VNI'].values

# Chuẩn bị tokenizer và padding
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
max_length = max(len(seq) for seq in sequences)

# Bước 2: Chuẩn bị dữ liệu để dự đoán
# Tokenize và Pad văn bản của dự án được chọn
tokenized_project = tokenizer.texts_to_sequences([nameproject])
padded_project = pad_sequences(tokenized_project, maxlen=max_length)

# Bước 3: Dự đoán
prediction = model.predict(padded_project)
predicted_labels = (prediction > 0.5).astype(int)

# Lấy các nhãn dự đoán
predicted_categories = [categories[i] for i, value in enumerate(predicted_labels[0]) if value == 1]
print("Nhãn dự đoán:", predicted_categories)

Dự án được chọn để dự đoán: ['Dùng website để mua đồ chơi cho trẻ']
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step
Nhãn dự đoán: ['robot']
