In [1]:
# 1. Food
# 2. Travel
# 3. Entertainment
# 4. Gaming
# 5. Lifestyle
# 6. Education
# 7. Sports
# 8. Technology
# 9. Pets & Animals
# 10. Health & Wellness

CATEGORIES = [
  "Food",
  "Travel",
  "Entertainment",  
  "Gaming",
  "Lifestyle",
  "Education",
  "Sports",
  "Technology",
  "Pets & Animals",
  "Health & Wellness"
]

In [32]:
from typing import List
import json
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import JsonOutputParser
from langchain.prompts import ChatPromptTemplate

SYSTEM_PROMPTS = {
  "Food": """You are a smart AI assistant specialized in keyword generation.
Your task is to generate a list of the top 100 most searched keywords in the Food category on Google Image search and other image platforms like Unsplash, Gettyimages for the video category provided by the user.
The keywords must be popular in Vietnam and in Vietnamese language.
You should avoid similar and identical keywords (i.e. keywords with the same meaning or repeated words) and generate a diverse list of keywords that are relevant to the image category.
Example: ["bánh đậu xanh", "thịt kho trứng", "bánh tráng trộn", "phở", "bún bò huế", "bạc xỉu",...]
"""
}

def generate_keywords_for_video_category(category: str, generated_keywords: List[str]) -> List[str]:
    SYSTEM_PROMPT_SUFFIX = f"""Please format the response as a pure Python list of strings and just return the list of keywords.
Example:
["keyword1", "keyword2", "keyword3", "keyword4", "keyword5",...]
Return the list only, do not explain or include any other information, or even greetings.
Do not generate the same keywords in the following list:
{generated_keywords}
"""
    
    system_prompt = SYSTEM_PROMPTS.get(category, "") + SYSTEM_PROMPT_SUFFIX
    prompt = f"""Generate a list of 100 keywords for the category {category} in Vietnamese."""

    chain =ChatPromptTemplate.from_messages(
      [
        ("system", system_prompt),
        (
          "human",
          prompt
        ),
      ]
    ) | ChatOpenAI(
        model="gpt-4o-mini",
        temperature=0.7,
        cache=True,
        max_tokens=8192,
        streaming=False,
    ) | JsonOutputParser()

    

    response = chain.invoke({
        "category": category,
        "generated_keywords": json.dumps(generated_keywords)
    })


    print(response)

    try:
        return list(set(response))
    except Exception as e:
        print(e)
        return []

In [34]:

l = [
    "đề thi thử vào lớp 10 môn Lý",
    "đề thi thử vào lớp 10 môn Hóa",
    "đề thi thử vào lớp 10 môn Sinh",
    "kỹ năng quản lý thời gian hiệu quả",
    "bài tập Toán lớp 11 có đáp án",
    "cách viết bài văn tường thuật",
    "bài tập Ngữ pháp tiếng Việt lớp 5",
    "tài liệu ôn thi THPT Quốc gia môn Lý",
    "cách tạo sơ đồ tư duy bằng phần mềm",
    "đề thi HSG cấp quốc gia môn Tin học",
    "đề thi chuyên Toán lớp 10 TPHCM",
    "giáo trình lập trình iOS cho người mới bắt đầu",
    "đề thi Olympic Ngữ văn cấp thành phố",
    "cách làm bài văn nghị luận",
    "cách làm bài văn nghị luận văn học",
    "đề thi thử vào lớp 10 môn Toán",
    "cách tạo trò chơi học tập",
    "cách tạo mindmap học tập",
    "phương pháp học Văn hay",
    "đề thi Olympic Toán học cấp quốc gia",
    "bài tập Sinh học lớp 11 có lời giải",
    "cách học tiếng Anh giao tiếp",
    "phương pháp học tiếng Hàn hiệu quả",
    "bài tập Ngữ văn lớp 11 có lời giải",
    "kỹ năng viết CV xin việc bằng tiếng Anh",
    "phương pháp dạy trẻ học đọc sớm",
    "cách viết bài thuyết trình",
    "giáo trình lập trình Android cho người mới",
    "sơ đồ tóm tắt môn Hóa học",
    "sơ đồ tóm tắt môn Địa lý",
    "đề thi vào lớp 10 môn Văn",
    "bài tập Hóa học lớp 8 có đáp án",
    "bài tập Toán lớp 9 có lời giải",
    "bài tập Toán lớp 12 nâng cao",
    "đề thi thử THPT Quốc gia môn Toán",
    "câu hỏi địa lý Việt Nam",
    "cách viết bài luận tiếng Pháp",
    "đề thi vào lớp 10 chuyên Sinh",
    "bài tập Toán cao cấp đại học",
    "tài liệu ôn thi THPT Quốc gia môn Địa",
    "đề thi vào lớp 10 chuyên Văn",
    "phương pháp học Hóa học hiệu quả",
    "đề thi HSG cấp tỉnh môn Ngữ văn",
    "đề cương ôn tập học kỳ 2 lớp 11",
    "cách làm bài văn biểu cảm",
    "phương pháp dạy trẻ chậm nói",
    "cách tạo flashcard học từ vựng",
    "sơ đồ tóm tắt môn GDCD",
    "giáo dục con cái từ nhỏ",
    "cách viết báo cáo khoa học",
    "tài liệu ôn thi đại học môn Hóa",
    "phần mềm học tiếng Hàn tự học",
    "tài liệu ôn thi đại học môn Văn",
    "tài liệu ôn thi chứng chỉ tiếng Hàn TOPIK I",
    "sơ đồ tóm tắt môn Công nghệ",
    "phần mềm học tiếng Trung online",
    "kỹ năng thuyết trình trước đám đông",
    "tài liệu ôn thi THPT Quốc gia môn Hóa",
    "phương pháp học tiếng Pháp hiệu quả",
    "bài giảng Hóa học online",
    "thí nghiệm hóa học vui",
    "giáo trình tiếng Nhật cơ bản",
    "phương pháp dạy trẻ học toán",
    "tài liệu ôn thi chứng chỉ tiếng Trung HSK3",
    "phương pháp học Toán hiệu quả",
    "bài tập Vật lý lớp 12 nâng cao",
    "cách làm slide thuyết trình",
    "bài tập Ngữ văn lớp 9 có lời giải",
    "kỹ năng tư duy phản biện",
    "tài liệu ôn thi chứng chỉ tiếng Anh B1",
    "câu hỏi phần thi Tăng tốc Đường lên Đỉnh Olympia",
    "đề cương ôn tập học kỳ 2 lớp 12",
    "cách viết bài luận văn học",
    "đề thi thử vào lớp 10 môn Văn",
    "phương pháp học Địa lý hiệu quả",
    "cách viết bài báo khoa học",
    "bài tập Toán nâng cao lớp 7",
    "bài tập Toán lớp 5 nâng cao có lời giải",
    "sơ đồ tóm tắt môn Lịch sử Việt Nam",
    "giáo trình lập trình Python cơ bản",
    "cách làm bài luận tiếng Anh",
    "giáo trình lập trình Java cho người mới bắt đầu",
    "chiến dịch Hồ Chí Minh",
    "cách viết đơn xin việc",
    "đề thi Olympic Toán cấp Quốc gia",
    "tài liệu ôn thi chứng chỉ tiếng Nhật N5",
    "VietSchool",
    "cách học tiếng Anh qua bài hát",
    "cách tạo trò chơi ôn tập kiến thức",
    "điểm chuẩn cấp 3 TPHCM",
    "cách tạo video bài giảng",
    "phương pháp học Sinh hiệu quả",
    "phương pháp dạy trẻ tự kỷ",
    "tài liệu ôn thi đại học môn Địa",
    "phần mềm học từ vựng tiếng Anh",
    "sơ đồ tóm tắt môn Vật lý",
    "cách viết essay tiếng Anh",
    "cách học tiếng Anh qua phim ảnh",
    "bài tập Hình học không gian lớp 11",
    "sơ đồ tóm tắt môn Sinh học",
    "đề cương ôn tập học kỳ 1 lớp 10",
    "phương pháp học tiếng Anh hiệu quả",
    "giáo trình lập trình game Unity cơ bản",
    "tài liệu ôn thi THPT Quốc gia môn Anh",
    "cách làm bài văn nghị luận xã hội",
    "phương pháp học Sử hiệu quả",
    "cách viết email tiếng Anh",
    "đề thi vào lớp 10 chuyên Lý",
    "phương pháp giải nhanh Toán trắc nghiệm",
    "bài tập Vật lý lớp 10 có lời giải",
    "đề cương ôn tập học kỳ 2 lớp 8",
    "đề cương ôn thi THPT Quốc gia môn Văn",
    "phương pháp dạy trẻ học vẽ",
    "đề thi HSG cấp quốc gia môn Địa lý",
    "sơ đồ tư duy môn Lịch sử",
    "kỹ năng làm việc nhóm hiệu quả",
    "cách nhân vật lịch sử thế giới",
    "tài liệu ôn thi chứng chỉ tiếng Đức A1",
    "cách tạo bài giảng e-learning",
    "bài tập Tin học lớp 11 có đáp án",
    "cách viết bài luận tiếng Nhật",
    "phương pháp dạy trẻ tập đọc",
    "phương pháp học Lý hiệu quả",
    "đề cương ôn tập học kỳ 2 lớp 9",
    "bài tập Tiếng Anh lớp 12 có đáp án",
    "đề thi thử vào lớp 6 trường chuyên",
    "đề thi HSG cấp thành phố môn Hóa",
    "bài tập Tiếng Anh lớp 9 có đáp án",
    "bài tập Tiếng Anh lớp 6 có đáp án",
    "tài liệu ôn thi chứng chỉ tiếng Pháp DELF A2",
    "đề cương ôn tập học kỳ 1 lớp 12",
    "tài liệu ôn thi đại học môn Anh",
    "cách viết bài văn nghị luận về một tư tưởng đạo lý",
    "tài liệu ôn thi đại học môn Sử",
    "cách học tiếng Đức cơ bản",
    "tài liệu ôn thi THPT Quốc gia môn Sử",
    "bài tập Hóa học lớp 10 nâng cao",
    "phần mềm học tiếng Đức online",
    "cách viết CV xin việc chuẩn",
    "cách viết bài văn miêu tả",
    "cách viết bài văn thuyết minh",
    "phần mềm học tiếng Nhật Minna no Nihongo",
    "phần mềm học tiếng Anh TOEIC",
    "cách học tiếng Nhật hiệu quả",
    "phương pháp học Hóa hiệu quả",
    "bài tập Vật lý lớp 9 có lời giải",
    "bài tập Hình học lớp 8 nâng cao",
    "bài tập Hóa học lớp 12 có đáp án",
    "công thức Vật lý lớp 12",
    "đề thi vào lớp 10 chuyên Anh",
    "đề thi Olympic Tin học cấp tỉnh",
    "phương pháp dạy trẻ học đàn piano",
    "đề thi HSG cấp tỉnh môn Sinh học",
    "phương pháp học tiếng Nhật hiệu quả",
    "tài liệu ôn thi THPT Quốc gia môn Sinh",
    "kỹ năng giao tiếp hiệu quả",
    "đề thi HSG cấp thành phố môn Địa lý",
    "tài liệu ôn thi chứng chỉ tiếng Tây Ban Nha DELE A1",
    "cách làm bài văn phân tích tác phẩm văn học",
    "cách học thuộc lòng nhanh",
    "giáo trình lập trình web cơ bản",
    "kỹ năng thuyết trình bằng tiếng Anh",
    "tài liệu ôn thi đại học môn Lý",
    "đề thi Olympic Vật lý cấp tỉnh",
    "đề thi Olympic Hóa học cấp thành phố",
    "đề cương ôn tập học kỳ 1 lớp 11",
    "cách học tiếng Trung cơ bản",
    "phần mềm học tiếng Pháp miễn phí",
    "đề thi vào lớp 10 chuyên Hóa",
    "phương pháp học từ vựng tiếng Anh",
    "cách làm bài văn tả người",
    "phương pháp học từ vựng tiếng Trung",
    "tài liệu luyện thi IELTS",
    "đề thi Olympic Sinh học cấp quốc gia",
    "đề thi HSG cấp tỉnh môn Lịch sử",
    "tài liệu ôn thi công chức",
    "sách hay cho trẻ em",
    "tài liệu ôn thi đại học môn Sinh",
    "điểm chuẩn Đại học",
    "đề thi vào lớp 10 chuyên Tin",
    "chương trình giáo dục phổ thông mới", "sách giáo khoa lớp 1 theo chương trình mới", "đề thi thử vào 10 môn toán 2023-2024", "đề thi thử vào 10 môn văn 2023-2024", "đề thi thử vào 10 môn anh 2023-2024",
    "đề thi chuyên Toán lớp 10 TPHCM", "câu hỏi địa lý Việt Nam", "câu hỏi phần thi Tăng tốc trong Đường lên Đỉnh Olympia", "cách nhân vật lịch sử thế giới", "chiến dịch Hồ Chí Minh", "giáo dục con cái từ nhỏ", "sách hay cho trẻ em", "thí nghiệm hóa học vui", "VietSchool", "điểm chuẩn cấp 3 TPHCM", "điểm chuẩn Đại học", "lịch sử Việt Nam", "địa lý Việt Nam", "sinh học lớp 12", "vật lý lớp 11", "hóa học lớp 10", "toán học lớp 9", "ngữ văn lớp 8", "tiếng Anh lớp 7", "giáo dục đặc biệt", "phương pháp giáo dục Montessori", "giáo dục STEM", "kỹ năng sống cho trẻ em", "phát triển kỹ năng mềm", "tư duy sáng tạo", "lập trình cho trẻ em", "robotics cho trẻ em", "giáo dục trực tuyến", "học trực tuyến", "các trường đại học hàng đầu Việt Nam", "các trường đại học công lập TPHCM", "các trường đại học tư thục TPHCM", "các trường cao đẳng nghề", "các trường trung cấp chuyên nghiệp", "chương trình giáo dục phổ thông mới", "chương trình giáo dục đại học mới", "đánh giá năng lực học sinh", "đánh giá chất lượng giáo dục", "giáo dục đặc biệt cho trẻ tự kỷ", "giáo dục đặc biệt cho trẻ khuyết tật", "phương pháp giáo dục đặc biệt", "giáo dục cho trẻ em khó khăn", "giáo dục cho trẻ em nghèo", "chương trình giáo dục cho trẻ em", "kế hoạch giáo dục cho trẻ em", "mục tiêu giáo dục cho trẻ em", "giáo dục cho trẻ em mầm non", "giáo dục cho trẻ em tiểu học", "giáo dục cho trẻ em THCS", "giáo dục cho trẻ em THPT", "giáo dục cho sinh viên", "giáo dục cho người lớn", "giáo dục cho người cao tuổi", "giáo dục cho người khuyết tật", "giáo dục cho người tự kỷ", "giáo dục cho người khó khăn", "giáo dục cho người nghèo", "giáo dục cho cộng đồng", "giáo dục cho xã hội", "giáo dục cho thế hệ tương lai", "giáo dục cho sự phát triển bền vững", "giáo dục cho sự phát triển kinh tế", "giáo dục cho sự phát triển xã hội", "giáo dục cho sự phát triển môi trường", "giáo dục cho sự phát triển con người", "giáo dục cho sự phát triển cộng đồng", "giáo dục cho sự phát triển đất nước", "giáo dục cho sự phát triển thế giới"
  ]

print(len(l))
print(len(set(l)))
print(json.dumps(list(set(l)), ensure_ascii=False))

253
242
["đề thi thử vào lớp 10 môn Lý", "đề thi thử vào lớp 10 môn Hóa", "đề thi thử vào lớp 10 môn Sinh", "kỹ năng quản lý thời gian hiệu quả", "bài tập Toán lớp 11 có đáp án", "tư duy sáng tạo", "giáo dục đặc biệt cho trẻ khuyết tật", "cách viết bài văn tường thuật", "các trường trung cấp chuyên nghiệp", "robotics cho trẻ em", "chương trình giáo dục phổ thông mới", "kế hoạch giáo dục cho trẻ em", "giáo dục trực tuyến", "bài tập Ngữ pháp tiếng Việt lớp 5", "giáo dục cho người cao tuổi", "giáo dục cho người nghèo", "tài liệu ôn thi THPT Quốc gia môn Lý", "cách tạo sơ đồ tư duy bằng phần mềm", "đề thi HSG cấp quốc gia môn Tin học", "các trường đại học hàng đầu Việt Nam", "đề thi chuyên Toán lớp 10 TPHCM", "giáo trình lập trình iOS cho người mới bắt đầu", "đề thi Olympic Ngữ văn cấp thành phố", "cách làm bài văn nghị luận", "cách làm bài văn nghị luận văn học", "giáo dục cho sinh viên", "đề thi thử vào lớp 10 môn Toán", "cách tạo trò chơi học tập", "cách tạo mindmap học tập", "giáo dục 

196

In [33]:
# write a function that generates keywords for each category
# for each category, it should keep generating until it has at least 100 unique keywords
# for each category, it should also take in a list of previously generated keywords and avoid generating those


def generate_keywords_for_all_categories():
    all_keywords = {}
    for category in CATEGORIES:
        generated_keywords = []
        while len(generated_keywords) < 200:
            new_keywords = generate_keywords_for_video_category(
                category, generated_keywords
            )
            generated_keywords.extend(new_keywords)
            generated_keywords = list(set(generated_keywords))
        all_keywords[category] = generated_keywords
    return all_keywords

In [34]:
json.dump(generate_keywords_for_all_categories(), open("data/generated_keywords_extended.json", "w", encoding="utf-8"))

["món ăn ngon", "cách làm bánh", "đồ ăn vặt", "công thức nấu ăn", "món ăn sáng", "cách nấu cơm", "món ăn trưa", "đồ ăn nhẹ", "cách làm kem", "món ăn chiều", "cách làm bánh mì", "món ăn vặt", "cách nấu xôi", "món ăn tốt cho sức khỏe", "cách làm sữa chua", "món ăn mùa hè", "cách làm bánh flan", "món ăn mùa đông", "cách nấu cháo", "món ăn cho bé", "cách làm bánh kem", "món ăn giảm cân", "cách làm bánh quy", "món ăn cho người già", "cách nấu canh", "món ăn cho bà bầu", "cách làm bánh sandwich", "món ăn nhanh", "cách làm bánh pizza", "món ăn cho người tiểu đường", "cách làm bánh xèo", "món ăn cho người ăn chay", "cách làm bánh gato", "món ăn mùa xuân", "cách làm bánh ngàn lớp", "món ăn mùa thu", "cách làm bánh crepe", "món ăn cho người ăn kiêng", "cách làm bánh meringue", "món ăn cho người già yếu", "cách làm bánh gateau", "món ăn cho người bị tiểu đường", "cách làm bánh bông lan", "món ăn cho người cao tuổi", "cách làm bánh cacao", "món ăn cho người già yếu", "cách làm bánh cookie", "món ă

In [40]:
saved_keywords = json.load(open("generated_keywords.json", "r", encoding="utf-8"))

In [42]:
for category in CATEGORIES:
    print(f"Category: {category}")
    print(len(saved_keywords[category]))

Category: Food
124
Category: Travel
106
Category: Entertainment
131
Category: Gaming
113
Category: Lifestyle
109
Category: Education
146
Category: Sports
136
Category: Technology
126
Category: Pets & Animals
179
Category: Health & Wellness
125
