In [1]:
import pandas as pd
from pathlib import Path
import json


In [2]:
BASE_DIR = Path.cwd().parent.parent
dataset_dir = BASE_DIR / "web_wibu_react/src/data_and_source/truyen_data/hako_data.json"

In [3]:
df = pd.read_json(dataset_dir)

In [4]:

# Lọc ra tất cả các thể loại độc nhất
unique_genres = set()
for genres_list in df["Thể loại"]:
    unique_genres.update(genres_list)

# Chuyển set thành list và sắp xếp theo alphabet
unique_genres_sorted = sorted(list(unique_genres))

print(f"\nTổng số thể loại: {len(unique_genres_sorted)}")
print("\nDanh sách thể loại:")
for genre in unique_genres_sorted:
    print(f"- {genre}")

# Tạo DataFrame mới chứa thống kê số lượng truyện theo thể loại
genre_counts = {}
for genre in unique_genres_sorted:
    count = sum(1 for genres_list in df["Thể loại"] if genre in genres_list)
    genre_counts[genre] = count

# Chuyển dict thành DataFrame và sắp xếp theo số lượng giảm dần
genre_stats = pd.DataFrame.from_dict(genre_counts, orient='index', columns=['count'])
genre_stats = genre_stats.sort_values('count', ascending=False)

print("\nThống kê số lượng truyện theo thể loại:")
print(genre_stats)


Tổng số thể loại: 19

Danh sách thể loại:
- 
- Action
- Adventure
- Comedy
- Drama
- Ecchi
- Fantasy
- Harem
- Horror
- Incest
- Mecha
- Mystery
- Romance
- School Life
- Science Fiction
- Seinen
- Slice of Life
- Super Power
- Supernatural

Thống kê số lượng truyện theo thể loại:
                 count
Romance             21
Comedy              16
School Life         14
Drama               14
Action              12
Fantasy             10
Harem               10
Supernatural         8
                     7
Mystery              6
Adventure            5
Science Fiction      5
Ecchi                4
Horror               2
Mecha                2
Super Power          2
Seinen               1
Slice of Life        1
Incest               1


### Điền vào file genres.json

In [5]:
# Dictionary ánh xạ thể loại Anh-Việt
genre_names_translations = {
    "Action": "Hành Động",
    "Adventure": "Phiêu Lưu",
    "Comedy": "Hài Hước",
    "Drama": "Drama",
    "Ecchi": "Ecchi",
    "Fantasy": "Giả Tưởng",
    "Harem": "Harem",
    "Horror": "Kinh Dị",
    "Incest": "Loạn Luân",
    "Mecha": "Mecha",
    "Mystery": "Bí Ẩn",
    "Romance": "Lãng Mạn",
    "School Life": "Học Đường",
    "Science Fiction": "Khoa Học Viễn Tưởng",
    "Seinen": "Seinen",
    "Slice of Life": "Đời Thường",
    "Super Power": "Siêu Năng Lực",
    "Supernatural": "Siêu Nhiên",
    "Martial Arts": "Võ Thuật",
    "Historical": "Lịch Sử",
    "Military": "Quân Sự",
    "Psychological": "Tâm Lý",
    "Sports": "Thể Thao",
    "Tragedy": "Bi Kịch",
    "Mature": "Trưởng Thành",
    "Gender Bender": "Chuyển Giới",
    "Shounen": "Shounen",
    "Shoujo": "Shoujo",
    "Josei": "Josei"
}

genre_slugs_translations = {
    "Action": "hanh-dong",
    "Adventure": "phieu-luu",
    "Comedy": "hai-huoc",
    "Drama": "drama",
    "Ecchi": "ecchi",
    "Fantasy": "gia-tuong",
    "Harem": "harem",
    "Horror": "kinh-di",
    "Incest": "loan-luan",
    "Mecha": "mecha",
    "Mystery": "bi-an",
    "Romance": "lang-man",
    "School Life": "hoc-duong",
    "Science Fiction": "khoa-hoc-vien-tuong",
    "Seinen": "seinen",
    "Slice of Life": "doi-thuong",
    "Super Power": "sieu-nang-luc",
    "Supernatural": "sieu-nhien",
    "Martial Arts": "vo-thuat",
    "Historical": "lich-su",
    "Military": "quan-su",
    "Psychological": "tam-ly",
    "Sports": "the-thao",
    "Tragedy": "bi-kich",
    "Mature": "truong-thanh",
    "Gender Bender": "chuyen-gioi",
    "Shounen": "shounen",
    "Shoujo": "shoujo",
    "Josei": "josei"
}


In [6]:
formatted_genres = []
idx = 1

for genre_name in unique_genres_sorted:
    if not genre_name or genre_name.strip() == "":
        continue
        
    viet_name = genre_names_translations.get(genre_name, genre_name)
    # Sử dụng slug từ dictionary, nếu không có thì tạo slug tự động
    slug = genre_slugs_translations.get(genre_name, genre_name.lower().replace(" ", "-"))
    
    genre_obj = {
        "id": idx,
        "name": viet_name,
        "slug": slug
    }
    formatted_genres.append(genre_obj)
    idx += 1

In [7]:
# Sắp xếp lại danh sách theo tên tiếng Việt
import locale
locale.setlocale(locale.LC_COLLATE, 'vi_VN.UTF-8')

# Sắp xếp lại danh sách theo tên tiếng Việt sử dụng locale
formatted_genres.sort(key=lambda x: locale.strxfrm(x["name"]))

# Cập nhật lại id sau khi sắp xếp
for idx, genre in enumerate(formatted_genres, 1):
    genre["id"] = idx

In [8]:
# Tạo dictionary với cấu trúc cuối cùng
genres_data = {
    "genres": formatted_genres
}

# Đường dẫn đến file genres.json
genres_dir = BASE_DIR / "web_wibu_react/src/data_and_source/truyen_data"
genres_file_path = Path(genres_dir) / "genres.json"

# Lưu vào file với định dạng UTF-8 và indent
with open(genres_file_path, "w", encoding="utf-8") as f:
    json.dump(genres_data, f, ensure_ascii=False, indent=2)

print(f"Đã lưu {len(formatted_genres)} thể loại vào file genres.json")

Đã lưu 18 thể loại vào file genres.json
