In [1]:
import pandas as pd
import os
import shutil
from tqdm import tqdm
import re


In [2]:
def normalize_folder_name(name):
    # Bỏ số ở đầu và dấu gạch ngang
    name = re.sub(r'^\d+[-_\s]*', '', name)
    # Bỏ dấu gạch ngang và khoảng trắng thừa
    name = re.sub(r'[-_]+', ' ', name)
    # Chuyển về chữ thường và cắt khoảng trắng đầu/cuối
    name = name.lower().strip()
    return name

# Thư mục chứa các folder cần đổi tên
source_dir = 'D:/IE104.P11.CNVN/truyen'

# Lấy danh sách các folder
items = os.listdir(source_dir)
folders = [item for item in items if os.path.isdir(os.path.join(source_dir, item))]

print("Danh sách thay đổi tên folder:")
for folder in tqdm(folders, desc="Đang đổi tên thư mục"):
    old_path = os.path.join(source_dir, folder)
    new_name = normalize_folder_name(folder)
    new_path = os.path.join(source_dir, new_name)
    
    try:
        if old_path != new_path:
            if os.path.exists(new_path):
                print(f"Thư mục đích '{new_name}' đã tồn tại.")
                # Nếu thư mục đích đã tồn tại, hợp nhất nội dung
                for item in os.listdir(old_path):
                    old_item = os.path.join(old_path, item)
                    new_item = os.path.join(new_path, item)
                    if not os.path.exists(new_item):
                        if os.path.isdir(old_item):
                            shutil.copytree(old_item, new_item)
                        else:
                            shutil.copy2(old_item, new_item)
                # Xóa thư mục cũ sau khi đã copy xong
                shutil.rmtree(old_path)
                print(f"Đã hợp nhất nội dung từ '{folder}' vào '{new_name}'")
            else:
                print(f"- {folder} -> {new_name}")
                os.rename(old_path, new_path)
    except Exception as e:
        print(f"Lỗi khi đổi tên {folder}: {str(e)}")

print("Hoàn tất đổi tên!")

FileNotFoundError: [WinError 3] The system cannot find the path specified: 'D:/IE104.P11.CNVN/truyen'

In [3]:
try:
    # Đọc file CSV
    df = pd.read_csv('D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/hako_data.csv')

    # Lấy danh sách các tựa đề từ CSV và chuyển về chữ thường
    novel_titles = [title.lower().strip() for title in df['Tựa đề'].tolist()]

    # Thư mục nguồn chứa các folder truyện
    source_dir = 'D:/IE104.P11.CNVN/truyen'

    # Thư mục đích để lưu các folder đã lọc
    destination_dir = 'D:/IE104.P11.CNVN/truyen_filtered'

    # Tạo thư mục đích nếu chưa tồn tại
    if not os.path.exists(destination_dir):
        os.makedirs(destination_dir)

    # Lấy danh sách các folder cần chuyển (so sánh tên đã chuyển về chữ thường)
    folders_to_move = [
        folder for folder in os.listdir(source_dir) 
        if folder.lower().strip() in novel_titles
    ]

    print(f"Tìm thấy {len(folders_to_move)} thư mục cần di chuyển:")
    for folder in folders_to_move[:5]:  # In 5 thư mục đầu tiên để kiểm tra
        print(f"- {folder}")

    confirm = input("Bạn có muốn tiếp tục di chuyển không? (y/n): ")
    if confirm.lower() != 'y':
        print("Đã hủy thao tác.")
        exit()

    # Tạo thanh tiến trình
    for folder in tqdm(folders_to_move, desc="Đang di chuyển thư mục"):
        source_path = os.path.join(source_dir, folder)
        dest_path = os.path.join(destination_dir, folder)
        
        try:
            if os.path.exists(source_path):
                if os.path.exists(dest_path):
                    print(f"Thư mục {folder} đã tồn tại ở đích, đang xóa...")
                    shutil.rmtree(dest_path)
                
                shutil.move(source_path, dest_path)
                print(f"Đã di chuyển thành công: {folder}")
            else:
                print(f"Không tìm thấy thư mục nguồn: {folder}")
        
        except Exception as e:
            print(f"Lỗi khi di chuyển {folder}: {str(e)}")

    print(f'Hoàn tất! Đã di chuyển {len(folders_to_move)} thư mục.')

except Exception as e:
    print(f"Có lỗi xảy ra: {str(e)}")

Có lỗi xảy ra: [WinError 3] The system cannot find the path specified: 'D:/IE104.P11.CNVN/truyen'


In [4]:
def normalize_filename(name):
    # Bỏ đuôi file nếu có (như .html, .txt, etc.)
    name = os.path.splitext(name)[0]
    # Bỏ số ở đầu và dấu gạch ngang
    name = re.sub(r'^\d+[-_\s]*', '', name)
    # Bỏ dấu gạch ngang và khoảng trắng thừa
    name = re.sub(r'[-_]+', ' ', name)
    # Chuyển về chữ thường và cắt khoảng trắng đầu/cuối
    name = name.lower().strip()
    return name

try:
    # Đọc file CSV
    df = pd.read_csv('D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/hako_data.csv')

    # Lấy danh sách các tựa đề từ CSV và chuyển về chữ thường
    novel_titles = [title.lower().strip() for title in df['Tựa đề'].tolist()]

    # Thư mục nguồn và đích
    source_dir = 'D:/IE104.P11.CNVN/truyen'
    destination_dir = 'D:/IE104.P11.CNVN/truyen_filtered'

    # Tạo thư mục đích nếu chưa tồn tại
    if not os.path.exists(destination_dir):
        os.makedirs(destination_dir)

    # Lấy danh sách các file .html trong thư mục gốc
    files = [f for f in os.listdir(source_dir) if f.endswith('.html') and os.path.isfile(os.path.join(source_dir, f))]

    # Lưu kết quả
    files_to_move = []

    # Kiểm tra từng file
    for file in tqdm(files, desc="Đang kiểm tra các file"):
        normalized_name = normalize_filename(file)
        if normalized_name in novel_titles:
            files_to_move.append(file)

    # Hiển thị danh sách file sẽ di chuyển
    print(f"\nTìm thấy {len(files_to_move)} file cần di chuyển:")
    for file in files_to_move[:5]:  # Hiển thị 5 file đầu tiên
        print(f"- {file}")
    if len(files_to_move) > 5:
        print(f"...và {len(files_to_move) - 5} file khác")

    # Xác nhận từ người dùng
    confirm = input("\nBạn có muốn di chuyển các file này không? (y/n): ")
    if confirm.lower() != 'y':
        print("Đã hủy thao tác di chuyển.")
        exit()

    # Di chuyển các file
    for file in tqdm(files_to_move, desc="Đang di chuyển file"):
        source_path = os.path.join(source_dir, file)
        dest_path = os.path.join(destination_dir, file)
        
        try:
            # Kiểm tra xem file đã tồn tại ở thư mục đích chưa
            if os.path.exists(dest_path):
                print(f"File {file} đã tồn tại ở thư mục đích, đang ghi đè...")
            
            shutil.move(source_path, dest_path)
            print(f"Đã di chuyển: {file}")
        except Exception as e:
            print(f"Lỗi khi di chuyển {file}: {str(e)}")

    print(f'\nHoàn tất! Đã di chuyển {len(files_to_move)} file.')

except Exception as e:
    print(f"Có lỗi xảy ra: {str(e)}")

Có lỗi xảy ra: [WinError 3] The system cannot find the path specified: 'D:/IE104.P11.CNVN/truyen'


In [5]:
def normalize_name(name):
    # Bỏ số ở đầu và dấu gạch ngang
    name = re.sub(r'^\d+[-]?', '', name)
    # Thay thế dấu gạch ngang bằng khoảng trắng
    name = name.replace('-', ' ')
    # Chuyển về chữ thường và cắt khoảng trắng đầu/cuối
    name = name.lower().strip()
    return name

try:
    # Đọc file CSV
    df = pd.read_csv('D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/hako_data.csv')
    
    # Lấy danh sách các thư mục con từ truyen_filtered
    folder_path = 'D:/IE104.P11.CNVN/truyen_filtered'
    subdirs = [d for d in os.listdir(folder_path) 
              if os.path.isdir(os.path.join(folder_path, d))]
    
    # Chuẩn hóa tên thư mục để so sánh
    normalized_dirs = [normalize_name(d) for d in subdirs]
    
    # Tạo một cột tạm thời chứa tên đã chuẩn hóa của Tựa đề
    df['normalized_title'] = df['Tựa đề'].apply(normalize_name)
    
    # Lọc DataFrame chỉ giữ lại các dòng có tựa đề khớp với tên thư mục
    filtered_df = df[df['normalized_title'].isin(normalized_dirs)]
    
    # Xóa cột tạm
    filtered_df = filtered_df.drop('normalized_title', axis=1)
    
    # Lưu kết quả ra file mới
    output_path = 'D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/filtered_hako_data.csv'
    filtered_df.to_csv(output_path, index=False)
    
    print(f"Số dòng ban đầu: {len(df)}")
    print(f"Số dòng sau khi lọc: {len(filtered_df)}")
    print(f"Đã lưu kết quả vào: {output_path}")

except Exception as e:
    print(f"Có lỗi xảy ra: {str(e)}")

Số dòng ban đầu: 80
Số dòng sau khi lọc: 80
Đã lưu kết quả vào: D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/filtered_hako_data.csv


In [6]:
import json
def normalize_name(name):
    # Bỏ số ở đầu và dấu gạch ngang
    name = re.sub(r'^\d+[-]?', '', name)
    # Thay thế dấu gạch ngang bằng khoảng trắng
    name = name.replace('-', ' ')
    # Chuyển về chữ thường và cắt khoảng trắng đầu/cuối
    name = name.lower().strip()
    return name

try:
    # Đọc file JSON
    with open('D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/hako_data.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # Lấy danh sách các thư mục con từ truyen_filtered
    folder_path = 'D:/IE104.P11.CNVN/truyen_filtered'
    subdirs = [d for d in os.listdir(folder_path) 
              if os.path.isdir(os.path.join(folder_path, d))]
    
    # Chuẩn hóa tên thư mục để so sánh
    normalized_dirs = [normalize_name(d) for d in subdirs]
    
    # Lọc dữ liệu JSON
    filtered_data = [
        item for item in data 
        if normalize_name(item['Tựa đề']) in normalized_dirs
    ]
    
    # Lưu kết quả ra file mới
    output_path = 'D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/filtered_hako_data.json'
    with open(output_path, 'w', encoding='utf-8') as f:
        json.dump(filtered_data, f, ensure_ascii=False, indent=4)
    
    print(f"Số mục ban đầu: {len(data)}")
    print(f"Số mục sau khi lọc: {len(filtered_data)}")
    print(f"Đã lưu kết quả vào: {output_path}")

except Exception as e:
    print(f"Có lỗi xảy ra: {str(e)}")

Số mục ban đầu: 80
Số mục sau khi lọc: 80
Đã lưu kết quả vào: D:/IE104.P11.CNVN/web_wibu_react/src/data_and_source/Novel_Data/filtered_hako_data.json


Xoá "chương X" của name

In [7]:
import re
import json

def clean_chapter_name(name):
    # Remove "Chương x" or "chương x" pattern where x is any number
    cleaned = re.sub(r'[Cc]hương\s+\d+:\s*', '', name)
    cleaned = re.sub(r'[Cc]hương\s+\d+\s*', '', cleaned)
    cleaned = re.sub(r'[Cc]hapter\s+\d+:\s*', '', cleaned)
    cleaned = re.sub(r'[Cc]hap\s+\d+:\s*', '', cleaned)
    cleaned = re.sub(r'^:\s*', '', cleaned)
    return cleaned.strip()

def process_novel_data(data):
    for novel in data.values():
        if 'chapters' in novel:
            for chapter in novel['chapters'].values():
                if 'name' in chapter:
                    chapter['name'] = clean_chapter_name(chapter['name'])
    return data

# Read the JSON file
with open('novels_chapters.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Process the data
processed_data = process_novel_data(data)

# Save the processed data
with open('novels_chapters.json', 'w', encoding='utf-8') as f:
    json.dump(processed_data, f, ensure_ascii=False, indent=4)

In [8]:
import re

def extract_chapter_number(path):
    match = re.search(r'c(\d+)-', path)
    if match:
        return int(match.group(1))
    return 0

def sort_chapters(novel_data):
    for novel in novel_data.values():
        if 'chapters' in novel:
            # Lấy danh sách chapters và sắp xếp theo số trong path
            chapters_list = list(novel['chapters'].items())
            sorted_content = sorted(
                [(k, v) for k, v in chapters_list],
                key=lambda x: extract_chapter_number(x[1]['path'])
            )
            
            # Tạo dict mới với key giữ nguyên nhưng content đã sắp xếp
            new_chapters = {}
            for i, (original_key, _) in enumerate(chapters_list):
                new_chapters[original_key] = sorted_content[i][1]
                
            novel['chapters'] = new_chapters
    return novel_data

# Đọc file JSON
with open('novels_chapters.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Sắp xếp chapters
sorted_data = sort_chapters(data)

# Lưu file JSON
with open('novels_chapters.json', 'w', encoding='utf-8') as f:
    json.dump(sorted_data, f, ensure_ascii=False, indent=4)

In [9]:
def sort_chapters(novel_data):
    for novel in novel_data.values():
        if 'chapters' in novel:
            # Sắp xếp chapters theo số trong path
            chapters_list = list(novel['chapters'].items())
            sorted_content = sorted(
                [(k, v) for k, v in chapters_list],
                key=lambda x: extract_chapter_number(x[1]['path'])
            )
            
            # Tạo dict mới với key từ 1 đến n
            new_chapters = {}
            for i, (_, chapter_data) in enumerate(sorted_content, 1):
                new_chapters[str(i)] = chapter_data
                
            novel['chapters'] = new_chapters
    return novel_data

# Đọc file JSON
with open('novels_chapters.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Sắp xếp và đánh số lại chapters
sorted_data = sort_chapters(data)

# Lưu file JSON
with open('novels_chapters.json', 'w', encoding='utf-8') as f:
    json.dump(sorted_data, f, ensure_ascii=False, indent=4)

In [16]:
def is_empty_chapter(name):
    # Check if chapter name is empty or only whitespace
    return not name.strip()

def filter_empty_chapters(novel_data):
    empty_chapters_data = {}
    
    for novel_title, novel in novel_data.items():
        if 'chapters' in novel:
            # Filter empty chapters while preserving original keys
            empty_chapters = {
                k: v for k, v in novel['chapters'].items() 
                if is_empty_chapter(v['name'])
            }
            
            # Only add novel if it has empty chapters
            if empty_chapters:
                empty_chapters_data[novel_title] = {
                    **novel,  # Copy all novel data
                    'chapters': empty_chapters  # Override chapters with empty ones
                }
    
    return empty_chapters_data

# Read original JSON
with open('novels_chapters.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Filter empty chapters
empty_data = filter_empty_chapters(data)

# Save to new JSON file
with open('empty_chapters.json', 'w', encoding='utf-8') as f:
    json.dump(empty_data, f, ensure_ascii=False, indent=4)

In [15]:
import os
import json
from bs4 import BeautifulSoup

def get_chapter_name_from_html(html_path):
    try:
        with open(html_path, 'r', encoding='utf-8') as f:
            soup = BeautifulSoup(f, 'html.parser')
            title = soup.title.string
            parts = [p.strip() for p in title.split('-')]
            if len(parts) >= 3:
                return parts[2]
    except Exception as e:
        print(f"Lỗi đọc file {html_path}: {str(e)}")
    return None

def update_chapter_names(json_data, base_path):
    total_empty = 0
    total_filled = 0
    
    for novel_name, novel_data in json_data.items():
        empty_chapters = []
        filled_chapters = []
        
        if 'chapters' in novel_data:
            print(f"\n=== Xử lý truyện: {novel_name} ===")
            
            for chapter_key, chapter in novel_data['chapters'].items():
                if not chapter['name']:
                    total_empty += 1
                    html_path = os.path.join(base_path, chapter['path'])
                    print(f"\nChapter {chapter_key}:")
                    print(f"- Path: {chapter['path']}")
                    
                    if os.path.exists(html_path):
                        chapter_name = get_chapter_name_from_html(html_path)
                        if chapter_name:
                            chapter['name'] = chapter_name
                            filled_chapters.append(chapter_key)
                            total_filled += 1
                            print(f"✓ Đã thêm tên: {chapter_name}")
                        else:
                            empty_chapters.append(chapter_key)
                            print("✗ Không lấy được tên")
                    else:
                        empty_chapters.append(chapter_key)
                        print("✗ Không tìm thấy file HTML")
            
            if empty_chapters or filled_chapters:
                print(f"\nKết quả xử lý {novel_name}:")
                if filled_chapters:
                    print(f"- Đã thêm tên: {len(filled_chapters)} chapter")
                if empty_chapters:
                    print(f"- Còn thiếu: {len(empty_chapters)} chapter")
    
    print("\n=== Tổng kết ===")
    print(f"Tổng số chapter thiếu tên: {total_empty}")
    print(f"Đã thêm được: {total_filled}")
    print(f"Còn thiếu: {total_empty - total_filled}")
    
    return json_data

# Đọc file JSON
with open('empty_chapters.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Cập nhật tên chapter
base_path = "D:/IE104.P11.CNVN/truyen_filtered"
updated_data = update_chapter_names(data, base_path)

# Lưu file JSON
with open('empty_chapters.json', 'w', encoding='utf-8') as f:
    json.dump(updated_data, f, ensure_ascii=False, indent=3)


=== Xử lý truyện: accel world ===

Chapter 1:
- Path: accel world\c5483-chuong-1.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 3:
- Path: accel world\c5485-chuong-2.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 4:
- Path: accel world\c5486-chuong-3.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 5:
- Path: accel world\c5487-chuong-4.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 6:
- Path: accel world\c5488-chuong-5.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 7:
- Path: accel world\c5489-chuong-6.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 8:
- Path: accel world\c5490-chuong-7.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 9:
- Path: accel world\c5491-chuong-8.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 10:
- Path: accel world\c5492-chuong-9.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 12:
- Path: accel world\c5494-chuong-1.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 13:
- Path: accel world\c5495-chuong-2.html
✓ Đã thêm tên: Cổng Light Novel

Chapter 14:
- Path: accel world\c5496