# Remove ArXiv (CoRR) Entries from DBLP .bib Files


In [6]:
# Giả định dùng DBLP export file bib

import bibtexparser
from bibtexparser.bwriter import BibTexWriter
from bibtexparser.bibdatabase import BibDatabase

# 1. Đọc file BibTeX đầu vào
input_file = 'TranVietKhoaDBLP.bib'  # Tên file bib gốc của bạn
output_file = 'cleaned_TranVietKhoa.bib' # Tên file sau khi lọc

with open(input_file, encoding='utf-8') as bibtex_file:
    bib_database = bibtexparser.load(bibtex_file)

print(f"Tổng số bài ban đầu: {len(bib_database.entries)}")

# 2. Lọc bỏ các bài CoRR
# Logic: Giữ lại bài nếu TRƯỜNG 'journal' KHÁC 'CoRR'
filtered_entries = []
removed_count = 0

for entry in bib_database.entries:
    # Kiểm tra xem có trường journal không, và nó có phải CoRR không
    # DBLP luôn ghi chính xác là journal = {CoRR}
    is_corr = False
    
    if 'journal' in entry:
        if entry['journal'].strip() == 'CoRR' or entry['journal'].strip() == '{CoRR}':
            is_corr = True
            
    # Kiểm tra thêm ID nếu cần (đề phòng trường journal bị thiếu)
    if 'ID' in entry and 'journals/corr/' in entry['ID']:
        is_corr = True

    if not is_corr:
        filtered_entries.append(entry)
    else:
        removed_count += 1
        print(f"Đã xóa: {entry.get('ID', 'Unknown')}") # Bỏ comment nếu muốn xem bài nào bị xóa

# 3. Cập nhật lại database và lưu ra file mới
bib_database.entries = filtered_entries

writer = BibTexWriter()
writer.indent = '  '     # Căn lề cho đẹp
writer.order_entries_by = ('year', 'author') # Sắp xếp lại (tùy chọn)

with open(output_file, 'w', encoding='utf-8') as bibtex_file:
    bibtex_file.write(writer.write(bib_database))

print(f"Đã xóa {removed_count} bài CoRR.")
print(f"Tổng số bài còn lại: {len(filtered_entries)}")
print(f"Đã lưu file sạch vào: {output_file}")

Tổng số bài ban đầu: 16
Đã xóa: DBLP:journals/corr/abs-2508-00287
Đã xóa: DBLP:journals/corr/abs-2407-04011
Đã xóa: DBLP:journals/corr/abs-2407-15603
Đã xóa: DBLP:journals/corr/abs-2409-04972
Đã xóa: DBLP:journals/corr/abs-2308-15804
Đã xóa: DBLP:journals/corr/abs-2203-11076
Đã xóa: DBLP:journals/corr/abs-2203-14633
Đã xóa: DBLP:journals/corr/abs-2112-00988
Đã xóa 8 bài CoRR.
Tổng số bài còn lại: 8
Đã lưu file sạch vào: cleaned_TranVietKhoa.bib
