In [8]:
import csv

def kiem_tra_do_dai_csv(duong_dan_file_csv):
    """
    Đọc file CSV và kiểm tra độ dài chuỗi trong cột "input:" và "output:".

    Args:
        duong_dan_file_csv (str): Đường dẫn đến file CSV.

    Returns:
        list: Một danh sách các thông báo lỗi.  Mỗi thông báo lỗi là một tuple
              (so_dong, cot, do_dai_thuc_te, chuoi_ngan).  Trả về danh sách rỗng nếu không có lỗi.
    """

    cac_loi = []

    try:
        with open(duong_dan_file_csv, 'r', encoding='utf-8') as file_csv:
            doc_csv = csv.DictReader(file_csv)
            for so_dong, dong in enumerate(doc_csv, start=2):  # Bắt đầu từ dòng 2 (bỏ qua header)
                try:
                    input_text = dong.get('input:')
                    output_text = dong.get('output:')

                    if input_text is not None and len(input_text) > 40000:
                        chuoi_ngan = input_text[:50]
                        cac_loi.append((so_dong, 'input:', len(input_text), chuoi_ngan))
                    
                    if output_text is not None and len(output_text) > 5000:
                        chuoi_ngan = output_text[:50]
                        cac_loi.append((so_dong, 'output:', len(output_text), chuoi_ngan))
                
                except Exception as e:
                    print(f"Lỗi khi xử lý dòng {so_dong}: {e}")
                    cac_loi.append((so_dong, 'Lỗi xử lý dòng', str(e), ""))  # Thêm thông tin lỗi vào danh sách

    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file CSV tại '{duong_dan_file_csv}'.")
        return [("File", "Không tìm thấy file", duong_dan_file_csv, "")] #Trả về một list với thông báo lỗi

    except Exception as e:
        print(f"Lỗi không xác định khi đọc file CSV: {e}")
        return [("File", "Lỗi đọc file", str(e), "")]

    return cac_loi


# Ví dụ sử dụng
duong_dan_file = './extract_infor.csv'  # Thay đổi đường dẫn file của bạn ở đây
cac_loi = kiem_tra_do_dai_csv(duong_dan_file)

if cac_loi:
    print("Các dòng vượt quá độ dài cho phép:")
    for so_dong, cot, do_dai, chuoi_ngan in cac_loi:
        print(f"  - Dòng {so_dong}, cột '{cot}': Độ dài {do_dai}, 50 ký tự đầu: '{chuoi_ngan}'")
else:
    print("Không có dòng nào vượt quá độ dài cho phép.")

Các dòng vượt quá độ dài cho phép:
  - Dòng 7, cột 'output:': Độ dài 5120, 50 ký tự đầu: '{
  "Conference dates": "March 31 - April 2, 2025"'


In [15]:
import csv
import json

def kiem_tra_csv_va_json(duong_dan_file_csv, context_size=50):
    """
    Đọc file CSV, kiểm tra xem cột "output:" có phải là JSON hợp lệ hay không,
    và log dòng lỗi ra cùng với context xung quanh vị trí lỗi.

    Args:
        duong_dan_file_csv (str): Đường dẫn đến file CSV.
        context_size (int): Số lượng ký tự trước và sau vị trí lỗi để hiển thị.

    Returns:
        list: Một danh sách các thông báo lỗi. Mỗi thông báo lỗi là một tuple
              (so_dong, cot, thong_tin_loi). Trả về danh sách rỗng nếu không có lỗi.
    """

    cac_loi = []

    try:
        with open(duong_dan_file_csv, 'r', encoding='utf-8') as file_csv:
            doc_csv = csv.DictReader(file_csv)
            for so_dong, dong in enumerate(doc_csv, start=2):  # Bắt đầu từ dòng 2 (bỏ qua header)
                try:
                    input_text = dong.get('input:')
                    output_text = dong.get('output:')

                    # Kiểm tra JSON
                    if output_text is not None:
                        try:
                            json.loads(output_text)
                        except json.JSONDecodeError as e:
                            # Log dòng lỗi ra và context
                            position = e.pos
                            start = max(0, position - context_size)
                            end = min(len(output_text), position + context_size)
                            context = output_text[start:end]

                            print(f"Lỗi JSON ở dòng {so_dong}: {e}")
                            print(f"Vị trí lỗi: {position}")
                            print(f"Context: ...{context}...")
                            cac_loi.append((so_dong, 'output:', f"Lỗi JSON: {e}"))


                except Exception as e:
                    print(f"Lỗi khi xử lý dòng {so_dong}: {e}")
                    cac_loi.append((so_dong, 'Lỗi xử lý dòng', str(e)))  # Thêm thông tin lỗi vào danh sách

    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file CSV tại '{duong_dan_file_csv}'.")
        return [("File", "Không tìm thấy file", duong_dan_file_csv)]  # Trả về một list với thông báo lỗi

    except Exception as e:
        print(f"Lỗi không xác định khi đọc file CSV: {e}")
        return [("File", "Lỗi đọc file", str(e))]

    return cac_loi


# Ví dụ sử dụng
duong_dan_file = './fine_tune_extract_infor.csv'  # Thay đổi đường dẫn file của bạn ở đây
cac_loi = kiem_tra_csv_va_json(duong_dan_file)

if cac_loi:
    print("Các lỗi được tìm thấy:")
    for so_dong, cot, thong_tin_loi in cac_loi:
        print(f"  - Dòng {so_dong}, cột '{cot}': {thong_tin_loi}")
else:
    print("Không có lỗi nào được tìm thấy.")

Không có lỗi nào được tìm thấy.


In [1]:
import requests

API_KEY = "AIzaSyDK5eYs2PBVYP3l9UH0YMIFshxBMq6EsE8"  # API Key từ Google Cloud
CX = "45ff1f0418c594bde"  # Search Engine ID từ Google Custom Search Engine
query = "ACS/IEEE International Conference on Computer Systems and Applications (AICCSA) conference 2025 OR 2026 OR 2024"
# or_terms = "2024 OR 2025"

url = f"https://www.googleapis.com/customsearch/v1?q={query}&key={API_KEY}&cx={CX}"

response = requests.get(url)
data = response.json()
# print(data)

# In kết quả tìm kiếm
for item in data.get("items", []):
    print(f"Title: {item['title']}")
    print(f"Link: {item['link']}")
    print(f"Snippet: {item['snippet']}\n")



Title: ACS/IEEE - AICCSA2024
Link: https://aiccsa.net/AICCSA2024/
Snippet: The ACS/IEEE 21st International Conference on Computer Systems and Applications (AICCSA 2024) · 22-26 October 2024 – Sousse, Tunisia.

Title: Proceedings ACS/IEEE International Conference on Computer ...
Link: https://ieeexplore.ieee.org/xpl/conhome/7431/proceeding
Snippet: Read all the papers in Proceedings ACS/IEEE International Conference on Computer Systems and Applications | IEEE Conference | IEEE Xplore.

Title: AICCSA – ACS/IEEE
Link: https://aiccsa.net/
Snippet: The ACS/IEEE International Conference on Computer Systems and Applications (AICCSA) is the premier research conference on computing in the Arab region. It is co ...

Title: AICCSA: ACS/IEEE International Conference on Computer Systems ...
Link: http://www.wikicfp.com/cfp/program?id=98
Snippet: AICCSA: ACS/IEEE International Conference on Computer Systems and Applications 2026 2025 2024 ...

Title: NIST Leaders Address the 21st International ACS/I

In [None]:
import requests
import json

API_KEY = "AIzaSyDK5eYs2PBVYP3l9UH0YMIFshxBMq6EsE8"  # Thay thế bằng API Key của bạn từ Google Cloud
CX = "45ff1f0418c594bde"  # Thay thế bằng Search Engine ID của bạn từ Google Custom Search Engine
ISSN = "1471-0080"
# query = f'"{ISSN}"'  # Tìm kiếm chính xác ISSN.  Dấu ngoặc kép để tìm chính xác.
query = ISSN # Tìm chính xác ISSN

# Thêm các tham số cho tìm kiếm hình ảnh
url = f"https://www.googleapis.com/customsearch/v1?q={query}&key={API_KEY}&cx={CX}&searchType=image"

try:
    response = requests.get(url)
    response.raise_for_status()  # Raises HTTPError for bad requests (4xx or 5xx)
    data = response.json()

    # In kết quả tìm kiếm hình ảnh
    if "items" in data:
        for item in data["items"]:
            print(f"Title: {item.get('title', 'No title')}")  # Xử lý trường hợp không có tiêu đề
            print(f"Image Link: {item.get('link', 'No link')}") # Lấy link ảnh
            print(f"Context Link: {item.get('image', {}).get('contextLink', 'No context link')}") # link trang chứa ảnh (nếu cần)
            print(f"Snippet: {item.get('snippet', 'No snippet')}\n")
    else:
        print("No image results found.")


except requests.exceptions.RequestException as e:
    print(f"An error occurred: {e}")
    if response:
        print(f"Status code: {response.status_code}")
        try:
            print(f"Response content: {response.json()}")  # In nội dung JSON nếu có
        except json.JSONDecodeError:
            print(f"Response content (not JSON): {response.text}")
except Exception as e:
      print(f"An unexpected error: {e}")

In [None]:
import pandas as pd
import os # Thêm thư viện os để kiểm tra file tồn tại

# --- Cấu hình ---
evaluate_file = './evaluate_all.csv'
crawl_again_file = './crawl_again.csv'
output_file = './evaluate_updated.csv' # Lưu vào file mới để tránh ghi đè file gốc khi chưa chắc chắn
# Nếu muốn ghi đè trực tiếp file evaluate.csv, đổi output_file = evaluate_file

# --- Kiểm tra sự tồn tại của file ---
if not os.path.exists(evaluate_file):
    print(f"Lỗi: Không tìm thấy file '{evaluate_file}'")
    exit()
if not os.path.exists(crawl_again_file):
    print(f"Lỗi: Không tìm thấy file '{crawl_again_file}'")
    exit()

print(f"Đang đọc file '{evaluate_file}'...")
try:
    df_evaluate = pd.read_csv(evaluate_file)
except Exception as e:
    print(f"Lỗi khi đọc file '{evaluate_file}': {e}")
    exit()

print(f"Đang đọc file '{crawl_again_file}'...")
try:
    df_crawl_again = pd.read_csv(crawl_again_file)
except Exception as e:
    print(f"Lỗi khi đọc file '{crawl_again_file}': {e}")
    exit()

# --- Kiểm tra các cột cần thiết ---
required_columns = ['title', 'acronym']
if not all(col in df_evaluate.columns for col in required_columns):
    print(f"Cảnh báo: File '{evaluate_file}' có thể thiếu cột 'title' hoặc 'acronym'.")
    # Không exit() để cố gắng xử lý nếu cột vẫn tồn tại trong file kia
if not all(col in df_crawl_again.columns for col in required_columns):
    print(f"Lỗi: File '{crawl_again_file}' thiếu cột 'title' hoặc 'acronym'. Không thể tiến hành khớp.")
    exit()

# --- Chuẩn hóa cột 'title' và 'acronym' trong cả hai DataFrame ---
print("Chuẩn hóa cột 'title' và 'acronym' (loại bỏ '(...)' và khoảng trắng thừa)...")

regex_pattern = r'\s*\(.*\)\s*' # Regex để xóa (...) và khoảng trắng xung quanh
columns_to_clean = ['title', 'acronym']
dfs_to_clean = {'evaluate': df_evaluate, 'crawl_again': df_crawl_again}

for df_name, df in dfs_to_clean.items():
    print(f"  - Đang xử lý file '{df_name}.csv'")
    for col in columns_to_clean:
        if col in df.columns:
            # 1. Xử lý NaN và chuyển thành string
            df[col] = df[col].fillna('').astype(str)
            # 2. Loại bỏ (...)
            df[col] = df[col].str.replace(regex_pattern, '', regex=True)
            # 3. Dọn dẹp khoảng trắng
            df[col] = df[col].str.replace(r'\s+', ' ', regex=True).str.strip()
            print(f"    - Đã làm sạch cột '{col}'")
        elif df_name == 'crawl_again': # Chỉ báo lỗi nếu cột thiếu trong crawl_again
             print(f"    - Lỗi: Cột '{col}' không tìm thấy trong {df_name}.csv.")
             exit()
        else: # Chỉ cảnh báo nếu cột thiếu trong evaluate
             print(f"    - Cảnh báo: Cột '{col}' không tìm thấy trong {df_name}.csv.")


# --- Đảm bảo các cột dùng để join là kiểu string sau khi làm sạch ---
# (Quan trọng để tránh lỗi khớp loại dữ liệu)
try:
    df_evaluate['title'] = df_evaluate['title'].astype(str)
    df_evaluate['acronym'] = df_evaluate['acronym'].astype(str)
    df_crawl_again['title'] = df_crawl_again['title'].astype(str)
    df_crawl_again['acronym'] = df_crawl_again['acronym'].astype(str)
except KeyError as e:
    print(f"Lỗi: Không tìm thấy cột '{e}' sau khi cố gắng chuẩn hóa. Kiểm tra lại tên cột.")
    exit()

print("Đang tiến hành cập nhật dữ liệu...")

# Tạo bản sao của df_evaluate để cập nhật, hoặc cập nhật trực tiếp
# Cập nhật trực tiếp df_evaluate trong trường hợp này là ổn
# df_updated = df_evaluate.copy() # Không cần thiết nếu cập nhật inplace

# Đặt 'title' và 'acronym' (đã chuẩn hóa) làm index để khớp hiệu quả
# drop=False giữ lại các cột title/acronym trong DataFrame sau khi set index
# verify_integrity=False cho phép index không duy nhất
try:
    # Quan trọng: Đặt index cho df_evaluate *trước* khi cập nhật
    df_evaluate.set_index(['title', 'acronym'], inplace=True, drop=False, verify_integrity=False)
    df_crawl_again.set_index(['title', 'acronym'], inplace=True, drop=False, verify_integrity=False)
except KeyError as e:
     print(f"Lỗi: Không tìm thấy cột để đặt làm index: {e}")
     # Reset index nếu bước trước đó gây lỗi, tránh trạng thái không nhất quán
     df_evaluate.reset_index(drop=True, inplace=True, errors='ignore')
     df_crawl_again.reset_index(drop=True, inplace=True, errors='ignore')
     exit()
except Exception as e:
     print(f"Lỗi không xác định khi đặt index: {e}")
     df_evaluate.reset_index(drop=True, inplace=True, errors='ignore')
     df_crawl_again.reset_index(drop=True, inplace=True, errors='ignore')
     exit()

# Lấy danh sách các cột từ df_crawl_again để đảm bảo cập nhật đúng các cột
update_columns = df_crawl_again.columns

# Biến đếm số dòng đã cập nhật
updated_rows_count = 0
processed_crawl_rows = 0

# Duyệt qua từng dòng trong df_crawl_again (đã chuẩn hóa và có index)
for index, row_crawl in df_crawl_again.iterrows():
    processed_crawl_rows += 1
    # Index bây giờ là tuple (cleaned_title, cleaned_acronym)
    if index in df_evaluate.index:
        # Nếu tìm thấy index trong df_evaluate
        # Cập nhật toàn bộ các cột có trong df_crawl_again cho dòng tương ứng trong df_evaluate
        # Sử dụng .loc để truy cập và gán giá trị theo index
        # row_crawl đã chứa dữ liệu đã chuẩn hóa title/acronym
        try:
            # Gán trực tiếp vào df_evaluate vì nó đã được set_index
            df_evaluate.loc[index, update_columns] = row_crawl[update_columns].values
            # Nếu có nhiều dòng trùng index trong df_evaluate, tất cả sẽ được cập nhật
            # Đếm số lượng dòng thực sự bị ảnh hưởng trong df_evaluate
            # Lưu ý: .loc[index] có thể trả về Series hoặc DataFrame nếu index trùng lặp
            if isinstance(df_evaluate.loc[index], pd.DataFrame):
                updated_rows_count += len(df_evaluate.loc[index])
            else:
                 updated_rows_count += 1 # Chỉ có 1 dòng được cập nhật cho index này
            # print(f"Đã cập nhật: Title='{index[0]}', Acronym='{index[1]}'")
        except Exception as e:
            print(f"Lỗi khi cập nhật index {index}: {e}")
            # Có thể thêm xử lý lỗi cụ thể hơn ở đây nếu cần
    # else:
        # print(f"Không tìm thấy để cập nhật: Title='{index[0]}', Acronym='{index[1]}'")

# Cần điều chỉnh lại cách đếm vì cách trên có thể đếm lặp nếu crawl_again có trùng index
# Đếm lại sau khi cập nhật xong thì chính xác hơn, nhưng cách trên cho ước lượng
print(f"Đã xử lý {processed_crawl_rows} dòng từ '{crawl_again_file}'.")
# Cách đếm chính xác hơn: so sánh df gốc và df sau cập nhật, nhưng phức tạp.
# Thông báo dựa trên số lần gọi gán giá trị có thể chấp nhận được.
print(f"Đã thực hiện {updated_rows_count} lượt cập nhật dòng (có thể bao gồm các dòng trùng lặp trong evaluate.csv).")


# Đặt lại index về dạng số thứ tự mặc định cho df_evaluate
df_evaluate.reset_index(drop=True, inplace=True)

# --- Lưu kết quả ---
print(f"Đang lưu kết quả vào file '{output_file}'...")
try:
    # index=False để không ghi cột index của pandas vào file CSV
    df_evaluate.to_csv(output_file, index=False, encoding='utf-8')
    print("Hoàn thành!")
except Exception as e:
    print(f"Lỗi khi lưu file '{output_file}': {e}")

Đang đọc file './evaluate_all.csv'...
Đang đọc file './crawl_again.csv'...
Đang tiến hành cập nhật dữ liệu...
Đã tìm thấy và cập nhật 76 dòng.
Đang lưu kết quả vào file './evaluate_updated.csv'...
Hoàn thành!


In [2]:
import pandas as pd
import numpy as np # Cần thiết để xử lý giá trị NaN

# --- Cấu hình ---
excel_file_path = './du_lieu_hoi_nghi.xlsx'  # Thay bằng đường dẫn file Excel của bạn
csv_file_path = './input_conferences.csv'    # Thay bằng đường dẫn file CSV đầu vào của bạn
# Đổi tên file output để phân biệt
output_csv_path = './ket_qua_so_sanh_link_full_v4.csv'

# --- Đọc dữ liệu ---
try:
    # Đọc file Excel (giữ nguyên như phiên bản trước)
    df_excel = pd.read_excel(
        excel_file_path,
        usecols=[0, 1, 2], # Cột 1, Cột 2, Cột 3 (0-based index)
        header=0
    )
    df_excel.columns = ['name_excel', 'acronym_excel', 'link_cu_raw']

    # ----- THAY ĐỔI Ở ĐÂY -----
    # Đọc file CSV - Đọc TẤT CẢ các cột
    df_csv = pd.read_csv(csv_file_path)
    # Lưu lại danh sách các cột gốc từ CSV (trừ những cột sẽ được xử lý riêng)
    original_csv_columns = list(df_csv.columns)
    base_columns_to_handle = ['name', 'acronym', 'link']
    extra_csv_columns = [col for col in original_csv_columns if col not in base_columns_to_handle]

    # Đổi tên cột link trong CSV
    df_csv.rename(columns={'link': 'link_moi'}, inplace=True)

    print("Đọc file Excel và CSV thành công.")
    print(f"Các cột bổ sung từ CSV sẽ được giữ lại: {extra_csv_columns}")

except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy một trong các file:\n- Excel: {excel_file_path}\n- CSV: {csv_file_path}")
    exit()
except ValueError as e:
    print(f"Lỗi: Có vẻ cột trong file không đúng như mong đợi. Chi tiết: {e}")
    print("Hãy đảm bảo file Excel có ít nhất 3 cột và file CSV có các cột cơ bản 'name', 'acronym', 'link'.")
    exit()
except Exception as e:
    print(f"Lỗi không xác định khi đọc file: {e}")
    exit()

# --- Chuẩn bị dữ liệu để khớp ---
# Làm sạch cột tên hội nghị
df_excel['name_excel'] = df_excel['name_excel'].astype(str).str.strip()
df_csv['name'] = df_csv['name'].astype(str).str.strip()

# --- Hàm xử lý và làm sạch danh sách link từ Excel ---
def clean_excel_links(link_string):
    if pd.isna(link_string):
        return []
    links = [link.strip() for link in str(link_string).split(',') if link.strip()]
    return links

# --- Làm sạch link mới từ CSV ---
def clean_csv_link(link):
    if pd.isna(link):
        return None
    return str(link).strip()

# Áp dụng hàm làm sạch link mới
df_csv['link_moi_cleaned'] = df_csv['link_moi'].apply(clean_csv_link)
df_csv['link_moi_cleaned'].replace('', None, inplace=True)

print("Làm sạch dữ liệu tên và link.")

# --- Gộp (Merge) hai DataFrame ---
# Merge vẫn dựa trên 'name' và 'name_excel'
# Outer join để giữ tất cả các dòng ban đầu
# merged_df sẽ chứa tất cả các cột từ df_csv và các cột từ df_excel
merged_df = pd.merge(
    df_csv, # df_csv giờ chứa tất cả các cột gốc
    df_excel,
    left_on='name',
    right_on='name_excel',
    how='outer',
    indicator=True
)

print("Gộp dữ liệu từ hai file.")

# --- Xử lý kết quả sau khi gộp ---
results = []
processed_count = 0
for index, row in merged_df.iterrows():
    if row['_merge'] == 'right_only':
        continue # Bỏ qua các dòng chỉ có trong file Excel

    processed_count += 1
    # Lấy link mới đã được làm sạch
    link_moi_sach = row['link_moi_cleaned']
    # Lấy và xử lý danh sách link cũ từ Excel
    link_cu_raw_value = row['link_cu_raw'] # Giá trị gốc từ Excel
    link_cu_list_sach = clean_excel_links(link_cu_raw_value)

    # Xác định trạng thái kiểm tra link
    check_status = ''
    found_match = False

    if row['_merge'] == 'both':
        if link_moi_sach is not None:
            for link_cu_item in link_cu_list_sach:
                if link_moi_sach == link_cu_item:
                    found_match = True
                    break
            if found_match:
                check_status = 'Giống'
            elif not link_cu_list_sach:
                 check_status = 'Khác (link cũ thiếu/trống)'
            else:
                check_status = 'Khác'
        elif not link_cu_list_sach:
             check_status = 'Thiếu cả 2 link'
        else:
             check_status = 'Khác (link mới thiếu)'

    elif row['_merge'] == 'left_only':
        check_status = 'Mới (chỉ có trong CSV)'
        link_cu_raw_value = None # Đảm bảo link cũ là rỗng cho dòng mới

    # ----- THAY ĐỔI Ở ĐÂY -----
    # Tạo dictionary chứa các cột cơ bản và cột check
    result_dict = {
        'name': row['name'] if pd.notna(row['name']) else row['name_excel'],
        'acronym': row['acronym'] if pd.notna(row['acronym']) else row['acronym_excel'],
        'link_cu': str(link_cu_raw_value) if pd.notna(link_cu_raw_value) else '',
        'link_moi': str(row['link_moi']) if pd.notna(row['link_moi']) else '', # Hiển thị link_moi gốc
        'check': check_status
    }

    # Thêm tất cả các cột bổ sung từ file CSV gốc vào dictionary
    # Giá trị được lấy trực tiếp từ `row` của merged_df
    for col_name in extra_csv_columns:
        result_dict[col_name] = row[col_name]

    results.append(result_dict)

print(f"Đã xử lý {processed_count} dòng (bao gồm cả dòng mới từ CSV).")

# --- Tạo DataFrame kết quả cuối cùng ---
# Xác định thứ tự cột mong muốn cho file output
# Bắt đầu bằng các cột đã xử lý, tiếp theo là các cột bổ sung từ CSV gốc
output_column_order = [
    'name', 'acronym', 'link_cu', 'link_moi', 'check'
] + extra_csv_columns

# Tạo DataFrame từ danh sách các dictionary
# Chỉ định `columns` để đảm bảo đúng thứ tự
df_output = pd.DataFrame(results, columns=output_column_order)

# --- Xử lý giá trị NaN/None trong DataFrame kết quả ---
df_output.fillna('', inplace=True)

print("Tạo DataFrame kết quả với đầy đủ cột hoàn tất.")

# --- Ghi kết quả ra file CSV mới ---
try:
    df_output.to_csv(output_csv_path, index=False, encoding='utf-8-sig')
    print(f"Hoàn thành! Kết quả đã được ghi vào file: {output_csv_path}")
except Exception as e:
    print(f"Lỗi khi ghi file CSV đầu ra: {e}")

Đọc file Excel và CSV thành công.
Các cột bổ sung từ CSV sẽ được giữ lại: ['cfpLink', 'impLink', 'source', 'rank', 'rating', 'fieldOfResearch', 'information', 'conferenceDates', 'year', 'location', 'cityStateProvince', 'country', 'continent', 'type', 'submissionDate', 'notificationDate', 'cameraReadyDate', 'registrationDate', 'otherDate', 'topics', 'publisher', 'summary', 'callForPapers']
Làm sạch dữ liệu tên và link.
Gộp dữ liệu từ hai file.
Đã xử lý 923 dòng (bao gồm cả dòng mới từ CSV).
Tạo DataFrame kết quả với đầy đủ cột hoàn tất.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_csv['link_moi_cleaned'].replace('', None, inplace=True)


Hoàn thành! Kết quả đã được ghi vào file: ./ket_qua_so_sanh_link_full_v4.csv
