In [1]:
import csv
import pandas as pd
from fuzzywuzzy import fuzz 

def check_if_exists_with_fuzzy_matching(title, tag, content, file_path, threshold=80):
    """Checks if the given input values exist in a large CSV or XLSX file,
    using fuzzy matching to handle potential variations in the data.

    Args:
        title (str): The title to check.
        tag (str): The tag to check.
        content (str): The content to check.
        file_path (str): The path to the CSV or XLSX file.
        threshold (int): The minimum similarity score for fuzzy matching (default: 80).

    Returns:
        bool: True if matching values are found in the file, False otherwise.
        label (int): groundtruth label in the database
    """

    try:
        if file_path.endswith(".csv"):
            for chunk in pd.read_csv(file_path, chunksize=100000):
                for index, row in chunk.iterrows():
                    if (fuzz.ratio(row['Title'], title) >= threshold and
                        fuzz.ratio(row['Tag'], tag) >= threshold and
                        fuzz.ratio(row['Content'], content) >= threshold):
                        return True, row['Label']
        else:
            df = pd.read_excel(file_path, engine='openpyxl')
            for index, row in df.iterrows():
                if (fuzz.ratio(row['Title'], title) >= threshold and
                    fuzz.ratio(row['Tag'], tag) >= threshold and
                    fuzz.ratio(row['Content'], content) >= threshold):
                    return True, row['Label']
                
        return False

    except (FileNotFoundError, pd.errors.EmptyDataError) as e:
        print(f"Error: {e}")
        return False



In [2]:
news_title = "Title: 4 ôtô của cư dân ở Sài Gòn bị mang đi cầm"
news_tag = "Tag: Pháp luật"
news_content = """Content: 4 ôtô của cư dân ở Sài Gòn bị mang đi cầm
Cư dân ở quận 3, TP HCM, phát hiện 2 ôtô Mercedes và 2 chiếc khác gửi trong tầng giữ xe bị đem đi cầm cố tại tỉnh Bình Dương.
Ba hôm trước, một số người ở chung cư trên đường Trường Sa, quận 3, xuống lấy ôtô đi làm thì phát hiện 4 chiếc bị mất. Họ cho biết, do tầng giữ xe chật nên giao chìa khóa ôtô cho các bảo vệ để tiện di chuyển, xắp xếp. Ban quản trị chung cư cùng Công an quận 3 xác định trách nhiệm thuộc về công ty bảo vệ - đơn vị được thuê trông giữ xe.
Cảnh sát sau đó phát hiện những chiếc xe này được mang cầm cố tại chung cư ở phường Bình Chuẩn, TX Thuận An (tỉnh Bình Dương) và đã thu hồi.
Làm việc với cảnh sát, đại diện công ty bảo vệ cho biết, người từng làm Đội trưởng đội bảo vệ và điều xe tại chung cư này đã thừa nhận hành vi đem 4 ôtô đi cầm. Tuy nhiên, nghi can hiện không thể liên lạc.
Cơ quan điều tra đang truy tìm người này.
Nhật Vy
"""
path_data = "combined_offical_dataset.xlsx"
check_if_exists_with_fuzzy_matching(news_title, news_tag, news_content, path_data)

False