In [None]:
# Local Senstitve Hash (LSH)

import time
# Record the start time
start_time = time.time()

QA_dict = {
    "国家出台了哪些社区慈善基金相关的法规政策？": "在国家层面，支持社区慈善基金发展的法规有《中华人民共和国慈善法》、《慈善组织公开募捐管理办法》和《中共中央、国务院关于加强和完善城乡社区治理的意见》；政策有《“互联网+社会组织（社会工作、志愿服务）”行动方案（2018-2020）》。",
    "四川省出台了哪些社区慈善基金相关的法规政策？": "四川省目前出台的相关政策有《四川省“十四五”社区社会组织培育发展规划》。",
    "成都市出台了哪些社区慈善基金相关的法规政策？": "成都市出台的相关法规有《关于深入推进城乡社区发展治理建设高品质和谐宜居生活社区的意见》和《成都市促进慈善事业高质量发展若干规定》；制定的相关政策有《成都市“十四五”城乡社区发展治理规划》和《关于支持社区基金会高质量发展的八条措施》。",
    "什么是社区慈善基金？": "社区慈善基金，又称社区慈善基金、社区微基金、社区专项基金等，其本质都是建立在具有公募权的基金会或者其他类型慈善组织名下的专项基金，用于某个社区发展相关的事务，如社区弱势群体救助，社区公共事务，社区活动，公共空间打造等，以居民需求出发，在社区治理层面助力。",
    "筹建社区慈善基金的优势有哪些？": "社区慈善基金可以通过挂靠的具有公募权的慈善组织合法合规地去筹集资金，把资金用于社区困难群体救助、社区公共事务、社区发展治理等方向。社区慈善基金有效补充了社区资金的收入来源，能够从外界和社区内部合法合规地获取资源，充分动员一切可利用的慈善力量，为社区谋福祉。",
    "社区慈善基金承担了哪些功能？": "社区慈善基金是社区的一项收入来源，可以有效补充社区的财政收入，用于社区，服务社区，发展社区。",
    "社区慈善基金可以挂靠在哪些社会组织下？": "成都市范围内具有公募权的慈善组织，如成都市慈善总会，各个区的慈善总会、社区发展基金会等。",
    "社区慈善基金名称有何要求？": "根据成都市慈善总会的相关管理办法，设立在成都市慈善总会名下的社区慈善基金，一般情况下应当命名为成都市XX区XX街道（镇）XX社区（村）社区慈善微基金。",
    "社区可以做哪些努力扩大社区慈善基金的影响力？": "注重日常的宣传工作，开发社会及社区的慈善资源，创新筹款新方式，形成工作机制从而接待他人参访，都是扩大社区慈善基金影响力的重要手段。",
    "社区慈善基金管委会成员如何确定？人员构成是什么？": "由多方共同商议决定，综合考量候选人员的实际情况，社区发展需求，来确定人选，要注意确定的人选应符合民情民意。管委会成员应当包含社区工作人员及其他利益相关方，如捐款方代表和居民代表，其中社区工作人员作为最了解社区的人，管委会成员必须有他。"
}

query = ["什么是社区慈善基金？", "社区慈善基金承担了哪些功能？", "四川省出台了哪些社区慈善基金相关的法规政策？", "社区慈善基金可以挂靠在什么组织下？", "社区慈善基金管委会成员如何确定？"]

result = []

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# Generate hash functions
def generate_hash_func(dimensions):
    return np.random.randn(dimensions)

def hash_value(vector, hash_func):
    return 1 if np.dot(vector, hash_func) >= 0 else 0

# Generate hash table
def generate_hash_table(data, hash_func):
    hash_table = {}
    for i, vector in enumerate(data):
        hash_val = hash_value(vector, hash_func)
        if hash_val not in hash_table:
            hash_table[hash_val] = []
        hash_table[hash_val].append(i)
    return hash_table

# Nearest neighbor search
def nearest_neighbor(query, hash_table, data, hash_func):
    query_hash = hash_value(query, hash_func)
    if query_hash not in hash_table:
        return None
    else:
        candidates = hash_table[query_hash]
        nearest = min(candidates, key=lambda x: np.linalg.norm(data[x] - query))
        return nearest

def main(QA_dict, query):
    # Convert questions to vectors
    vectorizer = TfidfVectorizer().fit(QA_dict.keys())
    data = vectorizer.transform(QA_dict.keys()).toarray()
    query_vector = vectorizer.transform([query]).toarray()[0]

    # Generate hash function and hash table
    hash_func = generate_hash_func(data.shape[1])
    hash_table = generate_hash_table(data, hash_func)

    # Find the nearest question to the query
    nearest_idx = nearest_neighbor(query_vector, hash_table, data, hash_func)

    # Return the corresponding answer
    if nearest_idx is not None:
        nearest_question = list(QA_dict.keys())[nearest_idx]
        return QA_dict[nearest_question]
    else:
        return "Sorry, I couldn't find a similar question."

for item in query:
    result.append(main(QA_dict, item))

for i, (q, a) in enumerate(zip(query, result)):
    print("query test " + str(i + 1) + ":")
    print(q + ": " + a)

# Record the end time
end_time = time.time()
# Calculate the runtime
runtime = end_time - start_time
print("The runtime is", runtime, "seconds.")

In [None]:
# Cosine Similarity

import time
# Record the start time
start_time = time.time()

QA_dict = {
    "国家出台了哪些社区慈善基金相关的法规政策？": "在国家层面，支持社区慈善基金发展的法规有《中华人民共和国慈善法》、《慈善组织公开募捐管理办法》和《中共中央、国务院关于加强和完善城乡社区治理的意见》；政策有《“互联网+社会组织（社会工作、志愿服务）”行动方案（2018-2020）》。",
    "四川省出台了哪些社区慈善基金相关的法规政策？": "四川省目前出台的相关政策有《四川省“十四五”社区社会组织培育发展规划》。",
    "成都市出台了哪些社区慈善基金相关的法规政策？": "成都市出台的相关法规有《关于深入推进城乡社区发展治理建设高品质和谐宜居生活社区的意见》和《成都市促进慈善事业高质量发展若干规定》；制定的相关政策有《成都市“十四五”城乡社区发展治理规划》和《关于支持社区基金会高质量发展的八条措施》。",
    "什么是社区慈善基金？": "社区慈善基金，又称社区慈善基金、社区微基金、社区专项基金等，其本质都是建立在具有公募权的基金会或者其他类型慈善组织名下的专项基金，用于某个社区发展相关的事务，如社区弱势群体救助，社区公共事务，社区活动，公共空间打造等，以居民需求出发，在社区治理层面助力。",
    "筹建社区慈善基金的优势有哪些？": "社区慈善基金可以通过挂靠的具有公募权的慈善组织合法合规地去筹集资金，把资金用于社区困难群体救助、社区公共事务、社区发展治理等方向。社区慈善基金有效补充了社区资金的收入来源，能够从外界和社区内部合法合规地获取资源，充分动员一切可利用的慈善力量，为社区谋福祉。",
    "社区慈善基金承担了哪些功能？": "社区慈善基金是社区的一项收入来源，可以有效补充社区的财政收入，用于社区，服务社区，发展社区。",
    "社区慈善基金可以挂靠在哪些社会组织下？": "成都市范围内具有公募权的慈善组织，如成都市慈善总会，各个区的慈善总会、社区发展基金会等。",
    "社区慈善基金名称有何要求？": "根据成都市慈善总会的相关管理办法，设立在成都市慈善总会名下的社区慈善基金，一般情况下应当命名为成都市XX区XX街道（镇）XX社区（村）社区慈善微基金。",
    "社区可以做哪些努力扩大社区慈善基金的影响力？": "注重日常的宣传工作，开发社会及社区的慈善资源，创新筹款新方式，形成工作机制从而接待他人参访，都是扩大社区慈善基金影响力的重要手段。",
    "社区慈善基金管委会成员如何确定？人员构成是什么？": "由多方共同商议决定，综合考量候选人员的实际情况，社区发展需求，来确定人选，要注意确定的人选应符合民情民意。管委会成员应当包含社区工作人员及其他利益相关方，如捐款方代表和居民代表，其中社区工作人员作为最了解社区的人，管委会成员必须有他。"
}

query = ["什么是社区慈善基金？", "社区慈善基金承担了哪些功能？", "四川省出台了哪些社区慈善基金相关的法规政策？", "社区慈善基金可以挂靠在什么组织下？", "社区慈善基金管委会成员如何确定？"]

result = []

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

vectorizer = TfidfVectorizer().fit(list(QA_dict.keys()))

for q in query:
    vectorized_query = vectorizer.transform([q])
    vectorized_keys = vectorizer.transform(list(QA_dict.keys()))
    cosine_similarities = cosine_similarity(vectorized_query, vectorized_keys).flatten()
    best_match_idx = cosine_similarities.argsort()[-1]
    result.append(QA_dict[list(QA_dict.keys())[best_match_idx]])

for i, (q,a) in enumerate(zip(query, result)):
    print("query test " + str(i + 1) + ":")
    print(q + ": " + a)

# Record the end time
end_time = time.time()
# Calculate the runtime
runtime = end_time - start_time
print("The runtime is", runtime, "seconds.")

In [None]:
# Hamming Distance

import time
# Record the start time
start_time = time.time()

QA_dict = {
    "国家出台了哪些社区慈善基金相关的法规政策？": "在国家层面，支持社区慈善基金发展的法规有《中华人民共和国慈善法》、《慈善组织公开募捐管理办法》和《中共中央、国务院关于加强和完善城乡社区治理的意见》；政策有《“互联网+社会组织（社会工作、志愿服务）”行动方案（2018-2020）》。",
    "四川省出台了哪些社区慈善基金相关的法规政策？": "四川省目前出台的相关政策有《四川省“十四五”社区社会组织培育发展规划》。",
    "成都市出台了哪些社区慈善基金相关的法规政策？": "成都市出台的相关法规有《关于深入推进城乡社区发展治理建设高品质和谐宜居生活社区的意见》和《成都市促进慈善事业高质量发展若干规定》；制定的相关政策有《成都市“十四五”城乡社区发展治理规划》和《关于支持社区基金会高质量发展的八条措施》。",
    "什么是社区慈善基金？": "社区慈善基金，又称社区慈善基金、社区微基金、社区专项基金等，其本质都是建立在具有公募权的基金会或者其他类型慈善组织名下的专项基金，用于某个社区发展相关的事务，如社区弱势群体救助，社区公共事务，社区活动，公共空间打造等，以居民需求出发，在社区治理层面助力。",
    "筹建社区慈善基金的优势有哪些？": "社区慈善基金可以通过挂靠的具有公募权的慈善组织合法合规地去筹集资金，把资金用于社区困难群体救助、社区公共事务、社区发展治理等方向。社区慈善基金有效补充了社区资金的收入来源，能够从外界和社区内部合法合规地获取资源，充分动员一切可利用的慈善力量，为社区谋福祉。",
    "社区慈善基金承担了哪些功能？": "社区慈善基金是社区的一项收入来源，可以有效补充社区的财政收入，用于社区，服务社区，发展社区。",
    "社区慈善基金可以挂靠在哪些社会组织下？": "成都市范围内具有公募权的慈善组织，如成都市慈善总会，各个区的慈善总会、社区发展基金会等。",
    "社区慈善基金名称有何要求？": "根据成都市慈善总会的相关管理办法，设立在成都市慈善总会名下的社区慈善基金，一般情况下应当命名为成都市XX区XX街道（镇）XX社区（村）社区慈善微基金。",
    "社区可以做哪些努力扩大社区慈善基金的影响力？": "注重日常的宣传工作，开发社会及社区的慈善资源，创新筹款新方式，形成工作机制从而接待他人参访，都是扩大社区慈善基金影响力的重要手段。",
    "社区慈善基金管委会成员如何确定？人员构成是什么？": "由多方共同商议决定，综合考量候选人员的实际情况，社区发展需求，来确定人选，要注意确定的人选应符合民情民意。管委会成员应当包含社区工作人员及其他利益相关方，如捐款方代表和居民代表，其中社区工作人员作为最了解社区的人，管委会成员必须有他。"
}

query = ["什么是社区慈善基金？", "社区慈善基金承担了哪些功能？", "四川省出台了哪些社区慈善基金相关的法规政策？", "社区慈善基金可以挂靠在什么组织下？", "社区慈善基金管委会成员如何确定？"]

result = []

def hamming_distance(s1, s2):
    return sum(el1 != el2 for el1, el2 in zip(s1, s2))

# Find the length of the longest key
max_key_length = max(len(key) for key in QA_dict.keys())

for q in query:
    # Pad the query to the maximum key length
    padded_query = q.ljust(max_key_length)

    min_distance = float('inf')
    best_match = None

    for key, value in QA_dict.items():
        # Pad the key to the maximum key length
        padded_key = key.ljust(max_key_length)

        # Calculate the Hamming distance to the query
        distance = hamming_distance(padded_query, padded_key)

        if distance < min_distance:
            min_distance = distance
            best_match = value

    result.append(best_match)

for i, (q,a) in enumerate(zip(query, result)):
    print("query test " + str(i + 1) + ":")
    print(q + ": " + a)

# Record the end time
end_time = time.time()
# Calculate the runtime
runtime = end_time - start_time
print("The runtime is", runtime, "seconds.")

In [None]:
# 导入pandas库
import pandas as pd

# 读取xlsx文件
df = pd.read_excel('Community_Charity_QA.xlsx')

# 创建一个空字典来存储键值对
data_dict = {}

# 遍历DataFrame的每一行
for index, row in df.iterrows():
    # 将第一列的值作为键，第二列的值作为值，存储到字典中
    data_dict[row[0]] = row[1]

# 打印字典
for key in data_dict:
    print("\"" + key + "\"" + " : " + "\"" + data_dict[key] + "\"" + ",")