In [3]:
import pandas as pd

def preprocess_sentence(sentence, replace_rules):
    for old, new in replace_rules.items():
        sentence = sentence.replace(old, new)
    sentences = sentence.split("。")
    return set(sentence.strip() for sentence in sentences if sentence.strip())

def calculate_jaccard_similarity(set1, set2):
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    similarity = len(intersection) / len(union) if union else 0
    return round(similarity, 3), intersection, len(intersection)

# 엑셀 파일 로드
file_path_kim = 'kim_data.xlsx'  # 실제 경로로 수정하세요.
file_path_yo = 'yo_data.xlsx'    # 실제 경로로 수정하세요.
kim_data = pd.read_excel(file_path_kim)
yo_data = pd.read_excel(file_path_yo)

# 전처리 규칙 정의
replace_rules = {
    ".": "。",
    "，": "。",
    "、": "",
    "：": "",
    "；": "",
    "為": "爲",
    ",": "。",
    "○": "",
    "《": "",
    "》": "",
    "｢": "",
    "｣": "",
    "·": "",
    "眾": "衆",
    "从": "從",
    "研": "硏",
    "甞": "嘗", 
    "屏": "屛", 
    "並": "竝",
    "駢": "騈",
    "畱": "留", 
    "舉": "擧", 
    "尢": "尤",
    "増": "增",
    "橊": "榴",
    "攺": "改",
    "刋": "刊", 
    "葢": "蓋",
    "䇿": "策",
    "畧": "略",
    "宻": "密",
    "温": "溫",
    "兔": "兎",
    "圅": "函",
    "僃": "備",
    "郷": "鄕",
    "圯": "圮",
    "䍐": "罕",
    "𥳑":"簡",

    
    # 추가 규칙 필요시 여기에 추가
}

# 전처리 적용
kim_data['processed'] = kim_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))
yo_data['processed'] = yo_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))

# 유사도 계산 및 결과 저장을 위한 리스트 준비
results = []

# kim_data의 모든 행과 yo_data의 모든 행 간 유사도 계산
for i, row_kim in kim_data.iterrows():
    for j, row_yo in yo_data.iterrows():
        similarity, intersection, intersection_size = calculate_jaccard_similarity(row_kim['processed'], row_yo['processed'])
        results.append({
            'Kim Title': row_kim['title'],
            'Yo Title': row_yo['title'],
            'Intersection Size': intersection_size,
            'Jaccard Similarity': similarity,
            'Intersection': ', '.join(intersection),  # 교집합의 원소를 문자열로 변환             
        })

# 결과를 DataFrame으로 변환 및 저장
results_df = pd.DataFrame(results)
results_df.to_excel('kim_yo.xlsx', index=False)

print("유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.")


유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.


In [4]:
import pandas as pd

def preprocess_sentence(sentence, replace_rules):
    for old, new in replace_rules.items():
        sentence = sentence.replace(old, new)
    sentences = sentence.split("。")
    return set(sentence.strip() for sentence in sentences if sentence.strip())

def calculate_jaccard_similarity(set1, set2):
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    similarity = len(intersection) / len(union) if union else 0
    return round(similarity, 3), intersection, len(intersection)

# 엑셀 파일 로드
file_path_kim = 'kim_data.xlsx'  # 실제 경로로 수정하세요.
file_path_neng = 'neng_data.xlsx'    # 실제 경로로 수정하세요.
kim_data = pd.read_excel(file_path_kim)
neng_data = pd.read_excel(file_path_neng)

# 전처리 규칙 정의
replace_rules = {
    ".": "。",
    "，": "。",
    "、": "",
    "：": "",
    "；": "",
    "為": "爲",
    ",": "。",
    "○": "",
    "《": "",
    "》": "",
    "｢": "",
    "｣": "",
    "·": "",
    "眾": "衆",
    "从": "從",
    "研": "硏",
    "甞": "嘗", 
    "屏": "屛", 
    "並": "竝",
    "駢": "騈",
    "畱": "留", 
    "舉": "擧", 
    "尢": "尤",
    "増": "增",
    "橊": "榴",
    "攺": "改",
    "刋": "刊", 
    "葢": "蓋",
    "䇿": "策",
    "畧": "略",
    "宻": "密",
    "温": "溫",
    "兔": "兎",
    "圅": "函",
    "僃": "備",
    "郷": "鄕",
    "圯": "圮",
    "䍐": "罕",
    "𥳑":"簡",
    # 추가 규칙 필요시 여기에 추가
}

# 전처리 적용
kim_data['processed'] = kim_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))
neng_data['processed'] = neng_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))

# 유사도 계산 및 결과 저장을 위한 리스트 준비
results = []

# kim_data의 모든 행과 yo_data의 모든 행 간 유사도 계산
for i, row_kim in kim_data.iterrows():
    for j, row_neng in neng_data.iterrows():
        similarity, intersection, intersection_size = calculate_jaccard_similarity(row_kim['processed'], row_neng['processed'])
        results.append({
            'Kim Title': row_kim['title'],
            'Neng Title': row_neng['title'],
            'Intersection Size': intersection_size,
            'Jaccard Similarity': similarity,
            'Intersection': ', '.join(intersection),  # 교집합의 원소를 문자열로 변환             
        })

# 결과를 DataFrame으로 변환 및 저장
results_df = pd.DataFrame(results)
results_df.to_excel('kim_neng.xlsx', index=False)

print("유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.")


유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.


In [5]:
import pandas as pd

def preprocess_sentence(sentence, replace_rules):
    for old, new in replace_rules.items():
        sentence = sentence.replace(old, new)
    sentences = sentence.split("。")
    return set(sentence.strip() for sentence in sentences if sentence.strip())

def calculate_jaccard_similarity(set1, set2):
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    similarity = len(intersection) / len(union) if union else 0
    return round(similarity, 3), intersection, len(intersection)

# 엑셀 파일 로드
file_path_kim = 'kim_data.xlsx'  # 실제 경로로 수정하세요.
file_path_wan = 'wan_data.xlsx'    # 실제 경로로 수정하세요.
kim_data = pd.read_excel(file_path_kim)
wan_data = pd.read_excel(file_path_wan).fillna("")

# 전처리 규칙 정의
replace_rules = {
     ".": "。",
    "，": "。",
    "、": "",
    "：": "",
    "；": "",
    "為": "爲",
    ",": "。",
    "○": "",
    "《": "",
    "》": "",
    "｢": "",
    "｣": "",
    "·": "",
    "眾": "衆",
    "从": "從",
    "研": "硏",
    "甞": "嘗", 
    "屏": "屛", 
    "並": "竝",
    "駢": "騈",
    "畱": "留", 
    "舉": "擧", 
    "尢": "尤",
    "増": "增",
    "橊": "榴",
    "攺": "改",
    "刋": "刊", 
    "葢": "蓋",
    "䇿": "策",
    "畧": "略",
    "宻": "密",
    "温": "溫",
    "兔": "兎",
    "圅": "函",
    "僃": "備",
    "郷": "鄕",
    "圯": "圮",
    "䍐": "罕",
    "𥳑":"簡",

    # 추가 규칙 필요시 여기에 추가
}

# 전처리 적용
kim_data['processed'] = kim_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))
wan_data['processed'] = wan_data['contents'].apply(lambda x: preprocess_sentence(x, replace_rules))

# 유사도 계산 및 결과 저장을 위한 리스트 준비
results = []

# kim_data의 모든 행과 wan_data의 모든 행 간 유사도 계산
for i, row_kim in kim_data.iterrows():
    for j, row_wan in wan_data.iterrows():
        similarity, intersection, intersection_size = calculate_jaccard_similarity(row_kim['processed'], row_wan['processed'])
        results.append({
            'Kim Title': row_kim['title'],
            'Wan Title': row_wan['title'],
            'Intersection Size': intersection_size,
            'Jaccard Similarity': similarity,
            'Intersection': ', '.join(intersection),  # 교집합의 원소를 문자열로 변환             
        })

# 결과를 DataFrame으로 변환 및 저장
results_df = pd.DataFrame(results)
results_df.to_excel('kim_wan.xlsx', index=False)

print("유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.")


유사도 계산 및 교집합 결과 및 그 크기가 저장되었습니다.
