In [None]:
import re
from collections import Counter
import math

def preprocess(text):
    # テキストの前処理を行う関数
    text = text.lower()  # 小文字に変換
    text = re.sub(r'\W+', ' ', text)  # 英数字以外の文字を削除
    text = re.sub(r'\s+', ' ', text)  # 連続するスペースを1つに置換
    return text

def get_cosine_similarity(text1, text2):
    # 2つのテキストのcosine類似度を計算する関数

    # テキストを前処理
    text1 = preprocess(text1)
    text2 = preprocess(text2)

    # テキストを単語に分割
    words1 = text1.split()
    words2 = text2.split()

    # 単語の出現回数をカウント
    word_count1 = Counter(words1)
    word_count2 = Counter(words2)

    # 共通の単語の出現回数を取得
    common_words = set(word_count1.keys()) & set(word_count2.keys())

    # cosin類似度の計算に必要な分子と分母を計算
    numerator = sum([word_count1[word] * word_count2[word] for word in common_words])
    denominator1 = sum([word_count1[word] ** 2 for word in words1])
    denominator2 = sum([word_count2[word] ** 2 for word in words2])

    # 分子と分母が共に0であれば類似度は0とする
    if denominator1 == 0 or denominator2 == 0:
        similarity = 0
    else:
        similarity = numerator / (math.sqrt(denominator1) * math.sqrt(denominator2))

    return similarity

if __name__ == '__main__':
    # 比較する2つの文章を標準入力から取得
    text1 = input('1つ目の文章を入力してください: ')
    text2 = input('2つ目の文章を入力してください: ')

    # 2つの文章の類似度を計算
    similarity = get_cosine_similarity(text1, text2)

    # 類似度を出力
    print('2つの文章の類似度は: {:.2%}'.format(similarity))


In [None]:
import MeCab
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# MeCabのインスタンスを作成
mecab = MeCab.Tagger()

# 文章を入力
text1 = input("文1を入力してください: ")
text2 = input("文2を入力してください: ")

# 文章を形態素解析して単語に分割する関数
def tokenize(text):
    tokens = mecab.parse(text)
    tokens = [t.split('\t')[0] for t in tokens.split('\n')]
    return tokens[:-2]

# TfidfVectorizerを用いて文書をベクトル化する
vectorizer = TfidfVectorizer(tokenizer=tokenize)
tfidf_matrix = vectorizer.fit_transform([text1, text2])

# コサイン類似度を計算する
similarity = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

# 類似度を出力
print("類似度: ", similarity[0][0])


In [None]:
def calculate_jaccard_similarity(set1, set2):
    """
    Jaccard係数を計算する関数
    """
    intersection_cardinality = len(set.intersection(*[set1, set2]))
    union_cardinality = len(set.union(*[set1, set2]))
    return intersection_cardinality / float(union_cardinality)

def main():
    """
    メインの関数
    """
    # 標準入力から2つの文章を取得
    print("1つ目の文章を入力してください:")
    sentence1 = input().lower()  # 小文字に変換して入力を受け取る
    print("2つ目の文章を入力してください:")
    sentence2 = input().lower()  # 小文字に変換して入力を受け取る

    # 文章を単語に分割し、重複を除去して集合に変換
    words1 = set(sentence1.split())
    words2 = set(sentence2.split())

    # Jaccard係数を計算
    similarity = calculate_jaccard_similarity(words1, words2)

    # 結果を出力
    print("類似度:", similarity)

if __name__ == "__main__":
    main()

In [1]:
from janome.tokenizer import Tokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def tokenize(text):
    """文章を形態素解析してトークン化する関数"""
    tokenizer = Tokenizer()
    tokens = [token.surface for token in tokenizer.tokenize(text)]
    return tokens

def calculate_similarity(text1, text2):
    """二つの文章の類似度を計算する関数"""
    # 形態素解析してトークン化
    tokens1 = tokenize(text1)
    tokens2 = tokenize(text2)
    
    # 文章を単語のリストに結合
    text1 = " ".join(tokens1)
    text2 = " ".join(tokens2)
    
    # TF-IDFベクトル化
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([text1, text2])
    
    # コサイン類似度を計算
    similarity = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])
    
    return similarity[0][0]

if __name__ == "__main__":
    # 入力された二つの文章を取得
    text1 = input("文章1を入力してください: ")
    text2 = input("文章2を入力してください: ")

    # 類似度を計算
    similarity = calculate_similarity(text1, text2)

    # 類似度を出力
    print("二つの文章の類似度: {:.2f}".format(similarity))


文章1を入力してください: 大阪府と大阪市が開業を目指すIR（カジノを含む統合型リゾート）について、14日の朝に政府が行ったIR推進本部にて、岸田総理は大阪のIR整備計画について認定すると表明しました。
文章2を入力してください: 14日朝に政府が行ったIR推進本部で岸田総理、大阪府と市が開業を目指すIR（カジノを含む統合型リゾート）の整備計画について認定すると表明しました。
二つの文章の類似度: 0.92
