In [10]:
import pandas as pd
import re
import os

In [11]:
# ディレクトリのパス
directory = 'dataset/customer_book'

# ディレクトリ内のすべてのファイルを取得
files = [file for file in os.listdir(directory) if file.endswith('.csv')]

# CSVファイルのリストをデータフレームに読み込む
dataframes = [pd.read_csv(os.path.join(directory, file)) for file in files]

# データフレームを結合する
merged_dataframe_customer_book = pd.concat(dataframes, ignore_index=True)

In [12]:
merged_dataframe_customer_book

Unnamed: 0,会社名,契約名,サブスクリプションID,M365 プラン
0,株式会社 九州電子,契約A,1111-1111,M365 Business Basic
1,株式会社 IC テクノロジーズ,契約B,1111-1112,M365 Business Basic
2,株式会社 夢組,契約C,1111-1113,M365 Business Basic
3,株式会社ソフト ウェア サービス,契約D,1111-1114,M365 Business Basic
4,株式会社 イーシステム,契約E,1111-1115,M365 Business Basic
5,株式会社ニュー ウェーブ,契約F,1111-1116,M365 Business Basic
6,株式会社 アース テック,契約G,1111-1117,M365 Business Basic
7,株式会社サン ライズ,契約H,1111-1118,M365 Business Basic
8,株式会社ブルースカイテック,契約I,1111-1119,M365 Business Basic
9,株式会社サンライズテック,契約J,1111-1120,M365 Business Basic


In [13]:
# ディレクトリのパス
directory = 'dataset/partner_center'

# ディレクトリ内のすべてのファイルを取得
files = [file for file in os.listdir(directory) if file.endswith('.csv')]

# CSVファイルのリストをデータフレームに読み込む
dataframes = [pd.read_csv(os.path.join(directory, file)) for file in files]

# データフレームを結合する
merged_dataframe_pertner_center = pd.concat(dataframes, ignore_index=True)

# 結合されたデータフレームの表示（または保存）
merged_dataframe_pertner_center

Unnamed: 0,会社名,サブスクリプションID,M365 プラン
0,T&Dリスクソリューションズ株式会社,4444-1111,M365 Enterprise E3
1,株式会社ミツビシ電機,4444-1112,M365 Enterprise E3
2,トヨタ自動車株式会社,4444-1113,M365 Enterprise E3
3,ソニー株式会社,4444-1114,M365 Enterprise E3
4,株式会社日立製作所,4444-1115,M365 Enterprise E3
5,パナソニック株式会社,4444-1116,M365 Enterprise E3
6,株式会社シャープ,4444-1117,M365 Enterprise E3
7,株式会社ホンダ,4444-1118,M365 Enterprise E3
8,富士通株式会社,4444-1119,M365 Enterprise E3
9,リコー株式会社,4444-1120,M365 Enterprise E3


In [14]:
# ディレクトリのパス
directory = 'dataset/correct_data'

# ディレクトリ内のすべてのファイルを取得
files = [file for file in os.listdir(directory) if file.endswith('.csv')]

# CSVファイルのリストをデータフレームに読み込む
dataframes = [pd.read_csv(os.path.join(directory, file)) for file in files]

# データフレームを結合する
merged_dataframe_correct_data = pd.concat(dataframes, ignore_index=True)

# 結合されたデータフレームの表示（または保存）
merged_dataframe_correct_data

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,M365 プラン,契約名,妥当性
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,M365 Enterprise E3,契約A,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,M365 Enterprise E3,契約B,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,M365 Enterprise E3,契約C,True
3,ソニー株式会社,ソニー,4444-1114,M365 Enterprise E3,契約D,True
4,株式会社日立製作所,日立製作所,4444-1115,M365 Enterprise E3,契約E,True
5,パナソニック株式会社,パナソニック,4444-1116,M365 Enterprise E3,契約F,True
6,株式会社シャープ,シャープ,4444-1117,M365 Enterprise E3,契約G,True
7,株式会社ホンダ,ホンダ,4444-1118,M365 Enterprise E3,契約H,True
8,富士通株式会社,日産,4444-1119,M365 Enterprise E3,契約I,False
9,リコー株式会社,リコーテック,4444-1120,M365 Enterprise E3,契約J,False


## ルールベースでのアプローチ
下記のシナリオに関してはルールベースでのアプローチで対処可能
- 半角スペースの有無
- 半角全角文字の違い
- 株式会社の有無

In [17]:
def preprocess_company_name_space(name):
    # 全角スペースを半角スペースに変換し、スペースを削除
    name = re.sub(r'\s+', '', name.replace('　', ' '))
    return name

def convert_to_fullwidth(text):
    # 半角カタカナと全角カタカナの対応辞書
    kana_map = {
        'ｶ': 'カ', 'ｷ': 'キ', 'ｸ': 'ク', 'ｹ': 'ケ', 'ｺ': 'コ',
        'ｻ': 'サ', 'ｼ': 'シ', 'ｽ': 'ス', 'ｾ': 'セ', 'ｿ': 'ソ',
        'ﾀ': 'タ', 'ﾁ': 'チ', 'ﾂ': 'ツ', 'ﾃ': 'テ', 'ﾄ': 'ト',
        'ﾊ': 'ハ', 'ﾋ': 'ヒ', 'ﾌ': 'フ', 'ﾍ': 'ヘ', 'ﾎ': 'ホ',
        'ｳ': 'ウ', 'ｦ': 'ヲ', 'ﾜ': 'ワ', 'ｲ': 'イ', 'ｴ': 'エ', 'ｵ': 'オ',
        'ｶﾞ': 'ガ', 'ｷﾞ': 'ギ', 'ｸﾞ': 'グ', 'ｹﾞ': 'ゲ', 'ｺﾞ': 'ゴ',
        'ｻﾞ': 'ザ', 'ｼﾞ': 'ジ', 'ｽﾞ': 'ズ', 'ｾﾞ': 'ゼ', 'ｿﾞ': 'ゾ',
        'ﾀﾞ': 'ダ', 'ﾁﾞ': 'ヂ', 'ﾂﾞ': 'ヅ', 'ﾃﾞ': 'デ', 'ﾄﾞ': 'ド',
        'ﾊﾞ': 'バ', 'ﾋﾞ': 'ビ', 'ﾌﾞ': 'ブ', 'ﾍﾞ': 'ベ', 'ﾎﾞ': 'ボ',
        'ﾊﾟ': 'パ', 'ﾋﾟ': 'ピ', 'ﾌﾟ': 'プ', 'ﾍﾟ': 'ペ', 'ﾎﾟ': 'ポ',
        'ｱ': 'ア', 'ｲ': 'イ', 'ｳ': 'ウ', 'ｴ': 'エ', 'ｵ': 'オ',
        'ｧ': 'ァ', 'ｨ': 'ィ', 'ｩ': 'ゥ', 'ｪ': 'ェ', 'ｫ': 'ォ',
        'ｳﾞ': 'ヴ', 'ﾔ': 'ヤ', 'ﾕ': 'ユ', 'ﾖ': 'ヨ', 'ｬ': 'ャ', 'ｭ': 'ュ', 'ｮ': 'ョ',
        'ﾏ': 'マ', 'ﾐ': 'ミ', 'ﾑ': 'ム', 'ﾒ': 'メ', 'ﾓ': 'モ',
        'ﾅ': 'ナ', 'ﾆ': 'ニ', 'ﾇ': 'ヌ', 'ﾈ': 'ネ', 'ﾉ': 'ノ',
        'ﾗ': 'ラ', 'ﾘ': 'リ', 'ﾙ': 'ル', 'ﾚ': 'レ', 'ﾛ': 'ロ',
        'ﾜ': 'ワ', 'ﾝ': 'ン', 'ｰ': 'ー', 'ﾝ': 'ン', '｡': '。', '､': '、',
        '｢': '「', '｣': '」', '･': '・'
    }

    # 濁点・半濁点の辞書
    dakuten_map = {
        'カ': 'ガ', 'キ': 'ギ', 'ク': 'グ', 'ケ': 'ゲ', 'コ': 'ゴ',
        'サ': 'ザ', 'シ': 'ジ', 'ス': 'ズ', 'セ': 'ゼ', 'ソ': 'ゾ',
        'タ': 'ダ', 'チ': 'ヂ', 'ツ': 'ヅ', 'テ': 'デ', 'ト': 'ド',
        'ハ': 'バ', 'ヒ': 'ビ', 'フ': 'ブ', 'ヘ': 'ベ', 'ホ': 'ボ',
        'ウ': 'ヴ'
    }
    
    handakuten_map = {
        'ハ': 'パ', 'ヒ': 'ピ', 'フ': 'プ', 'ヘ': 'ペ', 'ホ': 'ポ'
    }

    # 変換処理
    result = ''
    i = 0
    while i < len(text):
        if i + 1 < len(text) and text[i + 1] in ('ﾞ', 'ﾟ'):
            char = kana_map.get(text[i], text[i])
            if text[i + 1] == 'ﾞ':  # 濁点
                result += dakuten_map.get(char, char)
            elif text[i + 1] == 'ﾟ':  # 半濁点
                result += handakuten_map.get(char, char)
            i += 2
        else:
            result += kana_map.get(text[i], text[i])
            i += 1

    return result
    
def preprocess_company_name_half_letter(name):
    # 全角スペースを半角スペースに変換し、スペースを削除
    name = re.sub(r'\s+', '', name.replace('　', ' '))
    # 半角カタカナを全角カタカナに変換
    name = name.translate(str.maketrans({
        'Ａ': 'A', 'Ｂ': 'B', 'Ｃ': 'C', 'Ｄ': 'D', 'Ｅ': 'E', 'Ｆ': 'F', 'Ｇ': 'G', 'Ｈ': 'H', 'Ｉ': 'I', 'Ｊ': 'J',
        'Ｋ': 'K', 'Ｌ': 'L', 'Ｍ': 'M', 'Ｎ': 'N', 'Ｏ': 'O', 'Ｐ': 'P', 'Ｑ': 'Q', 'Ｒ': 'R', 'Ｓ': 'S', 'Ｔ': 'T',
        'Ｕ': 'U', 'Ｖ': 'V', 'Ｗ': 'W', 'Ｘ': 'X', 'Ｙ': 'Y', 'Ｚ': 'Z', '１': '1', '２': '2', '３': '3', '４': '4',
        '５': '5', '６': '6', '７': '7', '８': '8', '９': '9', '０': '0',
        'ａ': 'a', 'ｂ': 'b', 'ｃ': 'c', 'ｄ': 'd', 'ｅ': 'e', 'ｆ': 'f', 'ｇ': 'g', 'ｈ': 'h', 'ｉ': 'i', 'ｊ': 'j',
        'ｋ': 'k', 'ｌ': 'l', 'ｍ': 'm', 'ｎ': 'n', 'ｏ': 'o', 'ｐ': 'p', 'ｑ': 'q', 'ｒ': 'r', 'ｓ': 's', 'ｔ': 't',
        'ｕ': 'u', 'ｖ': 'v', 'ｗ': 'w', 'ｘ': 'x', 'ｙ': 'y', 'ｚ': 'z'
    }))
    # 半角カタカナを全角カタカナに変換
    name = name.translate(str.maketrans({
        'ｱ': 'ア', 'ｲ': 'イ', 'ｳ': 'ウ', 'ｴ': 'エ', 'ｵ': 'オ',
        'ｶ': 'カ', 'ｷ': 'キ', 'ｸ': 'ク', 'ｹ': 'ケ', 'ｺ': 'コ',
        'ｻ': 'サ', 'ｼ': 'シ', 'ｽ': 'ス', 'ｾ': 'セ', 'ｿ': 'ソ',
        'ﾀ': 'タ', 'ﾁ': 'チ', 'ﾂ': 'ツ', 'ﾃ': 'テ', 'ﾄ': 'ト',
        'ﾅ': 'ナ', 'ﾆ': 'ニ', 'ﾇ': 'ヌ', 'ﾈ': 'ネ', 'ﾉ': 'ノ',
        'ﾊ': 'ハ', 'ﾋ': 'ヒ', 'ﾌ': 'フ', 'ﾍ': 'ヘ', 'ﾎ': 'ホ',
        'ﾏ': 'マ', 'ﾐ': 'ミ', 'ﾑ': 'ム', 'ﾒ': 'メ', 'ﾓ': 'モ',
        'ﾔ': 'ヤ', 'ﾕ': 'ユ', 'ﾖ': 'ヨ',
        'ﾗ': 'ラ', 'ﾘ': 'リ', 'ﾙ': 'ル', 'ﾚ': 'レ', 'ﾛ': 'ロ',
        'ﾜ': 'ワ', 'ｦ': 'ヲ', 'ﾝ': 'ン',
        'ｧ': 'ァ', 'ｨ': 'ィ', 'ｩ': 'ゥ', 'ｪ': 'ェ', 'ｫ': 'ォ',
        'ｬ': 'ャ', 'ｭ': 'ュ', 'ｮ': 'ョ',
        'ｯ': 'ッ', 'ｰ': 'ー'
    }))
    name = convert_to_fullwidth(name)
    # 英字を大文字に変換
    name = name.upper()
    return name

# 会社名を正規化する関数
def normalize_company_name(name):
    # 法人種別を削除
    name = re.sub(r'(株式会社|合同会社|有限会社)', '', name)
    return name.strip()

In [18]:
def preprocess_company_name(name):
    name = preprocess_company_name_space(name)
    name = preprocess_company_name_half_letter(name)
    name = normalize_company_name(name)
    return name

In [19]:
# 妥当性チェックの結果を保存するリスト
comparison_results = []

# 比較ループ
for _, pc_row in merged_dataframe_pertner_center.iterrows():
    pc_name_normalized = preprocess_company_name(pc_row['会社名'])
    for _, cb_row in merged_dataframe_customer_book.iterrows():
        if pc_row['サブスクリプションID'] == cb_row['サブスクリプションID']:
            cb_name_normalized = preprocess_company_name(cb_row['会社名'])
            result = {
                "partner center 会社名": pc_row['会社名'],
                "customer book 会社名": cb_row['会社名'],
                "サブスクリプションID": pc_row['サブスクリプションID'],
                "妥当性": pc_name_normalized == cb_name_normalized
            }
            comparison_results.append(result)

# 比較結果のデータフレームを作成
comparison_results_df = pd.DataFrame(comparison_results)

In [20]:
comparison_results_df

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,妥当性
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,True
3,ソニー株式会社,ソニー,4444-1114,True
4,株式会社日立製作所,日立製作所,4444-1115,True
5,パナソニック株式会社,パナソニック,4444-1116,True
6,株式会社シャープ,シャープ,4444-1117,True
7,株式会社ホンダ,ホンダ,4444-1118,True
8,富士通株式会社,日産,4444-1119,False
9,リコー株式会社,リコーテック,4444-1120,False


In [35]:
# サブスクリプションIDをキーとしてマージして比較
comparison_with_truth_df = comparison_results_df.merge(
    merged_dataframe_correct_data, 
    on=["partner center 会社名", "customer book 会社名", "サブスクリプションID"], 
    suffixes=('_predicted', '_true')
)

comparison_with_truth_df = comparison_with_truth_df[[
    'partner center 会社名', 'customer book 会社名', 
    'サブスクリプションID', 
    '妥当性_predicted', '妥当性_true',
]]

In [36]:
comparison_with_truth_df

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,妥当性_predicted,妥当性_true
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,True,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,True,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,True,True
3,ソニー株式会社,ソニー,4444-1114,True,True
4,株式会社日立製作所,日立製作所,4444-1115,True,True
5,パナソニック株式会社,パナソニック,4444-1116,True,True
6,株式会社シャープ,シャープ,4444-1117,True,True
7,株式会社ホンダ,ホンダ,4444-1118,True,True
8,富士通株式会社,日産,4444-1119,False,False
9,リコー株式会社,リコーテック,4444-1120,False,False


In [40]:
comparison_with_truth_df.to_csv('result/validate_check_by_rule.csv', index=False)

## GPTによる妥当性チェック
下記のシナリオではルールベースでのアプローチでは対処できないため、GPT等の生成AIによるアプローチを用いる。
- カナ/英字の違い
- 略称
- その他

In [26]:
# system メッセージの定義
system_message = """
会社名のペアが与えられた際に、表記の違いがあっても同じ会社かどうかを判断し、結果をJSON形式で出力してください。JSONのスキーマは、company_name1, company_name2, similarity_score, description として。考慮するべき違いには、スペース、文字の幅、言語、および略称が含まれますが、他にも様々な表記のパターンが存在することを念頭に置いてください。それぞれの比較について、以下のフォーマットを使用してください：

- 会社名1: <company1>
- 会社名2: <company2>
- 比較結果 (1-5):
- 説明:

比較結果のスコアリングは以下の通りです：
- 5: 絶対に一致している
- 1: 絶対に一致していない
- 2-4: 一致の可能性があるが、自信度によりスコアリング

### 例:

#### 1. スペースの有無
- 会社名1: 九州電子 株式会社
- 会社名2: 九州電子株式会社
- 比較結果: 5
- 説明: 「九州電子」と「株式会社」の間にスペースがあるかないかの違いだけであり、これは一般的な表記の揺れです。

#### 2. 半角全角の違い
- 会社名1: 合同会社All Right
- 会社名2: 合同会社Ａｌｌ　Ｒｉｇｈｔ
- 比較結果: 5
- 説明: 半角と全角文字の違いだけであり、会社の同一性には影響しません。

#### 3. カナ/英字の違い
- 会社名1: 大和ハウス工業 株式会社
- 会社名2: DAIWA HOUSE INDUSTRY CO., LTD.
- 比較結果: 5
- 説明: 日本語名と英語名で表記されているだけであり、国際的な企業では一般的です。

#### 4. 株式会社の有無
- 会社名1: T&Dリスクソリューションズ株式会社
- 会社名2: T&Dリスクソリューションズ
- 比較結果: 5
- 説明: 「株式会社」の有無は法的なデザインエータであり、会社の同一性には影響しません。

#### 5. 略称
- 会社名1: 株式会社福島中央ﾃﾚﾋﾞ
- 会社名2: fct.jp
- 比較結果: 5
- 説明: 一つは正式名称であり、もう一つは会社のドメイン名を使った略称です。

#### 6. その他のバリエーション
- 会社名1: 株式会社M-TEC
- 会社名2: 株式会社MｰTEC本社･工場
- 比較結果: 5
- 説明: 二つ目の名前には本社と工場の情報が含まれていますが、どちらも同じ企業を指しています。

#### 7. 曖昧な例
- 会社名1: 株式会社ヤマト
- 会社名2: ヤマト運輸株式会社
- 比較結果: 4
- 説明: 株式会社ヤマトとヤマト運輸株式会社は関連がある可能性がありますが、正式な名称として異なる場合もあるため、完全に一致しているかは不明です。

- 会社名1: NECソリューションイノベータ株式会社
- 会社名2: NECソリューションズ
- 比較結果: 3
- 説明: NECソリューションイノベータ株式会社とNECソリューションズは関連がある可能性がありますが、同一の会社であるかどうかは完全には確信が持てません。

- 会社名1: 株式会社みずほ銀行
- 会社名2: みずほフィナンシャルグループ
- 比較結果: 3
- 説明: 株式会社みずほ銀行とみずほフィナンシャルグループは関連会社である可能性が高いですが、同一の会社とは限りません。

- 会社名1: パナソニック株式会社
- 会社名2: パナソニックシステムソリューションズジャパン株式会社
- 比較結果: 2
- 説明: パナソニック株式会社とパナソニックシステムソリューションズジャパン株式会社は同じ企業グループ内の別会社である可能性が高いですが、同一の会社ではない可能性があります。

#### 8. 一致しない例
- 会社名1: 東京電力株式会社
- 会社名2: 中部電力株式会社
- 比較結果: 1
- 説明: 東京電力株式会社と中部電力株式会社は別々の企業であり、提供するサービスや所在地も異なります。

- 会社名1: 株式会社三菱
- 会社名2: 三菱商事株式会社
- 比較結果: 1
- 説明: 株式会社三菱と三菱商事株式会社は異なる会社であり、それぞれ異なる事業分野を持っています。

Based on these examples, please evaluate the following pair and output the result in JSON format with the following schema:

    "company_name1": "{company1}",
    "company_name2": "{company2}",
    "similarity_score": <score>,
    "description": "<explanation>"

"""

In [27]:
from openai import AzureOpenAI
import json
import os
import time

In [28]:
os.environ["AZURE_OPENAI_API_KEY"] = <Azure OpenAI の API Key>
os.environ["AZURE_OPENAI_ENDPOINT"] = 'https://<Azure OpenAI のサービス名>.openai.azure.com/'
os.environ["AZURE_DEPLOYMENT_NAME"] = <Azure OpenAI でデプロイした GPT-4o のデプロイ名>

In [29]:
client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
    api_version="2023-12-01-preview",
    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT")
)


In [30]:
# 会社名のペアを入力してスコアと説明を取得する関数
def evaluate_company_names(company1, company2):
    user_message = f"""
    - 会社名1: {company1}
    - 会社名2: {company2}
    """
    
    start_time = time.time()  # 開始時間を記録
    
    response = client.chat.completions.create(
        model=os.environ["AZURE_DEPLOYMENT_NAME"],
        messages=[
            {"role": "system", "content": system_message},
            {"role": "user", "content": user_message}
        ],
        response_format={ "type": "json_object" },
    )

    result = response.choices[0].message.content.strip()
    result_json = json.loads(result)

    end_time = time.time()  # 終了時間を記録
    processing_time = end_time - start_time  # 処理時間を計算

    print(f"処理時間: {processing_time}秒")
    
    return result_json

In [31]:
# 妥当性チェックの結果を保存するリスト
comparison_results = []

# 比較ループ
for _, pc_row in merged_dataframe_pertner_center.iterrows():
    for _, cb_row in merged_dataframe_customer_book.iterrows():
        if pc_row['サブスクリプションID'] == cb_row['サブスクリプションID']:
            response = evaluate_company_names(pc_row['会社名'], cb_row['会社名'])
            result = {
                "partner center 会社名": pc_row['会社名'],
                "customer book 会社名": cb_row['会社名'],
                "サブスクリプションID": pc_row['サブスクリプションID'],
                "妥当性": response["similarity_score"]
            }
            comparison_results.append(result)

# 比較結果のデータフレームを作成
comparison_results_df_gpt = pd.DataFrame(comparison_results)

処理時間: 2.1095268726348877秒
処理時間: 1.2341794967651367秒
処理時間: 1.366358757019043秒
処理時間: 1.3609163761138916秒
処理時間: 1.8972220420837402秒
処理時間: 1.129981279373169秒
処理時間: 0.922356367111206秒
処理時間: 1.3330557346343994秒
処理時間: 52.34338140487671秒
処理時間: 1.2869064807891846秒
処理時間: 1.1666526794433594秒
処理時間: 1.2066318988800049秒
処理時間: 1.253774642944336秒
処理時間: 1.2027242183685303秒
処理時間: 1.3798165321350098秒
処理時間: 1.3272438049316406秒
処理時間: 52.033424854278564秒
処理時間: 2.099838972091675秒
処理時間: 1.630911111831665秒
処理時間: 1.3446886539459229秒
処理時間: 0.973480224609375秒
処理時間: 0.9570319652557373秒
処理時間: 1.7865474224090576秒
処理時間: 1.6147611141204834秒
処理時間: 52.56733846664429秒
処理時間: 0.9294745922088623秒
処理時間: 1.450465202331543秒
処理時間: 1.844031810760498秒
処理時間: 1.3475377559661865秒
処理時間: 1.2718534469604492秒
処理時間: 1.666686773300171秒
処理時間: 1.3127124309539795秒
処理時間: 49.95016551017761秒
処理時間: 2.3890883922576904秒
処理時間: 1.2568602561950684秒
処理時間: 1.1413795948028564秒
処理時間: 1.0296955108642578秒
処理時間: 0.8986194133758545秒
処理時間: 2.9715945720672607秒

In [32]:
comparison_results_df_gpt

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,妥当性
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,5
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,5
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,5
3,ソニー株式会社,ソニー,4444-1114,5
4,株式会社日立製作所,日立製作所,4444-1115,5
5,パナソニック株式会社,パナソニック,4444-1116,5
6,株式会社シャープ,シャープ,4444-1117,5
7,株式会社ホンダ,ホンダ,4444-1118,5
8,富士通株式会社,日産,4444-1119,1
9,リコー株式会社,リコーテック,4444-1120,2


In [37]:
# サブスクリプションIDをキーとしてマージして比較
comparison_with_truth_df_gpt = comparison_results_df_gpt.merge(
    merged_dataframe_correct_data, 
    on=["partner center 会社名", "customer book 会社名", "サブスクリプションID"], 
    suffixes=('_predicted', '_true')
)

comparison_with_truth_df_gpt = comparison_with_truth_df_gpt[[
    'partner center 会社名', 'customer book 会社名', 
    'サブスクリプションID', 
    '妥当性_predicted', '妥当性_true',
]]

In [38]:
comparison_with_truth_df_gpt

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,妥当性_predicted,妥当性_true
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,5,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,5,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,5,True
3,ソニー株式会社,ソニー,4444-1114,5,True
4,株式会社日立製作所,日立製作所,4444-1115,5,True
5,パナソニック株式会社,パナソニック,4444-1116,5,True
6,株式会社シャープ,シャープ,4444-1117,5,True
7,株式会社ホンダ,ホンダ,4444-1118,5,True
8,富士通株式会社,日産,4444-1119,1,False
9,リコー株式会社,リコーテック,4444-1120,2,False


In [39]:
comparison_with_truth_df_gpt.to_csv('result/validate_check_by_gpt.csv', index=False)