In [6]:
import pandas as pd
import re
import os

# データ作成

## スペース有無データの作成

In [11]:
# データセット保存ディレクトリの作成
os.makedirs('dataset/partner_center', exist_ok=True)
os.makedirs('dataset/customer_book', exist_ok=True)

# partner center テーブルのデータを定義
partner_center_data = {
    "会社名": [
        "株式会社九州電子", 
        "株式会社ICテクノロジーズ", 
        "株式会社夢組",
        "株式会社ソフトウェアサービス",
        "株式会社イーシステム",
        "株式会社ニューウェーブ",
        "株式会社アーステック",
        "株式会社サンライズ",
        "株式会社グリーンテック",
        "株式会社サンテック"
    ],
    "サブスクリプションID": [
        "1111-1111", 
        "1111-1112", 
        "1111-1113",
        "1111-1114",
        "1111-1115",
        "1111-1116",
        "1111-1117",
        "1111-1118",
        "1111-1119",
        "1111-1120"
    ],
    "M365 プラン": [
        "M365 Business Basic", 
        "M365 Business Basic", 
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic"
    ]
}

# customer book テーブルのデータを定義（True 7つ、False 3つ）
customer_book_data = {
    "会社名": [
        "株式会社 九州電子",                    # True
        "株式会社 IC テクノロジーズ",          # True
        "株式会社 夢組",                        # True
        "株式会社ソフト ウェア サービス",       # True
        "株式会社 イーシステム",               # True
        "株式会社ニュー ウェーブ",              # True
        "株式会社 アース テック",               # True
        "株式会社サン ライズ",                  # True
        "株式会社ブルースカイテック",          # False
        "株式会社サンライズテック"              # False
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "1111-1111", 
        "1111-1112", 
        "1111-1113",
        "1111-1114",
        "1111-1115", 
        "1111-1116", 
        "1111-1117",
        "1111-1118",
        "1111-1119",  # False
        "1111-1120"   # False
    ],
    "M365 プラン": [
        "M365 Business Basic", 
        "M365 Business Basic", 
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic", 
        "M365 Business Basic", 
        "M365 Business Basic",
        "M365 Business Basic",
        "M365 Business Basic", 
        "M365 Business Basic"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, True, True, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_space.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_space.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_space.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")


データセットと正解データセットのCSVファイルが保存されました。


## 半角全角

In [12]:
# partner center テーブルのデータを定義（表記ゆれあり）
partner_center_data = {
    "会社名": [
        "合同会社ＡｌｌＲｉｇｈｔ",  # 半角全角混在
        "株式会社テクノロジーズ１２３",  # 半角数字
        "株式会社Ｔｅｃｈｎｏｌｏｇｙ",  # 正しい
        "株式会社ＰＲＥＭＩＵＭ　ＳＥＲＶＩＣＥ",  # 正しい
        "株式会社ｲﾝﾀｰﾈｯﾄ",  # 半角カタカナ
        "株式会社ｸﾞﾛｰﾊﾞﾙｳｪｰﾌﾞ",  # 半角カタカナ
        "株式会社アドバンス",  # 正しい
        "株式会社ｓｔ０９２",  # 正しい
        "株式会社Ｓｉｌｖｅｒ　Ｂｌａｃｋs",  # 正しい
        "株式会社サンセット"  # 正しい
    ],
    "サブスクリプションID": [
        "2222-1111", 
        "2222-1112", 
        "2222-1113",
        "2222-1114",
        "2222-1115",
        "2222-1116",
        "2222-1117",
        "2222-1118",
        "2222-1119",
        "2222-1120"
    ],
    "M365 プラン": [
        "M365 Business Standard", 
        "M365 Business Standard", 
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard"
    ]
}

# customer book テーブルのデータを定義（きれいなデータ）
customer_book_data = {
    "会社名": [
        "合同会社AllRight",  # 半角英数字
        "株式会社テクノロジーズ123",  # 半角数字
        "株式会社Technology",  # 正しい
        "株式会社PREMIUMSERVICE",  # 正しい
        "株式会社インターネット",  # 全角カタカナ
        "株式会社グローバルウェーブ",  # 全角カタカナ
        "株式会社アドバンス",  # 正しい
        "株式会社st092",  # 正しい
        "株式会社Silver Black",  # 正しい
        "株式会社サンセットテック"  # 異なるデータ
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "2222-1111", 
        "2222-1112", 
        "2222-1113",
        "2222-1114",
        "2222-1115", 
        "2222-1116", 
        "2222-1117",
        "2222-1118",
        "2222-1119",  
        "2222-1120"   
    ],
    "M365 プラン": [
        "M365 Business Standard", 
        "M365 Business Standard", 
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard", 
        "M365 Business Standard", 
        "M365 Business Standard",
        "M365 Business Standard",
        "M365 Business Standard", 
        "M365 Business Standard"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, True, True, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_halfletter.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_halfletter.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_halfletter.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")

データセットと正解データセットのCSVファイルが保存されました。


## カナ/英字

In [14]:
# partner center テーブルのデータを定義（カナ/英字の違いあり）
partner_center_data = {
    "会社名": [
        "大和ハウス工業株式会社",  # 日本語カナ
        "Sony株式会社",          # 英字とカナ混在
        "トヨタ自動車株式会社",    # 日本語カナ
        "株式会社日立製作所",      # 日本語カナ
        "三菱商事株式会社",        # 日本語カナ
        "株式会社パナソニック",    # 日本語カナ
        "株式会社シャープ",        # 日本語カナ
        "株式会社ホンダ",          # 日本語カナ
        "株式会社富士通",          # 日本語カナ
        "株式会社リコー"           # 日本語カナ
    ],
    "サブスクリプションID": [
        "3333-1111", 
        "3333-1112", 
        "3333-1113",
        "3333-1114",
        "3333-1115",
        "3333-1116",
        "3333-1117",
        "3333-1118",
        "3333-1119",
        "3333-1120"
    ],
    "M365 プラン": [
        "M365 Business Premium", 
        "M365 Business Premium", 
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium"
    ]
}

# customer book テーブルのデータを定義（きれいなデータ）
customer_book_data = {
    "会社名": [
        "DAIWA HOUSE INDUSTRY CO., LTD.",  # 英字
        "ソニー株式会社",                  # カナ
        "Toyota",                         # 略称
        "Hitachi",                        # 略称
        "Mitsubishi Corporation",         # 英字
        "Panasonic Corporation",          # 英字
        "Sharp Corporation",              # 英字
        "Honda Motor Co., Ltd.",          # 英字
        "Fujitsu Japan Limited",
        "Nicon Corporation"             # 英字
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "3333-1111", 
        "3333-1112", 
        "3333-1113",
        "3333-1114",
        "3333-1115", 
        "3333-1116", 
        "3333-1117",
        "3333-1118",
        "3333-1119",  
        "3333-1120"   
    ],
    "M365 プラン": [
        "M365 Business Premium", 
        "M365 Business Premium", 
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium", 
        "M365 Business Premium", 
        "M365 Business Premium",
        "M365 Business Premium",
        "M365 Business Premium", 
        "M365 Business Premium"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, True, True, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_kana_english.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_kana_english.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_kana_english.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")

データセットと正解データセットのCSVファイルが保存されました。


## 株式会社の有無

In [17]:
import pandas as pd
import os

# データセット保存ディレクトリの作成
os.makedirs('dataset/partner_center', exist_ok=True)
os.makedirs('dataset/customer_book', exist_ok=True)

# partner center テーブルのデータを定義（株式会社の有無）
partner_center_data = {
    "会社名": [
        "T&Dリスクソリューションズ株式会社",  # 株式会社有り
        "株式会社ミツビシ電機",              # 株式会社有り
        "トヨタ自動車株式会社",               # 株式会社有り
        "ソニー株式会社",                    # 株式会社有り
        "株式会社日立製作所",                # 株式会社有り
        "パナソニック株式会社",              # 株式会社有り
        "株式会社シャープ",                  # 株式会社有り
        "株式会社ホンダ",                    # 株式会社有り
        "富士通株式会社",                    # 株式会社有り
        "リコー株式会社"                     # 株式会社有り
    ],
    "サブスクリプションID": [
        "4444-1111", 
        "4444-1112", 
        "4444-1113",
        "4444-1114",
        "4444-1115",
        "4444-1116",
        "4444-1117",
        "4444-1118",
        "4444-1119",
        "4444-1120"
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3"
    ]
}

# customer book テーブルのデータを定義（きれいなデータ）
customer_book_data = {
    "会社名": [
        "T&Dリスクソリューションズ",  # 株式会社無し
        "ミツビシ電機",               # 株式会社無し
        "トヨタ自動車",                # 株式会社無し
        "ソニー",                    # 株式会社無し
        "日立製作所",                # 株式会社無し
        "パナソニック",              # 株式会社無し
        "シャープ",                  # 株式会社無し
        "ホンダ",                    # 株式会社無し
        "日産",                      # False データ
        "リコーテック"              # False データ
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "4444-1111", 
        "4444-1112", 
        "4444-1113",
        "4444-1114",
        "4444-1115", 
        "4444-1116", 
        "4444-1117",
        "4444-1118",
        "4444-1119",  
        "4444-1120"   
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, True, True, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_kabushiki.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_kabushiki.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_kabushiki.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")


データセットと正解データセットのCSVファイルが保存されました。


In [22]:
# データセットのロード
partner_center_df = pd.read_csv('dataset/partner_center/partner_center_kabushiki.csv')
customer_book_df = pd.read_csv('dataset/customer_book/customer_book_kabushiki.csv')

# 会社名を正規化する関数
def normalize_company_name(name):
    # 法人種別を削除
    name = re.sub(r'(株式会社|合同会社|有限会社)', '', name)
    return name.strip()

# 妥当性チェックの結果を保存するリスト
comparison_results = []

# 比較ループ
for _, pc_row in partner_center_df.iterrows():
    pc_name_normalized = normalize_company_name(pc_row['会社名'])
    for _, cb_row in customer_book_df.iterrows():
        if pc_row['サブスクリプションID'] == cb_row['サブスクリプションID']:
            cb_name_normalized = normalize_company_name(cb_row['会社名'])
            result = {
                "partner center 会社名": pc_row['会社名'],
                "customer book 会社名": cb_row['会社名'],
                "サブスクリプションID": pc_row['サブスクリプションID'],
                "妥当性": pc_name_normalized == cb_name_normalized
            }
            comparison_results.append(result)

# 比較結果のデータフレームを作成
comparison_results_df = pd.DataFrame(comparison_results)

comparison_results_df

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,妥当性
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,True
3,ソニー株式会社,ソニー,4444-1114,True
4,株式会社日立製作所,日立製作所,4444-1115,True
5,パナソニック株式会社,パナソニック,4444-1116,True
6,株式会社シャープ,シャープ,4444-1117,True
7,株式会社ホンダ,ホンダ,4444-1118,True
8,富士通株式会社,日産,4444-1119,False
9,リコー株式会社,リコーテック,4444-1120,False


In [23]:
expected_validity_df = pd.read_csv('dataset/correct_data/comparison_results_with_validity_kabushiki.csv')

# サブスクリプションIDをキーとしてマージして比較
comparison_with_truth_df = comparison_results_df.merge(
    expected_validity_df, 
    on=["partner center 会社名", "customer book 会社名", "サブスクリプションID"], 
    suffixes=('_predicted', '_true')
)

# 妥当性が一致しているかどうかを確認
comparison_with_truth_df['一致'] = comparison_with_truth_df['妥当性_predicted'] == comparison_with_truth_df['妥当性_true']

# カラムの順序を指定して表示
comparison_with_truth_df = comparison_with_truth_df[[
    'partner center 会社名', 'customer book 会社名', 
    'サブスクリプションID', 'M365 プラン', '契約名', 
    '妥当性_predicted', '妥当性_true', '一致'
]]

In [24]:
comparison_with_truth_df

Unnamed: 0,partner center 会社名,customer book 会社名,サブスクリプションID,M365 プラン,契約名,妥当性_predicted,妥当性_true,一致
0,T&Dリスクソリューションズ株式会社,T&Dリスクソリューションズ,4444-1111,M365 Enterprise E3,契約A,True,True,True
1,株式会社ミツビシ電機,ミツビシ電機,4444-1112,M365 Enterprise E3,契約B,True,True,True
2,トヨタ自動車株式会社,トヨタ自動車,4444-1113,M365 Enterprise E3,契約C,True,True,True
3,ソニー株式会社,ソニー,4444-1114,M365 Enterprise E3,契約D,True,True,True
4,株式会社日立製作所,日立製作所,4444-1115,M365 Enterprise E3,契約E,True,True,True
5,パナソニック株式会社,パナソニック,4444-1116,M365 Enterprise E3,契約F,True,True,True
6,株式会社シャープ,シャープ,4444-1117,M365 Enterprise E3,契約G,True,True,True
7,株式会社ホンダ,ホンダ,4444-1118,M365 Enterprise E3,契約H,True,True,True
8,富士通株式会社,日産,4444-1119,M365 Enterprise E3,契約I,False,False,True
9,リコー株式会社,リコーテック,4444-1120,M365 Enterprise E3,契約J,False,False,True


## 略称

In [25]:
import pandas as pd
import os

# データセット保存ディレクトリの作成
os.makedirs('dataset/partner_center', exist_ok=True)
os.makedirs('dataset/customer_book', exist_ok=True)

# partner center テーブルのデータを定義（略称）
partner_center_data = {
    "会社名": [
        "株式会社福島中央テレビ",     # 正式名称
        "株式会社日本放送協会",       # 正式名称
        "株式会社東京放送ホールディングス", # 正式名称
        "株式会社株式会社野村総合研究所",               # 正式名称
        "株式会社テレビ朝日",         # 正式名称
        "株式会社東日本旅客鉄道株式会社",         # 正式名称
        "株式会社フジテレビジョン",   # 正式名称
        "株式会社読売新聞社",         # 正式名称
        "野村證券株式会社",       # 正式名称
        "株式会社博報堂"              # 正式名称
    ],
    "サブスクリプションID": [
        "5555-1111", 
        "5555-1112", 
        "5555-1113",
        "5555-1114",
        "5555-1115",
        "5555-1116",
        "5555-1117",
        "5555-1118",
        "5555-1119",
        "5555-1120"
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3"
    ]
}

# customer book テーブルのデータを定義（略称）
customer_book_data = {
    "会社名": [
        "FCT.jp",      # 略称
        "NHK",         # 略称
        "TBS",         # 略称
        "NRI",      # 略称
        "EX",          # 略称
        "JR東",  # 略称
        "Fuji TV",     # 略称
        "Yomiuri",     # 略称
        "NRI", # 略称
        "ADK"          # 略称 (False)
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "5555-1111", 
        "5555-1112", 
        "5555-1113",
        "5555-1114",
        "5555-1115", 
        "5555-1116", 
        "5555-1117",
        "5555-1118",
        "5555-1119",  
        "5555-1120"   
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, True, True, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_abbreviation.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_abbreviation.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_abbreviation.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")


データセットと正解データセットのCSVファイルが保存されました。


## その他

#### Trueの例
1. **拠点名の違い**
   - パートナーセンター: 「株式会社M-TEC」
   - 顧客台帳: 「株式会社M-TEC本社・工場」
   - 妥当性: True

2. **地域名の違い**
   - パートナーセンター: 「株式会社西日本システム」
   - 顧客台帳: 「株式会社西日本システム東京支社」
   - 妥当性: True

3. **部署名の違い**
   - パートナーセンター: 「株式会社ABC」
   - 顧客台帳: 「株式会社ABC営業部」
   - 妥当性: True

4. **別名の併用**
   - パートナーセンター: 「株式会社東日本エレクトロニクス」
   - 顧客台帳: 「株式会社東日本エレクトロニクス (EJE)」
   - 妥当性: True

5. **正式名と別名**
   - パートナーセンター: 「株式会社リクルートホールディングス」
   - 顧客台帳: 「リクルート」
   - 妥当性: True

6. **会社位置の誤りによる違い**
   - パートナーセンター: 「株式会社ソニー」
   - 顧客台帳: 「ソニー株式会社」
   - 妥当性: True

#### Falseの例
1. **完全に異なる会社**
   - パートナーセンター: 「株式会社XYZ」
   - 顧客台帳: 「株式会社ABC」
   - 妥当性: False

2. **子会社の違い**
   - パートナーセンター: 「株式会社ソニー」
   - 顧客台帳: 「ソニー・インタラクティブエンタテインメント」
   - 妥当性: False

3. **関連会社の違い**
   - パートナーセンター: 「株式会社ニトリホールディングス」
   - 顧客台帳: 「ニトリ」
   - 妥当性: False

4. **無関係な名前の一部一致**
   - パートナーセンター: 「AWS株式会社」
   - 顧客台帳: 「AWS Japan」
   - 妥当性: False

In [28]:
# partner center テーブルのデータを定義（その他）
partner_center_data = {
    "会社名": [
        "株式会社M-TEC",                     # 正式名称
        "株式会社西日本システム",              # 正式名称
        "株式会社ABC",                       # 正式名称
        "株式会社東日本エレクトロニクス",      # 正式名称
        "株式会社リクルートホールディングス",    # 正式名称
        "有限会社イー・マーキュリー",         # 正式名称
        "株式会社XYZ",                      # 正式名称
        "株式会社ソニー",                    # 正式名称
        "株式会社日立製作所",        # 正式名称
        "AWS Japan"                # 正式名称
    ],
    "サブスクリプションID": [
        "6666-1111", 
        "6666-1112", 
        "6666-1113",
        "6666-1114",
        "6666-1115",
        "6666-1116",
        "6666-1117",
        "6666-1118",
        "6666-1119",
        "6666-1120"
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3"
    ]
}

# customer book テーブルのデータを定義（その他）
customer_book_data = {
    "会社名": [
        "株式会社M-TEC本社・工場",           # 拠点名
        "株式会社西日本システム東京支社",      # 地域名
        "株式会社ABC営業部",                # 部署名
        "株式会社東日本エレクトロニクス (EJE)",# 別名併用
        "リクルート",                      # 略称
        "株式会社ミクシィ",            # 過去と現在の会社名の違い
        "株式会社ABC",                    # 完全に異なる会社 (False)
        "ソニー・インタラクティブエンタテインメント",# 子会社
        "日立ソリューションズ",                        # 正式名と異なる別名
        "株式会社AWS"          # 無関係な名前の一部一致
    ],
    "契約名": [
        "契約A", 
        "契約B", 
        "契約C",
        "契約D",
        "契約E", 
        "契約F", 
        "契約G",
        "契約H",
        "契約I",
        "契約J"
    ],
    "サブスクリプションID": [
        "6666-1111", 
        "6666-1112", 
        "6666-1113",
        "6666-1114",
        "6666-1115", 
        "6666-1116", 
        "6666-1117",
        "6666-1118",
        "6666-1119",  
        "6666-1120"   
    ],
    "M365 プラン": [
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3", 
        "M365 Enterprise E3",
        "M365 Enterprise E3",
        "M365 Enterprise E3", 
        "M365 Enterprise E3"
    ]
}

# データフレームの作成
partner_center_df = pd.DataFrame(partner_center_data)
customer_book_df = pd.DataFrame(customer_book_data)

# 正解データセットの作成
expected_validity = [True, True, True, True, True, True, False, False, False, False]

comparison_results = []
for i in range(len(partner_center_data["会社名"])):
    result = {
        "partner center 会社名": partner_center_data["会社名"][i],
        "customer book 会社名": customer_book_data["会社名"][i],
        "サブスクリプションID": partner_center_data["サブスクリプションID"][i],
        "M365 プラン": partner_center_data["M365 プラン"][i],
        "契約名": customer_book_data["契約名"][i],
        "妥当性": expected_validity[i]
    }
    comparison_results.append(result)

comparison_df = pd.DataFrame(comparison_results)

# データセットと正解データセットをCSVファイルに保存
partner_center_df.to_csv('dataset/partner_center/partner_center_other.csv', index=False)
customer_book_df.to_csv('dataset/customer_book/customer_book_other.csv', index=False)
comparison_df.to_csv('dataset/correct_data/comparison_results_with_validity_other.csv', index=False)

print("データセットと正解データセットのCSVファイルが保存されました。")

データセットと正解データセットのCSVファイルが保存されました。
