In [1]:
import re

In [2]:
def analyze_match(text, pattern=r'(\w+部)(?=[^部]*室)'):
    print(f"入力: {text}")
    print(f"パターン: {pattern}")
    
    match = re.search(pattern, text)
    if match:
        print("マッチ結果:")
        print(f"  マッチオブジェクト: {match}")
        print(f"  マッチした文字列: '{match.group()}'")
        print(f"  グループ1 (部署名): '{match.group(1)}'")
        print(f"  マッチの開始位置: {match.start()}")
        print(f"  マッチの終了位置: {match.end()}")
        print(f"  マッチのスパン: {match.span()}")
        print(f"  部屋名 (マッチ以降の文字列): '{text[match.end():]}'")
    else:
        print("マッチなし")
    print()


In [13]:
test_cases = [
    "東部動物公園部ホワイトタイガー室",
    "営業部会議室",
    "総務部",
    "研究開発部実験センター",
    "東部支社営業部門",
    "広報部プレスルーム",
    "情報システム部サーバールーム",
    "人事部面接ホール",
    "製造部工場A",
    "企画部ブレインストーミングエリア",
    "資材部部品保管室",
    "春日部部保管室",
]

for case in test_cases:
    analyze_match(case, pattern=r'(\w+部)(?=\S)')
print('-'*80)
for case in test_cases:
    analyze_match(case, pattern=r'(\w+部)(?=[^部]*室)')
print('-'*80)
for case in test_cases:
    analyze_match(case, pattern=r'((?:\w+部)+)(.+)?')

入力: 東部動物公園部ホワイトタイガー室
パターン: (\w+部)(?=\S)
マッチ結果:
  マッチオブジェクト: <re.Match object; span=(0, 7), match='東部動物公園部'>
  マッチした文字列: '東部動物公園部'
  グループ1 (部署名): '東部動物公園部'
  マッチの開始位置: 0
  マッチの終了位置: 7
  マッチのスパン: (0, 7)
  部屋名 (マッチ以降の文字列): 'ホワイトタイガー室'

入力: 営業部会議室
パターン: (\w+部)(?=\S)
マッチ結果:
  マッチオブジェクト: <re.Match object; span=(0, 3), match='営業部'>
  マッチした文字列: '営業部'
  グループ1 (部署名): '営業部'
  マッチの開始位置: 0
  マッチの終了位置: 3
  マッチのスパン: (0, 3)
  部屋名 (マッチ以降の文字列): '会議室'

入力: 総務部
パターン: (\w+部)(?=\S)
マッチなし

入力: 研究開発部実験センター
パターン: (\w+部)(?=\S)
マッチ結果:
  マッチオブジェクト: <re.Match object; span=(0, 5), match='研究開発部'>
  マッチした文字列: '研究開発部'
  グループ1 (部署名): '研究開発部'
  マッチの開始位置: 0
  マッチの終了位置: 5
  マッチのスパン: (0, 5)
  部屋名 (マッチ以降の文字列): '実験センター'

入力: 東部支社営業部門
パターン: (\w+部)(?=\S)
マッチ結果:
  マッチオブジェクト: <re.Match object; span=(0, 7), match='東部支社営業部'>
  マッチした文字列: '東部支社営業部'
  グループ1 (部署名): '東部支社営業部'
  マッチの開始位置: 0
  マッチの終了位置: 7
  マッチのスパン: (0, 7)
  部屋名 (マッチ以降の文字列): '門'

入力: 広報部プレスルーム
パターン: (\w+部)(?=\S)
マッチ結果:
  マッチオブジェクト: <re.Match object; span=(0, 3), match='広

In [20]:
import re

def parse_department_room(text):
    # まず、'部'で終わる最長の部分を部署名として抽出
    department_match = re.match(r'.*部', text)
    if not department_match:
        return text, ''  # '部'が含まれない場合は元の文字列をそのまま返す

    department = department_match.group()
    remaining = text[len(department):]

    # 残りの部分が空でない場合、それを部屋名とする
    if remaining:
        # 部屋名が'部'で始まる場合の特別処理
        if remaining.startswith('部'):
            # '部'で分割し、最後の'部'とそれ以降を部屋名とする
            parts = department.split('部')
            if len(parts) > 2:  # 複数の'部'がある場合
                department = '部'.join(parts[:-1]) + '部'
                room = parts[-1] + '部' + remaining
            else:  # '部'が1つだけの場合
                room = remaining
        else:
            room = remaining
    else:
        room = ''

    return department.strip(), room.strip()

# テストケース
test_cases = [
    "東部動物公園部ホワイトタイガー室",
    "資材部部品保管室",
    "ソリューション本部コーポレート情報営業部成長産業支援室",
    "経理部部長室",
]

for case in test_cases:
    dept, room = parse_department_room(case)
    print(f"入力: {case}")
    print(f"部署名: {dept}")
    print(f"部屋名: {room}")
    print()

入力: 東部動物公園部ホワイトタイガー室
部署名: 東部動物公園部
部屋名: ホワイトタイガー室

入力: 資材部部品保管室
部署名: 資材部部
部屋名: 品保管室

入力: ソリューション本部コーポレート情報営業部成長産業支援室
部署名: ソリューション本部コーポレート情報営業部
部屋名: 成長産業支援室

入力: 経理部部長室
部署名: 経理部部
部屋名: 長室



In [19]:
import re

def parse_organization_structure(text):
    # 組織構造を示すキーワードのリスト（優先順位順）
    keywords = ['本部', '部', '室', 'グループ', 'チーム']
    
    # キーワードでテキストを分割
    parts = re.split(f"({'|'.join(keywords)})", text)
    
    # 空の要素を削除
    parts = [part for part in parts if part.strip()]
    print(parts)
    
    # 分割された部分を結合して構造化
    structured = []
    current = ""
    for part in parts:
        if part in keywords:
            current += part
            structured.append(current.strip())
            current = ""
        else:
            current += part
    
    # 残りの部分があれば追加
    if current:
        structured.append(current.strip())
    
    return " ".join(structured)

# テストケース
test_cases = [
    "ソリューション本部コーポレート情報営業部成長産業支援室",
    "東部動物公園部ホワイトタイガー室",
    "営業部会議室",
    "総務部",
    "研究開発部実験センター",
    "資材部部品保管室",
    "経理部部長室",
    "西部支社東部門",
    "デジタルトランスフォーメーション推進本部システム開発部クラウドサービス室",
    "人事部採用グループ新卒採用チーム"
]

for case in test_cases:
    result = parse_organization_structure(case)
    print(f"入力: {case}")
    print(f"出力: {result}")
    print()

['ソリューション', '本部', 'コーポレート情報営業', '部', '成長産業支援', '室']
入力: ソリューション本部コーポレート情報営業部成長産業支援室
出力: ソリューション本部 コーポレート情報営業部 成長産業支援室

['東', '部', '動物公園', '部', 'ホワイトタイガー', '室']
入力: 東部動物公園部ホワイトタイガー室
出力: 東部 動物公園部 ホワイトタイガー室

['営業', '部', '会議', '室']
入力: 営業部会議室
出力: 営業部 会議室

['総務', '部']
入力: 総務部
出力: 総務部

['研究開発', '部', '実験センター']
入力: 研究開発部実験センター
出力: 研究開発部 実験センター

['資材', '部', '部', '品保管', '室']
入力: 資材部部品保管室
出力: 資材部 部 品保管室

['経理', '部', '部', '長', '室']
入力: 経理部部長室
出力: 経理部 部 長室

['西', '部', '支社東', '部', '門']
入力: 西部支社東部門
出力: 西部 支社東部 門

['デジタルトランスフォーメーション推進', '本部', 'システム開発', '部', 'クラウドサービス', '室']
入力: デジタルトランスフォーメーション推進本部システム開発部クラウドサービス室
出力: デジタルトランスフォーメーション推進本部 システム開発部 クラウドサービス室

['人事', '部', '採用', 'グループ', '新卒採用', 'チーム']
入力: 人事部採用グループ新卒採用チーム
出力: 人事部 採用グループ 新卒採用チーム

