# 🏗️ 건설공사 안전 AI 모델 개발 로드맵

## 📊 1단계: 데이터 탐색 및 이해
**목표**: 데이터의 특성과 구조 파악, 분석 방향 설정

### CSV 데이터 기초 분석
- 기술통계 분석으로 각 변수의 분포 파악
- 사고원인, 공사종류, 공종 등 주요 범주형 변수 빈도 분석
- 결측치, 이상치 확인 및 처리 방안 수립

### PDF 문서 구조 분석
- 문서 구조 패턴 파악 (제목, 소제목, 본문 등 구분)
- 공통 안전지침과 공사별 특수 지침 식별
- 문서 내 정보 추출을 위한 섹션 구분 전략 수립

---

## 🔍 2단계: 사고 패턴 심층 분석
**목표**: 사고 데이터에서 유의미한 패턴과 관계 도출

### 변수 간 관계 분석
- 교차분석을 통한 사고원인과 다른 변수들(공종, 장소, 시간 등) 간의 관계 파악
- 의사결정나무를 활용한 사고원인 결정요인 식별
- 공사종류별 주요 사고원인 비교 분석

### 재발방지대책 텍스트 분석
- 토픽 모델링(LDA)을 활용한 주요 재발방지 전략 유형 추출
- 사고원인별 재발방지대책의 특징적 키워드 및 패턴 분석
- 효과적인 재발방지대책의 공통 요소 식별

---

## 📑 3단계: 안전지침 정보 추출 및 구조화
**목표**: PDF 문서에서 분석 가능한 구조화된 안전정보 추출

### 의미 기반 정보 추출
- 규칙 기반 접근법으로 안전지침 문장 추출
- 공사 단계별 안전 요구사항 분류
- 위험요소와 안전조치 쌍(pair) 추출

### TF-IDF 분석을 통한 특징 추출
- 공사 유형별 특징적인 안전 키워드 식별
- 문서 간 유사성 분석으로 관련 지침 그룹화
- 공통 안전사항과 특수 안전사항 구분

---

## 🔗 4단계: 사고원인-안전지침 연결 모델 개발
**목표**: 실제 사고와 관련 안전지침을 연결하는 모델 구축

### 의미적 유사도 기반 매핑
- 사고원인과 안전지침 문장 간 의미적 유사도 계산
- 각 사고원인에 가장 관련성 높은 안전지침 집합 생성
- 유사도 임계값 설정 및 모델 성능 평가

### 맥락 인식 분류 모델 개발
- 사고 상황 설명을 입력받아 관련 안전지침 분류
- 앙상블 기법을 활용한 분류 정확도 향상
- 교차 검증을 통한 모델 안정성 확인

---

## 🛠️ 5단계: 재발방지대책 생성 모델 개발
**목표**: 사고 상황에 맞는 맞춤형 재발방지대책 자동 생성

### 템플릿 기반 생성 모델 구축
- 사고원인별 재발방지대책 템플릿 추출
- 상황에 맞는 템플릿 선택 및 변수 치환 메커니즘 개발
- 템플릿 조합을 통한 종합적 대책 생성

### 딥러닝 기반 텍스트 생성 모델 개발
- 기존 재발방지대책 데이터로 언어 모델 파인튜닝
- 사고 특성을 조건으로 하는 조건부 텍스트 생성
- 생성된 대책의 품질 및 적합성 평가

---

## 🔄 6단계: 통합 AI 모델 구축 및 최적화
**목표**: 사고원인 분석과 재발방지대책 생성을 통합한 엔드투엔드 모델 완성

### 파이프라인 통합
- 사고 특성 입력 → 원인 분석 → 관련 안전지침 검색 → 재발방지대책 생성 파이프라인 구축
- 구성요소 간 인터페이스 최적화
- 전체 처리 속도 및 자원 사용 효율화

### 모델 평가 및 개선
- 실제 사례를 활용한 모델 성능 종합 평가
- 사용자 피드백 기반 정교화 메커니즘 설계
- 최종 모델 성능 검증 및 문서화

---

> **참고**: 이 로드맵은 단계적으로 데이터를 이해하고, 의미 있는 패턴을 발견하며, 실용적인 AI 모델을 개발하기 위한 프레임워크입니다. 각 단계는 이전 단계의 결과를 기반으로 하여 점진적으로 모델의 복잡성과 성능을 향상시키는 방향으로 설계되었습니다.

1-2 단계 수행 시작

### PDF 문서 구조 분석
- 문서 구조 패턴 파악 (제목, 소제목, 본문 등 구분)
- 공통 안전지침과 공사별 특수 지침 식별
- 문서 내 정보 추출을 위한 섹션 구분 전략 수립

In [None]:
# 필요한 라이브러리 설치
!pip install mecab-python3
!apt-get update
!apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl
!pip install konlpy
!apt-get install curl git
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Collecting mecab-python3
  Downloading mecab_python3-1.0.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.2 kB)
Downloading mecab_python3-1.0.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (588 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m588.8/588.8 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: mecab-python3
Successfully installed mecab-python3-1.0.10
Get:1 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
Get:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Get:4 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Hit:5 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:6 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Hit:7 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:8 http://

In [None]:
import MeCab
mecab = MeCab.Tagger()
print(mecab.parse("이것은 테스트 문장입니다"))

이것	NP,*,T,이것,Inflect,NP,NP,이거/NP/*
은	JX,*,T,은,*,*,*,*
테스트	NNG,행위,F,테스트,*,*,*,*
문장	NNG,*,T,문장,*,*,*,*
입니다	VCP+EC,*,F,입니다,Inflect,VCP,EC,이/VCP/*+ᄇ니다/EC/*
EOS



In [None]:
!pip install pdfplumber



In [None]:
# 필요한 라이브러리 임포트
import os
import re
import pandas as pd
import numpy as np
from collections import Counter
import pdfplumber
import concurrent.futures
from konlpy.tag import Mecab

In [None]:
# Google Drive 마운트 (필요한 경우)
from google.colab import drive
drive.mount('/content/drive')

# 기본 경로 설정
pdf_folder = "/content/drive/MyDrive/pdfs/건설안전지침"  # 실제 본인 google drive 속 PDF들이 저장된 폴더 경로로 변경하세요
output_folder = "/content/drive/MyDrive/pdfs_extract_results"  # 실제 출력 폴더 경로로 변경하세요(본인 드라이브의 원하는 자리)

import MeCab
mecab = MeCab.Tagger()

# 기본 불용어 설정
DEFAULT_STOP_WORDS = set(['은', '는', '이', '가', '을', '를', '에', '의', '와', '과', '으로', '로', '에서', '도', '만', '에게', '께', '같이', '처럼', '같은', '보다'])
custom_stop_words = list(DEFAULT_STOP_WORDS) + []  # 필요에 따라 수정하세요

# 병렬 처리 설정
batch_size = 5  # Colab에서는 작은 배치 크기로 시작하세요
max_workers = 4  # Colab에서는 작업자 수를 제한하세요

print('wlsgoddhks')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
wlsgoddhks


In [None]:
def find_section_for_text(text_position, sections):
    """텍스트 위치가 속한 섹션 찾기"""
    for i, section in enumerate(sections):
        section_start = section.get("start_position", 0)
        section_end = sections[i+1].get("start_position", float('inf')) if i+1 < len(sections) else float('inf')

        if section_start <= text_position < section_end:
            return {
                "number": section["number"],
                "title": section["title"]
            }

    return None

def identify_hazards(text):
    """위험요소 식별 함수"""
    hazard_keywords = [
    # 재해/사고 유형
    '추락', '낙하', '붕괴', '감전', '협착', '전도', '미끄러짐', '충돌', '베임', '찔림', '화재',
    '비래', '질식', '중독', '화상', '침하', '전복', '도괴', '파열', '절단', '압출사고', '폭발', '위험',

    # 위험 상황/요소
    '위험요인', '불균형 모멘트', '부등침하', '강풍', '과도한 수평력', '편심하중', '유압호스 파손',
    '초기균열', '유해가스', '산소결핍', '직사광선', '부모멘트', '캔틸레버', '편재하', '마찰저항',
    '처짐', '변위', '단차', '내력', '수평하중', '변형', '편심', '과하중', '균열', '부식', '걸림',
    '열피로', '마찰', '충격', '전단', '미세파단', '유독가스', '분진', '소음', '진동', '방사선', '유출',
    '인장파단', '좌굴',

    # 위험 장소
    '고소작업', '밀폐공간', '협소', '거푸집 헌치부', '절토사면', '궤도',

    # # 장비/설비 관련
    # '타워크레인', '리프트', '유압장치', '이동식 작업대차', '인양장비', '압출장비', '보일러',
    # '와이어로프', '강선', '진동다짐기', '미끄럼판', '크레인', '건설용 리프트', '가설장비',
    # '동바리', '안전시설', '안전난간', '가시설물', '강제거푸집', '가교각', '임시교각',
    # '횡방향 가이드', '압출장비', '증기양생시설', '추진코', '활동방지 지지받침',
    # '프리스트레싱', '포스트텐셔닝', '잭', '앵커', '스크류잭', '세그먼트'
]
    hazards = []

    for keyword in hazard_keywords:
        if keyword in text:
            # 위험요소 주변 컨텍스트 추출
            # context_pattern = re.compile(r'([^\.]*' + keyword + r'[^\.]*)')
            # matches = context_pattern.findall(text)
            # hazards.extend(matches)
            hazards.append(keyword)

    return hazards

def identify_measures(text):
    """안전조치 식별 함수"""
    # 조치사항은 주로 지침 문장 자체가 됨
    # 추가 분석으로 세부 조치만 추출 가능
    measure_patterns = [
    # 기존 패턴
    r'([^\.]*설치하여야\s*한다)',
    r'([^\.]*확인하여야\s*한다)',
    r'([^\.]*점검하여야\s*한다)',

    # 추가 패턴
    r'([^\.]*배치하여야\s*한다)',
    r'([^\.]*교육[^\.]*실시하여야\s*한다)',
    r'([^\.]*조치하여야\s*한다)',
    r'([^\.]*통제하여야\s*한다)',
    r'([^\.]*실시하여야\s*한다)',
    r'([^\.]*준수하여야\s*한다)',
    r'([^\.]*착용하여야\s*한다)',
    r'([^\.]*고정하여야\s*한다)',
    r'([^\.]*방지하여야\s*한다)',
    r'([^\.]*예방하여야\s*한다)',
    r'([^\.]*유지하여야\s*한다)',
    r'([^\.]*제거하여야\s*한다)',

    # 해야 한다 형식
    r'([^\.]*설치해야\s*한다)',
    r'([^\.]*확인해야\s*한다)',
    r'([^\.]*점검해야\s*한다)',
    r'([^\.]*교육해야\s*한다)',

    # ~도록 한다 형식
    r'([^\.]*되도록\s*한다)',
    r'([^\.]*하도록\s*한다)',
    r'([^\.]*유지되도록\s*한다)',
    r'([^\.]*방지되도록\s*한다)'
    ]

    measures = []
    for pattern in measure_patterns:
        matches = re.findall(pattern, text)
        measures.extend(matches)

    return measures if measures else [text]  # 기본적으로 전체 문장을 조치사항으로 반환

# def extract_keywords(text, stop_words): # preprocess 함수에서 호출
#     """MeCab을 사용하여 텍스트에서 키워드 추출"""
#     parsed = mecab.parse(text)  # pos() 대신 parse() 사용

#     # 파싱 결과 처리 - parse()는 문자열을 반환하므로 처리 필요
#     morphs = []
#     for line in parsed.split('\n'):
#         if line == 'EOS' or not line:
#             continue
#         parts = line.split('\t')
#         if len(parts) >= 2:
#             word = parts[0]
#             pos_info = parts[1].split(',')[0]  # 품사 정보
#             morphs.append((word, pos_info))

#     # 명사만 추출 (NNG: 일반명사, NNP: 고유명사)
#     # 2글자 이상인 명사만 추출
#     nouns = [word for word, pos in morphs if (pos.startswith('N') and len(word) >= 2)]

#     # 불용어 제거 및 빈도수 계산
#     filtered_words = [word for word in nouns if word not in stop_words]
#     word_counts = Counter(filtered_words)

#     return word_counts

def extract_keywords_from_safety_sections(guidelines, stop_words):
    """안전 관련 섹션의 가이드라인에서만 키워드 추출"""
    safety_text = ""

    # 안전 관련 키워드 확장
    safety_keywords = ["안전", "위험", "주의", "예방", "보호", "방지", "재해", "사고", "추락", "낙하" , "안전작업"]

    # 안전 관련 키워드가 포함된 섹션의 가이드라인만 선택
    for guideline in guidelines:
        if "section" in guideline and guideline["section"]:
            section_title = guideline["section"].get("title", "")
            # 섹션 선택 부분 수정
            if any(keyword in section_title for keyword in safety_keywords):
                # 안전 관련 키워드가 포함된 섹션
                if "text" in guideline and guideline["text"]:
                    safety_text += guideline["text"] + " "

    # 텍스트가 없는 경우 (안전 관련 섹션이 없을 경우)
    if not safety_text:
        # 모든 안전지침을 대상으로 함
        for guideline in guidelines:
            if "text" in guideline and guideline["text"]:
                safety_text += guideline["text"] + " "

    # 이하 코드는 동일하게 유지
    # MeCab을 사용하여 형태소 분석
    parsed = mecab.parse(safety_text)

    # 파싱 결과 처리
    morphs = []
    for line in parsed.split('\n'):
        if line == 'EOS' or not line:
            continue
        parts = line.split('\t')
        if len(parts) >= 2:
            word = parts[0]
            pos_info = parts[1].split(',')[0]
            morphs.append((word, pos_info))

    # 명사만 추출 (2글자 이상)
    nouns = [word for word, pos in morphs if (pos.startswith('N') and len(word) >= 2)]

    # 불용어 제거 및 빈도수 계산
    filtered_words = [word for word in nouns if word not in stop_words]
    word_counts = Counter(filtered_words)

    return word_counts, bool(safety_text and safety_text != "")



def extract_safety_guidelines(text, sections):
    """안전 관련 섹션에서만 안전지침 문장 추출"""
    guidelines = []

    # 안전 관련 키워드 정의
    safety_keywords = ["안전", "위험", "주의", "예방", "보호", "방지", "재해", "사고", "추락", "낙하" , "검토사항" , "준수사항", "안전작업"]

    # 안전 관련 섹션 필터링
    safety_sections = []
    for section in sections:
        # print('섹션들 전부 추출해보겠습니다.')
        # print(section)
        section_title = section.get("title", "")
        # print('이번에는 title들 전부 출력\n')
        #print(section_title)
        #print(type(section_title)) # -> class 'str'
        if any(keyword in section_title for keyword in safety_keywords):
            #print(keyword)
            print('이게 키워드로 설정된 상태로 검색했을때')
            print(section_title)
            print('\n')
            safety_sections.append(section)

    print('추출된 section 제목들 : ')

    for section in safety_sections:

      section_title = section.get("title", "") # 안전이라는 키워드가 안에 들어 있어도 추출되지 않는 df 에 출력되지 않는 이유 -> content가 없으니까 슈바 가이드라인이 없지

      print(section_title)

      print('\n')

    print('safety_sections 는 잘 생성 되었는가')
    # for i in range(len(safety_sections)):
    #   print(safety_sections[i])

    #print(safety_sections)

    # 안전 관련 섹션이 없을 경우 모든 섹션 사용
    if not safety_sections:
        print('비어있는  section 입력됨...')
        safety_sections = sections

    # 안전지침 패턴 (예: ~하여야 한다)
    guideline_patterns = [
      # 기존 패턴
      r'[^\.]*하여야\s*한다\.',
      r'[^\.]*해야\s*한다\.',
      r'[^\.]*금지하여야\s*한다\.',
      r'[^\.]*않도록\s*한다\.',

      # 추가적인 명령/지시 패턴
      r'[^\.]*하도록\s*한다\.',
      r'[^\.]*이어야\s*한다\.',
      r'[^\.]*되어야\s*한다\.',
      r'[^\.]*갖추어야\s*한다\.',
      r'[^\.]*필요하다\.',
      r'[^\.]*요구된다\.',

      # 전문용어와 결합된 패턴
      r'[^\.]*설치[^\.]*사용하여야\s*한다\.',
      r'[^\.]*시공[^\.]*하여야\s*한다\.',
      r'[^\.]*안전[^\.]*확보하여야\s*한다\.',

      # 복합 구문 패턴
      r'[^\.]*으며[^\.]*하여야\s*한다\.',
      r'[^\.]*하고[^\.]*하여야\s*한다\.',

      # 금지 패턴 추가
      r'[^\.]*해서는\s*안된다\.',
      r'[^\.]*해서는\s*안\s*된다\.',
      r'[^\.]*하지\s*말아야\s*한다\.',
      r'[^\.]*하지\s*않아야\s*한다\.',

      # 조건부 패턴
      r'[^\.]*경우[^\.]*하여야\s*한다\.',
      r'[^\.]*시에는[^\.]*하여야\s*한다\.',
      r'[^\.]*전에[^\.]*하여야\s*한다\.',
      r'[^\.]*후에[^\.]*하여야\s*한다\.',

      # 일반적인 지시 패턴
      r'[^\.]*원칙으로\s*한다\.',
      r'[^\.]*실시한다\.',
      r'[^\.]*점검한다\.',
      r'[^\.]*확인한다\.'
    ]

    combined_pattern = '|'.join(guideline_patterns)
    guideline_regex = re.compile(combined_pattern)

    # 안전 관련 섹션 내에서만 안전지침 문장 찾기
    for section in safety_sections: # section은 dictionary
        # 이 함수가 수행이 되면서 , 전체 섹션들 중 안전과 관련된 제목을 가진 섹션들 중에서 특정 안전 가이드라인 문장으로 끝나는 가이드라인을 추출 , 그 가이드라인 안에서 stopwords 빼고 명사들만 추출함.
        # 이렇게 해서 pdf 들 속에 있는 진정한 안전지침 관련 키워드 들을 추출함.
        print('현재 검사 대상 section 내용')
        print(section)
        section_content = section.get("content", "")

        if section_content is None:  # 괄호 제거, null 대신 None 사용
            print('엮시 없구만')

        section_info = {
            "number": section.get("number", ""),
            "title": section.get("title", "")
        }

        for match in guideline_regex.finditer(section_content):
            guideline_text = match.group(0).strip()

            # 위험요소 식별
            hazards = identify_hazards(guideline_text)

            # 조치사항 식별
            measures = identify_measures(guideline_text)

            guidelines.append({
                "text": guideline_text,
                "hazards": hazards,
                "measures": measures,
                "section": section_info,
                "is_safety_section": any(keyword in section_info["title"] for keyword in safety_keywords)
            })

            #print(guidelines)

    return guidelines

In [None]:
def preprocess_pdf(pdf_path):
    """단일 PDF 파일 전처리 함수"""
    print(f"\n===== 처리 시작: {os.path.basename(pdf_path)} =====")
    document_info = {"path": pdf_path, "filename": os.path.basename(pdf_path)}
    sections = []

    try:
        with pdfplumber.open(pdf_path) as pdf:
            # 기본 문서 정보 추출
            if len(pdf.pages) > 0:
                print('pdf의 페이지 수는')
                print(len(pdf.pages))
                first_page_text = pdf.pages[0].extract_text() or ""
                print(f"첫 페이지 텍스트 추출 (처음 100자): {first_page_text[:100]}")
                # 문서 코드 추출 시도 (KOSHA GUIDE 패턴)
                code_match = re.search(r'KOSHA\s+GUIDE\s+([A-Z]\s*-\s*\d+\s*-\s*\d+)', first_page_text)
                if code_match:
                    document_info["code"] = code_match.group(1).strip()

                # 문서 제목 추출 시도 (코드 아래 줄)
                title_match = re.search(r'KOSHA\s+GUIDE.*?\n(.*?)\n', first_page_text, re.DOTALL)
                if title_match:
                    document_info["title"] = title_match.group(1).strip()

            # 모든 페이지 텍스트 추출
            all_text = ""
            for i,page in enumerate(pdf.pages):
                page_text = page.extract_text() or ""
                all_text += page_text + "\n\n"
                if i == 8:  # 첫 페이지만 확인
                    print(f"페이지 {i+1} 텍스트 길이: {len(page_text)} 자")

            print(f"전체 텍스트 길이: {len(all_text)} 자")
            document_info["total_text"] = all_text


            # 섹션 분리
            section_pattern = re.compile(r'(\d+\.(?:\d+)?)\s+([가-힣A-Za-z\s]+)')
            section_matches = list(section_pattern.finditer(all_text))
            print(f"검출된 섹션 수: {len(section_matches)}") # 출력값 확인해보니 섹션의 수는 정상적으로 출력됨.

            for match in section_pattern.finditer(all_text):
                section_number = match.group(1)
                section_title = match.group(2).strip()

                # 섹션 시작 위치
                start_pos = match.start()

                # 다음 섹션 찾기
                next_match = section_pattern.search(all_text, match.end())
                end_pos = next_match.start() if next_match else len(all_text)

                section_content = all_text[match.end():end_pos].strip()

                sections.append({
                    "number": section_number,
                    "title": section_title,
                    "content": section_content,
                    "level": 1 if "." not in section_number else 2,
                    "start_position": start_pos
                })

                section_matches = list(section_pattern.finditer(all_text))

            for i in range(len(section_matches)):
                print(section_matches[i]) # 전체 섹션 출력해보니 섹션 자체는 제대로 출력되는 중

# print(f"검출된 섹션 수: {len(section_matches)}")----------------------------------------------> 여기부터 해바라 일단 갑자기 분석 멈춰서 그것부터 해결하고 section이름에

# 안전이 들어가 있는 섹션들만 골라서 그 안의 가이드라인 , 키워드 추출이 완료됨 즉 pdf-유효한 section-가이드라인-키워드 : 이게 잘 형성되어 있음을 확인하고 다음으로 넘어가면 됨.

            # # 안전지침 문장 추출
            # safety_guidelines = extract_safety_guidelines(all_text, sections)
            # document_info["safety_guidelines"] = safety_guidelines

            # # 키워드 추출
            # keywords = extract_keywords(all_text, DEFAULT_STOP_WORDS)
            # document_info["keywords"] = keywords

             # 안전지침 문장 추출
            print('sections와 section_matches 가 다른건가')

            print(sections)
            # [{'number': '1.', 'title': '목 적\n이 지침은 산업안전보건기준에 관한 규칙', 'level': 2, 'start_position': 668} ,  ] 이렇게 리스트 안에 딕셔너리가 있는 형태

            safety_guidelines = extract_safety_guidelines(all_text, sections)
            document_info["safety_guidelines"] = safety_guidelines

            # 안전 관련 섹션의 가이드라인에서만 키워드 추출
            keywords, used_safety_sections = extract_keywords_from_safety_sections(safety_guidelines, DEFAULT_STOP_WORDS)
            document_info["keywords"] = keywords
            document_info["used_safety_sections_only"] = used_safety_sections  # 안전 섹션만 사용했는지 여부



        return document_info

    except Exception as e:
        print(f"Error processing {pdf_path}: {str(e)}")
        return {"path": pdf_path, "filename": os.path.basename(pdf_path), "error": str(e)}

In [None]:
def analyze_pdf_folder_parallel(folder_path, stop_words=None, batch_size=5, max_workers=4, output_folder=None):
    """병렬 처리로 폴더 내 PDF 파일 분석"""
    if stop_words is None:
        stop_words = DEFAULT_STOP_WORDS

    # PDF 파일 목록 가져오기
    pdf_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.lower().endswith('.pdf')]

    if not pdf_files:
        print("PDF 파일을 찾을 수 없습니다.")
        return None, None

    results = []
    all_keywords = Counter()

    # 직렬 처리 (MeCab은 멀티프로세싱 환경에서 문제가 발생할 수 있음)
    for pdf_file in pdf_files:
        result = preprocess_pdf(pdf_file) # 여러개의 pdf들에 대해 각 pdf 마다 전처리( 각 pdf 파일 정보 , 메타데이터 , 전체 텍스트(이건 일단 주석처리) , 섹션 구조 정보 , 안전 지침 목록 , 키워드 빈도)

        if "error" not in result:
            results.append(result)

            # 키워드 카운터 업데이트
            if "keywords" in result:
                print(result["keywords"])
                all_keywords.update(result["keywords"])

    print('출력 좀 해바라')

    # 결과를 데이터프레임으로 변환
    if results:
        df = pd.DataFrame(results)

        # 결과 저장 (선택적)
        if output_folder:
            os.makedirs(output_folder, exist_ok=True)
            df.to_csv(os.path.join(output_folder, "pdf_analysis_results.csv"), index=False)

        return df, all_keywords

    return None, None

In [None]:
def save_analysis_results(df, keyword_counter, output_folder):
    """분석 결과 저장"""
    os.makedirs(output_folder, exist_ok=True)

    # 데이터프레임 저장
    df.to_csv(os.path.join(output_folder, "pdf_analysis_results.csv"), index=False)

    # 키워드 빈도 저장
    keyword_df = pd.DataFrame({
        'keyword': [k for k, v in keyword_counter.most_common()],
        'frequency': [v for k, v in keyword_counter.most_common()]
    })
    keyword_df.to_csv(os.path.join(output_folder, "keyword_frequency.csv"), index=False)

    # 안전지침 추출 결과 저장
    guidelines = []
    for _, row in df.iterrows():
        if "safety_guidelines" in row and row["safety_guidelines"]:
            for guideline in row["safety_guidelines"]:
                guideline_info = {
                    "document": row.get("filename", ""),
                    "section_number": guideline.get("section", {}).get("number", ""),
                    "section_title": guideline.get("section", {}).get("title", ""),
                    "guideline_text": guideline.get("text", ""),
                    "hazards": "; ".join(guideline.get("hazards", [])),
                    "measures": "; ".join(guideline.get("measures", []))
                }
                guidelines.append(guideline_info)

    if guidelines:
        guidelines_df = pd.DataFrame(guidelines)
        guidelines_df.to_csv(os.path.join(output_folder, "safety_guidelines.csv"), index=False)

    return guidelines_df

In [None]:
# PDF 폴더 분석 실행
preprocessed_df, keyword_freq = analyze_pdf_folder_parallel(
    pdf_folder,
    stop_words=custom_stop_words,
    batch_size=batch_size,
    max_workers=max_workers,
    output_folder=output_folder
)

print(keyword_freq)

print('여기까지는 됨')


# 분석 결과 확인 및 저장
if preprocessed_df is not None and not preprocessed_df.empty:
    # 상위 30개 키워드 출력
    top_keywords = keyword_freq.most_common(30)
    print("\n상위 30개 키워드:")
    for keyword, count in top_keywords:
        print(f"{keyword}: {count}")

    print(f"\n총 처리된 PDF 파일 수: {len(preprocessed_df)}")
    print(f"총 추출된 고유 키워드 수: {len(keyword_freq)}")
else:
    print("처리된 PDF 파일이 없습니다.")

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
현재 검사 대상 section 내용
{'number': '4.', 'title': '안전인증 및\n자율안전확인의 안전인증 및 자\n안전인증 및 자율안전확인 번호 등 법\n표시 율안전확인 번', 'content': '○ ○ 육안 에서 정한 식별표시가 없거나 망실되어\n호 등 법에서\n확인이 불가능한 것\n정한 식별표시\n- 30 -\n\nKOSHA GUIDE\nC - 25 - 2018', 'level': 2, 'start_position': 19174}
현재 검사 대상 section 내용
{'number': '4.', 'title': '안전인증 및\n자율안전확인의 안전인증 및 자 안전인증 및 자율안전확인 번호 등 법에\n표시 율안전확인 번', 'content': '○ ○ 육안 서 정한 식별표시가 없거나 망실되어 확\n호 등 법에서\n인이 불가능한 것\n정한 식별표시\n- 31 -\n\nKOSHA GUIDE\nC - 25 - 2018', 'level': 2, 'start_position': 20025}
현재 검사 대상 section 내용
{'number': '3.', 'title': '성능기준 걸침 강도\n의무안전\n고리\n이탈 인증고시\n방지', 'content': '○ ○ 성능시험 3,240N 미만인 것\n전단\n강도\n방호장치\n수직\n바닥재 ○ ○ 성능시험 10.0mm를 초과하는 것 의무안전\n처짐량\n인증고시\n안전인증 및 자율안전확인 표시가 없거\n“안”, ○ ○ 육안\n나 망실되어 확인이 불가능한 것', 'level': 2, 'start_position': 21102}
현재 검사 대상 section 내용
{'number': '4.', 'title': '안전인증 및\n자율안전확인의 안전인증 및 자\n안전인증 및 자율안전확인 번호 등 법\n표시 율안전확인 번', 'content': '○ ○ 육안 에서 정한 식별표시가 없거나 망실되어\n호 등 법에서\n확인이 불가능한 

In [None]:
# preprocessed_df의 첫 몇 행 확인하기
print("=" * 80)
print("preprocessed_df 샘플 (기본 문서 정보):")
print("=" * 80)
# 데이터프레임이 너무 넓을 수 있으므로 주요 열만 선택하여 표시
if not preprocessed_df.empty:
    sample_columns = ['filename', 'code', 'title']
    if 'safety_guidelines' in preprocessed_df.columns:
        # 안전지침 개수 열 추가
        preprocessed_df['guidelines_count'] = preprocessed_df['safety_guidelines'].apply(lambda x: len(x) if isinstance(x, list) else 0)
        sample_columns.append('guidelines_count')

    print(preprocessed_df[sample_columns].head())
else:
    print("preprocessed_df가 비어있습니다.")

# 안전지침 데이터프레임 생성 및 확인
print("\n" + "=" * 80)
print("guidelines_df 샘플 (추출된 안전지침):")
print("=" * 80)

# guidelines_df 생성
guidelines = []
for _, row in preprocessed_df.iterrows():
    if "safety_guidelines" in row and row["safety_guidelines"]:
        for guideline in row["safety_guidelines"]:
            guideline_info = {
                "document": row.get("filename", ""),
                "section_number": guideline.get("section", {}).get("number", ""),
                "section_title": guideline.get("section", {}).get("title", ""),
                "guideline_text": guideline.get("text", ""),
                "hazards": "; ".join(guideline.get("hazards", [])),
                "measures": "; ".join(guideline.get("measures", []))
            }
            guidelines.append(guideline_info)

if guidelines:
    guidelines_df = pd.DataFrame(guidelines)
    # 텍스트 열의 내용이 너무 길 수 있으므로 출력을 위해 일부만 표시
    if 'guideline_text' in guidelines_df.columns:
        guidelines_df['guideline_text_preview'] = guidelines_df['guideline_text'].apply(lambda x: x[:100] + '...' if len(x) > 100 else x)

    # 주요 열만 선택하여 표시 -> 어떤 pdf에 대해 각 section 별로 guideline 들이 추출되고 그 guideline 들은 guidelines_df 에 저장이 된다.
    display_columns = ['document', 'section_title', 'guideline_text_preview']
    print(guidelines_df[display_columns])

    # 공종별 안전지침 수 확인
    print("\n" + "=" * 80)
    print("공종별 안전지침 수:")
    print("=" * 80)
    section_counts = guidelines_df['section_title'].value_counts().head(10)
    print(section_counts)
else:
    print("추출된 안전지침이 없습니다.")




preprocessed_df 샘플 (기본 문서 정보):
                                            filename            code  \
0  시스템폼(RCS폼,ACS폼 중심) 안전작업 ...    C - 1 - 2011   
1  덤프트럭 및 화물자동차 안전작업지침.pdf  C - 114 - 2020   
2  단순 슬래브 콘크리트 타설 안전보건작ᄋ...   C - 24 - 2011   
3     교량공사(라멘교) 안전보건작업지침.pdf   C - 94 - 2013   
4  교량공사의 이동식 비계공법(MSS) 안전자...   C - 35 - 2011   

            title  guidelines_count  
0    C - 1 - 2011                35  
1  C - 114 - 2020                17  
2   C - 24 - 2011                68  
3   C - 94 - 2013                25  
4   C - 35 - 2011                 4  

guidelines_df 샘플 (추출된 안전지침):
                                               document     section_title  \
0     시스템폼(RCS폼,ACS폼 중심) 안전작업 ...  앵커 및 슈 설치 시 주의사항   
1     시스템폼(RCS폼,ACS폼 중심) 안전작업 ...  앵커 및 슈 설치 시 주의사항   
2     시스템폼(RCS폼,ACS폼 중심) 안전자

만약 키워드들을 추출하려고 할때 section의 제목에 '안전' 이라는 말이 들어가있는 section 들에서 추출한 가이드라인들에서만 키워드들을 추출한다면 해당 공사에 적용되야 할 안전지침들이 더 정확하게 추출되는거 아니야?

라는 생각이 들어서 그 부분을 충족할 수 있는 코드를 짜보았다.

어쨋든 내가 지금 수행하고 있는 단계는

- 문서 구조 패턴 파악 (제목, 소제목, 본문 등 구분)
- 공통 안전지침과 공사별 특수 지침 식별
- 문서 내 정보 추출을 위한 섹션 구분 전략 수립

In [None]:
save_analysis_results(preprocessed_df, keyword_freq, output_folder)
#TODO: pdfminer로 아래 형태로 클린한 데이터프레임 뽑기 (no \n thingy)

Unnamed: 0,document,section_number,section_title,guideline_text,hazards,measures
0,"시스템폼(RCS폼,ACS폼 중심) 안전작업 ...",4.3,앵커 및 슈 설치 시 주의사항,(1) 붉은 색 칠이 보이지 않을 때까지 클라이밍 콘과 스레디드 플레이트를 돌\n려...,,(1) 붉은 색 칠이 보이지 않을 때까지 클라이밍 콘과 스레디드 플레이트를 돌\n려...
1,"시스템폼(RCS폼,ACS폼 중심) 안전작업 ...",4.3,앵커 및 슈 설치 시 주의사항,<그림 17> 매립형(클라이밍콘) 월 또는 슬래브 단부 앵커\n- 8 -\n\nKO...,,<그림 17> 매립형(클라이밍콘) 월 또는 슬래브 단부 앵커\n- 8 -\n\nKO...
2,"시스템폼(RCS폼,ACS폼 중심) 안전작업 ...",4.3,앵커 및 슈 설치 시 주의사항,(3) 클라이밍 슈와 월 슈를 설치할 때 구조체와 유격이 없이 확실하게\n조여졌는지...,,(3) 클라이밍 슈와 월 슈를 설치할 때 구조체와 유격이 없이 확실하게\n조여졌는지...
3,"시스템폼(RCS폼,ACS폼 중심) 안전작업 ...",4.3,앵커 및 슈 설치 시 주의사항,<그림 18> 클라이밍 슈 및 월슈의 앙카 설치(예)\n(4) 타설전 클라이밍 콘(...,,<그림 18> 클라이밍 슈 및 월슈의 앙카 설치(예)\n(4) 타설전 클라이밍 콘(...
4,"시스템폼(RCS폼,ACS폼 중심) 안전작업 ...",4.3,앵커 및 슈 설치 시 주의사항,또한 내부 폼 해체 시 다시 체결할 때 주의하여야 한다.,,또한 내부 폼 해체 시 다시 체결할 때 주의하여야 한다.
...,...,...,...,...,...,...
2232,현수교 주탑시공 안전보건작업지침.pdf,6.,탑정 새들 작업안전,(1) 탑정 새들은 현수교 주탑의 최상부로서 떨어질 위험이 높은 장소이므로 안\n전...,위험,(1) 탑정 새들은 현수교 주탑의 최상부로서 떨어질 위험이 높은 장소이므로 안\n전...
2233,현수교 주탑시공 안전보건작업지침.pdf,6.,탑정 새들 작업안전,(가) 근로자에게 안전대를 착용토록 하여야 한다.,,(가) 근로자에게 안전대를 착용토록 하여야 한다.
2234,현수교 주탑시공 안전보건작업지침.pdf,6.,탑정 새들 작업안전,(나) 안전대 부착설비로 지지로프 등을 설치하는 경우에는 처지거나 풀리는\n- 20...,,(나) 안전대 부착설비로 지지로프 등을 설치하는 경우에는 처지거나 풀리는\n- 20...
2235,현수교 주탑시공 안전보건작업지침.pdf,6.,탑정 새들 작업안전,(3) 탑정 새들을 통하여 주탑에 전달되는 케이블의 연직력으로 인한 탑정새들\n하부...,,(3) 탑정 새들을 통하여 주탑에 전달되는 케이블의 연직력으로 인한 탑정새들\n하부...
