# Import

In [19]:
import pandas as pd

# Data Load & Pre-processing

In [20]:
train = pd.read_csv('../../data/train.csv', encoding = 'utf-8-sig')
test = pd.read_csv('../../data/test.csv', encoding = 'utf-8-sig')

In [21]:
construction_fill_values = {
    "TRAIN_02856": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 기타
    "TRAIN_04706": "건축 > 철근콘크리트공사",     # 건축 / 건축물 / 운동시설, 사고객체: 건물
    "TRAIN_06235": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 청소작업
    "TRAIN_09122": "기타 > 기타공사",           # 공사종류 정보 부족 → 기타공사
    "TRAIN_13429": "건축 > 설비공사",           # 건축 / 건축물 / 공장, 사고객체: 기타
    "TRAIN_13708": "토목 > 토공사",            # 건축 / 건축물 / 기타, 사고객체: 덤프트럭
    "TRAIN_13866": "조경 > 조경공사",           # 조경 / 기타, 작업프로세스: 운반작업
    "TRAIN_14143": "토목 > 부지조성공사",        # 토목 / 기타 / 부지조성, 장소: 부지조성
    "TRAIN_14715": "조경 > 조경공사",           # 건축 / 건축물 / 관광 휴게시설, 작업프로세스: 이동
    "TRAIN_15805": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 운반작업
    "TRAIN_18108": "기타 > 기타공사"            # 건축 / 건축물 / 기타
}
accident_object_fill_values = {
    "TRAIN_02895": "건설자재 > 철근",
    "TRAIN_04081": "건설자재 > 호스",
    "TRAIN_04420": "시설물 > 바닥재",
    "TRAIN_04562": "설비 > 배관",
    "TRAIN_04870": "건설기계 > 덤프트럭",
    "TRAIN_23363": "건설자재 > 판넬",
    "TRAIN_23380": "건설자재 > 철근",
    "TRAIN_23386": "공구 > 핸드그라인더",
    "TRAIN_23414": "운반도구 > 핸드카",
    "TRAIN_23420": "건설자재 > 브레싱"
}
work_process_fill_values = {
    "TRAIN_02895": "운반작업",
    "TRAIN_04081": "타설작업",
    "TRAIN_04420": "바닥재 설치작업",
    "TRAIN_04562": "배관설치작업",
    "TRAIN_04870": "덤프트럭 운행작업",
    "TRAIN_23363": "조립작업",
    "TRAIN_23380": "철거작업",
    "TRAIN_23386": "절단작업",
    "TRAIN_23414": "운반작업",
    "TRAIN_23420": "절단작업"
}

In [22]:

# '사고객체' 컬럼의 결측값을 적절한 값으로 채우기, 없으면 '기타'로 대체
for record_id in train[train["사고객체"].isnull()]["ID"].tolist():
    train.loc[train["ID"] == record_id, "사고객체"] = accident_object_fill_values.get(record_id, "기타 > 기타")


# '작업프로세스' 컬럼의 결측값을 적절한 값으로 채우기, 없으면 '기타'로 대체
for record_id in train[train["작업프로세스"].isnull()]["ID"].tolist():
    train.loc[train["ID"] == record_id, "작업프로세스"] = work_process_fill_values.get(record_id, "기타")

train['인적사고'].fillna("없음", inplace=True)
train['물적사고'].fillna("없음", inplace=True)
for record_id, construction_type in construction_fill_values.items():
    train.loc[train["ID"] == record_id, "공종"] = construction_type
train['사고원인'].fillna('기타', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['인적사고'].fillna("없음", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['물적사고'].fillna("없음", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always beha

In [23]:
# 데이터 전처리
train['공사종류(대분류)'] = train['공사종류'].str.split(' / ').str[0]
train['공사종류(중분류)'] = train['공사종류'].str.split(' / ').str[1]
train['공종(대분류)'] = train['공종'].str.split(' > ').str[0]
train['공종(중분류)'] = train['공종'].str.split(' > ').str[1]
train['사고객체(대분류)'] = train['사고객체'].str.split(' > ').str[0]
train['사고객체(중분류)'] = train['사고객체'].str.split(' > ').str[1]

test['공사종류(대분류)'] = test['공사종류'].str.split(' / ').str[0]
test['공사종류(중분류)'] = test['공사종류'].str.split(' / ').str[1]
test['공종(대분류)'] = test['공종'].str.split(' > ').str[0]
test['공종(중분류)'] = test['공종'].str.split(' > ').str[1]
test['사고객체(대분류)'] = test['사고객체'].str.split(' > ').str[0]
test['사고객체(중분류)'] = test['사고객체'].str.split(' > ').str[1]

In [29]:
train.columns

Index(['ID', '발생일시', '사고인지 시간', '날씨', '기온', '습도', '공사종류', '연면적', '층 정보',
       '인적사고', '물적사고', '공종', '사고객체', '작업프로세스', '장소', '부위', '사고원인',
       '재발방지대책 및 향후조치계획', '공사종류(대분류)', '공사종류(중분류)', '공종(대분류)', '공종(중분류)',
       '사고객체(대분류)', '사고객체(중분류)'],
      dtype='object')

In [31]:
train[['재발방지대책 및 향후조치계획', '공사종류(대분류)', '공사종류(중분류)', '공종(대분류)', '공종(중분류)','사고객체(대분류)', '사고객체(중분류)', '사고객체', '작업프로세스', '장소', '부위', '사고원인']].iloc[[0]]

Unnamed: 0,재발방지대책 및 향후조치계획,공사종류(대분류),공사종류(중분류),공종(대분류),공종(중분류),사고객체(대분류),사고객체(중분류),사고객체,작업프로세스,장소,부위,사고원인
0,고소작업 시 추락 위험이 있는 부위에 안전장비 설치.,건축,건축물,건축,철근콘크리트공사,건설자재,철근,건설자재 > 철근,설치작업,근린생활시설 / 내부,철근 / 고소,"고소작업 중 추락 위험이 있음에도 불구하고, 안전난간대, 안전고리 착용 등 안전장치..."


In [14]:
path = "C:/wanted/Git_project/DACON-construction-accident-prevention/code/SangGyeom/가공송전선로 철탑 심형기초공사 안전보건작업 지침.pdf"

from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader(path)
doc = loader.load()
doc

[Document(metadata={'producer': 'ezPDF Builder Supreme', 'creator': '', 'creationdate': '2020-12-22T09:46:00+09:00', 'source': 'C:/wanted/Git_project/DACON-construction-accident-prevention/code/SangGyeom/가공송전선로 철탑 심형기초공사 안전보건작업 지침.pdf', 'file_path': 'C:/wanted/Git_project/DACON-construction-accident-prevention/code/SangGyeom/가공송전선로 철탑 심형기초공사 안전보건작업 지침.pdf', 'total_pages': 12, 'format': 'PDF 1.4', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'moddate': '2020-12-22T09:46:00+09:00', 'trapped': '', 'modDate': "D:20201222094600+09'00'", 'creationDate': "D:20201222094600+09'00'", 'page': 0}, page_content='KOSHA GUIDE\nC - 54 - 2012\n가공송전선로철탑심형기초공사\n안전보건작업지침\n2012.\n8.\n한국산업안전보건공단'),
 Document(metadata={'producer': 'ezPDF Builder Supreme', 'creator': '', 'creationdate': '2020-12-22T09:46:00+09:00', 'source': 'C:/wanted/Git_project/DACON-construction-accident-prevention/code/SangGyeom/가공송전선로 철탑 심형기초공사 안전보건작업 지침.pdf', 'file_path': 'C:/wanted/Git_project/DACON-construction-accident-

In [9]:
# train[train['사고원인'].isnull() == True][['사고원인','재발방지대책 및 향후조치계획']]
train[train['재발방지대책 및 향후조치계획'] == "안전교육 실시를 통한 재발 방지 대책 및 향후 조치 계획."]['공사종류(대분류)'].value_counts()

공사종류(대분류)
건축        60
토목        15
산업환경설비     1
Name: count, dtype: int64

In [8]:
# train[train['사고원인'].str.contains('단순과실', na=False)][['사고원인', '재발방지대책 및 향후조치계획']]

In [9]:
train.isnull().sum()

ID                 0
발생일시               0
사고인지 시간            0
날씨                 0
기온                 0
습도                 0
공사종류               0
연면적                0
층 정보               0
인적사고               0
물적사고               0
공종                 0
사고객체               0
작업프로세스             0
장소                 0
부위                 0
사고원인               0
재발방지대책 및 향후조치계획    0
공사종류(대분류)          0
공사종류(중분류)          1
공종(대분류)            0
공종(중분류)            0
사고객체(대분류)          0
사고객체(중분류)          0
dtype: int64

In [10]:
train.columns

Index(['ID', '발생일시', '사고인지 시간', '날씨', '기온', '습도', '공사종류', '연면적', '층 정보',
       '인적사고', '물적사고', '공종', '사고객체', '작업프로세스', '장소', '부위', '사고원인',
       '재발방지대책 및 향후조치계획', '공사종류(대분류)', '공사종류(중분류)', '공종(대분류)', '공종(중분류)',
       '사고객체(대분류)', '사고객체(중분류)'],
      dtype='object')

In [None]:
combined_training_data = df.apply(
    lambda row: {
        "question": (
            f"'{row['공사종류']}' 공사 중 '{row['공종']}' 작업을 수행하던 중 "
            f"'{row['사고객체']}'와 관련된 사고가 발생했습니다. "
            f"사고는 '{row['작업프로세스']}' 중에 발생했으며, "
            f"그 원인은 '{row['사고원인']}'입니다. "
            f"이 사고의 재발을 방지하고 향후 조치를 계획하기 위해 필요한 방안은 무엇인가요?"
        ),
        "answer": row["재발방지대책 및 향후조치계획"]
    },
    axis=1
)


In [None]:
# 훈련 데이터 통합 생성
combined_training_data = train.apply(
    lambda row: {
        "question": (
            f"공사종류 대분류 '{row['공사종류(대분류)']}', 중분류 '{row['공사종류(중분류)']}' 공사 중 "
            f"공종 대분류 '{row['공종(대분류)']}', 중분류 '{row['공종(중분류)']}' 작업에서 "
            f"사고객체 '{row['사고객체(대분류)']}'(중분류: '{row['사고객체(중분류)']}')와 관련된 사고가 발생했습니다. "
            f"작업 프로세스는 '{row['작업프로세스']}'이며, 사고 원인은 '{row['사고원인']}'입니다. "
            f"재발 방지 대책 및 향후 조치 계획은 무엇인가요?"
        ),
        "answer": row["재발방지대책 및 향후조치계획"]
    },
    axis=1
)

# DataFrame으로 변환
combined_training_data = pd.DataFrame(list(combined_training_data))

In [None]:
# 테스트 데이터 통합 생성
combined_test_data = test.apply(
    lambda row: {
        "question": (
            f"공사종류 대분류 '{row['공사종류(대분류)']}', 중분류 '{row['공사종류(중분류)']}' 공사 중 "
            f"공종 대분류 '{row['공종(대분류)']}', 중분류 '{row['공종(중분류)']}' 작업에서 "
            f"사고객체 '{row['사고객체(대분류)']}'(중분류: '{row['사고객체(중분류)']}')와 관련된 사고가 발생했습니다. "
            f"작업 프로세스는 '{row['작업프로세스']}'이며, 사고 원인은 '{row['사고원인']}'입니다. "
            f"재발 방지 대책 및 향후 조치 계획은 무엇인가요?"
        )
    },
    axis=1
)

# DataFrame으로 변환
combined_test_data = pd.DataFrame(list(combined_test_data))

In [None]:
import glob
import os

text_path = "C:/wanted/Git_project/DACON-construction-accident-prevention/data/text_output"

# 해당 디렉토리의 모든 .txt 파일 찾기
txt_files = glob.glob(os.path.join(text_path, "*.txt"))

# 파일명만 추출 (확장자 포함)
file_names = [os.path.basename(file) for file in txt_files]

file_names  # ['example1.txt', 'notes.txt', 'report.txt']


['F.C.M 교량공사 안전보건작업 지침.txt', 'I.L.M 교량공사 안전보건작업 지침.txt', 'PCT거더 교량공사 안전보건작업지침.txt', '가공송전선로 철탑 심형기초공사 안전보건작업 지침.txt', '가설계단 설치 및 사용 안전보건작업 지침.txt', '가설구조물의 설계변경 요청 내용, 절차 등에 관한 작성지침.txt', '강관비계 안전작업지침.txt', '강박스거더 교량공사 안전보건작업 지침.txt', '강아치교(벤트공법) 안전보건작업지침.txt', '갱폼(Gang form) 제작 및 사용안전 지침.txt', '건설공사 굴착면 안전기울기 기준에 관한 기술지침.txt', '건설공사 돌관작업 안전보건작업 지침.txt', '건설공사 안전보건 설계 지침.txt', '건설공사의 고소작업대 안전보건작업지침.txt', '건설기계 안전보건작업 지침.txt', '건설현장 용접용단 안전보건작업 기술지침.txt', '건설현장의 중량물 취급 작업계획서(이동식크레인) 작성지침.txt', '건축물의 석공사(내외장) 안전보건작업 기술지침.txt', '경량철골 천장공사 안전보건작업 지침.txt', '곤돌라(Gondola) 안전보건작업 지침.txt', '관로매설공사 안전보건작업 기술지침.txt', '관로매설공사(유압식 추진공법) 안전보건작업 지침.txt', '교량 슬래브거푸집 해체용 작업대차 안전작업 지침.txt', '교량공사(P.S.M공법) 안전작업 지침.txt', '교량공사(라멘교) 안전보건작업지침.txt', '교량공사의 이동식 비계공법(MSS) 안전작업 지침.txt', '굴착공사 계측관리 기술지침.txt', '굴착공사 안전작업 지침.txt', '굴착기 안전보건작업 지침.txt', '금속 커튼월(Curtain wall) 안전작업 지침.txt', '기성 콘크리트 파일 항타 안전보건작업 지침.txt', '낙하물 방지망 설치 지침.txt', '낙하물 방호선반 설치 지침.txt', '내장공사의 안전보건작업 지침.txt', '냉동냉장 물류창고 단열공사 화재예방 안전보건작업 지침.t

In [None]:
import re
import os
from langchain_core.documents import Document

# 섹션 제목을 추출하는 함수
def extract_section(text):
    """
    문서 내에서 '1. 제목'과 같은 형식의 섹션을 찾는 함수.
    가장 먼저 등장하는 섹션을 반환하며, 없으면 'Unknown' 반환.
    """
    pattern = r"^\s*(\d+)\.\s*(.+)"  # '1. 제목' 또는 ' 1. 제목' 같은 패턴 탐색
    for line in text.split("\n"):  # 줄 단위로 검색
        match = re.match(pattern, line)
        if match:
            return match.group(2).strip()  # 숫자 다음에 오는 제목 부분만 반환
    return "Unknown"  # 해당하는 패턴이 없을 경우 기본값 반환

# 메타데이터 변환 함수
def custom_metadata(doc):
    metadata = doc.metadata  # 기존 메타데이터 가져오기
    text = doc.page_content  # 문서의 실제 내용 가져오기
    
    new_metadata = {
        "title": os.path.basename(metadata.get("source", "Unknown")),  # 파일 이름만 저장
        "page": metadata.get("page", 0) + 1,  # ✅ 페이지 번호를 1부터 시작하도록 수정
        "section": extract_section(text)  # ✅ 문서 내용에서 섹션 제목 추출
    }
    
    doc.metadata = new_metadata  # 기존 문서의 메타데이터 수정
    return doc

# 모든 문서의 메타데이터 변환 적용
documents = [custom_metadata(doc) for doc in split_documents]

# 결과 확인 (2개 출력)
for doc in documents[0:]:  
    print(doc.metadata)