# Import

In [1]:
import pandas as pd

# Data Load & Pre-processing

In [2]:
train = pd.read_csv('../../data/train.csv', encoding = 'utf-8-sig')
test = pd.read_csv('../../data/test.csv', encoding = 'utf-8-sig')

In [3]:
construction_fill_values = {
    "TRAIN_02856": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 기타
    "TRAIN_04706": "건축 > 철근콘크리트공사",     # 건축 / 건축물 / 운동시설, 사고객체: 건물
    "TRAIN_06235": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 청소작업
    "TRAIN_09122": "기타 > 기타공사",           # 공사종류 정보 부족 → 기타공사
    "TRAIN_13429": "건축 > 설비공사",           # 건축 / 건축물 / 공장, 사고객체: 기타
    "TRAIN_13708": "토목 > 토공사",            # 건축 / 건축물 / 기타, 사고객체: 덤프트럭
    "TRAIN_13866": "조경 > 조경공사",           # 조경 / 기타, 작업프로세스: 운반작업
    "TRAIN_14143": "토목 > 부지조성공사",        # 토목 / 기타 / 부지조성, 장소: 부지조성
    "TRAIN_14715": "조경 > 조경공사",           # 건축 / 건축물 / 관광 휴게시설, 작업프로세스: 이동
    "TRAIN_15805": "건축 > 마감공사",           # 건축 / 건축물 / 공동주택, 작업프로세스: 운반작업
    "TRAIN_18108": "기타 > 기타공사"            # 건축 / 건축물 / 기타
}
accident_object_fill_values = {
    "TRAIN_02895": "건설자재 > 철근",
    "TRAIN_04081": "건설자재 > 호스",
    "TRAIN_04420": "시설물 > 바닥재",
    "TRAIN_04562": "설비 > 배관",
    "TRAIN_04870": "건설기계 > 덤프트럭",
    "TRAIN_23363": "건설자재 > 판넬",
    "TRAIN_23380": "건설자재 > 철근",
    "TRAIN_23386": "공구 > 핸드그라인더",
    "TRAIN_23414": "운반도구 > 핸드카",
    "TRAIN_23420": "건설자재 > 브레싱"
}
work_process_fill_values = {
    "TRAIN_02895": "운반작업",
    "TRAIN_04081": "타설작업",
    "TRAIN_04420": "바닥재 설치작업",
    "TRAIN_04562": "배관설치작업",
    "TRAIN_04870": "덤프트럭 운행작업",
    "TRAIN_23363": "조립작업",
    "TRAIN_23380": "철거작업",
    "TRAIN_23386": "절단작업",
    "TRAIN_23414": "운반작업",
    "TRAIN_23420": "절단작업"
}

In [4]:

# '사고객체' 컬럼의 결측값을 적절한 값으로 채우기, 없으면 '기타'로 대체
for record_id in train[train["사고객체"].isnull()]["ID"].tolist():
    train.loc[train["ID"] == record_id, "사고객체"] = accident_object_fill_values.get(record_id, "기타 > 기타")


# '작업프로세스' 컬럼의 결측값을 적절한 값으로 채우기, 없으면 '기타'로 대체
for record_id in train[train["작업프로세스"].isnull()]["ID"].tolist():
    train.loc[train["ID"] == record_id, "작업프로세스"] = work_process_fill_values.get(record_id, "기타")

train['인적사고'].fillna("없음", inplace=True)
train['물적사고'].fillna("없음", inplace=True)
for record_id, construction_type in construction_fill_values.items():
    train.loc[train["ID"] == record_id, "공종"] = construction_type
train['사고원인'].fillna('기타', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['인적사고'].fillna("없음", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['물적사고'].fillna("없음", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always beha

In [5]:
# 데이터 전처리
train['공사종류(대분류)'] = train['공사종류'].str.split(' / ').str[0]
train['공사종류(중분류)'] = train['공사종류'].str.split(' / ').str[1]
train['공종(대분류)'] = train['공종'].str.split(' > ').str[0]
train['공종(중분류)'] = train['공종'].str.split(' > ').str[1]
train['사고객체(대분류)'] = train['사고객체'].str.split(' > ').str[0]
train['사고객체(중분류)'] = train['사고객체'].str.split(' > ').str[1]

test['공사종류(대분류)'] = test['공사종류'].str.split(' / ').str[0]
test['공사종류(중분류)'] = test['공사종류'].str.split(' / ').str[1]
test['공종(대분류)'] = test['공종'].str.split(' > ').str[0]
test['공종(중분류)'] = test['공종'].str.split(' > ').str[1]
test['사고객체(대분류)'] = test['사고객체'].str.split(' > ').str[0]
test['사고객체(중분류)'] = test['사고객체'].str.split(' > ').str[1]

In [6]:
[train['공사종류(중분류)'].isnull()==True]

[0        False
 1        False
 2        False
 3        False
 4        False
          ...  
 23417    False
 23418    False
 23419    False
 23420    False
 23421    False
 Name: 공사종류(중분류), Length: 23422, dtype: bool]

In [7]:
# train[train['사고원인'].isnull() == True][['사고원인','재발방지대책 및 향후조치계획']]
train['사고원인'].value_counts()

사고원인
작업자 부주의                                                                                     280
작업자의 단순과실                                                                                   107
부주의                                                                                          78
기타                                                                                           69
작업자 단순과실                                                                                     66
                                                                                           ... 
테라코타 작업 내 십자 몰딩 절단 작업 중 핸드 그라인더 날이 코어 십자 몰딩에 튀면서 재해자의 왼손 중지 손가락 마디 윗부위가 핸드 그라인더 날에 베임 사고      1
거푸집조립작업중 고정이 안된 유로펌이 탈락, 떨어지는것을 방지하기위해 손가락으로 지지하던 중 새끼 손가락이 눌려 골절됨                            1
비상용 승강기 설치 작업을 위한 천정 타공 중 추락                                                                  1
시스템 비계 설치 작업 중 미끄러짐                                                                           1
크레인 작업 중 자재에 작업자 충돌                

In [8]:
# train[train['사고원인'].str.contains('단순과실', na=False)][['사고원인', '재발방지대책 및 향후조치계획']]

In [9]:
train.isnull().sum()

ID                 0
발생일시               0
사고인지 시간            0
날씨                 0
기온                 0
습도                 0
공사종류               0
연면적                0
층 정보               0
인적사고               0
물적사고               0
공종                 0
사고객체               0
작업프로세스             0
장소                 0
부위                 0
사고원인               0
재발방지대책 및 향후조치계획    0
공사종류(대분류)          0
공사종류(중분류)          1
공종(대분류)            0
공종(중분류)            0
사고객체(대분류)          0
사고객체(중분류)          0
dtype: int64

In [10]:
train.columns

Index(['ID', '발생일시', '사고인지 시간', '날씨', '기온', '습도', '공사종류', '연면적', '층 정보',
       '인적사고', '물적사고', '공종', '사고객체', '작업프로세스', '장소', '부위', '사고원인',
       '재발방지대책 및 향후조치계획', '공사종류(대분류)', '공사종류(중분류)', '공종(대분류)', '공종(중분류)',
       '사고객체(대분류)', '사고객체(중분류)'],
      dtype='object')

In [None]:
# 훈련 데이터 통합 생성
combined_training_data = train.apply(
    lambda row: {
        "question": (
            f"공사종류 대분류 '{row['공사종류(대분류)']}', 중분류 '{row['공사종류(중분류)']}' 공사 중 "
            f"공종 대분류 '{row['공종(대분류)']}', 중분류 '{row['공종(중분류)']}' 작업에서 "
            f"사고객체 '{row['사고객체(대분류)']}'(중분류: '{row['사고객체(중분류)']}')와 관련된 사고가 발생했습니다. "
            f"작업 프로세스는 '{row['작업프로세스']}'이며, 사고 원인은 '{row['사고원인']}'입니다. "
            f"재발 방지 대책 및 향후 조치 계획은 무엇인가요?"
        ),
        "answer": row["재발방지대책 및 향후조치계획"]
    },
    axis=1
)

# DataFrame으로 변환
combined_training_data = pd.DataFrame(list(combined_training_data))

In [None]:
# 테스트 데이터 통합 생성
combined_test_data = test.apply(
    lambda row: {
        "question": (
            f"공사종류 대분류 '{row['공사종류(대분류)']}', 중분류 '{row['공사종류(중분류)']}' 공사 중 "
            f"공종 대분류 '{row['공종(대분류)']}', 중분류 '{row['공종(중분류)']}' 작업에서 "
            f"사고객체 '{row['사고객체(대분류)']}'(중분류: '{row['사고객체(중분류)']}')와 관련된 사고가 발생했습니다. "
            f"작업 프로세스는 '{row['작업프로세스']}'이며, 사고 원인은 '{row['사고원인']}'입니다. "
            f"재발 방지 대책 및 향후 조치 계획은 무엇인가요?"
        )
    },
    axis=1
)

# DataFrame으로 변환
combined_test_data = pd.DataFrame(list(combined_test_data))