In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
import re

def parse_num_of_people(s):
    # '내국인 :0명외국인 :0명 내국인 :0명 외국인 :0명'와 같은 문자열을 처리하기 위해
    # 정규표현식을 이용하여 '내국인 :숫자'와 '외국인 :숫자'를 추출합니다.
    regex = r'(내국인|외국인)\s*:\s*(\d+)명'
    matches = re.findall(regex, s)
    
    # 내국인과 외국인의 총 인원 수를 계산합니다.
    num_internal = 0
    num_foreign = 0
    for match in matches:
        if match[0] == '내국인':
            num_internal += int(match[1])
        elif match[0] == '외국인':
            num_foreign += int(match[1])
    result = (num_internal + num_foreign) / 2
    return result


#CSV 파일을 DataFrame으로 읽어오기

df = pd.read_csv('output.csv')
#필요 없는 특성 제거

print(df.head())

df = df.drop(['낙찰률', '장소', '물적사고', '인적사고', '장소', '사고명', '사고원인', '작업프로세스' , '작업자수', '공사비', '사고발생후 조치사항', '부위', '보호(방호)조치여부', '구체적 사고원인', '사고경위', '발생일시', '사고인지 시간', '피해내용', '사고신고사유', '재발방지대책', '위원회조사필요성', '위원회구성(안)', '향후조치계획', '도면', '안전관리계획', '설계안전성검토', '사고조사방법', '공사기간'], axis=1)

# df = df.drop(['공공/민간 구분', '기상상태', '시설물 종류', '공종', '사고객체', '공사종류'], axis=1)
#범주형 데이터를 수치형 데이터로 인코딩

df['사망자수(명)'] = df['사망자수(명)'].apply(parse_num_of_people)
df['부상자수(명)'] = df['부상자수(명)'].apply(parse_num_of_people)

le = LabelEncoder()
df['공공/민간 구분'] = le.fit_transform(df['공공/민간 구분'])
df['기상상태'] = le.fit_transform(df['기상상태'])
df['시설물 종류'] = le.fit_transform(df['시설물 종류'])
df['공종'] = le.fit_transform(df['공종'])
df['사고객체'] = le.fit_transform(df['사고객체'])
df['공사종류'] = le.fit_transform(df['공사종류'])

#피해 금액 특성을 원-핫 인코딩

ct = ColumnTransformer([
('ohe', OneHotEncoder(), ['피해금액', '공정률'])
], remainder='passthrough')
X = ct.fit_transform(df)


#컬럼 이름 리스트 생성

num_cols = df.columns.tolist()
ohe = ct.named_transformers_['ohe']
ohe_cols = ohe.get_feature_names_out(['피해금액', '공정률']).tolist()
new_cols = ohe_cols + num_cols
new_cols.remove('Unnamed: 0')
new_cols.remove('공정률')
#DataFrame으로 변환

df = pd.DataFrame(X, columns=new_cols)

X = df.drop(['사망자수(명)'], axis=1)
y = df[['사망자수(명)']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print(X_train.shape)
print(X_test.shape)

   Unnamed: 0                                         사고명  \
0           0                  화학소재물질 실증화평가센터 환경개선공사 베임사고   
1           1  성서 1, 2차 산업단지 재생사업 주차장 조성공사(B필지) 현장 내 낙상사고   
2           2                               한전주 전기작업 추락사고   
3           3                    발전용 연료 운송차량과 건설근로자 충돌 사고   
4           4                             수로관 절단 작업중 근육파열   

                  발생일시   사고인지 시간 공공/민간 구분                      기상상태  \
0  2023-03-24 오후 01:50    정규작업 -       공공   날씨 : 맑음기온 : 17℃습도 : 54%   
1  2023-03-24 오전 09:30    정규작업 -       공공   날씨 : 흐림기온 : 14℃습도 : 50%   
2  2023-03-23 오전 10:35    불류불능 -       공공   날씨 : 강우기온 : 15℃습도 : 85%   
3  2023-03-22 오후 04:40  출ㆍ퇴근 등 -       공공  날씨 : 흐림기온 : 217℃습도 : 54%   
4  2023-03-22 오전 09:38    정규작업 -       공공   날씨 : 맑음기온 : 20℃습도 : 60%   

                                            시설물 종류                  인적사고  \
0    건축 - 건축물 - 교육연구시설(연면적 : 5,207㎡, 지상 3층, 지하 1층)                절단, 베임   
1  건축 - 건축물 - 자동차 관련시설(연면적 : 8,573㎡, 지상 3층, 지하 0층)  떨어

In [119]:
import lightgbm as lgb
from sklearn.metrics import mean_squared_error

# LightGBM 데이터셋으로 변환
lgb_train = lgb.Dataset(X_train, label=y_train)
lgb_eval = lgb.Dataset(X_test, label=y_test, reference=lgb_train)

# LightGBM 모델 설정
params = {
    'objective': 'regression',
    'metric': {'rmse', 'mae'},
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'max_depth': 6,
    'min_child_weight': 0.1,
    'verbosity': -1
}

# 모델 학습
num_round = 100
bst = lgb.train(params, lgb_train, num_round, valid_sets=[lgb_train, lgb_eval], early_stopping_rounds=10)

# 모델 예측
y_pred = bst.predict(X_test, num_iteration=bst.best_iteration)

# 예측값과 실제값의 MSE 계산
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)




[1]	training's l1: 26.3878	training's rmse: 29.702	valid_1's l1: 26.5247	valid_1's rmse: 29.8141
Training until validation scores don't improve for 10 rounds
[2]	training's l1: 26.2646	training's rmse: 29.5451	valid_1's l1: 26.4269	valid_1's rmse: 29.6865
[3]	training's l1: 26.1467	training's rmse: 29.4033	valid_1's l1: 26.3373	valid_1's rmse: 29.5781
[4]	training's l1: 26.0345	training's rmse: 29.2737	valid_1's l1: 26.2545	valid_1's rmse: 29.4835
[5]	training's l1: 25.9287	training's rmse: 29.1556	valid_1's l1: 26.1803	valid_1's rmse: 29.399
[6]	training's l1: 25.8277	training's rmse: 29.0503	valid_1's l1: 26.0916	valid_1's rmse: 29.3088
[7]	training's l1: 25.7289	training's rmse: 28.9513	valid_1's l1: 26.0202	valid_1's rmse: 29.2393
[8]	training's l1: 25.6331	training's rmse: 28.8608	valid_1's l1: 25.9525	valid_1's rmse: 29.1805
[9]	training's l1: 25.546	training's rmse: 28.7804	valid_1's l1: 25.8931	valid_1's rmse: 29.131
[10]	training's l1: 25.4623	training's rmse: 28.7043	valid_1'