In [43]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [44]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score

In [45]:
train = pd.read_csv('../data/train.csv', encoding='euc-kr')
test = pd.read_csv('../data/test.csv', encoding='euc-kr')

In [46]:
train['자산총계(천원)'] = train['자산총계(천원)'] * 1000
train['log자산총계'] = np.log(train['자산총계(천원)'])

test['자산총계(천원)'] = test['자산총계(천원)'] * 1000
test['log자산총계'] = np.log(test['자산총계(천원)'])

In [47]:
train['기업수명주기'] = train['기업수명주기'].map({
    '도입기' : 1,
    '성장기' : 2,
    '성숙기' : 3,
    '수축기' : 4,
    '쇠퇴기' : 5
}).astype('category')

test['기업수명주기'] = test['기업수명주기'].map({
    '도입기' : 1,
    '성장기' : 2,
    '성숙기' : 3,
    '수축기' : 4,
    '쇠퇴기' : 5
}).astype('category')

In [48]:
train = train[['부채비율', '당좌비율',
       '유동비율', '이자보상배율', '차입금의존도', '자기자본구성비율',
       '매출액영업이익률', '자기자본순이익률', '총자본순이익률', '총자본회전률', '자기자본회전률', '운전자본회전률', '순운전자본회전률', '재고자산회전률',
       '당좌자산회전률', '유동자산회전률', '매출액증가율', '총자본증가율', '자기자본증가율', '순이익증가율',
       '유형자산증가율', '유동자산증가율', '재고자산증가율', '영업이익증가율', '총자본투자효율', '부가가치율',
       '노동소득분배율', '자본분배율', '이윤분배율', 'OCF이자보상배율', '부채상환계수', '장기부채상환능력', '매출액대비금융비용상환능력',
       '연구개발비대비매출액', '매출액대비현금흐름', '매출액대비잉여현금흐름', '총자산대비현금흐름',
       '총자산대비영업현금흐름', '총자산대비잉여현금흐름', '기업수명주기','이보배초과여부',
       '파부비초과여부','파당비초과여부', '파차의초과여부', '파로이초과여부', 'log자산총계',
       't-1감사의견코드']]

In [49]:
test = test[['부채비율', '당좌비율',
       '유동비율', '이자보상배율', '차입금의존도', '자기자본구성비율',
       '매출액영업이익률', '자기자본순이익률', '총자본순이익률', '총자본회전률', '자기자본회전률', '운전자본회전률', '순운전자본회전률', '재고자산회전률',
       '당좌자산회전률', '유동자산회전률', '매출액증가율', '총자본증가율', '자기자본증가율', '순이익증가율',
       '유형자산증가율', '유동자산증가율', '재고자산증가율', '영업이익증가율', '총자본투자효율', '부가가치율',
       '노동소득분배율', '자본분배율', '이윤분배율', 'OCF이자보상배율', '부채상환계수', '장기부채상환능력', '매출액대비금융비용상환능력',
       '연구개발비대비매출액', '매출액대비현금흐름', '매출액대비잉여현금흐름', '총자산대비현금흐름',
       '총자산대비영업현금흐름', '총자산대비잉여현금흐름', '기업수명주기','이보배초과여부',
       '파부비초과여부','파당비초과여부', '파차의초과여부', '파로이초과여부', 'log자산총계',
       't-1감사의견코드']]

In [50]:
train = train[['총자본회전률', 'log자산총계', '총자본증가율', '파차의초과여부', '파부비초과여부', '총자본순이익률',
       '자기자본회전률', '총자산대비현금흐름', '기업수명주기', '자기자본구성비율', '재고자산회전률', '유동자산증가율',
       '총자산대비잉여현금흐름', 't-1감사의견코드']]

In [51]:
test = test[['총자본회전률', 'log자산총계', '총자본증가율', '파차의초과여부', '파부비초과여부', '총자본순이익률',
       '자기자본회전률', '총자산대비현금흐름', '기업수명주기', '자기자본구성비율', '재고자산회전률', '유동자산증가율',
       '총자산대비잉여현금흐름', 't-1감사의견코드']]

In [52]:
X_train= train.drop('t-1감사의견코드', axis=1)
y_train = train[['t-1감사의견코드']]

In [53]:
X_test = test.drop('t-1감사의견코드', axis=1)
y_test = test[['t-1감사의견코드']]

In [54]:
# 랜덤 포레스트 모델 생성
rf = RandomForestClassifier(n_estimators=100, random_state=0, max_depth=6)

# 모델 학습
rf.fit(X_train, y_train)

# 테스트 데이터로 예측 수행
y_pred = rf.predict(X_test)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
f1score = f1_score(y_test ,y_pred)
print("Accuracy:", accuracy)
print("F1-score:", f1score)

Accuracy: 0.939209726443769
F1-score: 0.36804853387259856
