In [None]:
# 문제: 심장병 데이터셋을 활용해 심장병 환자를 예측하는 모델을 만들고 예측 결과를 CSV 파일로 제출
# 데이터의 1025행 중 80%인 820행을 학습용 데이터로 활용, 나머지는 평가용 데이터로 활용
# 예측 결과는 F1-score macro, ROC-AUC 평가지표에 따라 평가함
# [제출형식]
# CSV 파일명: result.csv
# 예측 컬럼: target 컬럼
# 제출 컬럼: pred 컬럼 1개
# 평가용 데이터 개수와 예측 결과 데이터 개수: 205개

# 데이터 불러오기
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/datasets/heart_disease_data.csv")

# 데이터 분할
# 820행은 학습용 데이터로 train에 저장, 나머지 205행은 평가용 데이터로 test에 저장
train = df.iloc[:820 , :]
test = df.iloc[-205: , :]

# 독립변수 X와 종속변수 Y를 지정
x = train.drop(columns = 'target')
y = train['target']

# 학습용과 검증용으로 데이터 분할
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 42)

# 모델 학습 및 평가
# 랜덤포레스트 분류 모델 사용
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators = 100, random_state = 42)
rfc.fit(x_train, y_train)
pred1 = rfc.predict(x_test)

# 평가지표 확인
from sklearn.metrics import f1_score, roc_auc_score
score_fs = f1_score(y_test, pred1, average = 'macro')
score_ra = roc_auc_score(y_test, pred1)
print("f1_score: ", score_fs)
print("roc_auc_score: ", score_ra)

# 최종 결과 생성
test2 = test.drop(columns = 'target')
pred2 = rfc.predict(test2)

# CSV 파일로 저장
pd.DataFrame({'pred' : pred2}).to_csv("result.csv", index=False)

f1_score:  0.993850999212628
roc_auc_score:  0.9944444444444445


In [15]:
# 문제: 중고차 가격 데이터셋을 활용해 중고차의 가격을 예측하는 모델을 만들고 예측 결과를 CSV 파일로 제출
# 데이터의 4009행 중 3800행을 학습용 데이터로 활용, 나머지는 평가용 데이터로 활용
# 예측 결과는 RMSE 평가지표에 따라 평가함
# [제출형식]
# CSV 파일명: result.csv
# 예측 컬럼: price 컬럼
# 제출 컬럼: pred 컬럼 1개
# 평가용 데이터 개수와 예측 결과 데이터 개수: 209개

# 데이터 불러오기
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/bigdata_csvfile/used_cars_price_data.csv")

# 결측치가 있는 컬럼명만 저장
nulls = df.columns[df.isnull().any()]

# 결측치를 최빈값으로 처리
for col in nulls:
  df[col] = df[col].fillna(df[col].mode().iloc[0])

# 문자열 데이터를 가진 컬럼명만 저장
strs = df.select_dtypes(include='object').columns

# 라벨 인코딩 수행
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

for col in strs:
  df[col] = le.fit_transform(df[col])

# 데이터 분할
# total 4009 / train 3800 / test 209
train = df.iloc[:3800, ]
test = df.iloc[-209:, ]

# 독립변수 X, 종속변수 Y 지정
x = df.drop(columns='price')
y = df['price']

# train 데이터 학습용, 검증용 분할
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 랜덤포레스트 회귀 모델 학습 및 평가
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(n_estimators=120, max_depth=15, random_state=42)
rfr.fit(x_train, y_train)
pred1 = rfr.predict(x_test)

# 모델 평가지표 확인
# RMSE는 MSE의 제곱근
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, pred1)

import numpy as np
rmse = np.sqrt(mse)

print("MSE: ", mse)
print("RMSE: ", rmse)

# 최종 예측
test2 = test.drop(columns='price')
pred2 = rfr.predict(test2)

# CSV 파일로 저장
pd.DataFrame({'pred' : pred2}).to_csv('result.csv', index=False)

MSE:  130749.66557355529
RMSE:  361.5932322009848
