## 환경설정

1. http://braincrew2.iptime.org:8001 에 접속하여 회원가입해 주세요. (비밀번호는 단순하게 기입하시는 것을 권장 드려요. 예. 1234)
2. `username` 에 이메일 형식의 아이디를 기입해 주세요.
3. `password` 에 비밀번호를 기입해 주세요.


In [None]:
project = "ADVHOUSE"  # 수정하지 마세요
username = ""  # 이메일아이디 (예시. abc@hello.com)
password = ""  # 비밀번호

아래의 코드를 순서대로 실행해 주세요.


In [None]:
import os
import requests

if not os.path.exists("competition.py"):
    url = "https://link.teddynote.com/COMPT"
    file_name = "competition.py"
    response = requests.get(url)
    with open(file_name, "wb") as file:
        file.write(response.content)

아래 코드를 실행하여 데이터를 다운로드 받습니다.


In [None]:
import competition

# 파일 다운로드
# competition.download_competition_files(project)
competition.download_competition_files(
    "https://link.teddynote.com/ADVHOUSE", use_competition_url=False
)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os

# Data 경로 설정
DATA_DIR = "data"

# 경고 무시
warnings.filterwarnings("ignore")

SEED = 123

## 데이터 로드


In [None]:
# train 데이터셋 로드 (train.csv)
train = pd.read_csv(os.path.join(DATA_DIR, "train.csv"))

# test 데이터셋 로드 (test.csv)
test = pd.read_csv(os.path.join(DATA_DIR, "test.csv"))

In [None]:
train.head()

In [None]:
test.head()

### 기본 전처리


In [None]:
all_data = pd.concat([train, test], ignore_index=True)
all_data.head()

In [None]:
numeric_columns = all_data.select_dtypes(exclude="object")
numeric_columns

In [None]:
numeric_columns = numeric_columns.fillna(0)
numeric_columns

In [None]:
train_data = numeric_columns[: len(train)]
test_data = numeric_columns[len(train):]

### 데이터셋 분할


In [None]:
x_train = train_data.drop("SalePrice", axis=1)
y_train = train_data["SalePrice"]

In [None]:
x_test = test_data.drop("SalePrice", axis=1)

### CustomDataset 생성


In [None]:
import torch
from torch.utils.data import Dataset
from sklearn.preprocessing import StandardScaler


class CustomDataset(Dataset):
    def __init__(self, x, y=None, normalize=True):
        super(CustomDataset, self).__init__()
        self.x = x
        self.y = y

        # 데이터 표준화
        if normalize:
            scaler = StandardScaler()
            self.x = pd.DataFrame(scaler.fit_transform(self.x))

        # 텐서 변환
        self.x = torch.tensor(self.x.values).float()

        if y is not None:
            self.y = torch.tensor(self.y).float()

    def __len__(self):
        return len(self.x)

    def __getitem__(self, idx):
        x = self.x[idx]
        if self.y is not None:
            y = self.y[idx]
            return x, y
        else:
            return x

### Dataset 생성


In [None]:
train_dataset = 
test_dataset = 

### Data Loader 생성


In [None]:
from torch.utils.data import DataLoader

# batch_size = 32 로 설정하고, shuffle을 True로 설정
train_loader = 

# batch_size = 1 로 설정하고, shuffle을 False로 설정
test_loader = 

### GPU 설정


In [None]:
# Device 설정 (cuda:0 혹은 cpu)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

### 모델 정의


In [None]:
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F


class Net(nn.Module):
    def __init__(self, num_features):
        super(Net, self).__init__()
        # 코드 입력

    def forward(self, x):
        # 코드 입력

        return x

In [None]:
# 컬럼수 정의
NUM_FEATURES = len(x_train.columns)
print(NUM_FEATURES)

### 모델 생성


In [None]:
# 모델 생성
model = 
# 모델을 device 에 올립니다. (cuda:0 혹은 cpu)
model.to(device)
model

### 손실함수와 옵티마이저 정의


In [None]:
# Mean Squared Error(MSE) 오차 정의
loss_fn = 

In [None]:
# 옵티마이저 설정: model.paramters()와 learning_rate 설정
optimizer = 

### 학습(Training)


In [None]:
# 최대 반복 횟수 정의
num_epoch = 2000

# loss 기록하기 위한 list 정의
losses = []

for epoch in range(num_epoch):
    # loss 초기화
    running_loss = 0
    for x, y in train_loader:
        # x, y 데이터를 device 에 올립니다. (cuda:0 혹은 cpu)
        x = 
        y = 

        # 그라디언트 초기화 (초기화를 수행하지 않으면 계산된 그라디언트는 누적됩니다.)
        

        # output 계산
        

        # 손실(loss) 계산
        

        # 미분 계산
        

        # 경사하강법 계산 및 적용
        

        # 배치별 loss 를 누적합산 합니다.
        running_loss += loss.item()

    # 누적합산된 배치별 loss값을 배치의 개수로 나누어 Epoch당 loss를 산출합니다.
    loss = running_loss / len(train_loader)
    losses.append(loss)

    # 20번의 Epcoh당 출력합니다.
    if epoch % 20 == 0:
        print("{0:05d} loss = {1:.5f}".format(epoch, loss))

print("----" * 15)
print("{0:05d} loss = {1:.5f}".format(epoch, loss))

### 예측 코드


In [None]:
# 결과입력
your_answer = []

# evaluation mode 로 변경
model.eval()

with torch.no_grad():
    for x in test_loader:
        x = x.to(device)
        y_hat = model(x).cpu().detach().numpy().item()
        your_answer.append(y_hat)

## 결과 제출

- 느리다고 중지 후 다시 평가 코드를 실행하는 경우 제출 과정에서 패널티가 발생할 수 있습니다. (제출 횟수 이슈 발생 가능)
- 제출결과는 [대회페이지](http://braincrew2.iptime.org:8001/competitions/ADVHOUSE/)의 `리더보드` 와 `제출` 탭에서 확인할 수 있습니다.


아래 Cell을 실행하여 예측 결과 업데이트


In [None]:
import competition

# 예측 결과 업데이트
submission = pd.read_csv(os.path.join(DATA_DIR, "submission.csv"))
submission["SalePrice"] = your_answer

display(submission)
competition.submit(project, username, password, submission)