# 2.2 Data Preprocessing

b## 2.2.1 Reading the Dataset

### csv 데이터 생성

In [2]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

### csv 데이터 추출

In [3]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms RoofType   Price
0       NaN      NaN  127500
1       2.0      NaN  106000
2       4.0    Slate  178100
3       NaN      NaN  140000


## 2.2.2 Data Preparation
- 지도학습의 경우 주어진 입력값에 대해 의도한 target 값을 예측해야함 -> 데이터셋에서 입력값과 target 값을 분리해야 함
- 누락된 값이 존재한다면 이 값에 대한 처리를 해야함
  1. imputation: 누락된 값을 추정값으로 대체 하는 방식
  2. deletion: 누락된 값을 제거하기 위해 행 또는 열을 무시하는 방식

- 누락된 카테고리 값을 처리하기 위한 방법 중 하나로 imputation heuristics(추정 휴리스틱) 이 존재함

In [6]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  RoofType_Slate  RoofType_nan
0       NaN           False          True
1       2.0           False          True
2       4.0            True         False
3       NaN           False          True


- 누락된 수치 값을 처리하기 위한 방법중 하나로 평균값을 사용하는 휴리스틱 방식이 있음

In [7]:
inputs = inputs.fillna(inputs.mean())
inputs

Unnamed: 0,NumRooms,RoofType_Slate,RoofType_nan
0,3.0,False,True
1,2.0,False,True
2,4.0,True,False
3,3.0,False,True


## 2.2.3 Conversion to the Tensor Format

In [8]:
import torch
import numpy as np

X = torch.tensor(inputs.to_numpy(dtype=np.float32))
y = torch.tensor(targets.to_numpy(dtype=np.float32))
X, y

(tensor([[3., 0., 1.],
         [2., 0., 1.],
         [4., 1., 0.],
         [3., 0., 1.]]),
 tensor([127500., 106000., 178100., 140000.]))