#### 이번 대회에서는 범주형 변수 전처리를 위해 Label Encoding과 for문을 사용했습니다.
#### 이는 train data로 fit한 Label Encoder로 test data를 transform할 경우,
#### train data에는 속하지 않은 데이터가 test data에 있을 가능성이 있어 에러가 발생할 수 있기 때문입니다.
#### 이를 방지하기 위해 for문을 사용하여 예외적인 상황에 대처할 수 있도록 코드를 작성했습니다.
#### 참고해 주시길 바랍니다.

# Import / 라이브러리 호출

In [1]:
import pandas as pd
import random
import os
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression

# Fixed RandomSeed / 랜덤시드 고정

#### 매번 고정된 결과를 얻기 위해서 사용합니다.
#### seed를 고정하지 않는다면 같은 코드라도 매번 다른 결과가 나오게됩니다.
#### 항상 동일한 결과를 얻기 위해서 사용합니다.

In [2]:
def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

seed_everything(42) # Seed 고정

# Data Load / 데이터 불러오기
#### 먼저 pandas 라이브러리의 read_csv() 함수를 이용해 분석에 사용할 데이터를 불러옵니다.

In [3]:
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')

In [4]:
train.head()

Unnamed: 0,id,temperature,pressure,humidity,wind_speed,wind_direction,precipitation,snowing,cloudiness,target
0,TRAIN_00000,27.8816,1013.6,46.8,2.4,232.4,0.0,False,0.0,1.18
1,TRAIN_00001,5.754,1026.6,76.6,3.6,172.0,0.0,False,8.8,8.581
2,TRAIN_00002,20.822,1016.2,64.8,2.2,206.0,0.06,False,23.0,3.978
3,TRAIN_00003,20.0758,1017.4,72.6,0.8,215.4,0.0,False,0.0,8.301
4,TRAIN_00004,7.526,1023.2,82.8,1.2,158.0,0.0,False,15.0,1.692


# Feature & Target Split / 독립변수(X), 종속변수(y)로 나누기

#### 모델을 학습하기 위해서는 독립변수(X)와 종속변수(y)로 나누어야 합니다.
#### 독립변수는 Feature, 종속변수는 Target이라고 불리기도 합니다.
- Feature : 예측을 위해 활용되는 데이터
- Target : 예측하고자 하는 대상

(이 때, 분석에 활용하지 않는 데이터인 'id'는 제거하겠습니다.)

In [5]:
# X는 독립변수이므로 종속변수를 제거합니다. 또한 target 이외의 분석에 활용하지 않는 데이터(id)를 제거합니다.
train_x = train.drop(columns=['id', 'target'])
# y는 종속변수로 값을 설정합니다.
train_y = train['target']

In [6]:
# train에서와 마찬가지로 분석에 활용하지 않는 데이터(id)를 제거합니다.
test_x = test.drop(columns=['id'])

# Data Pre-processing

### 데이터 전처리란 무엇일까요?
#### **결측치 처리, 이상치 제거, 데이터 단위 변환, 데이터 분포 변환** 등 데이터를 정확하게 분석하기 위해 먼저 데이터에 여러 가지 처리를 해주는 것입니다.
#### 전처리를 함으로써 데이터 분석이 가능하도록 하며, 데이터를 합치거나 나눠서 더 정확한 정보를 갖도록 해주기 때문에 전처리 과정은 데이터 분석에 있어서 반드시 필요한 부분입니다.
#### 데이터를 계산하는 컴퓨터는 오로지 숫자(정수, 실수)만을 인식하기 때문입니다.
#### 그래서 사람이 사용하는 한국어나 영어와 같은 문자나 비어있는 값 (결측치) 등을 숫자로 변경해 주어야 합니다.
(이번 데이터에는 결측치가 존재하지 않습니다.)

In [7]:
le = LabelEncoder()
le = le.fit(train_x['snowing'])
train_x['snowing'] = le.transform(train_x['snowing'])

for label in np.unique(test_x['snowing']):
    if label not in le.classes_:
        le.classes_ = np.append(le.classes_, label)
    test_x['snowing'] = le.transform(test_x['snowing'])
print('Done.')

Done.


# Regression Model Definition / 회귀 모델 정의

#### 분석에 사용할 모델을 선언합니다.

In [8]:
LR = LinearRegression()
print('Done.')

Done.


# Model Fit / 모델 학습

In [9]:
# 학습데이터를 모델에 입력합니다.
LR.fit(train_x, train_y)
print('Done.')

Done.


# Prediction / 예측

In [10]:
# 최종 예측을 하기위해 test값을 입력합니다.
preds = LR.predict(test_x)
print('Done.')

Done.


# Submit / 제출

In [11]:
# 제출 파일을 불러옵니다.
submit = pd.read_csv('./sample_submission.csv')

In [12]:
submit['target'] = preds
submit.head()

Unnamed: 0,id,target
0,TEST_00000,4.320523
1,TEST_00001,5.660996
2,TEST_00002,5.010099
3,TEST_00003,4.208054
4,TEST_00004,5.365134


In [13]:
submit.to_csv('./submit2.csv', index=False)