# Baseline

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.dummy import DummyRegressor
from sklearn.linear_model import LinearRegression

Baseline model เป็น model ที่เรียบง่ายที่สุดที่สามารถทำ task หนึ่งได้ มีคะแนน performance คือ baseline score (เราต้องการ model ที่มีคะแนนมากกว่านี้)  
ก่อนจะหา model ที่ดีที่สุด เราควรสร้าง baseline model ก่อน 

Baseline model ที่ใช้ได้ เช่น dummy model (model ที่ทำนายโดยไม่มี input โดยเอาค่าที่กำหนดใน strategy มาทำนาย)
- Dummy classifier สร้างได้โดยใช้ `sklearn.dummy.DummyClassifier` <br />ตัวอย่าง strategy ที่ใช้ได้ เช่น
    - Most Frequent: The classifier always predicts the most frequent class label in the training data.
    - Stratified: It generates predictions by respecting the class distribution of the training data. It is different from the "most frequent" strategy as it instead associates a probability with each data point of being the most frequent class label.
    - Uniform: It generates predictions uniformly at random.
    - Constant: The classifier always predicts a constant label and is primarily used when classifying non-majority class labels.
- Dummy regressor ทำนายโดยใช้ค่ากลาง เช่น mean, median, mode สร้างได้โดยใช้ `sklearn.dummy.DummyRegressor`

In [3]:
# Perform data pre-processing

# Import data and drop duplicate
data = pd.read_csv('../data/fish.csv').drop_duplicates()
# Prepare X and y
X = data[['Length1', 'Length2', 'Length3', 'Height', 'Width']]
y = data['Weight']
# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=.7, random_state=42)
# Scale features
scaler = StandardScaler().fit(X_train)
X_train = pd.DataFrame(scaler.transform(X_train), columns=X_train.columns)
X_test = pd.DataFrame(scaler.transform(X_test), columns=X_test.columns)

In [10]:
# Create dummy regressor that predicts using mean
dummy = DummyRegressor(strategy="mean").fit(X_train, y_train)
dummy.score(X_test, y_test)  # Score model

-0.00069268305185477

In [9]:
# Create regression baseline
baseline_model = LinearRegression().fit(X_train, y_train)
baseline_model.score(X_test, y_test)  # Score model

0.8676045498644969