# Cheatsheet: Regression & Classification (สรุปวิธีทำ)
สรุปสั้นๆ เป็นภาษาไทย + ตัวอย่างโค้ดสั้นๆ ด้วย scikit-learn เพื่อเอาไว้ทบทวนก่อนสอบ

หมายเหตุ: แต่ละตัวอย่างเป็น 'starter snippet' — ปรับ hyperparameters / preprocessing ตามโจทย์จริง

## Regression - เมื่อ target เป็นจำนวนจริง (continuous)
หลักการทั่วไป:
- แบ่งข้อมูล: train / test (เช่น 80/20)
- ตรวจสอบ outliers, scale ถ้าจำเป็น (StandardScaler)
- เลือกโมเดล, เทรน, ประเมิน (R², RMSE, MAE)

Common models (สั้นๆ):
1) Linear Regression - baseline, fast, ใช้ได้ถ้าความสัมพันธ์เป็น linear
2) Polynomial Regression - เพิ่ม interaction/degree เมื่อความสัมพันธ์ไม่เป็น linear (ใช้ PolynomialFeatures)
3) Ridge/Lasso - regularized linear models (แก้ overfit)
4) Decision Tree / Random Forest / Gradient Boosting - non-linear, robust, ต้อง tune depth/estimators

### ตัวอย่าง: LinearRegression + Polynomial (degree=2)

In [None]:
# Regression example (Polynomial)
import numpy as np
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Synthetic data
X = np.array([[1.0],[2.0],[3.0],[4.0],[5.0]])
y = np.array([1.5, 3.2, 4.8, 8.5, 11.0])
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)
model = LinearRegression()
model.fit(X_poly, y)
y_pred = model.predict(X_poly)
print('R2', r2_score(y, y_pred))
print('RMSE', np.sqrt(mean_squared_error(y, y_pred)))

---
## Classification - เมื่อ target เป็น class/category
หลักการทั่วไป:
- แบ่ง train/test, ทำ scaling สำหรับบางโมเดล (SVM, Logistic)
- ถ้า class imbalance ให้พิจารณา stratify หรือการ oversample (SMOTE)
- ประเมินด้วย accuracy, precision, recall, f1, confusion matrix

Common models (สั้นๆ):
1) Logistic Regression - baseline for binary classification
2) KNN - simple, non-parametric (sensitive to scale)
3) Decision Tree / Random Forest - interpretable (tree) and robust (forest)
4) SVM - good for margin-based classification, scale important
5) Gradient Boosting (XGBoost/LightGBM) - strong performance, often top choice

### ตัวอย่าง: RandomForest classification + feature importances

In [None]:
# Classification example (RandomForest)
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd
import numpy as np

# Synthetic dataset
np.random.seed(0)
X = np.random.randn(200, 4)
y = (X[:,0] + X[:,1]*0.5 > 0).astype(int)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print('Accuracy', accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
print('Feature importances:', model.feature_importances_)

---
## Practical tips (เคล็ดลับสั้นๆ)
- Always check shapes and missing values (use df.info(), df.isnull().sum())
- Scale data when model sensitive to scale (SVM, KNN, Logistic)
- Use cross-validation or validation set to tune hyperparameters
- For small datasets, prefer simpler models or regularization (Ridge/Lasso)
- For interpretability: use trees with shallow depth or linear models with standardized coefficients

### Quick checklist before submit:
1. Split data correctly (no leakage)
2. Fit scaler on train only (scaler.fit_transform(X_train), scaler.transform(X_test))
3. Save model if needed (joblib.dump)
4. Provide metrics asked in the question (e.g., R2 or accuracy)

---
If you want, I can expand this cheat sheet with more detailed examples for each algorithm (hyperparameters to tune, edge-case warnings, common pitfalls) or produce a printable PDF.