# **Final Project Task 3 - Census Modeling Regression**

equirements
- Create a regression model on the Census dataset, with 'hours-per-week' target

- You can use models (estmators) from sklearn, but feel free to use any library for traditional ML. 
    - Note: in sklearn, the LinearRegression estimator is based on OLS, a statistical method. Please use the SGDRegressor estimator, since this is based on gradient descent. 
    - You can use LinearRegression estimator, but only as comparison with the SGDRegressor - Optional.

- Model Selection and Setup **2p**:
    - Implement multiple models, to solve a regression problem using traditional ML: 
        - Linear Regression
        - Decision Tree Regression
        - Random Forest Regression - Optional
        - Ridge Regression - Optional
        - Lasso Regression - Optional
    - Choose a loss (or experiment with different losses) for the model and justify the choice. *1p*
        - MSE, MAE, RMSE, Huber Loss or others
    - Justify model choices based on dataset characteristics and task requirements; specify model pros and cons. *1p*


- Data Preparation
    - Use the preprocessed datasets from Task 1.
    - From the train set, create an extra validation set, if necesarry. So in total there will be: train, validation and test datasets.
    - Be sure all models have their data preprocessed as needed. Some models require different, or no encoding for some features.


- Model Training and Experimentation **10p**
    - Establish a Baseline Model *2p*
        - For each model type, train a simple model with default settings as a baseline.
        - Evaluate its performance to establish a benchmark for comparison.
    - Make plots with train, validation loss and metric on epochs (or on steps), if applicable. - Optional
    - Feature Selection: - Optional
        - Use insights from EDA in Task 2 to identify candidate features by analyzing patterns, relationships, and distributions.
    - Experimentation: *8p*
        - For each baseline model type, iteratively experiment with different combinations of features and transformations.
        - Experiment with feature engineering techniques such as interaction terms, polynomial features, or scaling transformations.
        - Identify the best model which have the best performance metrics on test set.
        - You may need multiple preprocessed datasets preprocessed
- Hyperparameter Tuning - Optional
  - Perform hyperparameter tuning only on the best-performing model after evaluating all model types and experiments. 
  - Consider using techniques like Grid Search for exhaustive tuning, Random Search for quicker exploration, or Bayesian Optimization for an intelligent, efficient search of hyperparameters.
  - Avoid tuning models that do not show strong baseline performance or are unlikely to outperform others based on experimentation.
  - Ensure that hyperparameter tuning is done after completing feature selection, baseline modeling, and experimentation, ensuring that the model is stable and representative of the dataset.


- Model Evaluation **3p**
    - Evaluate models on the test dataset using regression metrics: *1p*
        - Mean Absolute Error (MAE)
        - Mean Squared Error (MSE)
        - Root Mean Squared Error (RMSE)
        - R² Score
    - Choose one metric for model comparison and explain your choice *1p*
    - Compare the results across different models. Save all experiment results  into a table. *1p*

Feature Importance - Optional
- For applicable models (e.g., Decision Tree Regression), analyze feature importance and discuss its relevance to the problem.



Deliverables

- Notebook code with no errors.
- Code and results from experiments. Create a table with all experiments results, include experiment name, metrics results.
- Explain findings, choices, results.
- Potential areas for improvement or further exploration.

In [1]:
import pandas as pd


1. Încărcarea datelor preprocesate (din Task 1)

In [2]:
import numpy as np

X_train = pd.read_csv("X_train.csv")
X_test  = pd.read_csv("X_test.csv")
y_train = pd.read_csv("y_train.csv").squeeze()
y_test  = pd.read_csv("y_test.csv").squeeze()

print("Train:", X_train.shape, y_train.shape)
print("Test:", X_test.shape, y_test.shape)

Train: (26029, 86) (26029,)
Test: (6508, 86) (6508,)


2. Crearea setului de validare

In [3]:
from sklearn.model_selection import train_test_split

X_train_final, X_val, y_train_final, y_val = train_test_split(
    X_train,
    y_train,
    test_size=0.2,
    random_state=42
)

print("Train final:", X_train_final.shape, y_train_final.shape)
print("Validation:", X_val.shape, y_val.shape)


Train final: (20823, 86) (20823,)
Validation: (5206, 86) (5206,)


Din setul de antrenare inițial a fost creat un set de validare, utilizat pentru evaluarea intermediară a modelelor și pentru comparația performanței acestora înainte de evaluarea finală pe setul de test.

3 Selectarea modelelor

In [4]:
from sklearn.linear_model import SGDRegressor, LinearRegression
from sklearn.tree import DecisionTreeRegressor


Pentru problema de regresie au fost alese mai multe modele tradiționale de Machine Learning.

SGDRegressor – bazat pe gradient descent, potrivit pentru seturi de date mari

Linear Regression – utilizat ca model de referință (OLS)

Decision Tree Regression – capabil să surprindă relații neliniare între variabile

4. Alegerea funcției Loss


Pentru această problemă de regresie a fost aleasă funcția de pierdere **Mean Squared Error (MSE)**.

MSE penalizează mai puternic erorile mari, fiind potrivită în situațiile în care dorim ca predicțiile foarte greșite să fie evitate. De asemenea, MSE este frecvent utilizată în probleme de regresie și este compatibilă cu optimizarea prin gradient descent, fiind astfel adecvată pentru modelul SGDRegressor.


In [5]:
sgd_model = SGDRegressor(loss="squared_error", random_state=42)


5. Stabilirea modelelor de bază (Baseline Models)

Pentru a avea un punct de referință în evaluarea performanței modelelor, au fost antrenate modele de bază folosind setările implicite. Aceste modele permit compararea ulterioară a performanței obținute prin experimente și optimizări.

Modelele de bază antrenate sunt:
- SGDRegressor
- Linear Regression
- Decision Tree Regressor

Evaluarea a fost realizată pe setul de validare, utilizând metrica Mean Squared Error (MSE).


Import metrici

In [6]:
from sklearn.metrics import mean_squared_error


SGDRegressor – baseline

In [7]:
sgd_baseline = SGDRegressor(loss="squared_error", random_state=42)
sgd_baseline.fit(X_train_final, y_train_final)

y_val_pred_sgd = sgd_baseline.predict(X_val)
mse_sgd = mean_squared_error(y_val, y_val_pred_sgd)

print("SGDRegressor - MSE (validation):", mse_sgd)


SGDRegressor - MSE (validation): 73502602679987.98


Valoarea foarte ridicată a erorii MSE obținută pentru modelul SGDRegressor indică o performanță slabă a acestuia în configurația de bază. Acest comportament este de așteptat, deoarece SGDRegressor este sensibil la diferențele de scară dintre variabile, iar datele utilizate conțin caracteristici cu valori foarte mari.

Rezultatul obținut servește ca punct de referință (baseline) pentru comparațiile ulterioare. În etapele următoare, performanța modelului va fi îmbunătățită prin ajustarea parametrilor și aplicarea unor tehnici de preprocesare suplimentare.


Linear Regression – baseline

In [8]:
lr_baseline = LinearRegression()
lr_baseline.fit(X_train_final, y_train_final)

y_val_pred_lr = lr_baseline.predict(X_val)
mse_lr = mean_squared_error(y_val, y_val_pred_lr)

print("Linear Regression - MSE (validation):", mse_lr)


Linear Regression - MSE (validation): 122.89612871893125


Modelul Linear Regression, utilizat ca baseline, a obținut o valoare MSE de aproximativ 123 pe setul de validare, semnificativ mai mică decât cea obținută de SGDRegressor.

Acest rezultat indică faptul că modelul de regresie liniară reușește să capteze relațiile principale dintre variabilele explicative și ținta hours-per-week. Performanța superioară se explică prin faptul că Linear Regression (OLS) este mai robust la diferențele de scară dintre variabile comparativ cu modelele bazate pe gradient descent.

Acest model reprezintă un benchmark solid pentru etapele ulterioare de experimentare și comparație.


Decision Tree Regressor – baseline

In [9]:
dt_baseline = DecisionTreeRegressor(random_state=42)
dt_baseline.fit(X_train_final, y_train_final)

y_val_pred_dt = dt_baseline.predict(X_val)
mse_dt = mean_squared_error(y_val, y_val_pred_dt)

print("Decision Tree - MSE (validation):", mse_dt)


Decision Tree - MSE (validation): 229.96928757416654


Modelul Decision Tree Regressor a obținut un MSE de aproximativ 230 pe setul de validare. Deși este capabil să surprindă relații neliniare între variabile, performanța sa este mai slabă comparativ cu modelul de regresie liniară.

Această diferență sugerează că, în configurația implicită, arborele de decizie tinde să supraînvețe datele de antrenare, ceea ce afectează capacitatea de generalizare. Cu toate acestea, Decision Tree rămâne un model relevant pentru etapele ulterioare de experimentare, unde pot fi aplicate tehnici de regularizare sau limitare a complexității.


6. Tabel cu rezultatele baseline (Validation) + alegerea modelului câștigător

În această secțiune compar performanța modelelor de bază antrenate (SGDRegressor, Linear Regression, Decision Tree) folosind setul de validare. Scopul este să aleg modelul / modelele care merită îmbunătățite în etapa de experimentare.

In [10]:
baseline_results = pd.DataFrame({
    "Model": ["SGDRegressor (baseline)", "Linear Regression (baseline)", "Decision Tree (baseline)"],
    "MSE_val": [mse_sgd, mse_lr, mse_dt]
}).sort_values("MSE_val")

baseline_results

Unnamed: 0,Model,MSE_val
1,Linear Regression (baseline),122.8961
2,Decision Tree (baseline),229.9693
0,SGDRegressor (baseline),73502600000000.0


Tabelul de mai sus prezintă performanța modelelor de bază evaluate pe setul de validare, folosind Mean Squared Error (MSE) ca metrică.

- **Linear Regression (baseline)** obține cel mai mic MSE (~123), indicând cea mai bună performanță dintre modelele testate. Acest rezultat sugerează că relația dintre variabilele explicative și numărul de ore lucrate pe săptămână este în mare parte liniară, iar datele preprocesate sunt bine adaptate acestui tip de model.

- **Decision Tree (baseline)** are un MSE mai mare (~230), ceea ce indică o capacitate mai slabă de generalizare în configurația de bază. Fără limitarea complexității, arborele tinde să supraînvețe datele de antrenare.

- **SGDRegressor (baseline)** înregistrează un MSE extrem de mare, ceea ce indică instabilitate și o sensibilitate ridicată la setările implicite ale modelului. Acest rezultat sugerează necesitatea unui tuning atent al hiperparametrilor sau faptul că acest model nu este optim în forma sa de bază pentru acest set de date.

Pe baza acestor rezultate, **Linear Regression (baseline)** este ales ca model de referință pentru etapele următoare de experimentare și evaluare finală.

7. Experimentation – îmbunătățirea modelelor

7.1 Experiment 1 – SGDRegressor (tuning simplu)

Modelul SGDRegressor este sensibil la setările de învățare (learning rate) și regularizare. În acest experiment modific parametri simpli (alpha și learning_rate) pentru a obține rezultate mai stabile decât baseline.

In [11]:
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

sgd_exp1 = SGDRegressor(
    loss="squared_error",
    alpha=0.0001,
    learning_rate="invscaling",
    eta0=0.01,
    max_iter=5000,
    random_state=42
)

sgd_exp1.fit(X_train_final, y_train_final)
pred_val_sgd_exp1 = sgd_exp1.predict(X_val)
mse_sgd_exp1 = mean_squared_error(y_val, pred_val_sgd_exp1)

print("SGDRegressor EXP1 - MSE (validation):", mse_sgd_exp1)


SGDRegressor EXP1 - MSE (validation): 73502602679987.98


În urma ajustării hiperparametrilor (learning rate și regularizare), performanța modelului SGDRegressor a rămas foarte slabă, cu un MSE extrem de ridicat pe setul de validare.

Acest rezultat indică faptul că, chiar și după un tuning simplu, modelul SGDRegressor nu reușește să învețe o relație stabilă între variabilele explicative și ținta hours-per-week. Modelul este probabil foarte sensibil la scară și la distribuția datelor, sau necesită un tuning mult mai complex.

Prin comparație cu Linear Regression, care a obținut un MSE mult mai mic, SGDRegressor se dovedește mai puțin potrivit pentru acest set de date în forma actuală.


7.2 Experiment 2 – Decision Tree „control overfitting”

In [12]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

dt_exp1 = DecisionTreeRegressor(
    max_depth=5,
    min_samples_leaf=20,
    random_state=42
)

dt_exp1.fit(X_train_final, y_train_final)

pred_val_dt_exp1 = dt_exp1.predict(X_val)
mse_dt_exp1 = mean_squared_error(y_val, pred_val_dt_exp1)

print("Decision Tree EXP1 - MSE (validation):", mse_dt_exp1)


Decision Tree EXP1 - MSE (validation): 118.65327335491804


Prin limitarea complexității arborelui (max_depth=5) și impunerea unui număr minim de observații pe frunză (min_samples_leaf=20), modelul Decision Tree a obținut o performanță semnificativ mai bună pe setul de validare comparativ cu varianta baseline.

MSE-ul a scăzut de la aproximativ 230 (baseline) la ~118, ceea ce indică o generalizare mult mai bună și un control eficient al supraînvățării. Acest rezultat sugerează că relațiile neliniare dintre variabile pot fi capturate eficient de un arbore de decizie, atunci când complexitatea acestuia este atent controlată.

În acest moment, Decision Tree EXP1 reprezintă cel mai performant model pe setul de validare.


7.3 Experiment 3 – Ridge Regression

Ridge Regression este o extensie a regresiei liniare care adaugă regularizare (L2) pentru a reduce multicoliniaritatea și a îmbunătăți generalizarea. Testez un model Ridge cu un parametru alpha simplu.


In [13]:
from sklearn.linear_model import Ridge

ridge_exp1 = Ridge(alpha=1.0, random_state=42)
ridge_exp1.fit(X_train_final, y_train_final)
pred_val_ridge = ridge_exp1.predict(X_val)
mse_ridge = mean_squared_error(y_val, pred_val_ridge)

print("Ridge EXP1 - MSE (validation):", mse_ridge)


Ridge EXP1 - MSE (validation): 122.8960602943541


Modelul Ridge Regression, care adaugă regularizare L2 peste regresia liniară, a obținut un MSE pe setul de validare foarte apropiat de cel al regresiei liniare simple.

Acest rezultat sugerează că, în acest caz, regularizarea nu aduce un câștig semnificativ de performanță, probabil deoarece datele au fost deja bine preprocesate (scalare și encoding) în Task 1, iar multicoliniaritatea nu afectează major modelul.

Comparativ cu Decision Tree EXP1, Ridge Regression prezintă o performanță inferioară pe setul de validare.


8. Tabel final cu toate experimentele

In [14]:
import pandas as pd

experiments_val = pd.DataFrame([
    {"Experiment": "SGD baseline", "Model": "SGDRegressor", "MSE_val": mse_sgd},
    {"Experiment": "Linear baseline", "Model": "LinearRegression", "MSE_val": mse_lr},
    {"Experiment": "DT baseline", "Model": "DecisionTree", "MSE_val": mse_dt},

    {"Experiment": "SGD EXP1 (alpha+learning_rate)", "Model": "SGDRegressor", "MSE_val": mse_sgd_exp1},
    {"Experiment": "DT EXP1 (max_depth=5, leaf=20)", "Model": "DecisionTree", "MSE_val": mse_dt_exp1},
    {"Experiment": "Ridge EXP1 (alpha=1.0)", "Model": "Ridge", "MSE_val": mse_ridge},
]).sort_values("MSE_val")

experiments_val


Unnamed: 0,Experiment,Model,MSE_val
4,"DT EXP1 (max_depth=5, leaf=20)",DecisionTree,118.6533
5,Ridge EXP1 (alpha=1.0),Ridge,122.8961
1,Linear baseline,LinearRegression,122.8961
2,DT baseline,DecisionTree,229.9693
3,SGD EXP1 (alpha+learning_rate),SGDRegressor,73502600000000.0
0,SGD baseline,SGDRegressor,73502600000000.0


Pe baza tabelului comparativ al experimentelor, se observă că modelul
Decision Tree Regression – EXP1 (max_depth=5, min_samples_leaf=20)
obține cea mai mică valoare a MSE pe setul de validare.

Limitarea adâncimii arborelui și impunerea unui număr minim de observații
în frunze a redus semnificativ overfitting-ul comparativ cu modelul
Decision Tree baseline.

Modelele liniare (Linear Regression și Ridge Regression) au obținut
performanțe similare, dar inferioare față de Decision Tree EXP1,
indicând existența unor relații neliniare în date.

SGDRegressor a avut performanțe slabe și instabile, sugerând o sensibilitate
ridicată la hiperparametri și o potrivire mai slabă pentru acest set de date.


9. Evaluarea finală pe setul de test (Decision Tree EXP1)


modelul câștigător este:
Decision Tree Regression – EXP1 (max_depth=5, min_samples_leaf=20)

In [15]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# Predictii pe setul de test
y_test_pred = dt_exp1.predict(X_test)

# Metrici
mae_test = mean_absolute_error(y_test, y_test_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
rmse_test = np.sqrt(mse_test)
r2_test = r2_score(y_test, y_test_pred)

print("Decision Tree EXP1 - TEST RESULTS")
print("MAE :", mae_test)
print("MSE :", mse_test)
print("RMSE:", rmse_test)
print("R2  :", r2_test)


Decision Tree EXP1 - TEST RESULTS
MAE : 7.492817858254308
MSE : 121.00765722844356
RMSE: 11.000348050332024
R2  : 0.2088900758646547


Modelul Decision Tree Regression – EXP1 a fost evaluat pe setul de test folosind mai multe metrici de regresie.

- **Mean Absolute Error (MAE ≈ 7.5)** indică faptul că, în medie, predicțiile modelului diferă cu aproximativ 7–8 ore față de valorile reale ale variabilei *hours-per-week*. Această eroare este rezonabilă, având în vedere variabilitatea mare a orelor lucrate.

- **Mean Squared Error (MSE ≈ 121)** penalizează mai puternic erorile mari și confirmă faptul că modelul nu produce predicții extrem de eronate.

- **Root Mean Squared Error (RMSE ≈ 11)** este ușor de interpretat deoarece se află în aceeași unitate ca variabila țintă și indică o abatere medie de aproximativ 11 ore.

- **R² Score ≈ 0.21** arată că modelul explică aproximativ 21% din variația numărului de ore lucrate pe săptămână. Deși valoarea nu este foarte mare, aceasta este acceptabilă pentru un set de date socio-economic complex, unde relațiile dintre variabile sunt influențate de factori greu de modelat.

În concluzie, modelul Decision Tree EXP1 generalizează rezonabil pe date nevăzute și oferă un compromis bun între bias și varianță, fiind potrivit ca model final în acest proiect.


10. Concluzii finale și direcții de îmbunătățire

Alegerea metricii de comparație:

Pentru comparația modelelor a fost utilizată Mean Squared Error (MSE),
deoarece penalizează mai puternic erorile mari și este o metrică standard
în problemele de regresie.

MSE este potrivită în acest context deoarece diferențele mari între
numărul real de ore lucrate și predicții sunt nedorite.

Concluzie:

Cel mai performant model pentru predicția variabilei hours-per-week
a fost Decision Tree Regression – EXP1, care a obținut cele mai bune
rezultate atât pe setul de validare, cât și pe setul de test.

Modelul reușește să surprindă relații neliniare dintre variabilele
socio-demografice și numărul de ore lucrate, menținând totodată
o bună capacitate de generalizare.

Limitări și direcții viitoare:

Valoarea relativ scăzută a scorului R² indică faptul că o parte
semnificativă din variabilitatea lui hours-per-week nu este explicată
doar de variabilele disponibile.

Îmbunătățiri viitoare pot include:
- adăugarea de noi variabile relevante,
- feature engineering suplimentar,
- utilizarea Random Forest sau Gradient Boosting,
- tuning mai avansat al hiperparametrilor.


