### Lab 3. ML Anastasiia Matychenko

Завантажуємо набір даних "Abalone" та імпортуйте необхідні бібліотеки

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder


data_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data"
column_names = ["Sex", "Length", "Diameter", "Height", "Whole_weight", "Shucked_weight",
                "Viscera_weight", "Shell_weight", "Rings"]
data = pd.read_csv(data_url, names=column_names)

Кодуємо категоріального ознаки "Sex"

In [None]:
label_encoder = LabelEncoder()
data["Sex"] = label_encoder.fit_transform(data["Sex"])

В якості метрики  регресії оберемо R2-коефіцієнт (коефіцієнт детермінації).

In [2]:
from sklearn.metrics import r2_score

Розділюємо набір даних на навчальну та тестову вибірку

In [3]:
X = data.drop("Rings", axis=1)
y = data["Rings"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Реалізуємо навчання лінійної багатовимірної регресії за допомогою LinearRegression

In [4]:
from sklearn.linear_model import LinearRegression

Linear Regression:
Train R2 Score: 0.5264768075017208
Test R2 Score: 0.5323381317508206


Навчання лінійної багатовимірної регресії

In [None]:
linear_regression = LinearRegression()
linear_regression.fit(X_train, y_train)

Оцінка якості моделі

In [None]:
y_train_pred = linear_regression.predict(X_train)
y_test_pred = linear_regression.predict(X_test)
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)
print("Linear Regression:")
print("Train R2 Score:", train_r2)
print("Test R2 Score:", test_r2)

# Для другої моделі, будемо використовувати лінійну багатовимірну регресію на основі логарифмованих показників

In [5]:
import numpy as np


Linear Regression (Log-transformed features):
Train R2 Score: 0.5565330991838986
Test R2 Score: 0.5371670404236369


Логарифмування показників з суттєвою лівою асиметрією

In [None]:
skewed_features = ["Length", "Diameter", "Height", "Whole_weight", "Shucked_weight",
                   "Viscera_weight", "Shell_weight"]
log_transformed = np.log1p(data[skewed_features])

Додавання логарифмованих показників до набору даних

In [None]:

data_log = pd.concat([data.drop(skewed_features, axis=1), log_transformed], axis=1)

Розділення набору даних на навчальну та тестову вибірки

In [None]:
X_log = data_log.drop("Rings", axis=1)
y_log = data_log["Rings"]
X_train_log, X_test_log, y_train_log, y_test_log = train_test_split(X_log, y_log, test_size=0.2, random_state=42)

## Навчання лінійної багатовимірної регресії на основі логарифмованих показників

In [None]:
linear_regression_log = LinearRegression()
linear_regression_log.fit(X_train_log, y_train_log)

Оцінка якості моделі на основі логарифмованих показників

In [None]:
y_train_pred_log = linear_regression_log.predict(X_train_log)
y_test_pred_log = linear_regression_log.predict(X_test_log)
train_r2_log = r2_score(y_train_log, y_train_pred_log)
test_r2_log = r2_score(y_test_log, y_test_pred_log)
print("\nLinear Regression (Log-transformed features):")
print("Train R2 Score:", train_r2_log)
print("Test R2 Score:", test_r2_log)

# Квадрати та попарні добутки початкових показників

In [6]:
from sklearn.preprocessing import PolynomialFeatures


Linear Regression (Polynomial Features):
Train R2 Score: 0.5847256764841892
Test R2 Score: 0.549572348589771


Додавання квадратів та попарних добутків початкових показників

In [None]:
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(X_poly, y, test_size=0.2, random_state=42)

Навчання лінійної багатовимірної регресії з поліноміальними ознаками

In [None]:
linear_regression_poly = LinearRegression()
linear_regression_poly.fit(X_train_poly, y_train_poly)

Оцінка якості моделі з поліноміальними ознаками

In [None]:
y_train_pred_poly = linear_regression_poly.predict(X_train_poly)
y_test_pred_poly = linear_regression_poly.predict(X_test_poly)
train_r2_poly = r2_score(y_train_poly, y_train_pred_poly)
test_r2_poly = r2_score(y_test_poly, y_test_pred_poly)
print("\nLinear Regression (Polynomial Features):")
print("Train R2 Score:", train_r2_poly)
print("Test R2 Score:", test_r2_poly)

Навчання непараметричної моделі регресії використовуючи RandomForestRegressor:

In [7]:
from sklearn.ensemble import RandomForestRegressor


Random Forest Regression:
Train R2 Score: 0.9386289073954626
Test R2 Score: 0.5296671259326307


Навчання лісу дерев регресії

In [None]:
random_forest = RandomForestRegressor(random_state=42)
random_forest.fit(X_train, y_train)

Оцінка якості моделі

In [None]:
y_train_pred_rf = random_forest.predict(X_train)
y_test_pred_rf = random_forest.predict(X_test)
train_r2_rf = r2_score(y_train, y_train_pred_rf)
test_r2_rf = r2_score(y_test, y_test_pred_rf)
print("\nRandom Forest Regression:")
print("Train R2 Score:", train_r2_rf)
print("Test R2 Score:", test_r2_rf)

In [8]:
print("\nTest R2 Scores:")
print("Linear Regression:", test_r2)
print("Linear Regression (Log-transformed features):", test_r2_log)
print("Linear Regression (Polynomial Features):", test_r2_poly)
print("Random Forest Regression:", test_r2_rf)



Test R2 Scores:
Linear Regression: 0.5323381317508206
Linear Regression (Log-transformed features): 0.5371670404236369
Linear Regression (Polynomial Features): 0.549572348589771
Random Forest Regression: 0.5296671259326307


In [9]:
best_model = max([(test_r2, "Linear Regression"),
                  (test_r2_log, "Linear Regression (Log-transformed features)"),
                  (test_r2_poly, "Linear Regression (Polynomial Features)"),
                  (test_r2_rf, "Random Forest Regression")],
                 key=lambda x: x[0])

print("\nBest Model on Test Set:")
print("Model:", best_model[1])
print("Test R2 Score:", best_model[0])



Best Model on Test Set:
Model: Linear Regression (Polynomial Features)
Test R2 Score: 0.549572348589771
