In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

RANDOM_STATE = 42


In [2]:
print("--- КЕЙС 1: ЗГЕНЕРОВАНІ ДАНІ (make_regression) ---")

X_gen, y_gen = make_regression(
    n_samples=300,
    n_features=4,
    n_informative=3,
    noise=10.0,
    random_state=RANDOM_STATE
)

X_train_gen, X_test_gen, y_train_gen, y_test_gen = train_test_split(
    X_gen, y_gen, test_size=0.3, random_state=RANDOM_STATE
)

model_gen = LinearRegression()
model_gen.fit(X_train_gen, y_train_gen)
y_pred_gen = model_gen.predict(X_test_gen)

r2_gen = r2_score(y_test_gen, y_pred_gen)
mse_gen = mean_squared_error(y_test_gen, y_pred_gen)

print(f"R² (Кейс 1): {r2_gen:.4f}")
print(f"MSE (Кейс 1): {mse_gen:.2f}")

--- КЕЙС 1: ЗГЕНЕРОВАНІ ДАНІ (make_regression) ---
R² (Кейс 1): 0.9935
MSE (Кейс 1): 84.62


In [3]:
FILE_NAME = 'train.csv'
TARGET_COLUMN = 'y'
FEATURE_COLUMN = 'x'
print(f"\n--- КЕЙС 2: ДАНІ З KAGGLE ({FILE_NAME}) ---")

try:
    df_kaggle = pd.read_csv(FILE_NAME)
    df_kaggle.dropna(inplace=True)

    X_kaggle = df_kaggle[[FEATURE_COLUMN]].values
    y_kaggle = df_kaggle[TARGET_COLUMN].values

    X_train_k, X_test_k, y_train_k, y_test_k = train_test_split(
        X_kaggle, y_kaggle, test_size=0.3, random_state=RANDOM_STATE
    )

    model_kaggle = LinearRegression()
    model_kaggle.fit(X_train_k, y_train_k)
    y_pred_k = model_kaggle.predict(X_test_k)

    r2_k = r2_score(y_test_k, y_pred_k)
    mse_k = mean_squared_error(y_test_k, y_pred_k)

    print(f"R² (Кейс 2): {r2_k:.4f}")
    print(f"MSE (Кейс 2): {mse_k:.2f}")
    
except FileNotFoundError:
    print(f"ПОМИЛКА: Файл '{FILE_NAME}' не знайдено. Пропуск Кейсу 2.")
except KeyError as e:
    print(f"ПОМИЛКА: Неправильна назва колонки: {e}. Пропуск Кейсу 2.")


--- КЕЙС 2: ДАНІ З KAGGLE (train.csv) ---
R² (Кейс 2): 0.9910
MSE (Кейс 2): 7.81


In [4]:
print("\n--- КЕЙС 3: ДАНІ ЗГЕНЕРОВАНІ NUMPY ---")

n_samples_n = 500
np.random.seed(RANDOM_STATE) 
X1_n = np.random.uniform(10, 100, n_samples_n)
X2_n = np.random.normal(5, 2, n_samples_n)
X_numpy = np.stack([X1_n, X2_n], axis=1)
epsilon_n = np.random.normal(0, 5, n_samples_n)
y_numpy = 3.5 * X1_n - 1.2 * X2_n + 50 + epsilon_n

X_train_n, X_test_n, y_train_n, y_test_n = train_test_split(
    X_numpy, y_numpy, test_size=0.3, random_state=RANDOM_STATE
)

model_numpy = LinearRegression()
model_numpy.fit(X_train_n, y_train_n)
y_pred_n = model_numpy.predict(X_test_n)

r2_n = r2_score(y_test_n, y_pred_n)
mse_n = mean_squared_error(y_test_n, y_pred_n)

print(f"R² (Кейс 3): {r2_n:.4f}")
print(f"MSE (Кейс 3): {mse_n:.2f}")
print(f"Коефіцієнти: {model_numpy.coef_}")


--- КЕЙС 3: ДАНІ ЗГЕНЕРОВАНІ NUMPY ---
R² (Кейс 3): 0.9975
MSE (Кейс 3): 22.79
Коефіцієнти: [ 3.51639226 -1.17984123]
