In [27]:
# Import 

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.utils import resample
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt


In [28]:
# Ustawienie ziarna dla reprodukowalności wyników

np.random.seed(42)

In [29]:
# Generowanie danych

X = np.random.rand(100, 1) * 10
y = 2 * X.squeeze() + np.random.randn(100) * 2  # Regresja liniowa y = 2x + szum

In [30]:
# Podział danych na zbiór treningowy i testowy

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [37]:
# Funkcja do bootstrapu

def perform_bootstrap(X, y, model, n_iterations):
    predictions = []
    for _ in range(n_iterations):
        
        
                # Próbkowanie z powtórzeniem
    
        X_boot, y_boot = resample(X, y, replace=True, random_state=np.random.randint(1, 1000))
        
        
        
                 # Dopasowanie modelu
    
        model.fit(X_boot, y_boot)
        
        
        
        
              # Prognoza na zbiorze testowym
    
        y_pred = model.predict(X_test)
        predictions.append(y_pred)
    return np.array(predictions)

In [32]:
# Budowa 10 regresji liniowych na bootstrapie

linear_models = [LinearRegression() for _ in range(10)]
linear_predictions = [perform_bootstrap(X_train, y_train, model, n_iterations=100) for model in linear_models]

In [33]:
# Budowa 10 drzew na bootstrapie

tree_models = [DecisionTreeRegressor() for _ in range(10)]
tree_predictions = [perform_bootstrap(X_train, y_train, model, n_iterations=100) for model in tree_models]

In [34]:
# Obliczenie błędów i korelacji dla regresji liniowej

linear_errors = [mean_squared_error(y_test, pred.mean(axis=0)) for pred in linear_predictions]
linear_correlation = np.corrcoef(np.vstack(linear_predictions))

In [35]:
# Obliczenie błędów i korelacji dla drzew decyzyjnych

tree_errors = [mean_squared_error(y_test, pred.mean(axis=0)) for pred in tree_predictions]
tree_correlation = np.corrcoef(np.vstack(tree_predictions))

In [36]:
# Wyświetlenie wyników

print("Błędy regresji liniowej:", linear_errors)
print("Korelacja błędów regresji liniowej:\n", linear_correlation)
print("\nBłędy drzew decyzyjnych:", tree_errors)
print("Korelacja błędów drzew decyzyjnych:\n", tree_correlation)

Błędy regresji liniowej: [2.5973570600222806, 2.641675080863552, 2.6276188783731693, 2.584335057173304, 2.617860540483914, 2.5918626896010126, 2.6004461556692613, 2.614979725789879, 2.6010548839380783, 2.5663417498554955]
Korelacja błędów regresji liniowej:
 [[1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 ...
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]]

Błędy drzew decyzyjnych: [2.983171896607884, 2.8251563461096714, 2.9043035544161997, 2.8117847552174626, 2.8603629005649864, 2.976446967183091, 2.8477004594672786, 3.0181703162464877, 2.9256937846449156, 2.932863810921063]
Korelacja błędów drzew decyzyjnych:
 [[1.         0.9953129  0.98199368 ... 0.98013824 0.96875757 0.98932473]
 [0.9953129  1.         0.9844946  ... 0.98092561 0.97344546 0.99456212]
 [0.98199368 0.9844946  1.         ... 0.96650986 0.98476015 0.98071325]
 ...
 [0.98013824 0.98092561 0.96650986 ... 1.         0.96595917 0.97081049]
 [0.96875757 0.97344546 0.9

In [38]:
# Zaokrąglanie wyników do dwóch miejsc po przecinku


linear_errors_rounded = [round(error, 2) for error in linear_errors]
tree_errors_rounded = [round(error, 2) for error in tree_errors]

linear_correlation_rounded = np.round(linear_correlation, 2)
tree_correlation_rounded = np.round(tree_correlation, 2)

# Wyświetlenie poprawionych wyników


print("Błędy regresji liniowej:", linear_errors_rounded)
print("Korelacja błędów regresji liniowej:\n", linear_correlation_rounded)
print("\nBłędy drzew decyzyjnych:", tree_errors_rounded)
print("Korelacja błędów drzew decyzyjnych:\n", tree_correlation_rounded)


Błędy regresji liniowej: [2.6, 2.64, 2.63, 2.58, 2.62, 2.59, 2.6, 2.61, 2.6, 2.57]
Korelacja błędów regresji liniowej:
 [[1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 ...
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]]

Błędy drzew decyzyjnych: [2.98, 2.83, 2.9, 2.81, 2.86, 2.98, 2.85, 3.02, 2.93, 2.93]
Korelacja błędów drzew decyzyjnych:
 [[1.   1.   0.98 ... 0.98 0.97 0.99]
 [1.   1.   0.98 ... 0.98 0.97 0.99]
 [0.98 0.98 1.   ... 0.97 0.98 0.98]
 ...
 [0.98 0.98 0.97 ... 1.   0.97 0.97]
 [0.97 0.97 0.98 ... 0.97 1.   0.97]
 [0.99 0.99 0.98 ... 0.97 0.97 1.  ]]
