In [160]:
from sklearn.datasets import fetch_california_housing

california_housing = fetch_california_housing(as_frame=True)

data = california_housing['frame']


In [161]:
from scipy.stats import zscore
    
features_of_interest = ['AveRooms', "AveBedrms", 'AveOccup', 'Population']

df_zscore = data[features_of_interest].apply(zscore)

In [162]:
outliers = df_zscore.apply(lambda x: (x < -3) | (x > 3))
outlier_indices = outliers.any(axis=1)

In [163]:
df_cleaned = data[~outlier_indices]

In [164]:
target = df_cleaned['MedHouseVal']

In [165]:
df_cleaned = df_cleaned.drop(columns=['MedHouseVal', 'AveRooms'])

In [166]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_cleaned, 
                                                    target, 
                                                    test_size=0.2, 
                                                    random_state=42)

In [167]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().set_output(transform='pandas').fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [168]:
from sklearn.linear_model import LinearRegression
import pandas as pd 

model = LinearRegression().fit(X_train_scaled, y_train)

y_pred = model.predict(X_test_scaled)

ymin, ymax = y_train.agg(['min', 'max']).values

y_pred = pd.Series(y_pred, index=X_test_scaled.index).clip(ymin, ymax)


In [169]:
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

r_sq = model.score(X_train_scaled, y_train)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

print(f'R2: {r_sq:.2f} | MAE: {mae:.2f} | MAPE: {mape:.2f}')

R2: 0.64 | MAE: 0.50 | MAPE: 0.29


In [None]:
Висновки:
Коефіцієнт детермінації (R²):
Mодель здатна пояснювати більшу частину дисперсії цільової змінної, ніж попередня.
    
Середня абсолютна похибка (MAE):
Cередня абсолютна похибка моделі зменшилася, що свідчить про менші розбіжності між прогнозованими та спостережуваними значеннямиї.
    
Середня абсолютна похибка у відсотках (MAPE):
Mодель відтворює цільову змінну з меншою відсотковою похибкою, що є важливим показником для оцінки точності прогнозів.
    
Загальні висновки:
Bидалення аномалій у виборі ознак для моделювання, дозволили покращити результати моделі.
Кожен з вимірюваних показників (R², MAE, MAPE) покращився на приблизно 2% пунктів.
Використання більш точних методів обробки даних, таких як виявлення аномалій за допомогою Z-оцінок і вибір ознак з високою кореляцією, сприяло покращенню результатів моделі.
