## Практика - Масштабирование признаков
**Приведение значений признаков к одному диапазону, например, от 0 до 1.**

*Напишу код на примере датасета California Housing*

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import fetch_california_housing

# 1. Загрузка датасета California Housing
california_housing = fetch_california_housing()
data = pd.DataFrame(california_housing.data, columns=california_housing.feature_names)
data['MEDV'] = california_housing.target  # Добавляем целевую переменную

# 2. Разделение на признаки и целевую переменную
X = data.drop(columns=['MEDV'])  
y = data['MEDV']  

# 3. Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование числовых признаков 
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 4. Создание и обучение модели линейной регрессии с масштабированием
model_lr_scaled = LinearRegression()
model_lr_scaled.fit(X_train_scaled, y_train)

# 5. Оценка модели с масштабированием
y_pred_scaled = model_lr_scaled.predict(X_test_scaled)
mse_scaled = mean_squared_error(y_test, y_pred_scaled)
r2_scaled = r2_score(y_test, y_pred_scaled)

# 6. Создание и обучение модели линейной регрессии без масштабирования
model_lr_no_scaled = LinearRegression()
model_lr_no_scaled.fit(X_train, y_train)

# 7. Оценка модели без масштабирования
y_pred_no_scaled = model_lr_no_scaled.predict(X_test)
mse_no_scaled = mean_squared_error(y_test, y_pred_no_scaled)
r2_no_scaled = r2_score(y_test, y_pred_no_scaled)

# 8. Сравнение результатов
print(f"--- Модель с масштабированием ---")
print(f"Mean Squared Error (с масштабированием): {mse_scaled:.4f}")
print(f"R^2 Score (с масштабированием): {r2_scaled:.4f}")

print(f"\n--- Модель без масштабирования ---")
print(f"Mean Squared Error (без масштабирования): {mse_no_scaled:.4f}")
print(f"R^2 Score (без масштабирования): {r2_no_scaled:.4f}")


--- Модель с масштабированием ---
Mean Squared Error (с масштабированием): 0.5559
R^2 Score (с масштабированием): 0.5758

--- Модель без масштабирования ---
Mean Squared Error (без масштабирования): 0.5559
R^2 Score (без масштабирования): 0.5758


In [None]:
Ничего не измнеилось, потому что линейной регрессии все равно на масштабирование и разброс признаков не слишком большой