В домашнем задании нужно улучшить метрики RMSE, R2 модели линейной регрессии путем работы с данными, а именно проведения разведочного анализа данных. В качестве датасета необходимо загрузить данные о недвижимости Калифорнии из библиотеки sklearn.datasets. Целевая переменная – MedHouseVal. 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

1. Получите данные и загрузите их в рабочую среду. (Jupyter Notebook или другую).

In [None]:
housing = fetch_california_housing()

In [None]:
print(fetch_california_housing().DESCR)

In [None]:
housing.feature_names[0:8]

In [None]:
# Преобразуем данные в таблицу

data = pd.DataFrame(data=housing.data, columns=housing.feature_names)
data['MedHouseVal'] = housing.target
data.head()

In [None]:
data['MedHouseVal'].value_counts().sort_values()

2. Проверьте данные на наличие пропусков. Удалите их в случае обнаружения.

In [None]:
data.info()

In [None]:
data['MedInc'].sort_values().unique()

In [None]:
data['HouseAge'].sort_values().unique()

In [None]:
data['AveRooms'].sort_values().unique()

In [None]:
data['AveBedrms'].sort_values().unique()

In [None]:
data['Population'].sort_values().unique()

In [None]:
data['AveOccup'].sort_values().unique()

In [None]:
data['MedHouseVal'].sort_values().unique()

3. Разделите выборку на обучающее и тестовое подмножества. 80% данных оставить на обучающее множество, 20% - на тестовое.

In [None]:
print(data.columns.tolist())

In [None]:
X = data[['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']]
y = data['MedHouseVal']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. Постройте модель линейной регрессии. Вычислите метрики RMSE, R2 на обучающем и тестовом множестве.

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [None]:
# Построим график предсказаний целевой переменной MedHouseVal

plt.figure(figsize=(8,6))
plt.scatter(y_test, y_test_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r-')  # линия регрессии
plt.xlabel('Истинные значения MedHouseVal')
plt.ylabel('Предсказанные значения MedHouseVal')
plt.title('График предсказаний целевой переменной и истинных значений')
plt.show()

In [None]:
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)
print(f"Обучающая выборка: RMSE = {rmse_train:.3f}, R2 = {r2_train:.3f}")

rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test = r2_score(y_test, y_test_pred)
print(f"Тестовая выборка: RMSE = {rmse_test:.3f}, R2 = {r2_test:.3f}")

5. Постройте график распределения целевой переменной. Сделайте вывод. Присутствуют ли в этом признаке выбросы?

In [None]:
plt.figure(figsize=(8,6))
sns.histplot(y, kde=True)
       
plt.xlabel('MedHouseVal')
plt.ylabel('Частота')
plt.title('Распределение целевой переменной MedHouseVal')
plt.show()

6. Посчитайте и выведите корреляционную матрицу. Убедитесь, что ячейки матрицы поделены на цветные категории, в ячейках указано числовое значение корреляции.
* Сделайте выводы.
* Удалите признаки на основании полученных значений, выводов.
* Повторите п. 3, п. 4 на измененных данных.

In [None]:
corr_matrix = data.corr()
corr_matrix

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, fmt=".2f")
plt.title('Корреляционная матрица признаков')
plt.show()

In [None]:
print(data.columns.tolist())

In [None]:
# Удаляем признаки с нулевой корреляцией

X = data[['MedInc', 'HouseAge', 'AveRooms', 'Latitude']]
y = data['MedHouseVal']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [None]:
# Удаляя признаки, получаем результат хуже

rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)
print(f"Обучающая выборка: RMSE = {rmse_train:.3f}, R2 = {r2_train:.3f}")

rmse_test_del_feature = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test_del_feature = r2_score(y_test, y_test_pred)
print(f"Тестовая выборка: RMSE = {rmse_test:.3f}, R2 = {r2_test:.3f}")

7. Исследуйте оставленные признаки на выбросы.
* Удалите выбросы в случае обнаружения.
* Повторите п. 3, п. 4 на измененных данных.

In [None]:
# Визуализируем boxplot для признаков на train-данных

for feature in ['MedInc', 'HouseAge', 'AveRooms', 'Latitude']:
    plt.figure(figsize=(8, 4))
    plt.boxplot(data[feature], vert=False)
    plt.title(f'Boxplot по признаку {feature}')
    plt.show()

In [None]:
# Определим первый Q1 и Q3 квартиль и IQR межквартильный размах
# Удалим выбросы

for feature in ['MedInc', 'AveRooms']:
    Q1 = data[feature].quantile(0.25)
    Q3 = data[feature].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers = data[(data[feature] < lower_bound) | (data[feature] > upper_bound)]

    print(f"Признак: {feature}")
    print(f"Выбросы: {len(outliers)}")
    print(f"Квартиль Q1: {Q1:.2f}")
    print(f"Квартиль Q3: {Q3:.2f}")
    print(f"IQR: {IQR:.2f}")
    print(f"lower_bound: {lower_bound:.2f}")
    print(f"upper_bound: {upper_bound:.2f}")
    print(outliers[feature].sort_values(ascending=False).head())
    
    data = data[data[feature] <= upper_bound]

In [None]:
X = data[['MedInc', 'HouseAge', 'AveRooms', 'Latitude']]
y = data['MedHouseVal']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [None]:
# Удаляя выбросы, получаем результат хуже первоначального

rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)
print(f"Обучающая выборка: RMSE = {rmse_train:.3f}, R2 = {r2_train:.3f}")

rmse_test_del_bound = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test_del_bound = r2_score(y_test, y_test_pred)
print(f"Тестовая выборка: RMSE = {rmse_test:.3f}, R2 = {r2_test:.3f}")

8. Измените несколько признаков на выбор математически. Например, вычислите логарифм, возведите в квадрат, извлеките квадратный корень. Повторите п. 3, п. 4 на измененных данных.

In [None]:
for feature in ['MedInc', 'HouseAge', 'AveRooms', 'Latitude']:
    plt.figure(figsize=(8,6))
    sns.histplot(data[feature], kde=True)

    plt.xlabel(f'{feature}')
    plt.ylabel('Частота')
    plt.title(f'Распределение признака {feature}')
    plt.show()

In [None]:
# Преобразуем используемые признаки

scaler = StandardScaler()
scaler_minmax = MinMaxScaler()

# data['MedInc'] = np.log1p(data['MedInc']) # Логарифмирование
# data[feature] = scaler.fit_transform(data[feature]) # Стандартизация
# data[feature] = scaler_minmax.fit_transform(data[feature]) # Нормализация

In [None]:
# Используем Логарифмирование для входных признаков

X = data[['MedInc', 'HouseAge', 'AveRooms', 'Latitude']]
y = data['MedHouseVal']

X_scaled = np.log1p(X)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [None]:
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)
print(f"Обучающая выборка: RMSE = {rmse_train:.3f}, R2 = {r2_train:.3f}")

rmse_test_log = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test_log = r2_score(y_test, y_test_pred)
print(f"Тестовая выборка: RMSE = {rmse_test:.3f}, R2 = {r2_test:.3f}")

9. Сформулируйте выводы по проделанной работе.
* Кратко опишите какие преобразования были сделаны с данными.
* Сравните метрики всех моделей. Желательно оформление в виде таблицы вида |модель|RMSE|R2|признаки, на которых проводилось обучение с указанием их преобразований|.
* Напишите свое мнение, в полной ли мере модели справились с поставленной задачей.

In [None]:
data = {
    'Модель': ['LinearRegression Full', 'LinearRegression removed features', 'LinearRegression removed outliers', 'LinearRegression Log'],
    'RMSE': [rmse_test, rmse_test_del_feature, rmse_test_del_bound, rmse_test_log],
    'R2': [r2_test, r2_test_del_feature, r2_test_del_bound, r2_test_log]
}

In [None]:
data = pd.DataFrame(data)
print(data)

### Вывод:
Обучили модель с помощью Линейной регрессии. На первоначальном решении модель показала лучшие метрики качества.
Удаление ненужных признаков со слабой зависимостью только ослабили модель. Удаление выбросов и преобразование входных признаков не оказало должного влияния.