<a href="https://colab.research.google.com/github/M2203114/Python_AI/blob/fall2024/3_Lab_2_0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Загрузка данных

In [None]:
import pandas as pd

# Загрузка данных
data = pd.read_csv('winequality-red.csv')

# Просмотр первых строк данных
data.head()

# 2. Определение задачи

Как мы уже определили, это задача регрессии, так как столбец quality содержит числовые значения, которые мы будем предсказывать.

# 3. Предобработка данных

3.1 Разделение выборки на train и test

In [None]:
from sklearn.model_selection import train_test_split

# Разделение данных на признаки и целевую переменную
X = data.drop('quality', axis=1)
y = data['quality']

# Разделение на train и test выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3.2 Проверка и заполнение пропусков

In [None]:
# Проверка наличия пропусков
print(X_train.isnull().sum())
print(X_test.isnull().sum())

3.3 Нормирование числовых переменных

In [None]:
from sklearn.preprocessing import StandardScaler

# Нормирование числовых признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

3.4 Кодирование категориальных признаков

В данном датасете нет категориальных признаков, поэтому этот шаг можно пропустить.

# 4. Обучение моделей

4.1 Линейная модель (LinearRegression)

In [None]:
from sklearn.linear_model import LinearRegression

# Обучение модели
lr_model = LinearRegression()
lr_model.fit(X_train_scaled, y_train)

4.2 Деревянная модель (DecisionTreeRegressor)

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Обучение модели с разными глубинами деревьев
dt_model = DecisionTreeRegressor(max_depth=5, random_state=42)
dt_model.fit(X_train_scaled, y_train)

4.3 K-ближайших соседей (KNeighborsRegressor)

In [None]:
from sklearn.neighbors import KNeighborsRegressor

# Обучение модели с разными k
knn_model = KNeighborsRegressor(n_neighbors=5)
knn_model.fit(X_train_scaled, y_train)

4.4 Случайный лес (RandomForestRegressor)

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Обучение модели
rf_model = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 5. Оценка моделей



5.1 Метрики для регрессии (MAE, RMSE, MAPE)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error
import numpy as np

# Функция для расчета метрик
def evaluate_model(model, X_train, X_test, y_train, y_test):
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)

    mae_train = mean_absolute_error(y_train, y_train_pred)
    mae_test = mean_absolute_error(y_test, y_test_pred)

    rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))

    mape_train = mean_absolute_percentage_error(y_train, y_train_pred)
    mape_test = mean_absolute_percentage_error(y_test, y_test_pred)

    return mae_train, mae_test, rmse_train, rmse_test, mape_train, mape_test

# Оценка каждой модели
models = {
    'Linear Regression': lr_model,
    'Decision Tree': dt_model,
    'KNN': knn_model,
    'Random Forest': rf_model
}

results = {}

for name, model in models.items():
    results[name] = evaluate_model(model, X_train_scaled, X_test_scaled, y_train, y_test)

# Вывод результатов
for name, metrics in results.items():
    print(f"{name}:")
    print(f"  Train MAE: {metrics[0]:.4f}, Test MAE: {metrics[1]:.4f}")
    print(f"  Train RMSE: {metrics[2]:.4f}, Test RMSE: {metrics[3]:.4f}")
    print(f"  Train MAPE: {metrics[4]:.4f}, Test MAPE: {metrics[5]:.4f}")
    print()

# 6. Анализ результатов

6.1 Какая модель справилась лучше с поставленной задачей?

На основе метрик MAE, RMSE и MAPE, модель Random Forest показала лучшие результаты на тестовой выборке.

6.2 Имеет ли место переобучение?

Да, есть небольшое переобучение, особенно у модели Decision Tree, где разница между train и test метриками значительна.

6.3 Имеет ли место недообучение?

Нет, недообучения не наблюдается, так как метрики на train и test выборках достаточно близки для большинства моделей.

6.4 Как можно улучшить метрики моделей?


*   Для улучшения метрик можно попробовать использовать более сложные модели, такие как градиентный бустинг (XGBoost, LightGBM).
*   Также можно попробовать подбор гиперпараметров с помощью GridSearchCV или RandomizedSearchCV.
*   Возможно, стоит попробовать добавить полиномиальные признаки или использовать методы отбора признаков.

