In [1]:
from utils.hints import hide_toggle

# Набор данных "Wine Quality"

Набор данных "Wine Quality" (Качество вина) содержит информацию о химических характеристиках различных видов вина. Основная цель этого набора данных - предсказание оценки качества вина на основе его химических составляющих.

Краткое описание признаков:

1. **Фиксированные кислоты**: Количество фиксированных кислот в вине.

2. **Летучие кислоты**: Количество летучих кислот в вине.

3. **Лимонная кислота**: Количество лимонной кислоты в вине.

4. **Остаточный сахар**: Количество остаточного сахара в вине.

5. **Хлориды**: Количество хлоридов в вине.

6. **Свободный диоксид серы**: Количество свободного диоксида серы в вине.

7. **Общий диоксид серы**: Количество общего диоксида серы в вине.

8. **Плотность**: Плотность вина.

9. **pH**: Уровень pH вина.

10. **Сульфаты**: Количество сульфатов в вине.

11. **Алкоголь**: Содержание алкоголя в вине.

Целевая переменная:

- **Оценка качества**: Оценка качества вина на основе экспертной оценки (от 0 до 10).

Этот набор данных может быть использован для решения задач регрессии, где основная цель - предсказать оценку качества вина на основе его химических характеристик. Такие модели могут быть полезны в промышленности виноделия для оптимизации производства и контроля качества вина.

In [1]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Wine Quality из CSV-файла в DataFrame
df = pd.read_csv("data/WineQT.csv")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [3]:
# Определение признаков (X) и целевой переменной (y)
X = df.drop(columns=["quality"])
y = df["quality"]

# Нормализация признаков с помощью StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled

array([[-0.52157961,  0.93933222, -1.36502663, ...,  1.27069495,
        -0.57365783, -0.96338181],
       [-0.29259344,  1.94181282, -1.36502663, ..., -0.70892755,
         0.1308811 , -0.59360107],
       [-0.29259344,  1.27349242, -1.16156762, ..., -0.32577481,
        -0.04525363, -0.59360107],
       ...,
       [-1.20853813,  0.38239855, -0.9581086 , ...,  0.88754221,
        -0.45623467,  0.05351522],
       [-1.38027776,  0.10393172, -0.8563791 , ...,  1.33455374,
         0.60057372,  0.70063152],
       [-1.38027776,  0.6330187 , -0.75464959, ...,  1.65384769,
         0.30701583, -0.22382033]])

In [4]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(X_train, y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(X_test)

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 9, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -0.42533616408190883
MSE на тестовом наборе:  0.27697088752032645


# Набор данных "Bike Sharing Demand"

Набор данных "Bike Sharing Demand" (Предсказание спроса на прокат велосипедов) содержит информацию о прокате велосипедов в зависимости от времени и погодных условий. Этот набор данных представляет собой задачу регрессии, где основная цель - предсказать количество прокатов велосипедов в зависимости от различных факторов, таких как дата, время и погодные условия.

Краткое описание признаков:

1. **Дата и время**: Дата и время (год-месяц-день час) информации о прокате велосипедов.

2. **Праздничный день**: Показатель, указывающий, является ли день праздничным (1 - да, 0 - нет).

3. **Рабочий день**: Показатель, указывающий, является ли день рабочим (1 - да, 0 - нет).

4. **Погода**: Описание погодных условий (например, ясно, облачно, дождь и т.д.).

5. **Температура**: Температура в градусах Цельсия.

6. **Ощущаемая температура**: Субъективное восприятие температуры в градусах Цельсия.

7. **Влажность**: Влажность воздуха в процентах.

8. **Ветер**: Скорость ветра в м/с.

Целевая переменная:

- **Количество прокатов велосипедов**: Количество велосипедов, которые были взяты в прокат в данное время.

Этот набор данных может быть использован для построения моделей регрессии, которые предсказывают спрос на прокат велосипедов в зависимости от различных факторов, таких как погодные условия и время суток. Такие модели могут быть полезны для оптимизации предложения велосипедов и прогнозирования популярности проката в различные дни и часы.

In [6]:
"""
По аналогии с решением задачи Wine Quality решите в текущей ячейке задачу для предсказания целевой переменной на 
наборе Bike Sharing Demand. С случае затруднений можно посмотреть на образец решения задания в ячейке ниже.
"""

# Импорт необходимых библиотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Wine Quality из CSV-файла в DataFrame
df = pd.read_csv("data/bike-sharing-demand.csv")
df.head()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


In [8]:
# Определение признаков (X) и целевой переменной (y)
X = df.drop(columns=["count", "datetime"])
y = df["count"]

# Нормализация признаков с помощью StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [10]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(X_train, y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(X_test)

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 6, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -824.5886095569006
MSE на тестовом наборе:  750.7794222498064


In [12]:
df.describe()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,year,month,day,hour,minute
count,10886,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0
mean,2011-12-27 05:56:22.399411968,2.506614,0.028569,0.680875,1.418427,20.23086,23.655084,61.88646,12.799395,36.021955,155.552177,191.574132,2011.501929,6.521495,9.992559,11.541613,0.0
min,2011-01-01 00:00:00,1.0,0.0,0.0,1.0,0.82,0.76,0.0,0.0,0.0,0.0,1.0,2011.0,1.0,1.0,0.0,0.0
25%,2011-07-02 07:15:00,2.0,0.0,0.0,1.0,13.94,16.665,47.0,7.0015,4.0,36.0,42.0,2011.0,4.0,5.0,6.0,0.0
50%,2012-01-01 20:30:00,3.0,0.0,1.0,1.0,20.5,24.24,62.0,12.998,17.0,118.0,145.0,2012.0,7.0,10.0,12.0,0.0
75%,2012-07-01 12:45:00,4.0,0.0,1.0,2.0,26.24,31.06,77.0,16.9979,49.0,222.0,284.0,2012.0,10.0,15.0,18.0,0.0
max,2012-12-19 23:00:00,4.0,1.0,1.0,4.0,41.0,45.455,100.0,56.9969,367.0,886.0,977.0,2012.0,12.0,19.0,23.0,0.0
std,,1.116174,0.166599,0.466159,0.633839,7.79159,8.474601,19.245033,8.164537,49.960477,151.039033,181.144454,0.500019,3.444373,5.476608,6.915838,0.0


In [4]:
hide_toggle(for_next=True)

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных bike sharing
df = pd.read_csv("data/bike-sharing-demand.csv")

# Разбиение столбца 'datetime' на составные части и создание новых признаков
df["datetime"] = pd.to_datetime(df["datetime"])
df["year"] = df["datetime"].dt.year
df["month"] = df["datetime"].dt.month
df["day"] = df["datetime"].dt.day
df["hour"] = df["datetime"].dt.hour
df["minute"] = df["datetime"].dt.minute

# Отделяем целевую переменную от признаков и удаляем исходный столбец 'datetime'
X = df.drop(columns=["count", "datetime"])
y = df["count"]

# Предобработка данных: преобразование категориальных признаков и нормализация числовых признаков
numeric_features = [
    "temp",
    "atemp",
    "humidity",
    "windspeed",
    "year",
    "month",
    "day",
    "hour",
    "minute",
]
categorical_features = ["season", "holiday", "workingday", "weather"]

numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])

categorical_transformer = Pipeline(steps=[("onehot", OneHotEncoder(drop="first"))])

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(preprocessor.fit_transform(X_train), y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(preprocessor.transform(X_test))

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 6, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -12475.8981451135
MSE на тестовом наборе:  11454.751240459791


# Набор данных "Beijing PM2.5 Data"

Набор данных "Beijing PM2.5 Data" содержит информацию об уровне загрязнения воздуха PM2.5 (частицы с диаметром менее 2.5 микрометров) в Пекине. Этот набор данных представляет собой задачу регрессии, где основная цель - предсказать уровень PM2.5 воздуха на основе различных метеорологических факторов.

Краткое описание признаков:
- year: год данных в данной строке
- month: месяц данных в данной строке
- day: день данных в данной строке
- hour: час данных в данной строке
- pm2.5: концентрация PM2.5 (в микрограммах на кубический метр)
- DEWP: Точка росы (в градусах Цельсия)
- TEMP: Температура (в градусах Цельсия)
- PRES: Давление (в гектопаскалях)
- cbwd: Комбинированное направление ветра
- Iws: Накопленная скорость ветра (в метрах в секунду)
- Is: Накопленное количество часов снега
- Ir: Накопленное количество часов дождя

Целевая переменная:

- **PM2.5**: Концентрация частиц PM2.5 в воздухе.

Этот набор данных может быть использован для построения моделей регрессии, которые предсказывают уровень загрязнения воздуха PM2.5 в Пекине на основе метеорологических факторов и других загрязнений. Такие модели могут быть полезны для прогнозирования качества воздуха и принятия мер для снижения загрязнения в городе.

In [13]:
"""
По аналогии с решением задачи Wine Quality решите в текущей ячейке задачу для предсказания целевой переменной на 
наборе Beijing PM2.5 Data. С случае затруднений можно посмотреть на образец решения задания в ячейке ниже.
"""

# Импорт необходимых библиотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Wine Quality из CSV-файла в DataFrame
df = pd.read_csv("data/Beijing_PM25_Data.csv")
df.head()

Unnamed: 0,year,month,day,hour,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir,pm2.5
0,2010,1,2,0,-16,-4.0,1020.0,SE,1.79,0,0,129.0
1,2010,1,2,1,-15,-4.0,1020.0,SE,2.68,0,0,148.0
2,2010,1,2,2,-11,-5.0,1021.0,SE,3.57,0,0,159.0
3,2010,1,2,3,-7,-5.0,1022.0,SE,5.36,1,0,181.0
4,2010,1,2,4,-7,-5.0,1022.0,SE,6.25,2,0,138.0


In [17]:
# Определение признаков (X) и целевой переменной (y)
X = df.drop(columns=["pm2.5"])
y = df["pm2.5"]

In [24]:
categorical_features = ["cbwd"]
numeric_features = [
    "year",
    "month",
    "day",
    "hour",
    "DEWP",
    "TEMP",
    "PRES",
    "Iws",
    "Is",
    "Ir",
]


numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])

categorical_transformer = Pipeline(steps=[("onehot", OneHotEncoder(drop="first"))])

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

In [25]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(preprocessor.fit_transform(X_train), y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(preprocessor.transform(X_test))

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 3, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -2499.0739138548547
MSE на тестовом наборе:  2222.8073893853852


In [7]:
hide_toggle(for_next=True)

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Beijing_PM25_Data
df = pd.read_csv("data/Beijing_PM25_Data.csv")

# Отделяем целевую переменную от признаков
X = df.drop(columns=["pm2.5"])
y = df["pm2.5"]

# Предобработка данных: преобразование категориальных признаков и нормализация числовых признаков
numeric_features = ["DEWP", "TEMP", "PRES", "Iws", "Is", "Ir"]
categorical_features = ["year", "month", "day", "hour", "cbwd"]

numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])

categorical_transformer = Pipeline(steps=[("onehot", OneHotEncoder(drop="first"))])

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(preprocessor.fit_transform(X_train), y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(preprocessor.transform(X_test))

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 4, 'weights': 'uniform'}
Наилучшая оценка на кросс-валидации: -2570.972189791947
MSE на тестовом наборе:  2458.5402298850577


# Набор данных "Concrete Compressive Strength"

Набор данных "Concrete Compressive Strength" содержит информацию о различных химических и физических характеристиках бетона и их влиянии на его сжимающую прочность. Этот набор данных представляет собой задачу регрессии, где основная цель - предсказать сжимающую прочность бетона на основе его состава.

Краткое описание признаков:

1. **Цемент**: Количество цемента в бетоне.

2. **Зола** (зольность): Количество золы (побочного продукта) в бетоне.

3. **Шлак** (железосодержащий материал): Количество шлака (железосодержащего материала) в бетоне.

4. **Вода**: Количество воды в бетоне.

5. **Суперпластификатор** (высокоэффективный пластификатор): Количество добавки суперпластификатора в бетоне.

6. **Зерно 1**: Размер зерна одного из инертных материалов в бетоне.

7. **Зерно 2**: Размер зерна второго инертного материала в бетоне.

8. **Возраст**: Возраст бетона в днях на момент тестирования его сжимающей прочности.

Целевая переменная:

- **Сжимающая прочность бетона**: Количество сжимающей прочности бетона (в МПа).

Этот набор данных может быть использован для построения моделей регрессии, которые предсказывают сжимающую прочность бетона на основе его химических и физических характеристик. Такие модели могут быть полезны для оптимизации состава бетонных смесей с целью достижения требуемых свойств прочности. Также они могут использоваться в строительной индустрии для прогнозирования качества бетонных конструкций.

In [29]:
"""
По аналогии с решением задачи Wine Quality решите в текущей ячейке задачу для предсказания целевой переменной на 
наборе Wine Quality. С случае затруднений можно посмотреть на образец решения задания в ячейке ниже.
"""
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Wine Quality из CSV-файла в DataFrame
df = pd.read_excel("data/Concrete_Data.xls")
df.head()

Unnamed: 0,Cement,Blast Furnace Slag,Fly Ash,Water,Superplasticizer,Coarse Aggregate,Fine Aggregate,Age,Concrete compressive strength
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.986111
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.887366
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.269535
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05278
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.296075


In [30]:
# Определение признаков (X) и целевой переменной (y)
X = df.drop(columns=["Concrete compressive strength"])
y = df["Concrete compressive strength"]

In [31]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [32]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(X_train, y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(X_test)

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 6, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -72.89980336106761
MSE на тестовом наборе:  59.21400565386957


In [10]:
hide_toggle(for_next=True)

In [33]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Concrete Compressive Strength
df = pd.read_excel("data/Concrete_Data.xls")

# Отделяем целевую переменную от признаков
X = df.drop(columns=["Concrete compressive strength"])
y = df["Concrete compressive strength"]

# Предобработка данных: нормализация числовых признаков
numeric_features = X.columns.tolist()

numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])

preprocessor = ColumnTransformer(
    transformers=[("num", numeric_transformer, numeric_features)]
)

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(preprocessor.fit_transform(X_train), y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(preprocessor.transform(X_test))

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Наилучшие параметры на кросс-валидации: {'n_neighbors': 5, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -72.01318504823045
MSE на тестовом наборе:  57.780736579454015


# Набор данных "Appliances Energy Prediction"

Набор данных "Appliances Energy Prediction" (Прогноз энергопотребления бытовых приборов) содержит информацию о энергопотреблении бытовых приборов в доме. Этот набор данных представляет собой задачу регрессии, где основная цель - предсказать энергопотребление приборов на основе различных факторов.

Краткое описание признаков:

Описание признаков в данном файле "Appliances Energy Prediction" представлено ниже:

1. date time year-month-day hour:minute:second: Дата и время в формате год-месяц-день час:минута:секунда.
2. lights: Потребление энергии осветительных приборов в доме в ватт-часах (Wh).
3. T1: Температура в кухне, в градусах Цельсия.
4. RH_1: Влажность в кухне, в процентах (%).
5. T2: Температура в гостиной, в градусах Цельсия.
6. RH_2: Влажность в гостиной, в процентах (%).
7. T3: Температура в прачечной, в градусах Цельсия.
8. RH_3: Влажность в прачечной, в процентах (%).
9. T4: Температура в офисной комнате, в градусах Цельсия.
10. RH_4: Влажность в офисной комнате, в процентах (%).
11. T5: Температура в ванной комнате, в градусах Цельсия.
12. RH_5: Влажность в ванной комнате, в процентах (%).
13. T6: Температура снаружи здания (северная сторона), в градусах Цельсия.
14. RH_6: Влажность снаружи здания (северная сторона), в процентах (%).
15. T7: Температура в гладильной комнате, в градусах Цельсия.
16. RH_7: Влажность в гладильной комнате, в процентах (%).
17. T8: Температура в комнате для подростков 2, в градусах Цельсия.
18. RH_8: Влажность в комнате для подростков 2, в процентах (%).
19. T9: Температура в комнате для родителей, в градусах Цельсия.
20. RH_9: Влажность в комнате для родителей, в процентах (%).
21. To: Температура на улице (из метеостанции Chievres), в градусах Цельсия.
22. Pressure: Давление (из метеостанции Chievres), в мм рт. ст.
23. RH_out: Влажность на улице (из метеостанции Chievres), в процентах (%).
24. Wind speed: Скорость ветра (из метеостанции Chievres), в м/с.
25. Visibility: Видимость (из метеостанции Chievres), в км.
26. Tdewpoint: Точка росы (из метеостанции Chievres), в градусах Цельсия.
27. rv1: Случайная переменная 1, безразмерная.
28. rv2: Случайная переменная 2, безразмерная.

Целевая переменная:

Appliances: Потребление энергии в ватт-часах (Wh) на бытовые приборы.

Данные в этом файле содержат информацию о потреблении энергии и различных погодных условиях, которые могут влиять на энергопотребление в здании. Задача состоит в предсказании потребления энергии на бытовые приборы на основе доступных признаков.

Этот набор данных может быть использован для построения моделей регрессии, которые предсказывают энергопотребление бытовых приборов на основе различных факторов, таких как температура и влажность внутри и снаружи дома. Такие модели могут быть полезны для оптимизации энергопотребления в домашних условиях и повышения энергоэффективности бытовых систем.

In [12]:
"""
По аналогии с решением задачи Wine Quality решите в текущей ячейке задачу для предсказания целевой переменной на 
наборе Wine Quality. С случае затруднений можно посмотреть на образец решения задания в ячейке ниже.
"""

# НАЧАЛО ВАШЕГО РЕШЕНИЯ

# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [13]:
hide_toggle(for_next=True)

In [36]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

# Загрузка набора данных Appliances Energy Prediction
# https://drive.google.com/file/d/1RDSUY_wcJ1tnGDTKOdNJOnX87vZwPLaL/view?usp=sharing
url = (
    "https://drive.google.com/file/d/1RDSUY_wcJ1tnGDTKOdNJOnX87vZwPLaL/view?usp=sharing"
)
url = "https://drive.google.com/uc?id=" + url.split("/")[-2]
df = pd.read_csv(url, parse_dates=["date"])
display(df.head())
# Создание новых столбцов "year", "month", "day" и "hour" на основе значения "date"
df["year"] = df["date"].dt.year
df["month"] = df["date"].dt.month
df["day"] = df["date"].dt.day
df["hour"] = df["date"].dt.hour

# Удаление исходного столбца "date"
df = df.drop(columns=["date"])

# Отделяем целевую переменную от признаков
X = df.drop(columns=["Appliances"])
y = df["Appliances"]


# Предобработка данных: преобразование категориальных признаков и нормализация числовых признаков
categorical_features = ["year", "month", "day", "hour"]
numeric_features = [x for x in X.columns.tolist() if x not in categorical_features]

numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])

categorical_transformer = Pipeline(steps=[("onehot", OneHotEncoder(drop="first"))])

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)


# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание модели KNN для регрессии
knn = KNeighborsRegressor()

# Определение сетки параметров для перебора (n_neighbors и weights)
param_grid = {"n_neighbors": np.arange(1, 10), "weights": ["uniform", "distance"]}

# Использование GridSearchCV для поиска наилучших параметров модели
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring="neg_mean_squared_error")
grid_search.fit(preprocessor.fit_transform(X_train), y_train)

# Вывод наилучших параметров и оценки на кросс-валидации
print("Наилучшие параметры на кросс-валидации:", grid_search.best_params_)
print("Наилучшая оценка на кросс-валидации:", grid_search.best_score_)

# Прогнозирование на тестовом наборе с помощью модели с оптимальными параметрами
y_pred = grid_search.predict(preprocessor.transform(X_test))

# Вычисление среднеквадратической ошибки (MSE) на тестовом наборе
mse = mean_squared_error(y_pred, y_test)

# Вывод значения MSE
print("MSE на тестовом наборе: ", mse)

Unnamed: 0,date,lights,T1,RH_1,T2,RH_2,T3,RH_3,T4,RH_4,...,RH_9,T_out,Press_mm_hg,RH_out,Windspeed,Visibility,Tdewpoint,rv1,rv2,Appliances
0,2016-01-11 17:00:00,30,19.89,47.596667,19.2,44.79,19.79,44.73,19.0,45.566667,...,45.53,6.6,733.5,92.0,7.0,63.0,5.3,13.275433,13.275433,60
1,2016-01-11 17:10:00,30,19.89,46.693333,19.2,44.7225,19.79,44.79,19.0,45.9925,...,45.56,6.483333,733.6,92.0,6.666667,59.166667,5.2,18.606195,18.606195,60
2,2016-01-11 17:20:00,30,19.89,46.3,19.2,44.626667,19.79,44.933333,18.926667,45.89,...,45.5,6.366667,733.7,92.0,6.333333,55.333333,5.1,28.642668,28.642668,50
3,2016-01-11 17:30:00,40,19.89,46.066667,19.2,44.59,19.79,45.0,18.89,45.723333,...,45.4,6.25,733.8,92.0,6.0,51.5,5.0,45.410389,45.410389,50
4,2016-01-11 17:40:00,40,19.89,46.333333,19.2,44.53,19.79,45.0,18.89,45.53,...,45.4,6.133333,733.9,92.0,5.666667,47.666667,4.9,10.084097,10.084097,60


Наилучшие параметры на кросс-валидации: {'n_neighbors': 6, 'weights': 'distance'}
Наилучшая оценка на кросс-валидации: -6344.959491886685
MSE на тестовом наборе:  5568.996605273994
