In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

In [20]:
# Чтение данных из файла CSV
data = pd.read_csv('report.csv')
print(data.head())

   id   X   Y
0   1   6  19
1   2   3  11
2   3  10  24
3   4   4  14
4   5   2   7


In [3]:
# Проверяем наличие дубликатов по столбцам 'X' и 'Y'
duplicates = data.duplicated(subset=['X', 'Y'])
if duplicates.any():
    print("Есть дубликаты:")
    print(data[duplicates])
else:
    print("Дубликатов нет.")

Дубликатов нет.


In [4]:
# Проверяем наличие пропущенных значений
missing_values = data.isna().any()
if missing_values.any():
    print("Пропущенные значения:")
    print(missing_values)
else:
    print("Пропущенных значений нет.")

Пропущенных значений нет.


In [None]:
#Мы будем использовать линейную регрессию и полиномиальную регрессию. Линейная регрессия является базовым методом, который хорошо подходит для простых зависимостей. Полиномиальная регрессия позволяет учесть нелинейность в данных.

#Для оценки качества модели мы используем коэффициент детерминации R^2 и среднеквадратичную ошибку (MSE). Коэффициент детерминации показывает, насколько хорошо модель объясняет вариацию целевого показателя, а MSE оценивает среднюю квадратичную ошибку предсказаний.


In [5]:
# Разделение данных на признаки и целевой признак
X = data['X'].values.reshape(-1, 1)
y = data['Y'].values

# Разделение данных на тренировочные и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [19]:
for degree in range(2, 5):
    # Полиномиальная регрессия
    poly_reg = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    poly_reg.fit(X_train, y_train)
    
    # Прогнозирование на тестовом наборе
    y_pred_poly = poly_reg.predict(X_test)
    
    # Оценка качества модели
    mse_poly = mean_squared_error(y_test, y_pred_poly)
    r2_poly = r2_score(y_test, y_pred_poly)
    
    print(f"\nПолиномиальная регрессия степени {degree}:")
    print(f"MSE: {mse_poly:.2f}")
    print(f"R2: {r2_poly:.2f}")


Полиномиальная регрессия степени 2:
MSE: 0.19
R2: 1.00

Полиномиальная регрессия степени 3:
MSE: 14.56
R2: 0.96

Полиномиальная регрессия степени 4:
MSE: 21.30
R2: 0.94


In [None]:
#На основе полученных результатов выбираем лучшую модель. Например, если лучшая модель — полиномиальная регрессия второй степени, то она будет использоваться для прогнозирования.

In [11]:
# Предположим, что лучшая модель — полиномиальная регрессия второй степени
best_degree = 2
poly_reg_best = make_pipeline(PolynomialFeatures(best_degree), LinearRegression())
poly_reg_best.fit(X_train, y_train)

# Новые значения X для прогноза
new_X = [[15], [25]]
y_pred_new = poly_reg_best.predict(new_X)

print(f"Прогноз для X={new_X}: {y_pred_new}")

Прогноз для X=[[15], [25]]: [33.70189878 65.12119972]
