In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Путь к файлу
file_path = r'C:\Users\Oleg\Downloads\Telegram Desktop\ДЗ_2_Прогнозирование_оценки_за_экз_по_ТОЭ.csv'
df = pd.read_csv(file_path, delimiter=';', encoding='cp1251')

# Удаление столбца с временными метками
df = df.drop(columns=['Отметка времени'])

# Вывод информации о данных
print(df.head())
print(df.info())
print(df.describe())
print(df.isnull().sum())  # количество пропусков по каждому столбцу

# Фильтрация данных
df_filtered = df[df['С какого раза вы сдали экзамен по ТОЭ (если улучшали оценку, так же указать с какого раза получили желаемую оценку)'] == 1]

# Удаление строк с пропущенными значениями (или заполнение)
df_filtered = df_filtered.dropna()

# Отбор только числовых столбцов
numeric_columns = df_filtered.select_dtypes(include=[np.number]).columns

# Нормализация данных
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_filtered[numeric_columns]), columns=numeric_columns)

# Определение признаков и целевой переменной
X = df_scaled.drop(columns=['Итоговая оценка за экзамен по ТОЭ'])
y = df_scaled['Итоговая оценка за экзамен по ТОЭ']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

from sklearn.metrics import mean_absolute_error, r2_score

mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MAE: {mae}')
print(f'R²: {r2}')

import pickle

with open('model.pkl', 'wb') as f:
    pickle.dump(model, f)
