In [76]:
# установка pytest
!pip install ipytest 



In [77]:
import numpy as np # для работы с числовыми данными
import pandas as pd # pandas для работы с данными
import os # Для работы с файловой системой
from sklearn.linear_model import LinearRegression # LinearRegression из sklearn.linear_model для создания модели линейной регрессии
from sklearn.utils import shuffle # Для перемешивания данны
from sklearn.model_selection import train_test_split # для разбиения на тестовую и обучающую выборки
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # Метрики
import ipytest #импорт установленной ранее библиотеки

In [78]:
# Генерация данных без аномалий и шумов
def generate_normal_data(base, x):
    # base - базовое значение, например значение t; x -  количество измерений
    return np.array([int(base) + int(np.random.randint(25)) for i in np.random.rand(x)]) 

In [79]:
# Генерация данных с шумами
def generate_noise_data(base, x):
    noise_data = generate_normal_data(base, x)
    noise = np.random.randint(1, 100, len(noise_data))
    noise_data = noise_data + noise
    return noise_data

In [80]:
# Генерация случайных признаков
base = 20
n = 100 # количество образцов(строк)
data = {
    'Feature_1': generate_normal_data(base, n),
    'Target': generate_normal_data(base, n) + 5   # Целевая переменная
}
noise_data = {
    'Feature_1': generate_noise_data(base, n),
    'Target': generate_noise_data(base, n)
}
# Создание DataFrame
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data)
df3 = pd.DataFrame(data)

df_noise = pd.DataFrame(noise_data)


In [81]:
# Показать первые несколько строк одного из DataFrame с нормальными данными
df1.head()

Unnamed: 0,Feature_1,Target
0,35,32
1,39,49
2,39,38
3,33,44
4,39,34


In [82]:
df_noise.head() # посмотрим на первые 5 строк датасета с шумами

Unnamed: 0,Feature_1,Target
0,118,24
1,44,119
2,34,113
3,44,31
4,39,127


In [116]:
# Разделение данных на обучающую и тестовую выборку
X = df1.drop('Target', axis=1)
y = df1['Target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)


In [155]:
# Обучение модели линейной регрессии (как и указано в задании на  одном из датасетов)
model = LinearRegression()
model.fit(X_train, y_train)

In [118]:
# Оценка модели на тестовой выборке
prediction = model.predict(X_test)

prediction


array([37.23290877, 37.56882221, 36.98860809, 37.59935979, 36.98860809,
       37.29398394, 37.53828462, 37.56882221, 37.59935979, 37.14129601,
       37.35505911, 37.47720945, 37.1718336 , 37.23290877, 37.32452153,
       37.04968326, 37.11075843, 37.72151013, 37.72151013, 37.08022084])

In [119]:
# Расчет метрик
mse = mean_squared_error(y_test, prediction) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae = mean_absolute_error(y_test, prediction) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2 = r2_score(y_test, prediction) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse, mae, r2, rmse)

47.438024575384354 6.03739727777703 -0.030645257191556086 6.887526738632987


In [120]:
# Разделение второго на обучающую и тестовую выборку
X2 = df2.drop('Target', axis=1)
y2 = df2['Target']
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)

# Оценка модели на тестовой выборке
predict2 = model.predict(X2_test)

predict2


array([37.69097255, 37.1718336 , 37.01914567, 37.01914567, 37.11075843,
       37.56882221, 37.59935979, 37.08022084, 37.59935979, 37.53828462,
       37.35505911, 37.23290877, 37.59935979, 37.32452153, 37.23290877,
       37.41613428, 37.14129601, 37.29398394, 37.44667187, 37.50774704])

In [121]:
# Расчет метрик для второго датасета
mse2 = mean_squared_error(y2_test, predict2) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae2 = mean_absolute_error(y2_test, predict2) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_2 = r2_score(y2_test, predict2) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse2 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse2, mae2, r2_2, rmse2)

55.17355289273208 6.311053314683058 -0.02078728756211068 6.887526738632987


In [122]:
# Разделение третьего на обучающую и тестовую выборку
X3 = df3.drop('Target', axis=1)
y3 = df3['Target']
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)

# Оценка модели на тестовой выборке
predict3 = model.predict(X3_test)

predict3


array([37.23290877, 37.23290877, 37.04968326, 37.32452153, 37.11075843,
       37.66043496, 37.41613428, 37.47720945, 37.32452153, 37.11075843,
       37.69097255, 37.1718336 , 37.23290877, 37.66043496, 37.14129601,
       37.59935979, 37.32452153, 37.01914567, 37.72151013, 37.56882221])

In [123]:
# Расчет метрик для второго датасета
mse3 = mean_squared_error(y3_test, predict3) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae3 = mean_absolute_error(y3_test, predict3) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_3 = r2_score(y3_test, predict3) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse3 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse3, mae3, r2_3, rmse3)

40.01952040140473 5.2229038614141015 0.03211753065107359 6.887526738632987


In [124]:
# Разделение датасета с шумами на тестовую и обучающую выборку
X_N = df_noise.drop('Target', axis=1)
y_N = df_noise['Target']
Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)

# Оценка модели на тестовой выборке
predictN = model.predict(Xn_test)

predictN


array([35.58387917, 34.66775161, 36.43893155, 34.51506368, 34.85097712,
       36.89699533, 36.98860809, 36.68323224, 36.40839397, 35.18689056,
       35.95033019, 35.91979261, 37.32452153, 36.80538258, 36.86645775,
       34.72882678, 37.23290877, 36.3473188 , 35.18689056, 37.14129601])

In [125]:
# Расчет метрик для второго датасета
mseN = mean_squared_error(yn_test, predictN) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
maeN = mean_absolute_error(yn_test, predictN) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_N = r2_score(yn_test, predictN) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmseN = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mseN, maeN, r2_N, rmseN)

2492.377506602029 40.920618754287105 -1.602223882230692 6.887526738632987


In [126]:
ipytest.autoconfig()

In [127]:
# Тестирование функции generate_normal_data
def test_generate_normal_data():
    base = 20
    x = 10
    result = generate_normal_data(base, x)
    assert isinstance(result, np.ndarray) #Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений


In [128]:
# Тестирование функции generate_noise_data
def test_generate_noise_data():
    base = 20
    x = 10
    result = generate_noise_data(base, x)
    assert isinstance(result, np.ndarray) # Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений

In [129]:
# Тестирование обучения модели линейной регрессии
def test_linear_regression_training():
    # Предполагаем, что данные уже подготовлены и разделены на обучающую и тестовую выборки
    model = LinearRegression()
    model.fit(X_train, y_train)
    assert model.coef_.size > 0 # Модель должна обучиться и иметь коэффициенты 

In [130]:
# Тестирование оценки модели на тестовой выборке
def test_linear_regression_prediction():
    prediction = model.predict(X_test)
    assert isinstance(prediction, np.ndarray) # Предсказания должны быть массивом NumPy"
    assert len(prediction) == len(X_test) # Длина предсказаний должна соответствовать длине тестовой выборки

In [149]:
# проверяем первый датасет
def test_df1():
    X = df1.drop('Target', axis=1)
    y = df1['Target']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)
    prediction = model.predict(X_test)
    mse = mean_squared_error(y_test, prediction)
    assert mse < 100 # тест должен пройти

In [151]:
# проверяем второй датасет
def test_df2():
    X2 = df2.drop('Target', axis=1)
    y2 = df2['Target']
    X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)
    predict2 = model.predict(X2_test)
    mse2 = mean_squared_error(y2_test, predict2)
    assert mse < 100 # тест должен пройти

In [153]:
# проверяем третий датасет
def test_df3():
    X3 = df3.drop('Target', axis=1)
    y3 = df3['Target']
    X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)
    predict3 = model.predict(X3_test)
    mse3 = mean_squared_error(y3_test, predict3)
    assert mse < 100 # тест должен пройти

In [156]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse < 100 # тест  не должен пройти, так как среднеквадратичная ошибка слишком большая 
    #(слишком большое отколение от значений mse других датасетов)

In [141]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse > 100 # тест должен пройти

In [157]:
ipytest.run()


[32m.[0m[32m.[0m[32m.[0m[32m.[0m[31mF[0m[32m.[0m[32m.[0m[32m.[0m[31m                                                                                     [100%][0m
[31m[1m__________________________________ test_model_on_noisy_features ___________________________________[0m

    [94mdef[39;49;00m [92mtest_model_on_noisy_features[39;49;00m():[90m[39;49;00m
        X_N = df_noise.drop([33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m, axis=[94m1[39;49;00m)[90m[39;49;00m
        y_N = df_noise[[33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m][90m[39;49;00m
        Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=[94m0.2[39;49;00m, random_state=[94m67[39;49;00m)[90m[39;49;00m
        predictionN = model.predict(Xn_test)[90m[39;49;00m
        mse = mean_squared_error(yn_test, predictN)[90m[39;49;00m
>       [94massert[39;49;00m mse < [94m100[39;49;00m [90m# тест  не должен пройти, так как среднеквадратич

<ExitCode.TESTS_FAILED: 1>