In [9]:
# установка pytest
!pip install ipytest



In [10]:
import numpy as np # для работы с числовыми данными
import pandas as pd # pandas для работы с данными
import os # Для работы с файловой системой
from sklearn.linear_model import LinearRegression # LinearRegression из sklearn.linear_model для создания модели линейной регрессии
from sklearn.utils import shuffle # Для перемешивания данны
from sklearn.model_selection import train_test_split # для разбиения на тестовую и обучающую выборки
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # Метрики
import ipytest #импорт установленной ранее библиотеки

In [11]:
# Генерация данных без аномалий и шумов
def generate_normal_data(base, x):
    # base - базовое значение, например значение t; x -  количество измерений
    return np.array([int(base) + int(np.random.randint(25)) for i in np.random.rand(x)])

In [12]:
# Генерация данных с шумами
def generate_noise_data(base, x):
    noise_data = generate_normal_data(base, x)
    noise = np.random.randint(1, 100, len(noise_data))
    noise_data = noise_data + noise
    return noise_data

In [13]:
# Генерация случайных признаков
base = 20
n = 100 # количество образцов(строк)
data = {
    'Feature_1': generate_normal_data(base, n),
    'Target': generate_normal_data(base, n) + 5   # Целевая переменная
}
noise_data = {
    'Feature_1': generate_noise_data(base, n),
    'Target': generate_noise_data(base, n)
}
# Создание DataFrame
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data)
df3 = pd.DataFrame(data)

df_noise = pd.DataFrame(noise_data)


In [14]:
# Показать первые несколько строк одного из DataFrame с нормальными данными
df1.head()

Unnamed: 0,Feature_1,Target
0,30,32
1,28,31
2,27,44
3,31,28
4,32,46


In [15]:
df_noise.head() # посмотрим на первые 5 строк датасета с шумами

Unnamed: 0,Feature_1,Target
0,95,60
1,75,58
2,116,137
3,103,35
4,36,64


In [16]:
# Разделение данных на обучающую и тестовую выборку
X = df1.drop('Target', axis=1)
y = df1['Target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)


In [17]:
# Обучение модели линейной регрессии (как и указано в задании на  одном из датасетов)
model = LinearRegression()
model.fit(X_train, y_train)

In [18]:
# Оценка модели на тестовой выборке
prediction = model.predict(X_test)

prediction


array([36.39026578, 36.70343843, 36.49465666, 36.28587489, 36.96441564,
       36.18148401, 36.80782932, 37.17319741, 36.12928857, 36.75563387,
       36.96441564, 36.75563387, 36.12928857, 36.28587489, 36.70343843,
       37.17319741, 36.5468521 , 36.49465666, 36.28587489, 36.65124299])

In [19]:
# Расчет метрик
mse = mean_squared_error(y_test, prediction) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae = mean_absolute_error(y_test, prediction) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2 = r2_score(y_test, prediction) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse, mae, r2, rmse)

42.32597006329578 5.880248597847505 0.0005084110444351086 6.505841226413059


In [20]:
# Разделение второго на обучающую и тестовую выборку
X2 = df2.drop('Target', axis=1)
y2 = df2['Target']
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)

# Оценка модели на тестовой выборке
predict2 = model.predict(X2_test)

predict2


array([36.5468521 , 36.12928857, 37.2775883 , 37.38197918, 36.5468521 ,
       36.9122202 , 37.32978374, 36.65124299, 36.70343843, 36.80782932,
       36.44246122, 36.9122202 , 36.28587489, 37.06880653, 36.39026578,
       37.17319741, 37.17319741, 36.96441564, 36.49465666, 36.86002476])

In [21]:
# Расчет метрик для второго датасета
mse2 = mean_squared_error(y2_test, predict2) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae2 = mean_absolute_error(y2_test, predict2) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_2 = r2_score(y2_test, predict2) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse2 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse2, mae2, r2_2, rmse2)

61.61744642639966 7.042585013389926 0.010002467442165042 6.505841226413059


In [22]:
# Разделение третьего на обучающую и тестовую выборку
X3 = df3.drop('Target', axis=1)
y3 = df3['Target']
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)

# Оценка модели на тестовой выборке
predict3 = model.predict(X3_test)

predict3


array([36.70343843, 36.80782932, 36.18148401, 36.80782932, 37.32978374,
       36.70343843, 36.44246122, 36.75563387, 37.12100197, 36.75563387,
       36.80782932, 36.12928857, 37.2775883 , 37.38197918, 37.01661109,
       36.70343843, 36.70343843, 37.2775883 , 36.12928857, 36.12928857])

In [23]:
# Расчет метрик для второго датасета
mse3 = mean_squared_error(y3_test, predict3) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae3 = mean_absolute_error(y3_test, predict3) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_3 = r2_score(y3_test, predict3) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse3 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse3, mae3, r2_3, rmse3)

69.35731206232589 7.463346975898135 -0.03657617788560574 6.505841226413059


In [24]:
# Разделение датасета с шумами на тестовую и обучающую выборку
X_N = df_noise.drop('Target', axis=1)
y_N = df_noise['Target']
Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)

# Оценка модели на тестовой выборке
predictN = model.predict(Xn_test)

predictN


array([32.8409757 , 35.1897706 , 32.00584862, 33.25853924, 32.4756076 ,
       32.63219393, 33.04975747, 34.51122985, 33.25853924, 35.50294326,
       32.8409757 , 32.89317114, 31.32730787, 35.24196605, 34.09366631,
       33.467321  , 32.31902127, 31.69267596, 32.42341216, 36.5468521 ])

In [25]:
# Расчет метрик для второго датасета
mseN = mean_squared_error(yn_test, predictN) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
maeN = mean_absolute_error(yn_test, predictN) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_N = r2_score(yn_test, predictN) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmseN = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mseN, maeN, r2_N, rmseN)

1416.7136121990682 31.14068263352029 -1.500432170139772 6.505841226413059


In [26]:
ipytest.autoconfig()

In [27]:
# Тестирование функции generate_normal_data
def test_generate_normal_data():
    base = 20
    x = 10
    result = generate_normal_data(base, x)
    assert isinstance(result, np.ndarray) #Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений


In [28]:
# Тестирование функции generate_noise_data
def test_generate_noise_data():
    base = 20
    x = 10
    result = generate_noise_data(base, x)
    assert isinstance(result, np.ndarray) # Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений

In [29]:
# Тестирование обучения модели линейной регрессии
def test_linear_regression_training():
    # Предполагаем, что данные уже подготовлены и разделены на обучающую и тестовую выборки
    model = LinearRegression()
    model.fit(X_train, y_train)
    assert model.coef_.size > 0 # Модель должна обучиться и иметь коэффициенты

In [30]:
# Тестирование оценки модели на тестовой выборке
def test_linear_regression_prediction():
    prediction = model.predict(X_test)
    assert isinstance(prediction, np.ndarray) # Предсказания должны быть массивом NumPy"
    assert len(prediction) == len(X_test) # Длина предсказаний должна соответствовать длине тестовой выборки

In [31]:
# проверяем первый датасет
def test_df1():
    X = df1.drop('Target', axis=1)
    y = df1['Target']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)
    prediction = model.predict(X_test)
    mse = mean_squared_error(y_test, prediction)
    assert mse < 100 # тест должен пройти

In [32]:
# проверяем второй датасет
def test_df2():
    X2 = df2.drop('Target', axis=1)
    y2 = df2['Target']
    X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)
    predict2 = model.predict(X2_test)
    mse2 = mean_squared_error(y2_test, predict2)
    assert mse < 100 # тест должен пройти

In [33]:
# проверяем третий датасет
def test_df3():
    X3 = df3.drop('Target', axis=1)
    y3 = df3['Target']
    X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)
    predict3 = model.predict(X3_test)
    mse3 = mean_squared_error(y3_test, predict3)
    assert mse < 100 # тест должен пройти

In [34]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse < 100 # тест  не должен пройти, так как среднеквадратичная ошибка слишком большая
    #(слишком большое отколение от значений mse других датасетов)

In [39]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse < 100 # тест должен пройти

In [40]:
ipytest.run()


[31mF[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[31m                                                                                     [100%][0m
[31m[1m___________________________________ test_model_on_noisy_features ___________________________________[0m

    [94mdef[39;49;00m [92mtest_model_on_noisy_features[39;49;00m():[90m[39;49;00m
        X_N = df_noise.drop([33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m, axis=[94m1[39;49;00m)[90m[39;49;00m
        y_N = df_noise[[33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m][90m[39;49;00m
        Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=[94m0.2[39;49;00m, random_state=[94m67[39;49;00m)[90m[39;49;00m
        predictionN = model.predict(Xn_test)[90m[39;49;00m
        mse = mean_squared_error(yn_test, predictN)[90m[39;49;00m
>       [94massert[39;49;00m mse < [94m100[39;49;00m [90m# тест должен пройти[39;49;00m[90m[39;49;00m


<ExitCode.TESTS_FAILED: 1>