In [1]:
# установка pytest
!pip install ipytest

Collecting ipytest
  Downloading ipytest-0.14.2-py3-none-any.whl (18 kB)
Collecting jedi>=0.16 (from ipython->ipytest)
  Downloading jedi-0.19.1-py2.py3-none-any.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jedi, ipytest
Successfully installed ipytest-0.14.2 jedi-0.19.1


In [2]:
import numpy as np # для работы с числовыми данными
import pandas as pd # pandas для работы с данными
import os # Для работы с файловой системой
from sklearn.linear_model import LinearRegression # LinearRegression из sklearn.linear_model для создания модели линейной регрессии
from sklearn.utils import shuffle # Для перемешивания данны
from sklearn.model_selection import train_test_split # для разбиения на тестовую и обучающую выборки
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # Метрики
import ipytest #импорт установленной ранее библиотеки

In [3]:
# Генерация данных без аномалий и шумов
def generate_normal_data(base, x):
    # base - базовое значение, например значение t; x -  количество измерений
    return np.array([int(base) + int(np.random.randint(25)) for i in np.random.rand(x)])

In [4]:
# Генерация данных с шумами
def generate_noise_data(base, x):
    noise_data = generate_normal_data(base, x)
    noise = np.random.randint(1, 100, len(noise_data))
    noise_data = noise_data + noise
    return noise_data

In [5]:
# Генерация случайных признаков
base = 20
n = 100 # количество образцов(строк)
data = {
    'Feature_1': generate_normal_data(base, n),
    'Target': generate_normal_data(base, n) + 5   # Целевая переменная
}
noise_data = {
    'Feature_1': generate_noise_data(base, n),
    'Target': generate_noise_data(base, n)
}
# Создание DataFrame
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data)
df3 = pd.DataFrame(data)

df_noise = pd.DataFrame(noise_data)


In [6]:
# Показать первые несколько строк одного из DataFrame с нормальными данными
df1.head()

Unnamed: 0,Feature_1,Target
0,25,33
1,29,35
2,25,45
3,37,46
4,33,44


In [7]:
df_noise.head() # посмотрим на первые 5 строк датасета с шумами

Unnamed: 0,Feature_1,Target
0,68,120
1,88,33
2,50,108
3,92,119
4,108,29


In [8]:
# Разделение данных на обучающую и тестовую выборку
X = df1.drop('Target', axis=1)
y = df1['Target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)


In [9]:
# Обучение модели линейной регрессии (как и указано в задании на  одном из датасетов)
model = LinearRegression()
model.fit(X_train, y_train)

In [10]:
# Оценка модели на тестовой выборке
prediction = model.predict(X_test)

prediction


array([37.26856303, 36.89437816, 38.14166106, 38.01693277, 38.51584593,
       37.89220448, 37.6427479 , 37.6427479 , 38.89003081, 38.14166106,
       38.51584593, 37.76747619, 37.39329132, 38.64057423, 36.64492158,
       37.6427479 , 39.38894397, 38.89003081, 39.38894397, 37.76747619])

In [11]:
# Расчет метрик
mse = mean_squared_error(y_test, prediction) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae = mean_absolute_error(y_test, prediction) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2 = r2_score(y_test, prediction) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse, mae, r2, rmse)

73.38410393928616 8.135942577446949 0.010195522804341106 8.566452237611914


In [12]:
# Разделение второго на обучающую и тестовую выборку
X2 = df2.drop('Target', axis=1)
y2 = df2['Target']
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)

# Оценка модели на тестовой выборке
predict2 = model.predict(X2_test)

predict2


array([39.51367226, 37.39329132, 36.76964987, 38.39111764, 39.38894397,
       38.14166106, 36.64492158, 37.76747619, 38.64057423, 37.6427479 ,
       39.13948739, 38.76530252, 38.01693277, 37.26856303, 37.26856303,
       38.51584593, 38.89003081, 37.39329132, 39.26421568, 39.38894397])

In [13]:
# Расчет метрик для второго датасета
mse2 = mean_squared_error(y2_test, predict2) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae2 = mean_absolute_error(y2_test, predict2) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_2 = r2_score(y2_test, predict2) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse2 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse2, mae2, r2_2, rmse2)

63.84333021029348 7.265757424116847 0.02599900514446063 8.566452237611914


In [14]:
# Разделение третьего на обучающую и тестовую выборку
X3 = df3.drop('Target', axis=1)
y3 = df3['Target']
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)

# Оценка модели на тестовой выборке
predict3 = model.predict(X3_test)

predict3


array([37.14383474, 36.52019329, 38.76530252, 38.64057423, 38.51584593,
       38.26638935, 38.01693277, 37.76747619, 37.01910645, 39.38894397,
       37.51801961, 37.39329132, 38.39111764, 38.51584593, 36.89437816,
       38.64057423, 36.64492158, 36.76964987, 37.51801961, 38.39111764])

In [15]:
# Расчет метрик для второго датасета
mse3 = mean_squared_error(y3_test, predict3) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
mae3 = mean_absolute_error(y3_test, predict3) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_3 = r2_score(y3_test, predict3) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmse3 = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mse3, mae3, r2_3, rmse3)

56.894551736128435 7.1350033621592885 0.04842696544357872 8.566452237611914


In [16]:
# Разделение датасета с шумами на тестовую и обучающую выборку
X_N = df_noise.drop('Target', axis=1)
y_N = df_noise['Target']
Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)

# Оценка модели на тестовой выборке
predictN = model.predict(Xn_test)

predictN


array([44.87698876, 46.87264141, 45.12644534, 43.0060644 , 41.38459662,
       45.12644534, 45.50063021, 42.38242294, 46.74791312, 47.62101115,
       39.38894397, 40.01258542, 47.74573944, 41.75878149, 49.49193551,
       42.50715123, 45.50063021, 49.6166638 , 41.38459662, 47.49628286])

In [17]:
# Расчет метрик для второго датасета
mseN = mean_squared_error(yn_test, predictN) # Среднеквадратичная ошибка, показывает, насколько хорошо предсказаны значения, но не учитывает размер ошибки
maeN = mean_absolute_error(yn_test, predictN) # Средняя абсолютная ошибка (более чувствительна к выбросам)
r2_N = r2_score(yn_test, predictN) # коэффициент детерминации показывает, какая доля дисперсии зависимой переменной объясняется моделью
rmseN = np.sqrt(mse) # кв корень из MSE, более интерпретируемый, поскольку он выражается в тех же единицах, что и таргет
print(mseN, maeN, r2_N, rmseN)

1617.08216355401 35.53306472547579 -1.7513212111561685 8.566452237611914


In [18]:
ipytest.autoconfig()

In [19]:
# Тестирование функции generate_normal_data
def test_generate_normal_data():
    base = 20
    x = 10
    result = generate_normal_data(base, x)
    assert isinstance(result, np.ndarray) #Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений


In [20]:
# Тестирование функции generate_noise_data
def test_generate_noise_data():
    base = 20
    x = 10
    result = generate_noise_data(base, x)
    assert isinstance(result, np.ndarray) # Функция должна возвращать массив NumPy
    assert len(result) == x # Длина результата должна соответствовать количеству измерений

In [21]:
# Тестирование обучения модели линейной регрессии
def test_linear_regression_training():
    # Предполагаем, что данные уже подготовлены и разделены на обучающую и тестовую выборки
    model = LinearRegression()
    model.fit(X_train, y_train)
    assert model.coef_.size > 0 # Модель должна обучиться и иметь коэффициенты

In [22]:
# Тестирование оценки модели на тестовой выборке
def test_linear_regression_prediction():
    prediction = model.predict(X_test)
    assert isinstance(prediction, np.ndarray) # Предсказания должны быть массивом NumPy"
    assert len(prediction) == len(X_test) # Длина предсказаний должна соответствовать длине тестовой выборки

In [23]:
# проверяем первый датасет
def test_df1():
    X = df1.drop('Target', axis=1)
    y = df1['Target']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=58)
    prediction = model.predict(X_test)
    mse = mean_squared_error(y_test, prediction)
    assert mse < 100 # тест должен пройти

In [24]:
# проверяем второй датасет
def test_df2():
    X2 = df2.drop('Target', axis=1)
    y2 = df2['Target']
    X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=65)
    predict2 = model.predict(X2_test)
    mse2 = mean_squared_error(y2_test, predict2)
    assert mse < 100 # тест должен пройти

In [25]:
# проверяем третий датасет
def test_df3():
    X3 = df3.drop('Target', axis=1)
    y3 = df3['Target']
    X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=53)
    predict3 = model.predict(X3_test)
    mse3 = mean_squared_error(y3_test, predict3)
    assert mse < 100 # тест должен пройти

In [26]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse < 100 # тест  не должен пройти, так как среднеквадратичная ошибка слишком большая
    #(слишком большое отколение от значений mse других датасетов)

In [30]:
def test_model_on_noisy_features():
    X_N = df_noise.drop('Target', axis=1)
    y_N = df_noise['Target']
    Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=0.2, random_state=67)
    predictionN = model.predict(Xn_test)
    mse = mean_squared_error(yn_test, predictN)
    assert mse < 100 # тест должен пройти

In [31]:
ipytest.run()


[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[31mF[0m[31m                                                                                     [100%][0m
[31m[1m___________________________________ test_model_on_noisy_features ___________________________________[0m

    [94mdef[39;49;00m [92mtest_model_on_noisy_features[39;49;00m():[90m[39;49;00m
        X_N = df_noise.drop([33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m, axis=[94m1[39;49;00m)[90m[39;49;00m
        y_N = df_noise[[33m'[39;49;00m[33mTarget[39;49;00m[33m'[39;49;00m][90m[39;49;00m
        Xn_train, Xn_test, yn_train, yn_test = train_test_split(X_N, y_N, test_size=[94m0.2[39;49;00m, random_state=[94m67[39;49;00m)[90m[39;49;00m
        predictionN = model.predict(Xn_test)[90m[39;49;00m
        mse = mean_squared_error(yn_test, predictN)[90m[39;49;00m
>       [94massert[39;49;00m mse < [94m100[39;49;00m [90m# тест должен пройти[39;49;00m[90m[39;49;00m


<ExitCode.TESTS_FAILED: 1>