In [7]:
import pandas as pd
import seaborn as sns

In [8]:
sns.set(rc={'figure.figsize': (11.7, 8.27)})

In [9]:
def round_to_2(x):
    """
    Принимает число и возвращает результат его округления
    до 2 знаков после запятой.

    Аргументы:
        x: Число.

    Возвращаемое значение:
        Результат округления числа до 2 знаков после запятой.
    """

    return round(float(x), 2)

In [10]:
def custom_compare(x, y):
    if str(x) != str(y):
        raise RuntimeError(f'Ожидаемое значение: {y}. Фактическое: {x}')

# Линейная регрессия с двумя параметрами

In [40]:
def two_parameters_linear_regression_solution(data, x_name, y_name):
    """
    На основе данных из таблицы data с помощью МНК строит модель линейной регрессии,
    которая по фактору x_name предсказывает значение фактора y_name.

    Аргументы:
        data: Таблица с данными.
        x_name: Название колонки в таблице, на основе которой нужно научиться
                предсказывать значение целевой характеристики.
        y_name: Название колонки в таблице, которая содержит значения
                предсказываемой характеристики.

    Возвращаемое значение:
        Возвращает пару параметров модели: свободный коэффициент w0, вес w1 перед фактором x_name.

        Значение каждого параметра должно быть округлено до 2 знаков после запятой с помощью функции `round_to_2`.
    """
    y_avg = data[y_name].mean()
    x_avg = data[x_name].mean()
    w_1 = sum((x - x_avg) * (y - y_avg) for x, y in zip(data[x_name], data[y_name])) / sum((x - x_avg) ** 2 for x in data[x_name])
    w_0 = y_avg - w_1 * x_avg
    print(x_avg, y_avg)
    return (round_to_2(w_0), round_to_2(w_1))


# two_parameters_linear_regression_test()
tbl_example_1 = [[1, 3],
                [2, 2],
                [4, 4],
                [5, -1]]
col_names_example_1 = ['x', 'y']
data_example_1 = pd.DataFrame(data=tbl_example_1, columns=col_names_example_1)
two_parameters_linear_regression_solution(data_example_1, 'x', 'y')

3.0 2.0


(3.8, -0.6)

In [41]:
def two_parameters_linear_regression_test():
    tbl_example_1 = [[1, 1],
                     [2, 2],
                     [3, 3],
                     [4, 4],
                     [5, 5]]
    col_names_example_1 = ['x', 'y']
    data_example_1 = pd.DataFrame(data=tbl_example_1, columns=col_names_example_1)

    res_example_1 = (0.0, 1.0)

    custom_compare(two_parameters_linear_regression_solution(data_example_1,
                                                             col_names_example_1[0],
                                                             col_names_example_1[1]),
                   res_example_1)

    tbl_example_2 = [[1.1, 1, 0.21],
                     [-3.4, 2, 0.19],
                     [2.7, 3, 0.39],
                     [2.8, 4, 0.22],
                     [0.31, 5, -0.1]]
    col_names_example_2 = ['x', 'extra', 'y']
    data_example_2 = pd.DataFrame(data=tbl_example_2, columns=col_names_example_2)

    res_example_2 = (0.17, 0.02)

    custom_compare(two_parameters_linear_regression_solution(data_example_2,
                                                             col_names_example_2[0],
                                                             col_names_example_2[2]),
                   res_example_2)

    print('Тест прошёл успешно!')

In [42]:
two_parameters_linear_regression_test()

3.0 3.0
0.7020000000000001 0.182
Тест прошёл успешно!


# Основные понятия линейной алгебры

In [64]:
def matrix_multiplication_solution(matrix_a, matrix_b):
    """
    Производит перемножение двух заданных матриц.
    Если произвести перемножение матриц нельзя, то возвращает -1.

    Аргументы:
        matrix_a: Первая матрица.
        matrix_b: Вторая матрица.

    Возвращаемое значение:
        Возвращает матрицу, которая является результатом перемножения двух заданных матриц.
        Значение в каждой ячейке получившейся матрицы должно быть округлено
        до 2 знаков после запятой с помощью функции round_to_2.
    """
    if not len(matrix_a) or not len(matrix_b) or len(matrix_a[0]) != len(matrix_b):
        return -1
    matrix_c = [[0.0 for _ in range(len(matrix_b[1]))] for _ in range(len(matrix_a))]
    # print(matrix_a)
    # print(matrix_b)
    for i in range(len(matrix_a)):
        for j in range(len(matrix_b[0])):
            for k in range(len(matrix_a[0])):
                matrix_c[i][j] += matrix_a[i][k] * matrix_b[k][j]
            matrix_c[i][j] = round_to_2(matrix_c[i][j])
    # print(matrix_c)
    return matrix_c


matrix_multiplication_test()
matrix_multiplication_solution(
    [
        [7, -3],
        [-2, 0],
        [-1, 1],
        [3, 4]
    ],
    [
        [1, 2, 3],
        [-3, 1, 0]
    ]
)

Тест прошёл успешно!


[[16.0, 11.0, 21.0], [-2.0, -4.0, -6.0], [-4.0, -1.0, -3.0], [-9.0, 10.0, 9.0]]

In [56]:
def matrix_multiplication_test():
    matrix_a_example_1 = [[1, 2],
                          [-1, 0]]
    matrix_b_example_1 = [[-1, 1],
                          [3, -2]]

    res_example_1 = [[5.0, -3.0],
                     [1.0, -1.0]]

    custom_compare(matrix_multiplication_solution(matrix_a_example_1, matrix_b_example_1),
                   res_example_1)

    matrix_a_example_2 = [[1, 2],
                          [-1, 0]]
    matrix_b_example_2 = [[-1, 1],
                          [3, -2],
                          [0.1, 2]]

    res_example_2 = -1

    custom_compare(matrix_multiplication_solution(matrix_a_example_2, matrix_b_example_2),
                   res_example_2)

    matrix_a_example_3 = [[0.7, 3.9],
                          [-2.3, 5.1],
                          [7.8, 0]]
    matrix_b_example_3 = [[-1, 3.78, 1],
                          [2.1, -8, 2]]

    res_example_3 = [[7.49, -28.55, 8.5],
                     [13.01, -49.49, 7.9],
                     [-7.8, 29.48, 7.8]]

    custom_compare(matrix_multiplication_solution(matrix_a_example_3, matrix_b_example_3),
                   res_example_3)

    print('Тест прошёл успешно!')

In [57]:
matrix_multiplication_test()

Тест прошёл успешно!


In [63]:
def transpose_matrix_solution(matrix):
    """
    Производит транспонирование переданной матрицы.

    Аргументы:
        matrix: Матрица, которую нужно транспонировать.

    Возвращаемое значение:
        Возвращает матрицу, которая является результатом транспонирования матрицы-аргумента.
    """
    res_matrix = [[0 for _ in range(len(matrix))] for _ in range(len(matrix[0]))]
    for i in range(len(matrix)):
        for j in range(len(matrix[0])):
            res_matrix[j][i] = matrix[i][j]
    return res_matrix


transpose_matrix_test()

Тест прошёл успешно!


In [59]:
def transpose_matrix_test():
    matrix_example_1 = [[1, 2, 3],
                        [-1, 3, 1]]

    res_example_1 = [[1, -1],
                     [2, 3],
                     [3, 1]]

    custom_compare(transpose_matrix_solution(matrix_example_1), res_example_1)

    matrix_example_2 = [[0, 22, 3, 6],
                        [5, 4, -1, 7],
                        [-7, 82, 31, 8],
                        [38, -49, 4, 1]]

    res_example_2 = [[0, 5, -7, 38],
                     [22, 4, 82, -49],
                     [3, -1, 31, 4],
                     [6, 7, 8, 1]]

    custom_compare(transpose_matrix_solution(matrix_example_2), res_example_2)

    print('Тест прошёл успешно!')

In [65]:
transpose_matrix_test()

Тест прошёл успешно!


# Множественная линейная регрессия

In [66]:
# Установка библиотеки numpy
!pip3 install numpy

Defaulting to user installation because normal site-packages is not writeable


In [67]:
import numpy as np

In [102]:
def linear_regression_predict_solution(w, data, x_names):
    """
    На основе переданного вектора весов для каждого объекта из переданного
    набора данных делает предсказание с помощью модели линейной регрессии.

    Аргументы:
        w: Вектор весов модели линейной регрессии. Первая координата вектора соответствует
           свободному коэффициенту, последующие — весам факторов.
        data: Таблица с объектами, для которых необходимо сделать предсказания.
              Каждый объект описывается набором численных факторов.
              В данных может быть представлено больше факторов, чем модель использует для предсказания.
              Искусственного константного фактора, который для всех объектов равен 1 и
              который используется моделью для предсказания, в таблице нет.
        x_names: Список названий факторов, которые используются для предсказания.
                 Порядок названий совпадает с порядком, в котором идут коэффициенты факторов
                 в векторе весов w.

    Возвращаемое значение:
        Вектор предсказанных значений целевой характеристики для объектов из переданной таблицы.
    """
    w = (np.array(w)).reshape(-1, 1)
    data = data[x_names]
    data = data.to_numpy()
    ones = np.ones((len(data), 1))
    data = np.hstack([ones, data])
    # print(w)
    # print(data)
    res = np.dot(data, w)
    # print("after")
    # print(w)
    # print(data)
    # print(res)
    # print("------")
    # print(x_names)
    return res.flatten().round(2)


linear_regression_predict_test()

------
------
Тест прошёл успешно!


In [103]:
def linear_regression_predict_test():
    w_example_1 = np.array([2, 3])
    data_example_1 = pd.DataFrame({
        'x': [2.2, -4.1],
    })

    res_example_1 = np.array([8.6, -10.3])

    custom_compare(linear_regression_predict_solution(w_example_1, data_example_1, ['x']), res_example_1)

    w_example_2 = np.array([0.1, 2.7, 2.3, -4.1])
    data_example_2 = pd.DataFrame({
        'x': [0.58, 0.15],
        'extra': [1, 2],
        'y': [0.58, 0.19],
        'z': [0.93, 0.44]
    })

    res_example_2 = np.array([-0.81, -0.86])

    custom_compare(linear_regression_predict_solution(w_example_2, data_example_2, ['x', 'y', 'z']), res_example_2)

    print('Тест прошёл успешно!')

In [104]:
linear_regression_predict_test()

------
------
Тест прошёл успешно!


In [144]:
def linear_regression_solve_solution(data, x_names, y_name):
    """
    С помощью метода МНК строит модель линейной регрессии по переданному набору данных.

    Аргументы:
        data: Таблица с объектами обучающей выборки.
              Каждый объект описывается набором численных факторов.
              В данных может быть представлено больше факторов, чем модель должна использовать для предсказания.
              Искусственного константного фактора, который для всех объектов равен 1 и
              который будет использоваться моделью для предсказания, в таблице нет.
        x_names: Список названий факторов, которые модель должна использовать для предсказания.
        y_name: Название столбца таблицы, в котором для каждого объекта содержится
                значение предсказываемой величины.

    Возвращаемое значение:
        Возвращает вектор весов модели.
        Координата вектора с индексом 0 соответствует свободному коэффициенту модели.
        Координата вектора с индексом i соответствует фактору с индексом i - 1 в списке factor_names.
    """
    x_data = data[x_names].to_numpy()
    x = np.hstack([np.ones((len(x_data), 1)), x_data])
    y = data[y_name].to_numpy()
    # print(x)
    # print(y)
    # XTX = np.dot(x.T, x)
    # XTX_inv = np.linalg.inv(XTX)
    # XTy = np.dot(x.T, y)
    # w = np.dot(XTX_inv, XTy)
    w = np.dot(
        (
        np.linalg.inv(
            np.dot(x.T, x)
        )
        ),
        np.dot(x.T, y)
    )
    return w.round(2)


linear_regression_solve_test()
data_example_1 = pd.DataFrame({
    'x1': [1, -1, 1],
    'x2': [-1, 1, 1],
    'y': [1, -2, 2]
})

x_names_example_1 = ['x1', 'x2']
y_name_example_1 = 'y'

linear_regression_solve_solution(data_example_1,
                                                x_names_example_1,
                                                y_name_example_1)


Тест прошёл успешно!


array([-0.5,  2. ,  0.5])

In [117]:
# Установка библиотеки sklearn
# !pip3 install sklearn
!pip3 install scikit-learn

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Downloading scikit_learn-1.4.0-1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=2.0.0 (from scikit-learn)
  Downloading threadpoolctl-3.2.0-py3-none-any.whl.metadata (10.0 kB)
Downloading scikit_learn-1.4.0-1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading joblib-1.3.2-py3-none-any.whl (302 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.2/302.2 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hDownloading threadpoolctl-3.2.0-py3-none-any.whl (15 kB)
Installing collected packages: threadpoolctl, joblib, scikit-

In [119]:
from sklearn.linear_model import LinearRegression

In [120]:
def linear_regression_solve_test():
    data_example_1 = pd.DataFrame({
        'x': [2.2, -4.1],
        'y': [1.4, 2.3]
    })

    x_names_example_1 = ['x']
    y_name_example_1 = 'y'

    sklearn_model_example_1 = LinearRegression()
    sklearn_model_example_1.fit(data_example_1[x_names_example_1], data_example_1[y_name_example_1])
    sklearn_coefs_example_1 = np.array([sklearn_model_example_1.intercept_] + sklearn_model_example_1.coef_.tolist()).round(2)

    custom_compare(linear_regression_solve_solution(data_example_1,
                                                    x_names_example_1,
                                                    y_name_example_1),
                   sklearn_coefs_example_1)

    data_example_2 = pd.DataFrame({
        'x':[-1.92, -4.1 , -2.44, 2.55],
        'extra': [-0.33, -3.64, -2.88, 1.21],
        'y': [4.3, 3.62, -3.47, -1.9 ],
        'z': [1.12, 3.38, -2.92, -2.54],
        'target': [-1, 2.3, 1.8, -0.7]
    })

    x_names_example_2 = ['x', 'y', 'z']
    y_name_example_2 = 'target'

    sklearn_model_example_2 = LinearRegression()
    sklearn_model_example_2.fit(data_example_2[x_names_example_2], data_example_2[y_name_example_2])
    sklearn_coefs_example_2 = np.array([sklearn_model_example_2.intercept_] + sklearn_model_example_2.coef_.tolist()).round(2)

    custom_compare(linear_regression_solve_solution(data_example_2,
                                                    x_names_example_2,
                                                    y_name_example_2),
                   sklearn_coefs_example_2)

    print('Тест прошёл успешно!')

In [121]:
linear_regression_solve_test()

RuntimeError: Ожидаемое значение: [ 1.71 -0.14]. Фактическое: None