In [3]:
import pandas as pd
import seaborn as sns

In [4]:
sns.set(rc={'figure.figsize': (11.7, 8.27)})

In [5]:
def round_to_2(x):
    """
    Принимает число и возвращает результат его округления
    до 2 знаков после запятой.
    
    Аргументы:
        x: Число.
        
    Возвращаемое значение:
        Результат округления числа до 2 знаков после запятой.
    """
    
    return round(float(x), 2)

In [6]:
def custom_compare(x, y):
    if str(x) != str(y):
        raise RuntimeError(f'Ожидаемое значение: {y}. Фактическое: {x}')

# Линейная регрессия с двумя параметрами

In [7]:
def two_parameters_linear_regression_solution(data, x_name, y_name):
    """
    На основе данных из таблицы data с помощью МНК строит модель линейной регрессии,
    которая по фактору x_name предсказывает значение фактора y_name.

    Аргументы:
        data: Таблица с данными.
        x_name: Название колонки в таблице, на основе которой нужно научиться
                предсказывать значение целевой характеристики.
        y_name: Название колонки в таблице, которая содержит значения
                предсказываемой характеристики.

    Возвращаемое значение:
        Возвращает пару параметров модели: свободный коэффициент w0, вес w1 перед фактором x_name.

        Значение каждого параметра должно быть округлено до 2 знаков после запятой с помощью функции `round_to_2`.
    """
    xs, ys = data[x_name], data[y_name]
    y_avg = ys.mean()
    x_avg = xs.mean()
    w1 = sum((xs - x_avg)*(ys-y_avg))/sum((xs-x_avg)**2)
    w0 = y_avg - w1*x_avg
    return round_to_2(w0), round_to_2(w1)

In [8]:
def two_parameters_linear_regression_test():
    tbl_example_1 = [[1, 1],
                     [2, 2],
                     [3, 3],
                     [4, 4],
                     [5, 5]]
    col_names_example_1 = ['x', 'y']
    data_example_1 = pd.DataFrame(data=tbl_example_1, columns=col_names_example_1)
    
    res_example_1 = (0.0, 1.0)
    
    custom_compare(two_parameters_linear_regression_solution(data_example_1,
                                                             col_names_example_1[0], 
                                                             col_names_example_1[1]),
                   res_example_1)
    
    tbl_example_2 = [[1.1, 1, 0.21],
                     [-3.4, 2, 0.19],
                     [2.7, 3, 0.39],
                     [2.8, 4, 0.22],
                     [0.31, 5, -0.1]]
    col_names_example_2 = ['x', 'extra', 'y']
    data_example_2 = pd.DataFrame(data=tbl_example_2, columns=col_names_example_2)

    res_example_2 = (0.17, 0.02)
    
    custom_compare(two_parameters_linear_regression_solution(data_example_2,
                                                             col_names_example_2[0], 
                                                             col_names_example_2[2]),
                   res_example_2)

    print('Тест прошёл успешно!')

In [9]:
two_parameters_linear_regression_test()

Тест прошёл успешно!


# Основные понятия линейной алгебры

In [44]:
def get_col(matrix, i):
    return [col[i] for col in matrix]


def skal(v1, v2):
    v1,v2 = list(v1),list(v2)
    return round_to_2(sum([v1[i] * v2[i] for i in range(len(v1))]))

In [40]:
def matrix_multiplication_solution(matrix_a, matrix_b):
    n1, m1 = len(matrix_a), len(matrix_a[0])
    n2, m2 = len(matrix_b), 1 if type(matrix_b[0]) is not type([]) else len(matrix_b[0])
    if n2 != m1:
        return -1
    if type(matrix_b[0]) is not type([]):
        result = [0 * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v1 = matrix_a[i]
                value = skal(v1, matrix_b)
                result[i] = value
    else:
        result = [[0] * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v2 = get_col(matrix_b, j)
                v1 = matrix_a[i]
                value = skal(v1, v2)
                result[i][j] = value
    return result

In [11]:
def matrix_multiplication_test():
    matrix_a_example_1 = [[1, 2],
                          [-1, 0]]
    matrix_b_example_1 = [[-1, 1],
                          [3, -2]]
    
    res_example_1 = [[5.0, -3.0],
                     [1.0, -1.0]]
    
    custom_compare(matrix_multiplication_solution(matrix_a_example_1, matrix_b_example_1),
                   res_example_1)
    
    matrix_a_example_2 = [[1, 2],
                          [-1, 0]]
    matrix_b_example_2 = [[-1, 1],
                          [3, -2],
                          [0.1, 2]]
    
    res_example_2 = -1
    
    custom_compare(matrix_multiplication_solution(matrix_a_example_2, matrix_b_example_2),
                   res_example_2)
    
    matrix_a_example_3 = [[0.7, 3.9],
                          [-2.3, 5.1],
                          [7.8, 0]]
    matrix_b_example_3 = [[-1, 3.78, 1],
                          [2.1, -8, 2]]
    
    res_example_3 = [[7.49, -28.55, 8.5],
                     [13.01, -49.49, 7.9],
                     [-7.8, 29.48, 7.8]]
    
    custom_compare(matrix_multiplication_solution(matrix_a_example_3, matrix_b_example_3),
                   res_example_3)

    print('Тест прошёл успешно!')

In [18]:
matrix_multiplication_test()

Тест прошёл успешно!


In [19]:
def transpose_matrix_solution(matrix):
    """
    Производит транспонирование переданной матрицы.

    Аргументы:
        matrix: Матрица, которую нужно транспонировать.

    Возвращаемое значение:
        Возвращает матрицу, которая является результатом транспонирования матрицы-аргумента.
    """
    n,m = len(matrix),len(matrix[0])
    t_matrix = [[0]*n for i in range(m)]
    for i in range(n):
        v = matrix[i]
        for j in range(m):
            t_matrix[j][i] = v[j]
    return t_matrix

In [20]:
def transpose_matrix_test():
    matrix_example_1 = [[1, 2, 3],
                        [-1, 3, 1]]
    
    res_example_1 = [[1, -1],
                     [2, 3],
                     [3, 1]]
    
    custom_compare(transpose_matrix_solution(matrix_example_1), res_example_1)
    
    matrix_example_2 = [[0, 22, 3, 6],
                        [5, 4, -1, 7],
                        [-7, 82, 31, 8],
                        [38, -49, 4, 1]]
    
    res_example_2 = [[0, 5, -7, 38],
                     [22, 4, 82, -49],
                     [3, -1, 31, 4],
                     [6, 7, 8, 1]]
    
    custom_compare(transpose_matrix_solution(matrix_example_2), res_example_2)

    print('Тест прошёл успешно!')

In [21]:
transpose_matrix_test()

Тест прошёл успешно!


# Множественная линейная регрессия

In [None]:
# Установка библиотеки numpy
!pip3 install numpy

In [22]:
import numpy as np

In [51]:
def get_col(matrix, i):
    return [col[i] for col in matrix]

def skal(v1, v2):
    v1,v2 = np.array(v1),np.array(v2)
    return round_to_2(sum(v1[i] * v2[i]))
    
def matrix_multiplication_solution(matrix_a, matrix_b):
    n1, m1 = len(matrix_a), len(matrix_a[0])
    n2, m2 = len(matrix_b), 1 if type(matrix_b[0]) is not type([]) else len(matrix_b[0])
    if n2 != m1:
        return -1
    if type(matrix_b[0]) is not type([]):
        result = [0 * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v1 = matrix_a[i]
                value = skal(v1, matrix_b)
                result[i] = value
    else:
        result = [[0] * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v2 = get_col(matrix_b, j)
                v1 = matrix_a[i]
                value = skal(v1, v2)
                result[i][j] = value
    return result

In [52]:
def round_to_2(x):
    return round(x, 2)

def get_col(matrix, i):
    return [col[i] for col in matrix]


def skal(v1, v2):
    v1, v2 = np.array(v1), np.array(v2)
    return round_to_2(sum(v1 * v2))


def matrix_multiplication_solution(matrix_a, matrix_b):
    n1, m1 = len(matrix_a), len(matrix_a[0])
    n2, m2 = len(matrix_b), 1 if type(matrix_b[0]) is not type([]) else len(matrix_b[0])
    if n2 != m1:
        return -1
    if type(matrix_b[0]) is not type([]):
        result = [0 * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v1 = matrix_a[i]
                value = skal(v1, matrix_b)
                result[i] = value
    else:
        result = [[0] * m2 for i in range(n1)]
        for i in range(n1):
            for j in range(m2):
                v2 = get_col(matrix_b, j)
                v1 = matrix_a[i]
                value = skal(v1, v2)
                result[i][j] = value
    return result
def ziped(l,n):
    return [get_col(l,i) for i in range(n)]
def linear_regression_predict_solution(w, data, x_names):
    n = len(np.array(data[x_names[0]]))
    X = np.array(ziped([[1]*n,*[np.array(data[name]) for name in x_names]],n))
    result = matrix_multiplication_solution(X, w)
    return np.array(result)

In [53]:
def linear_regression_predict_test():
    w_example_1 = np.array([2, 3])
    data_example_1 = pd.DataFrame({
        'x': [2.2, -4.1],
    })
    
    res_example_1 = np.array([8.6, -10.3])
    
    custom_compare(linear_regression_predict_solution(w_example_1, data_example_1, ['x']), res_example_1)
    
    w_example_2 = np.array([0.1, 2.7, 2.3, -4.1])
    data_example_2 = pd.DataFrame({
        'x': [0.58, 0.15],
        'extra': [1, 2],
        'y': [0.58, 0.19],
        'z': [0.93, 0.44]
    })
    
    res_example_2 = np.array([-0.81, -0.86])
    
    custom_compare(linear_regression_predict_solution(w_example_2, data_example_2, ['x', 'y', 'z']), res_example_2)

    print('Тест прошёл успешно!')

In [54]:
linear_regression_predict_test()

TypeError: len() of unsized object

In [None]:
def linear_regression_solve_solution(data, factor_names, y_name):
    """
    С помощью метода МНК строит модель линейной регрессии по переданному набору данных.
    
    Аргументы:
        data: Таблица с объектами обучающей выборки.
              Каждый объект описывается набором численных факторов. 
              В данных может быть представлено больше факторов, чем модель должна использовать для предсказания. 
              Искусственного константного фактора, который для всех объектов равен 1 и 
              который будет использоваться моделью для предсказания, в таблице нет.
        factor_names: Список названий факторов, которые модель должна использовать для предсказания.
        y_name: Название столбца таблицы, в котором для каждого объекта содержится
                значение предсказываемой величины.
        
    Возвращаемое значение:
        Возвращает вектор весов модели. 
        Координата вектора с индексом 0 соответствует свободному коэффициенту модели.
        Координата вектора с индексом i соответствует фактору с индексом i - 1 в списке factor_names.
    """
    
    pass

In [None]:
# Установка библиотеки sklearn
!pip3 install sklearn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
def linear_regression_solve_test():
    data_example_1 = pd.DataFrame({
        'x': [2.2, -4.1],
        'y': [1.4, 2.3]
    })
    
    factor_names_example_1 = ['x']
    y_name_example_1 = 'y'
    
    sklearn_model_example_1 = LinearRegression()
    sklearn_model_example_1.fit(data_example_1[factor_names_example_1], data_example_1[y_name_example_1])
    sklearn_coefs_example_1 = np.array([sklearn_model_example_1.intercept_] + sklearn_model_example_1.coef_.tolist()).round(2)
    
    custom_compare(linear_regression_solve_solution(data_example_1, 
                                                    factor_names_example_1, 
                                                    y_name_example_1), 
                   sklearn_coefs_example_1)
    
    data_example_2 = pd.DataFrame({
        'x':[-1.92, -4.1 , -2.44, 2.55],
        'extra': [-0.33, -3.64, -2.88, 1.21],
        'y': [4.3, 3.62, -3.47, -1.9 ],
        'z': [1.12, 3.38, -2.92, -2.54],
        'target': [-1, 2.3, 1.8, -0.7]
    })
    
    factor_names_example_2 = ['x', 'y', 'z']
    y_name_example_2 = 'target'
    
    sklearn_model_example_2 = LinearRegression()
    sklearn_model_example_2.fit(data_example_2[factor_names_example_2], data_example_2[y_name_example_2])
    sklearn_coefs_example_2 = np.array([sklearn_model_example_2.intercept_] + sklearn_model_example_2.coef_.tolist()).round(2)
    
    custom_compare(linear_regression_solve_solution(data_example_2, 
                                                    factor_names_example_2, 
                                                    y_name_example_2), 
                   sklearn_coefs_example_2)

    print('Тест прошёл успешно!')

In [None]:
linear_regression_solve_test()