# <center>Метод нормальных уравнений. Normal Equation.</center>
# $$\theta=(X^{T}X)^{-1}X^{T}y$$

In [1]:
import pandas as pd
import numpy as np
from numpy.linalg import inv

import os
os.chdir('/home/tim/02_ML')

In [2]:
def prepareData(data, n):

    # добавим фиктивную размерность x_0 = 1 для каждого наблюдения, чтобы решать линейную модель в векторном виде
    data.insert(0, 'Ones', 1)
   
    # пусть x - датафрейм наблюдений и признаков (включая фиктивную единичную колонку слева);
    # пусть y - объясняемая (или целевая) переменная;.
    x = data.iloc[:, 0:n+1]
    y = data.iloc[:, n+1:n+2]

    # преобразование x и y (датафреймов) в матрицы;
    # Theta is a vector [n + 1 x 1] and Theta Transpose is a vector [1 x n+1],
    # where n is the number of features.
    x = np.matrix(x.values)
    y = np.matrix(y.values)
    theta = np.matrix(np.zeros((n+1, 1)))
    return x, y, theta


In [3]:
def normalEquation(x, y):

    theta = np.dot(np.dot(inv(np.dot(x.T, x)), x.T), y)
    return theta

In [4]:
# Решение первой задачи "линейная регрессия с одной переменной" 
# Нет необходимости осуществлять нормализацию данных!
data1 = pd.read_csv('ex1data1.txt', names=['Population', 'Profit'])

# Get the number of features.
n = len(data1.columns)-1 # subtract the target column

x, y, theta = prepareData(data1, n)

theta = normalEquation(x, y)

theta_f = list(theta.flat)
theta_f


[-3.895780878311869, 1.1930336441895943]

In [5]:
# Итоговый ответ задачи
# Прогноз доходов семей при населении 35,000 и 70,000.

print("Целевая функция: Profit = ",theta_f[0], " + ",theta_f[1], " * Population")
print("В городе с населением 35,000 средний доход семьи равен: ",((theta_f[0] + theta_f[1] * 3.5)*10000))
print("В городе с населением 70,000 средний доход семьи равен: ",((theta_f[0] + theta_f[1] * 7.0)*10000))

Целевая функция: Profit =  -3.895780878311869  +  1.1930336441895943  * Population
В городе с населением 35,000 средний доход семьи равен:  2798.3687635171163
В городе с населением 70,000 средний доход семьи равен:  44554.546310152924


In [6]:
# Решение второй задачи "линейная регрессия с множественной переменной" 
# Нет необходимости осуществлять нормализацию данных!

data2 = pd.read_csv('ex1data2.txt', names=['Size', 'Bedrooms', 'Price'])

n = len(data2.columns)-1

x, y, theta = prepareData(data2, n)

theta = normalEquation(x, y)

theta_f = list(theta.flat)
theta_f

[89597.90954279575, 139.21067401762548, -8738.019112327616]

In [7]:
# Итоговый ответ задачи
# Прогноз стоимости дома с 3-мя спальнями и размером 1650 sq.ft.

print("Целевая функция: Стоимость дома = ",theta_f[0], " + ",theta_f[1], " * Size", " + ",theta_f[2], " * Bedrooms")
print("Cтоимость дома с 3-мя спальнями и размером 1650 sq.ft. равна: ",(theta_f[0] + theta_f[1] * 1650 + theta_f[2] * 3))


Целевая функция: Стоимость дома =  89597.90954279575  +  139.21067401762548  * Size  +  -8738.019112327616  * Bedrooms
Cтоимость дома с 3-мя спальнями и размером 1650 sq.ft. равна:  293081.4643348949
