### 1. Решить задачу регрессии для набора  
#### x = [0, 1, 2, 3], y = [4, 7, 7, 8]

Вручную (на основе математического анализа с помощью numpy) и с помощью scikit-learn.  
Сравнить полученные коэффициенты.

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [2]:
x = np.array([0, 1, 2, 3])
y = np.array([4, 7, 7, 8])

In [3]:
class Linear_regression():
    
    """парная линейная регрессия, основана на методе наименьших квадратов"""
    
    def __init__(self, x, y):
        self.x = x
        self.y = y
        self.a = 0
        self.b = 0
        
    def learn(self):
        self.b = np.corrcoef(self.x, self.y)[0, 1] * (np.std(self.y) / np.std(self.x))
        self.a = np.mean(self.y) - self.b * np.mean(self.x)
        
    def prediction(self, x_):
        return self.a + self.b * x_
    
    def r_2(self):
        result = 0
        for i in range(len(x_)):
            result += self.b[i] * (np.sum(np.dot(self.x[i] - self.x[i].mean(), self.y - self.y.mean()) ) )
        den = np.sum( np.power(self.y - self.y.mean(), 2) )
        return result / den

Парная линейная регрессия: $y = \alpha + \beta x$

In [4]:
regr_by_hand = Linear_regression(x, y)
regr_by_hand.learn()
print(f'Коэффициенты \n\na - {regr_by_hand.a}\nb - {regr_by_hand.b}')

Коэффициенты 

a - 4.699999999999999
b - 1.2000000000000002


In [5]:
regr_by_hand.SSE()

AttributeError: 'Linear_regression' object has no attribute 'SSE'

теперь воспользуемся sklearn

In [None]:
x = x.reshape((-1, 1))

model = LinearRegression().fit(x, y)
print(f'Коэффициенты \n\na - {model.intercept_}\nb - {model.coef_[0]}')

Коэффициенты мы получили одни и те же (не учитывая технической особенности компилятора)   
  
Попробуем предсказать. Допустим, для $x = 5$

In [None]:
print(regr_by_hand.prediction(5), '(my own function)')

In [None]:
y_pred = model.predict([[5]])
print(y_pred[0], '(sklearn)')

Результат получили один и тот же (опять же, не учитывая технической особенности компилятора)  


### 2. Рассмотреть задачу прогнозирование цен на примере набора данных Houses.csv:
    - какие признаки наиболее всего влияют, по Вашему мнению, на цену?
    - возможно ли уменьшить количество признаков?
    - есть ли пропуски в данных?
    - можно ли обойтись одним параметром? выберите один и решите задачу.
    - оставьте несколько параметров и решите задачу многомерной регрессии.


In [None]:
df = pd.read_csv('Houses.csv', index_col=0)
df.head(3)

In [None]:
df.columns

&#x265E; ***какие признаки наиболее всего влияют, по Вашему мнению, на цену?***   
&#x265E; ***возможно ли уменьшить количество признаков?***

По поводу влияющих признаков, я бы не доверяла так себе, а провела бы необходимые тесты, дабы определить такоовы:) В таких вещах полагаюсь на статистику, а она выражена в цифрах. И исходя из результатов, определить и наиболее и наименее значащие факторы.
  
Тем не менее. Дата в том виде (по крайней мере,в том виде, в каком она сюда включена), не несет никакой ценности, id тоже. Так же, как и дату, мы можем оценить долготу, широту и почтовый индекс.   
   
Из наиболее значимых можно выделить количество комнат _(bedrooms)_ и квадратура _(sqft_living)_. Все остальные признаки я бы опустила на ступеньку ниже, а то и несколько ниже. Второстепенные.  
  
Конечно, хотелось бы описание каждого признака. Пока не понятно, например, что такое _sqft_lot_ и _sqft_above_, а также чем _sqft_living_ и _sqft_lot_ отличаются от _sqft_living15_ и _sqft_lot15_

In [None]:
df.drop(columns=['id', 'date', 'zipcode', 'lat', 'long'], inplace=True)
df.head()

&#x265E; ***есть ли пропуски в данных?***

Все на месте. Это хорошо

&#x25BC; &#x25BC; &#x25BC; &#x25BC; &#x25BC; &#x25BC; &#x25BC; &#x25BC; &#x25BC; 

In [None]:
df.isna().sum()

&#x265E; ***можно ли обойтись одним параметром? выберите один и решите задачу***
   
   
   
Только если мы хотим на выходе получать о-о-очень приближенный результат. В современных реалиях, этого будет мало.  
Я выберу квадратуру (_sqft_living_)

In [None]:
x = df.sqft_living
y = df.price

In [None]:
# функция, написанная ручками
regr_by_hand = Linear_regression(x, y)
regr_by_hand.learn()
print(f'y = {np.round(regr_by_hand.a, decimals = 2)} + {np.round(regr_by_hand.b, decimals = 2)}x \n')
print(f'200кв.м. => {np.round(regr_by_hand.prediction(200), decimals = 2)}')
print(f'700кв.м. => {np.round(regr_by_hand.prediction(700), decimals = 2)}')

In [None]:
# sklearn.linear_model
x = (x.to_numpy()).reshape((-1, 1))

In [None]:
model = LinearRegression().fit(x, y)
print(f'y = {np.round(model.intercept_, decimals = 2)} + {np.round(model.coef_[0], decimals = 2)}x \n')

print(f'200кв.м. => {np.round(model.predict([[200]])[0], decimals = 2)}')
print(f'700кв.м. => {np.round(model.predict([[700]])[0], decimals = 2)}')

&#x265E; ***оставьте несколько параметров и решите задачу многомерной регрессии.***

оставлю следующие факторы - _bedrooms, sqft_living, condition, grade_

In [None]:
df = df[['price', 'bedrooms', 'sqft_living', 'condition', 'grade']]
df.head(3)

In [None]:
x = df[['bedrooms', 'sqft_living', 'condition', 'grade']].to_numpy()
y = df.price

In [None]:
class Multi_linear_regression():
    
    """множественная линейная регрессия, основана на методе наименьших квадратов"""
    
    def __init__(self, x, y):
        self.x = x
        self.y = y
        self.b = 0
        
    def learn(self):
        v_ones = np.ones((len(self.x[:,1]), 1))
        x = np.c_[v_ones, self.x]
        x_t_x_1 = np.linalg.inv(np.dot(x.transpose(), x))
        x_t_y = np.dot(x.transpose(), self.y)
        result = np.dot(x_t_x_1, x_t_y)
        self.a = result[0]
        self.b = result[1:]

    def prediction(self, x_):
        result = 0
        for i in range(len(x_)):
            result += x_[i] * self.b[i]
        return self.a + result
    
        
    def r_2(self):
        result = self.b * (np.sum(np.dot(self.x[i] - self.x[i].mean(), self.y - self.y.mean()) ) )
        den = np.sum( np.power(self.y - self.y.mean(), 2) )
        return result / den

In [None]:
# by hand
regr_by_hand = Multi_linear_regression(x, y)
regr_by_hand.learn()
regr_by_hand.prediction([3, 1200, 3, 7])

In [None]:
# scikit-learning
model = LinearRegression().fit(x, y)
model.predict([[3, 1200, 3, 7]])[0]