# Bootcamp 2021 - spotkanie 2
Regresja liniowa na przykładzie przewidywania cen nieruchomości

<h1> Part 1 </h1> 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

#Wczytujemy dane 
estate_df = pd.read_csv (r'data/Real_estate_dataset.csv')
pd.DataFrame(estate_df)

In [None]:
#Usuwamy niepotrzebną kolumnę
estate_df.drop("No", axis=1, inplace=True)

In [None]:
#podział na zmienne i cel
X = estate_df.drop(estate_df.columns[6],axis=1)
y = estate_df.iloc[:, 6]

#zmiana z pandas DataFrame na Numpy ndarray - żeby się nauczyć :)
X=X.values
print(X)

In [None]:
#normalizacja - dzielimy wszystko przez maksymalną warotść żeby nie operować na dużych liczbach
max_values = np.max(X,axis=0)
for i in range(0, X.shape[1]):    
    X[:,i]=X[:,i]/max_values[i]
    
print(X)

In [None]:
#inicjujemy bete na 0 
beta = np.zeros(X.shape[1])
print(beta)

<h3>Funkcja straty</h3>
<center><h2>${J} = \frac{1}{n} \sum \limits _{i=1} ^{n} ({y}_{i} - pred_{i})^2$</h2></center>


In [None]:
#definiujemy pochodną funkcji straty
def cost_function(X, y, beta):
    y1 = beta*X
    y1=np.sum(y1, axis=1)
    return sum(np.sqrt((y1-y)**2))/(X.shape[0])

<h3>Pochodna cząstkowa funkcji straty</h3>
<center><h2>$\frac{\partial{X}_i}{\partial J} = \frac{-2}{n} \sum \limits _{i=1} ^{n} (pred_{i})^{'} ({y}_{i} - pred_{i})^2$</h2></center>

Gdzie $(pred_{i})^{'}$ to pochodna cząstkowa względem $X_{i}$ z wielomianu $(pred) = \beta _{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + ... + \beta_{n}X_{n}$ 

In [None]:
def gradient_descent(X, y, beta, alpha, i):
    
    # X - macierz X z danymi wejściowymi
    # y - wektor z danymi wyjściowymi
    # beta - wektor z przewidywanymi wartościami beta_0, beta_1 etc
    # alpha - learning rate
    # i - liczba iteracji którą będziemy wykonywać
    
    J = [] 
    for k in range(i):
        
        # liczymy przewidywaną wartość y, poprzez pomnożenie wektora beta przez macierz X
        y1 = beta*X
        y1 = np.sum(y1, axis=1)
        
        for c in range(0, X.shape[1]):
            
            # pochodna cząstkowa z X_c
            deriv = sum((y1-y)*X[:,c])/(2*len(X))
            
            # regresja liniowa - zmieniamy wektor beta
            beta[c] = beta[c] - alpha*deriv
            print(beta[c])
                                        
        # patrzymy jak nam poszło, czyli liczymy funkcje straty
        j = cost_function(X, y, beta)
                                        
        # dodajemy wynik do wektora J, żeby móc zobaczyć jak się zmienia funkcja straty
        J.append(j)
    return J, j, beta

In [None]:
J, j, beta = gradient_descent(X, y, beta, 0.05, 1000)

In [None]:
# liczymy przewidywane wartości dla wszystkich danych - porównamy je z prawdziwymi
y_hat = beta*X
y_hat = np.sum(y_hat, axis=1)

In [None]:
plt.figure(figsize=(10, 8))
plt.scatter(x=list(range(0, X.shape[0])),y= y, color='black')         
plt.scatter(x=list(range(0, X.shape[0])), y=y_hat, color='red')
plt.show()

In [None]:
plt.figure(figsize=(10, 8))
plt.plot(list(range(0, 1000)), J)     


In [None]:
#to samo można zastąpić jedną linijką używając biblioteki sklearn 
reg = LinearRegression().fit(X, y)

In [None]:
plt.figure(figsize=(10, 8))
plt.scatter(x=list(range(0, X.shape[0])),y= y, color='black')         
plt.scatter(x=list(range(0, X.shape[0])), y=reg.predict(X), color='red')
plt.show()

<h1> Part 2 - przykłady regresji wielomianowej </h1>

In [None]:
sin_approx = pd.read_csv(r'data/sinus_approx.csv')
sin_approx = sin_approx.values

X=(sin_approx[:, 0]).reshape(-1,1)
Y=sin_approx[:,1]

plt.figure(figsize=(10, 8))
plt.scatter(x=X, y=Y, color='black')         

In [None]:
def polynomial_regression(degree, X, Y):
    poly = make_pipeline(PolynomialFeatures(degree),LinearRegression())
    poly.fit(X, Y)
    plt.figure(figsize=(10, 8))
    plt.scatter(X, Y, color="black")
    plt.plot(X, poly.predict(X), color="red")
    plt.show()

In [None]:
#underfitting
polynomial_regression(2, X, Y)

In [None]:
#okej
polynomial_regression(10, X, Y)

In [None]:
#overfitting
polynomial_regression(30, X, Y)