#### 1. Biblioteki

In [None]:
px.line(df, y='coef', width=800, title='Dopasowanie: coefficient')# tworzenie losowego zbioru danych z sklearn
from sklearn.datasets import make_regression

# model regresji liniowej
from sklearn.linear_model import LinearRegression

# mean absolute error
from sklearn.metrics import mean_absolute_error

# sprawdzanie score
from sklearn.metrics import r2_score

#### 2. Przygotowanie danych losowych z sklearn

In [None]:
from sklearn.datasets import make_regression

data, target = make_regression(n_samples=100, n_features=1, n_targets=1, noise=30.0, random_state=42)

print(f'data shape: {data.shape}')
print(f'target shape: {target.shape}')

"""
n_samples - liczba próbek

n_features, n_targets - liczba zmiennych x i target

noise - rozrzut danych

random_state - ziarnolosowe

"""

#### 3. Wizualizacja danych i modelu

In [None]:
plt.figure(figsize=(15,8))
plt.title('Regresja liniowa')
plt.xlabel('x - variable(predictor/idependent variable)')
plt.ylabel('y - variable(response/dependent variable)')
plt.scatter (data, target, label='cecha x')
plt.plot(data, y_pred, color='red', label='model')
plt.legend()
plt.show()

In [None]:
# wizualizacja train i test - parametr alpha = 0.5 - sprawia, ze kropki są prześwitujące

plt.figure (figsize=(8,6))
plt.title('Regresja liniowa - train vs test')
plt.xlabel('predictor')
plt.ylabel('target')
plt.scatter(X_train, y_train, color='grey', alpha=0.5, label='train')
plt.scatter(X_test, y_test, color='yellow', alpha=0.5, label='test')
plt.plot(X_train, reg.intercept_ + reg.coef_[0] * X_train, color='red', label='model' )
plt.legend()

#### 4. Równanie normalne

Regresja liniowa w $R^2$:
$$Y = w_0 + w_1X_1$$
$$Y = W^TX$$
gdzie: $$W= \left[\begin{matrix}w_0\\w_1\end{matrix}\right]$$ $$ X= \left[\begin{matrix}1\\X_1\end{matrix}\right] $$ stąd $$ W^T= \left[\begin{matrix}w_0&w_1\end{matrix}\right] $$    
$$Y = W^TX = \left[\begin{matrix}w_0&w_1\end{matrix}\right] \cdot  \left[\begin{matrix}1\\X_1\end{matrix}\right] = w_0 + w_1X_1$$




Równanie normalne - równanie pozwalające obliczyć minimum funkcji straty (o ile istnieje)

$$W = (X^TX)^{-1}(X^TY)$$

#### - numpy i pandas

In [None]:
X1 = np.array([1, 2, 3, 4, 5, 6])
Y = np.array([3000, 3250, 3500, 3750, 4000, 4250])
m = len(X1)

# zmiana kształtu tablicy
X1 = X1.reshape(m,1)

# tworzenie bias
bias = np.ones((m,1))

# łączenie wzdłuż kolumn pierwszy bias/drugi x_true
X = np.append(bias, X1,axis=1)

# transponowanie X
X.T

# mnożenie macierzy
np.dot(X.T,X)

# obliczenie lewej strony równania - (XT*X)-1 - obliczanie macierzy odwrotnej (podniesienie do potęgi - 1)
L = np.linalg.inv(np.dot(X.T,X))

# obliczanie prwej strony - transponowane X * Y
P = np.dot(X.T, Y)

# finałowe mnożenie macierzy - lewej i prawej strony
W = np.dot(L,P)

#wynik = array([2750.,  250.]) ( Y = 2750 + 250*x)

#### -  sklearn

In [None]:

# tutaj nie musimy łączyć macierzu 1 z X1, sklearn robi to autmatycznie

from sklearn.linear_model import LinearRegression

regression = LinearRegression()
regression.fit(X1, Y)

print(regression.intercept_) # w0 - przecięcie
print(regression.coef_[0]) # coefficient - współczynnik

#### 5. Metoda spadku gradientu

In [None]:
# transponowanie
X1 = X1.reshape((6,1))
Y = Y.reshape((-1,1))

#bias
bias = np.ones((6,1))
X = np.append(bias, X1, axis=1)

#Inicjalizacja losowych parametrów
# parametr 'eta' - wskaźnik uczenia - o tyle będziemy mnożyć wartość gradientu - o taką wartość będą wykonywane kroki
eta = 0.01

# zainicjowanie losowe wagi - macierz 2 na 1, jest to punkt startowy w0 i w1
weights = np.random.randn (2,1)


# metoda

# tworzenie list - intercept (punktów przecięcia) - w0 , coef (coefficient) - współczynnik kierunkowy w1:

intercept =[]
coef = []

# wzór z lekcji

for i in range(3000):
    gradient = (2 / m) * X.T.dot(X.dot(weights) - Y)   # wzór 
    weights = weights - eta * gradient
    intercept.append(weights[0][0])
    coef.append(weights[1][0])

print(weights)

In [None]:
# Wizualizacja

df = pd.DataFrame(data={'intercept': intercept, 'coef': coef})

px.line(df, y='intercept', width=800, title='Dopasowanie: intercept')
px.line(df, y='coef', width=800, title='Dopasowanie: coefficient')

#### 5. Regresja liniowa przy użyciu sklearn 



$Y = w_0 + w_1X_1$



In [None]:
# wymaga podziału zbiorów na treningowy i testowy

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data, target,  test_size=0.25)

print (f'data shape: {data.shape}')
print (f'target shape: {target.shape}')
print (f'X_train shape: {X_train.shape}')
print (f'X_test shape: {X_test.shape}')
print (f'y_train shape: {y_train.shape}')
print (f'y_test shape: {y_test.shape}\n')

reg = LinearRegression()

reg.fit (X_train, y_train)

reg.score(X_train, y_train)

reg.coef_

reg.intercept_

reg.score(X_test, y_test)

In [None]:
from sklearn.linear_model import LinearRegression


regressor = LinearRegression()

# metoda fit dopasowuje model liniowy do danych

regressor.fit(data, target)


# metoda score() dokonuje oceny modelu na przekazanych danych (wynik R2 score) 

# im bliżej jedynki tym model jest lepiej dopasowany

regressor.score(data, target)


# metoda predict() dokonuje predykcji na podstawie modelu

y_pred = regressor.predict(data)

##### - współczynnik R2 score:

Współczynnik $R^2$ jest zdefiniowany jako $1 - \frac{u}{v}$, gdzie $u$ jest określone wzorem

((y_true - y_pred) ** 2).sum()


**oraz $v$ jako**

((y_true - y_true.mean()) ** 2).sum()

**Czyli:**

1 - (((y_true - y_pred) ** 2).sum()) / (((y_true - y_true.mean()) ** 2).sum())

In [None]:
# wyliczenie r2 za pomocą numpy i pandas:

r2 = 1 - (((target - y_pred) ** 2).sum()) / (((target - target.mean()) ** 2).sum())
r2

# r2 z skleran LinearRegression

regressor.score(data, target) == r2

###### - współczynniki w0 (intercept) i w1 (coef)

$$Y = w_0 + w_1X_1$$
Postać modelu: $$Y = 3.495 + 49.83 \cdot X_1$$

In [None]:
regressor.coef_ # w1

regressor.intercept_ # w0

#### 6. Predykcja na podstawie modelu

In [None]:
y_pred = reg.predict(X_test)

# tworzymy data frame z predykcji:

predictions = pd.DataFrame(data = {'y_true': y_test, 'y_pred': y_pred})

"""
y_pred - tworzymy na podstawie X_test (testowy zbiór data bez targetu)

predictions(df) - y_true = y_test - target ze zbioru testowego
predictions(df) - y_pred - stworzona predykcja y na zbiorze danych testowych x

"""

# dołączenie serii z błędami - y_true - y_pred

# - tabela błędów

predictions['errors'] = predictions['y_true'] - predictions.y_pred

# - histogram do oceny błędów - powinien być rozkład normalny, bądź zbliżony do normalnego
_ = predictions['errors'].plot(kind='hist', bins=50, figsize=(8,5))