# Regresja liniowa

Regresja jest podstawową i jednocześnie najbardziej popularną techniką w analityce. Służy ona wykazaniu/zmierzeniu, czy istnieje relacja pomiędzy dwiema lub wieloma zmiennymi. W ramach regresji staramy się najlepiej dopasować linię, do obserwowanych danych, aby zmniejszyć błąd pomiędzy rzeczywistym, a przewidywanym punktem danych. 

Regresja jest znana od ponad dwustu lat. I sama w sobie stanowi podstawę dla wielu innych technik machine learningowych, jak sieci neuronowe, czy regresja logistyczna. 

Regresja jest fundamentem dla wielu algorytmów z rodziny nadzorowanego uczenia maszynowego.

## Podstawowa regresja liniowa

Dlaczego regresj liniowa jest przydatna?

Pozwala przewidywać dane, których wcześniej nie zaobserwowaliśmy. Jeśli wykreślimy (obliczymy) regresję liniową na podstawie jakiegoś zbioru danych, to gdy pojawi się nowy punkt danych, możemy na jej podstawie oszacować, jaką wartość będzie mieć w zmiennej zależnej (y). 

Dodatkowo, dzięki regresji, możemy przyjrzeć się, czy pomiędzy parami zmiennych wsystępują korelacje, a nawet zweryfikować występowanie związku przyczynowo-skutkowego. 

## Niebezpicezństwa regresji liniowej

To, o czym warto pamiętać (oprócz oczywistości, że regresja na prawdziwych danych prawie nigdy nie będzie pozwalała na ułożenie danych równo na linii), to również fakt, że nie powinniśmy przewidywać na nowych danych (np. x>8), które wykraczają poza zakres danych wejściowych (np. 2 do 8). 

Aby regresja liniowa, była miarodajna, konieczne jest również sprawdzanie, a jaki sposób zostały pozyskane dane, czy np. próba nie jest jakoś obciążona (błąd autoselekcji). 

## Budowa regresji liniowej z sklearn

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

In [5]:
# dane
data = load_diabetes()

data.keys()

dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename'])

In [6]:
type(data)

sklearn.utils.Bunch

In [7]:
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

In [8]:
df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.06833,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.02593,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641,135.0


In [11]:
# podzial zmienna zalezna, i zmienne niezalezne
# konwersja do arrayów
X = df.values[:, :-1] #wszystkie wiersze oprocz ostatniej kolumny
y = df.values[:, -1] #tylko ostatni wiersz

In [12]:
# dopasowujemy linię regresji
dop = LinearRegression(). fit(X,y)
m = dop.coef_.flatten()
b = dop.intercept_.flatten()

In [14]:
print(f"""m= {m} 
b= {b}""")

m= [ -10.01219782 -239.81908937  519.83978679  324.39042769 -792.18416163
  476.74583782  101.04457032  177.06417623  751.27932109   67.62538639] 
b= [152.13348416]
