# Lineárna regresia

Predpokladajme, že sme podpísali kontrakt so spoločnosťou s online obchodom, ktorá predáva oblečenie, ale majú aj konzultácie o štýle a oblečení v kamennom obchode. Zákazníci prídu do obchodu, majú sedenie/stretnutie s osobným stylistom, potom môžu ísť domov a objednať si oblečenie, ktoré chcú, buď cez mobilnú aplikáciu alebo cez web.

Spoločnosť sa snaží rozhodnúť, či svoje úsilie zameria na mobilnú aplikáciu alebo na svoju webovú stránku. Najali nás, aby sme im pomohli v tomto rozhodnutí. 

## Import

Na začiatok importujeme zopár potrebných modulov.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

## Dáta

Budeme pracovať s csv súborom od spoločnosti, ktorý obsahuje informácie o zákazníkoch ako napr. email, adresa a farba ich avataru. Tiež obsahuje stĺpce s číselnými hodnotami:

- Avg. Session Length: Priemerná dĺžka sedenia/stretnutia v kamennom obchode.
- Time on App: Primerný čas strávený v aplikácii v minútach.
- Time on Website: Priemerný čas strávený na webstránke v minútach.
- Length of Membership: Počet rokov členstva zákazníka.
- Year Amount Spent: Priemerná ročná minutá suma zákazníkom.

In [None]:
customers = pd.read_csv("Ecommerce Customers")

Skontrolujeme si hlavičku našich dát a tiež nejaké základé informácie.

In [None]:
customers.head()

In [None]:
customers.describe()

In [None]:
customers.info()

## Analýza dát

Pre naše účely budeme ďalej používať len stĺpce s číslenými hodnotami.

Pomocou funkcie `jointplot` vieme porovnať dvojice dát a zistiť, či je medzi nimi nejaká korelácia.

In [None]:
sns.jointplot(data=customers, x="Time on App", y="Yearly Amount Spent",kind="reg")

Priamka nazačuje či a o akú lineárnu závislosť (koreláciu) ide.

Dáta môžeme tiež zoskupiť napr. do šesťuholníkov.

In [None]:
sns.jointplot(data=customers, x="Time on App", y="Yearly Amount Spent",kind="hex")

Aby sme nemuseli vykreslovať postupne `jointplot` pre každú dvojicu stĺpcov, existuje funkcia `pairplot`, ktorá vykreslí grafy pre všetky dvojice naraz.

In [None]:
sns.pairplot(data=customers)

Môžeme si všimnúť, že Yearly Amount Spent je pomerne silno korelovaná s Length of Membership.

## Trénovacie a testovacie dáta

Naše dáta si rozdelíme na modelovanú premennú $y$ a na vysvetľovacie premenné $X$. Potom tieto dáta rozdelíme na trénovaciu zložku, pomocou ktorej vytvoríme model, a testovaciu zložku, pomocou ktorej zistíme vlastnosti modelu ako napr. presnosť, v pomere 7:3.

In [None]:
y = customers["Yearly Amount Spent"]
X = customers[["Avg. Session Length", "Time on App","Time on Website","Length of Membership"]]

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3)

## Trénovanie modelu

In [None]:
from sklearn.linear_model import LinearRegression

Najskôr vytvoríme prázdny model lineárnej regresie.

In [None]:
lm = LinearRegression()

Teraz môžeme model fitovať pre naše trénovacie dáta.

In [None]:
lm.fit(X_train,y_train)

Vypíšeme si odhadnuté koeficienty.

In [None]:
print(lm.coef_)

## Predikcia testovacích dát

Poďme otestovať náš natrénovaný model a vyhodnotiť jeho výkonnosť.

In [None]:
predictions = lm.predict(X_test)

Graf typu `scatter` nám vie graficky ukázať ako veľmi sa líšia skutočné hodnoty od nami predikovaných.

In [None]:
plt.scatter(y_test,predictions)

## Vyhodnotenie modelu



In [None]:
from sklearn import metrics

print("MAE: ",metrics.mean_absolute_error(y_test, predictions))
print("MSE: ",metrics.mean_squared_error(y_test, predictions))
print("RMSE: ",np.sqrt(metrics.mean_squared_error(y_test, predictions)))

Náš model sa v priemere líši od skutočných hodnôt o hodnotu RMSE. Vo všeobecnosti sa nedá povedať, či ide o maú alebo veľkú ohdnotu. Vždy je nutné porovnať to s hodnotami, ktoré nadobúda naša modelovaná premenná.

## Reziduá

Dostali sme pomerneveľmi dobrý model, ktorý relatívne dobre fituje dáta. Je nutné sa však uistiť, či je s reziduami všetko v poriadku (mali by mať približne normálne rozdelenie). 


In [None]:
sns.displot((y_test-predictions),bins=30, kde=True)

## Záver

Stále chceme nájsť odpoveď na pôvodnú otázku, či zamerať úsiele na vývoj mobilnej aplikácie alebo webovej stránky. Alebo možno na tom vlastne ani nezáleýí a Length of Membership je to, čo je naozaj dôležité. Pozrime sa na naše koeficienty ešte raz.

In [None]:
coeffecients = pd.DataFrame(lm.coef_,X.columns)
coeffecients.columns = ['Coeffecient']
print(coeffecients)

**Mylíte si, že by sa mala spoločnosť viac zamerať na svoju mobilnú aplikáciu alebo na svoj web?**

Je to zložité, existujú dva spôsoby, ako o tom premýšľať: Vyvinúť webovú stránku tak, aby dohnala výkon mobilnej aplikácie, alebo rozvinúť aplikáciu viac, pretože práve to funguje lepšie. Tento druh odpovede skutočne závisí od iných faktorov, ktoré sa dejú v spoločnosti, pravdepodobne by ste chceli preskúmať vzťah medzi dĺžkou členstva a aplikáciou alebo webovou stránkou, než dospejete k záveru!