# Regrese s využitím neuronový sítí


Pro ilustraci použití neuronových sítí v knihovně [TensorFlow](https://www.tensorflow.org/) použijeme opět data set cen nemovitostí.

## Načteme trénovací a testovací data do DataFramu Pandas.

* **Stav** je stav budovy na škále 1 až 10, kde 1 je nejhorší a 10 nejlepší.
* **plocha** je obytná plocha budovy v metrech čtverečních
* **rok_stavby** je rok výstavby domu
* **rok_prodeje** je rok, ve kterém byl dům prodaný
* **cena** je cena, za kterou se dům prodal 

In [1]:
import pandas as pd
data = pd.read_csv("https://raw.githubusercontent.com/mlcollege/ai-academy/main/06-Regrese/data/ceny_domu.csv", sep=',')
data.head()

Unnamed: 0,kvalita,plocha,datum_stavby,datum_prodeje,cena
0,7,158,2003,2008,5.21
1,6,117,1976,2007,4.54
2,7,165,2001,2008,5.59
3,7,159,1915,2006,3.5
4,8,204,2000,2008,6.25


## Rozdělíme si data na trénovací a testovací

In [2]:
from sklearn.model_selection import train_test_split

input_features = ['kvalita', 'plocha', 'datum_stavby',	'datum_prodeje']
target_feature = 'cena'

X_train, X_test, y_train, y_test = train_test_split(data[input_features], data[target_feature], test_size=0.1)
print('Velikost trenovaci mnoziny: {}'.format(len(X_train)))
print('Velikost testovaci mnoziny: {}'.format(len(X_test)))

Velikost trenovaci mnoziny: 1314
Velikost testovaci mnoziny: 146


## Vytvoříme a natrénujeme model neuronové sítě



Nejprve je vhodné data standardizovat stejným zůsobem jako jsme to dělali u logistické regrese. K tomu můžeme použití ScikitLearn.

In [3]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train_std = scaler.transform(X_train)
X_test_std = scaler.transform(X_test)

Nyní můžeme vytvořit model neuronové sítě. Pouužijeme model se třemi vrstvami, přičemž první vrstva bude mít 30 neuronů a aktivační funkci _tanh_, druhá vrstva rovněž a poslední vrstva bude mít pouze jediný neuron s lineární aktivační funkcí. 

In [4]:
%tensorflow_version 2.x
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, Activation

model = Sequential()

model.add(Dense(30, input_shape=(4, )))
model.add(Activation('tanh'))
model.add(Dense(30))
model.add(Activation('tanh'))
model.add(Dense(1))
model.add(Activation('linear'))

Dále je potřeba model zkompilovat. Pro kompilaci musíme zadat několik důležitých parametrů:
* **loss** - chybová funknce, kterou budeme minimalizovat. Vzhledem k tomu, že se jedná o regresi, bude vhodnou funkcí Mean Squared Error.
* **optimizer** - algoritmů pro hledání minima chybové funkce existuje celá řada. Všechny vycházejí z podobných principů a liší se hlavně ve způsobech, jakými minimalizují šanci uvíznutí v nějakém špatném lokálním extrému. Jedním z nejčastěji používaných optimalizátorů je [Adam](https://keras.io/api/optimizers/adam/).
* **metrics** - během trénování umožňuje algoritmus průběžné vypisování aktuální kvality modelu. Pokud o to stojíme, je třeba specifikovat konkrétní metriku. V našem případě jsme zvolili Mean Absolute Error.

In [5]:
model.compile(loss='mean_squared_error',
              optimizer='adam',
              metrics=['mae'])

Samotné trénování se provádí metodou fit a je třeba opět specifikovat několik parametrů:

* trénovací data - X_train_std a y_train
* **batch_size** - počet trénovacích příkladů, které jsou zpracovávány současně.
* **epochs** - počet epoch (průchodů celými trénovacími daty).
* **verbose** - úroveň množství výpisů během trénování
* **validation_data** - data, použitá pro validaci

In [6]:
model.fit(X_train_std, y_train,
          batch_size = 64, epochs = 100, verbose=1,
          validation_data=(X_test_std, y_test))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7fb30f524410>

## Vyhodnocení kvality modelu

Nakonec provedeme predikce pro testovací data a vyhodnotíme výsledky. Pro vyhodnocení použijeme MAE i RMSE. Výsledky můžeme porovnat i s kvalitou dosaženou pomocí linární regrese a rozhodovacích stromů.

In [7]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

y_pred = model.predict(X_test_std)

print ("Vyhodocnoceni kvality MAE: {}, MSE: {}".format(mean_absolute_error(y_test, y_pred), mean_squared_error(y_test, y_pred, squared=False)))

Vyhodocnoceni kvality MAE: 3.1081782491301015, MSE: 3.6889109957126633


Výsledky z linární regrsese a rozhodovacích stromů jsou následující:

Linearni regrese MAE: 0.6578472596904307, MSE: 0.8588766801030574

Random forest MAE: 0.5328928962818005, MSE: 0.74871399470129

Kvalita neuronových sítí pro tuto úlohu je tedy výrazně lepší než u lineární regese a srovnatelná s rozhodovacími stromy.