# **Reti Neurali & Introduzione a TensorFlow**
## *Problemi non lineari, Reti Neurali e TensorFlow*

Le reti neurali sono ormai sulla bocca di tutti: chiunque le usa per risolvere con successo ogni tipo di problema, ad esempio per la *classificazione* e *regressione*.

Tuttavia, il passo giusto prima di usarle è quello di comprendere effettivamente a cosa servono: in tal senso, introduciamo il concetto di *problema non lineare*. Successivamente verrà fatta una breve introduzioen alla libreria *TensorFlow*.

## **Problemi non lineari**

Diamo un'occhiata al dataset rappresentato nella figura:

![nonlin](Images\nonlinear.png)

Questo dataset è evidentemente *non lineare*: in pratica, questo significa che non esiste un algoritmo in grado di separare in maniera lineare le due classi tra loro o, in termini matematici, non esiste un modello in forma:

$$y=ax_1+bx_2+c$$

che permette di determinare $y$ a partire dalle feature $x_1$ e $x_2$. Ovviamente, se il numero di feature fosse più elevato, il sommatore lineare dovrebbe considerare un maggior numero di variabili indipendenti.

I lettori più audaci potrebbero provare ad usare delle approssimazioni lineari a tratti. Costoro dovrebbero considerare la seguente figura, estremamente non lineare:

![nn](Images\very_nonlinear.png)

 ## **Reti Neurali & Problemi non Lineari**

Per capire come le reti neurali ci aiutano a modellare un problema non lineare, visualizziamo un semplice sommatore pesato. Questo tipo di sommatore è in grado di modellare solo problemi lineari del tipo: $y=w_1x_1+w_2x_2+w_3x_3+b$

![sommatorePesato](Images\linear_1.png)

In questo semplice caso abbiamo tre input ed un output. Proviamo ad aggiungere un ulteriore strato.

![sommatore2](Images\linear_2.png)

Lo strato che abbiamo aggiunto è detto **nascosto**, e rappresenta una serie di valori intermedi considerati dal sommatore nel calcolo dell'uscita.

Quest'ultima non sarà più una somma pesata degli input, ma una *somma pesata dei valori in uscita dallo strato nascosto*, che a loro volta sono *dipendenti* dall'input.

Tuttavia, il modello rimane *lineare*: potremo aggiungere un numero arbitrario di strati nascosti, ma questo sarà sempre vero, a meno che non si usi una particolare funzione, detta di **attivazione**.

## **Funzione di Attivazione**

La modellazione di un problema non lineare prevede l'introduzione di (appunto) *non linearità* all'interno del modello. Nella pratica, potremo inserire delle opportune **funzioni non lineari** tra i diversi *strati* della rete. Queste funzioni sono dette di **attivazione**.

![attivazione](Images\nn.png)

Ovviamente, con un maggior numero di strati nascosti, l'impatto delle non linearità diventa maggiore: in questo modo, saremo in grado di inferire delle relazioni anche molto complesse tra gli input e gli output (predetti).

Le funzioni di attivazione più utilizzate in passato erano di tipo *sigmoidale* (simili, per intenderci, alla funzione che abbiamo visto in uscita alla regressione logistica).

Attualmente, le funzioni più usate sono le **rectified linear unit**, o **ReLU**, che hanno risultati comparabili in termini di accuratezza del modello alla sigmoidale, ma risultano essere significativamente *meno complesse* dal punto di vista computazionale.

Le ReLU sono espresse dalla seguente funzione:

$$y=max(0,x)$$

che graficamente si traduce in una forma espressa come:

![relu](Images\relu.png)

In pratica, una ReLU "fa passare" soltanto i valori positivi, portando a zero tutti quelli negativi.

Riassumendo:

- una rete neurale è data da un **insieme di nodi**, o **neuroni**, organizzati in uno o più **strati**;

- ogni neurone è connesso a quelli dello strato successivo mediante dei **pesi**, che rappresentano la "forza" della connessione;

- esiste una **funzione di attivazione** che trasforma l'uscita di ogni neurone verso lo strato successivo inserendo delle non linearità.

## **TensorFlow e Keras**

**TensorFlow** è una libreria software *open source* per il *machine learning*, che fornisce moduli sperimentati e ottimizzati, utili nella realizzazione di algoritmi per diversi tipi di compiti percettivi e di comprensione del linguaggio.

La sua interfaccia è abbastanza a basso livello, basato sull'utilizzo di *oggetti tensoriali*. Pertanto per facilitarne l'uso utilizzeremo una libreria basata su TensorFlow, `Keras`, successivamente integrata in esso.

In particolare **keras** è una **API** (*interfaccia di programmazione di una applicazione*), progettata come un'interfaccia a un livello di *astrazione superiore* di altre librerie simili di più basso livello e supporta come *back-end* la libreria *TensorFlow*. 

In [1]:
import numpy as np
from tensorflow import keras
from keras.preprocessing.text import Tokenizer
from keras.datasets import reuters, boston_housing
from keras import models, layers
from keras.utils import to_categorical

Ad esempio affrontiamo un problema di **classficazione** usando il dataset built-in di keras *"Reuters"*, la cui descrizione è:

*" This is a dataset of 11,228 newswires from Reuters, labeled over 46 topics.*

*Each newswire is encoded as a list of word indexes (integers).*

*For convenience, words are indexed by overall frequency in the dataset,*
*so that for instance the integer "3" encodes the 3rd most frequent word in the data. "*

In [2]:
# Simile alla funzione di Scikit Learn "train_test_split" dove ci sono 4 valori restituiti
# qui vengono restituite invece 2 tuple

# Il valore delle x cambia (sono articoli di giornale quindi hanno lunghezze quindi parole diverse)
(x_train, y_train), (x_test, y_test) = reuters.load_data()


In [3]:
# Preprocessing avanzato
# Rendo omogeneo il dataset, lo 'tokenizzo'

num_classes = np.amax(y_train)+1   # Garantisco coerenza così tra y_train e y_test
tokenizer = Tokenizer(num_words=1000) # Numero massimo di parole che voglio mantenere (le parole sono ordinate per numero di occorrenze)
x_train = tokenizer.sequences_to_matrix(x_train, mode='binary') # Converte x_train in array fissi "1" se c'è la parola tra le 1000(tokenizer) "0" se non c'è
x_test = tokenizer.sequences_to_matrix(x_test, mode='binary')
y_train = to_categorical(y_train, num_classes) # Trasforma la rappresentazione di y_train\test in una serie di 0 e 1. "One-hot Encoder"
y_test = to_categorical(y_test, num_classes)


**Keras** offre due interfacce per creare una *rete neurale*

- **Interfaccia Sequenziale**: prevede dei livelli della rete neurali che siano aspirabili a delle *sequenze di strati nascosti* (input --> 1° strato nascosto --> 2° strato nascosto --> ... --> output)

- **Interfaccia Funzionale**: alcune reti neurali hanno delle biforcazioni, possono muoversi tra i layers, sono strutture più complesse.

Tra i tipi di *layers* esistono i **Dense Layer**, chiamati tali perchè è **completamente connesso** (come la figura di rete neurale vista precedentemente)

In [4]:
# Modello con 1 un layer con 8 neuroni
# L'input è agganciato alla x e l'output alla y

model = models.Sequential()
model.add(layers.Dense(8, activation='relu', input_shape=(1000,))) 
model.add(layers.Dense(num_classes, activation='softmax')) #Softmax è simile alla funzione di regressione logistica
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 8)                 8008      
                                                                 
 dense_1 (Dense)             (None, 46)                414       
                                                                 
Total params: 8,422
Trainable params: 8,422
Non-trainable params: 0
_________________________________________________________________


Dopo aver creato il nostro modello, dobbiamo specificare:

1. **L'ottimizzatore** ci permette di ottimizzare la funzione di costo (*"SVG", "Adam", ...*)

2. **La funzione di costo** ad esempio *categorical crossentropy, sparse crossentropy e binary crossentropy"*. La binary per classificaizone binarie, categorical per le categoriche

3. **La metrica** come ad esempio la *accuracy*

In [5]:

model.compile(optimizer='adam',
              loss = 'categorical_crossentropy',
              metrics=['acc'])

# Effettuo l'addestramento
# Il batch è la quantità di dati che passo ad ogni epoca,
# in quanto su ogni epoca lavoro su un subset dei dati

model.fit(x_train, y_train, epochs=10, batch_size=32)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x2611aa61a90>

Osservo che alla decima iterazione ho un determinato valore di *accuracy*. L'accuracy però si dovrebbe utilizzare sui *dati di test*.

Usandola sui *dati di training* non riesco ad occergermi se ci è stato un *overfitting*, ossia se la rete si è affezionata ai dei meccanismi propri del dati di *training*

Modifico adesso il modello aggiungedo dei layers:

In [6]:
# Modello con 2 layers con 16 neuroni

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(1000,)))
model.add(layers.Dense(16, activation='relu')) 
model.add(layers.Dense(num_classes, activation='softmax')) #Softmax è simile alla funzione di regressione logistica
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 16)                16016     
                                                                 
 dense_3 (Dense)             (None, 16)                272       
                                                                 
 dense_4 (Dense)             (None, 46)                782       
                                                                 
Total params: 17,070
Trainable params: 17,070
Non-trainable params: 0
_________________________________________________________________


In [7]:
model.compile(optimizer='adam',
              loss = 'categorical_crossentropy',
              metrics=['acc'])

# Effettuo l'addestramento

model.fit(x_train, y_train, epochs=10, batch_size=32)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x2611a0c50d0>

Tendenzialmente aumentare il *numero di neuroni* e *numero di epoche* **aumenta** l'efficienza della rete.

Affrontiamo adesso un problema di **regressione**, usando il dataset *"Boston Housing"*:

*"Samples contain 13 attributes of houses at different locations around the Boston suburbs in the late 1970s. Targets are the median values of the houses at a location (in k$)"*

In [8]:
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

In [9]:
# modello a 32 neuroni addestrato per 10 epoche

model = models.Sequential()
model.add(layers.Dense(32, activation='relu', input_shape=(13,)))
model.add(layers.Dense(1)) #Nell'uscita è solo un valore predetto 1

model.compile(optimizer='rmsprop',
              loss ='mse', #mean squared error
              metrics=['mae']) #mean absolute error

model.fit(x_train, y_train, epochs=10, batch_size=32)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x26117a6a790>