## **sqml** 

##### INTRODUZIONE

L'obiettivo del tutorial è guidare gli utenti attraverso l'utilizzo del pacchetto sqml, che offre metodi di machine learning, in un ambiente SQL utilizzando Python. 

Il pacchetto supporta quattro classificatori: **knn**, **decision trees**, **random forest**, **logistic regression**.
Per ogni classificatore, vengono messe a disposizione due particolari rappresentazioni: 
- Vettoriale(?): ogni riga di una tabella e una ennupla ordinata di valori (d<sub>1</sub>, d<sub>1</sub>, . . . , d<sub>n</sub>) con d<sub>k</sub> appartenente
al dominio D<sub>k</sub> del corrispondente attributo A<sub>k</sub>.
- Coordinat format (COO): vengono elencate le coordinate degli elementi non nulli della matrice insieme ai rispettivi valori.


Vettoriale:

| Nome     | Età | Città        | Occupazione    | Hobby       |
|----------|-----|--------------|----------------|-------------|
| Alice    | 25  | Roma         | Ingegnere      | Fotografia  |
| Bob      | 30  | Milano       | Designer       | Escursionismo|



COO:

| Riga | Colonna | Valore |
|------|---------|--------|
| 1    | Nome    | Alice  |
| 1    | Età     | 25     |
| 1    | Città   | Roma   |
| 1    | Occupazione | Ingegnere |
| 1    | Hobby   | Fotografia |
| 2    | Nome    | Bob    |
| 2    | Età     | 30     |
| 2    | Città   | Milano |
| 2    | Occupazione | Designer |
| 2    | Hobby   | Escursionismo |

##### CONNESSIONE AL DATABASE

SQML è progettato con l'obiettivo di rimanere indipendente dal tipo di Database Management System (DBMS) utilizzato. <br>
L'uso di SQLAlchemy è una scelta intelligente in questo contesto è un ORM (Object-Relational Mapping) che offre un'astrazione unificata per lavorare con diversi DBMS. <br>
Di conseguenza bisogna creare un engine che verrà utilizzato per interagire col database.

In [None]:
from sqlalchemy import create_engine

engine = create_engine("postgresql://postgres:0698@localhost:5432/classification")

##### Creazione del classificatore:

Dopo aver scelto il classificatore, bisogna importare il pacchetto ed il modulo corretto

In [None]:
# dal pacchetto sqml importo entrambe la rappresentazione vettoriale di DecisionTree
from sqml.decisionTree import *

# costruisco il classificatore
model = DecisionTreeVEC()

##### Preparazione dei Dati:

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data  
y = iris.target 
# split dei dati, alcuni per training altri per test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) 

Operazione per cancellare i dati precedenti non utili per l'esempio corrente

In [None]:
model.clear(engine)

#### Addestramento del modello:

L'operazione di fit addestra il modello, e crea una tabella denominata _training_, nella quale verrà rappresentato il modello (secondo la rappresentazione scelta). Ciò permette di incorporare il modello direttamente nel database. In questo momento si ha  un modello addestrato che può essere utilizzato all'interno dell'ambiente SQL.

In [None]:
model.fit(X_train, y_train, engine)

##### Previsione:

Dopo aver addestrato il modello, la previsione consente di utilizzare il modello per stimare il valore di output per nuovi dati. <br>Nel nostro caso specifico:

In [None]:
model.predict(X_test,engine)

L'operazione di predict carica i dati di test, ovvero i dati sui quali si vuole fare una previsione, in una tabella denominata _test_. <br>
Dopodichè restituisce la previsione.
<br>Attraverso l'utilizzo del pacchetto SQML, la logica predittiva per la classificazione viene completamente gestita all'interno del DBMS mediante l'esecuzione di una query.

####  Performance classificatori rappresentati in modo vettoriale

<table>
  <tr>
    <td><img src="charts/knn.png" alt="Alt Text 1" style="width:400px;"></td>
    <td><img src="charts/dt.png" alt="Alt Text 2" style="width:400px;"></td>
  </tr>
  <tr>
    <td><img src="charts/lr.png" alt="Alt Text 3" style="width:400px;"></td>
    <td><img src="charts/rf.png" alt="Alt Text 4" style="width:400px;"></td>
  </tr>
</table>