### **sqml**

L'obiettivo del progetto è quello di realizzare un pacchetto Python che metta a disposizione metodi di machine learning, la cui logica predittiva sia implementata utilizzando SQL. 

Esprimere gli algoritmi direttamente in SQL porta i seguenti vantaggi:
- **Calcolo vicino ai dati:** 
  - Consente agli utenti di eseguire calcoli direttamente all'interno del database, evitando l'estrazione dei dati.
  - Garantisce una maggiore sicurezza dei dati, poiché i dati sensibili non lasciano l'ambiente controllato del database.
  - Riduce i costi associati all'esportazione dei dati dal database verso altre applicazioni o sistemi.

- **Portabilità:**
  - Se gli algoritmi SQL utilizzano un sottoinsieme SQL comune
 supportato da più fornitori di DBMS, gli algoritmi possono essere
 eseguire su altri DBMS senza modifiche.
 
- **Potenza di calcolo dei DBMS**
  - Le capacità di calcolo dei DBMS permettono di gestire grandi volumi di dati in modo efficiente e rapido.



##### **Classificatori Supportati da sqml**

Il pacchetto sqml supporta quattro classificatori principali:

1. **K-Nearest Neighbors (knn)**
2. **Decision Trees**
3. **Random Forest**
4. **Logistic Regression**

Per ciascun classificatore, sono disponibili due rappresentazioni alternative dei dati:

Vettoriale:

| Nome     | Età | Città        | Occupazione    | Hobby       |
|----------|-----|--------------|----------------|-------------|
| Alice    | 25  | Roma         | Ingegnere      | Fotografia  |
| Bob      | 30  | Milano       | Designer       | Escursionismo|


COO:

| Riga | Colonna | Valore |
|------|---------|--------|
| 1    | Nome    | Alice  |
| 1    | Età     | 25     |
| 1    | Città   | Roma   |
| 1    | Occupazione | Ingegnere |
| 1    | Hobby   | Fotografia |
| 2    | Nome    | Bob    |
| 2    | Età     | 30     |
| 2    | Città   | Milano |
| 2    | Occupazione | Designer |
| 2    | Hobby   | Escursionismo |


Queste rappresentazioni alternative permettono agli utenti di scegliere quella più adatta alle proprie esigenze e di lavorare con dati strutturati in modo diverso.


##### Struttura del pacchetto

##### Dipendenze del pacchetto

Il pacchetto sfrutta ha le seguenti dipendenze:      
- 'scikit-learn': Questo pacchetto ha servito da base per la costruzione di sqml, e la fase di addestramento è delegata ad esso.
- 'sqlalchemy': Utilizzando SQLAlchemy, il nostro pacchetto può essere indipendente dal tipo di database utilizzato, consentendo l'interoperabilità con vari sistemi di gestione di database come PostgreSQL, MySQL, SQLite e altri. SQLAlchemy è un ORM (Object-Relational Mapping), permette quindi di mappare le tabelle del database a classi Python e le righe delle tabelle a istanze di queste classi, semplificando l'interazione con il database e rendendo il codice più leggibile e manutenibile.

Altre dipendenze: numpy, pandas.

##### Utilizzo del pacchetto:

In [1]:
#preparazione dati
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data  
y = iris.target 
# split dei dati, alcuni per training altri per test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) 

In [2]:
#connessione db
from sqlalchemy import create_engine

sqlite = 'sqlite:///data/data.sqlite' 
postgres = 'postgresql://postgres:0698@localhost:5432/classification' 
model = DecisionTreeVEC()


# importare classe di albero decisionale per rappresentazione vettoriale
from sqml.decisionTree import *
model = DecisionTreeVEC()
model.clear(engine)
model.fit(X_train, y_train, engine)
results = model.predict(X_test,engine)
print(results)


[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0]


In [None]:

sqlite = 'sqlite:///data/data.sqlite'  
engine = create_engine(sqlite)

from sqml import decisionTree.DecisionTreeCOO
# creazione istanza modello
model = DecisionTreeCOO() 

# addestramento modello
model.fit(X_train, y_train, engine)

# predizione
model.predict(X_test)


In [3]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, results) 
print(f"Precisione del classificatore: {accuracy*100}%")

Precisione del classificatore: 100.0%
