# Metriche Errore

- Nella regressione lineare o multipla, una volta generato il modello predittivo, possiamo calcolarne l'errore rispetto ai punti tenuti per il test.
- Errore è la differenza tra il target test (che non ha influito nella creazione del modello), e la predizione del modello negli stessi punti del test.

>tipicamente nella regressione lineare/multipla i punti più estremi saranno affetti dall'errore maggiore in quanto la retta è molto rigida come 

## Errore nella regressione


Le metriche dell'errore che ci possono aiutare a capire la bontà del modello sono:
(si calcolano sulle variabile del test sono nel modulo metrics di scikitlearn)

### Mean Absolute Error

media degli errori valutati come differenze rispetto al valore predetto. Si rischia che gli errori si compensino.

### mean squared error

per evitare che gli errori si cancellino valuto il loro quadrato 

### Root Mean Square Error

dalla mean square error faccio la radice quadrata e ritorno alla stessa dimensione della variabile di partenza.

### Coefficiente di Determinazione
**R-quadro-Score** numero compreso tra 0-1 che definisce quanto bene il modello si adatta ai dati.

## Step per arrivare al modello

1. definire qual'è il target (`y`) e quale parte dei dati è la feature (`X`)
   1. suddividere sia target che feature in 2 insiemi Train e Test 
2. Capire quale può essere il modello migliore da generare per rappresentare il problema (LinearRegression, MultipleRegression, LogisticRegression, ecc...)
3. Creare il Modello 
4. Calcolare la predizione usando la parte di test delle feature per ottenere una previsone della target generata dal modello
5. Calcolare gli 'errori' del modello sulla base delle predizioni generate dal test rispetto alle target tenute da parte per il test


In [3]:
import pandas as pd
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
import mlem
import joblib




ModuleNotFoundError: No module named 'mlem'

## Salvare i modelli
Generare un file binario che contiene il modello.
Per generare questo file si usa Joblib.
Usando il metodo dump `joblib.dump(mio_modello, prediction.pkl)` l'estensione non è importante ma tradizionalmente si usa pkl (pickle).

Per usare il modello si usa il metodo `joblib.load(nome_modello.pkl)`

Il training serve a generare il modello, trovato il modello lo salvo in binario e lo importo e uso quando serve

## MLEM

Nuova libreria che funziona come joblib ma permette, tramite metatag, di far capire agli sviluppatori come utilizzare il modello cosa che con joblib non era possibile.
I metodi da usare sono:
- per la generazione `mlem.api.save(nome_modello, nome_modello_, sample_data= X_train)` dove nome_modello è il file binario, nome_modello_ è il file di metatag, sample_data= è l'array preso per generare il modello.
- `mlel.api.load()`

In [8]:
# Generazione del modello 
## importo i dati dal csv
df = pd.read_csv("https://frenzy86.s3.eu-west-2.amazonaws.com/python/data/Startup.csv")
df

Unnamed: 0,R&D Spend,Administration,Marketing Spend,Profit
0,165349.2,136897.8,471784.1,192261.83
1,162597.7,151377.59,443898.53,191792.06
2,153441.51,101145.55,407934.54,191050.39
3,144372.41,118671.85,383199.62,182901.99
4,142107.34,91391.77,366168.42,166187.94
5,131876.9,99814.71,362861.36,156991.12
6,134615.46,147198.87,127716.82,156122.51
7,130298.13,145530.06,323876.68,155752.6
8,120542.52,148718.95,311613.29,152211.77
9,123334.88,108679.17,304981.62,149759.96


In [27]:
## definisco i test e train set

X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=["Profit"]), df["Profit"], random_state=42, test_size=0.33)
train_test_split(df.drop(columns=["Profit"]), df["Profit"], random_state=42, test_size=0.33)


[    R&D Spend  Administration  Marketing Spend
 46    1315.46       115816.21        297114.46
 47       0.00       135426.92             0.00
 15  114523.61       122616.84        261776.23
 9   123334.88       108679.17        304981.62
 16   78013.11       121597.55        264346.06
 24   77044.01        99281.34        140574.81
 34   46426.07       157693.92        210797.67
 31   61136.38       152701.92         88218.23
 0   165349.20       136897.80        471784.10
 44   22177.74       154806.14         28334.72
 27   72107.60       127864.55        353183.81
 33   55493.95       103057.49        214634.81
 5   131876.90        99814.71        362861.36
 29   65605.48       153032.06        107138.38
 11  100671.96        91790.61        249744.55
 36   28663.76       127056.21        201126.82
 1   162597.70       151377.59        443898.53
 21   78389.47       153773.43        299737.29
 2   153441.51       101145.55        407934.54
 43   15505.73       127382.30         3

In [10]:
## genero il modello 

model = LinearRegression();
model.fit(X_train, y_train)
model

In [35]:
## Calcolo gli errori

y_pred = model.predict(X_test)
y_pred
# scarto = y_pred - y_test
# scarto

array([127262.67887963,  83628.42273586,  99410.80060815,  47272.13837566,
       129872.05095853,  49300.62401558, 110383.74620084, 101974.58242029,
        98943.34934344, 115633.97224252, 128987.14008892, 172389.58497925,
        89744.89077441, 151526.98290452, 173744.6215336 , 158288.28142805,
        74633.56534586])

In [31]:
### MAE 
mean_absolute_error(y_test, y_pred)

5817.222734586708

In [32]:
### MSE 
mean_squared_error(y_test, y_pred)

57358376.281903416

In [33]:
### RMSE

mean_squared_error(y_test, y_pred, squared=False)

7573.5312953670045

In [34]:
r2_score(y_test, y_pred)

0.9596896814469176

In [1]:
## creazione dei binari dento alla cartella model di streamlit

mlem.api.save(model, "../streamlit/model/multiple_reg", "../streamlit/model/multiple_reg_", sample_data=X_train)

NameError: name 'mlem' is not defined

# Streamlit Advanced
## loggin in degli utenti

Per qualsiasi servizio di log-in c'è bisogno di un sistema per tenere traccia degli utenti registrati (e le loro psw), il nostro programma andrà poi a controllare se alla richiesta di accesso vengono presentate delle credenziali valide.

Per semplificare le cose creiamo un file json con le credenziali, in realtà ci servirebbe un DB.

Per utilizzare il file jason dobbiamo aprire il file e leggerlo, per aprire il file con python si usa [with](https://docs.python.org/3/reference/compound_stmts.html#with)

Per rendere più sicuro il sistema si possono prendere accorgimenti come creare l'has della pagina per evitare di tenere le psw in chiaro

## multipage

