## Intro

Per installare scikit-learn:

In [1]:
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\andre\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip' command.


In [8]:
import numpy as np

## Regressione lineare semplice

### OLS
Basato su indipendenza delle features

In [38]:
x = np.array([[0, 0], [1, 1], [2, 2]])
y = np.array([0, 1, 2])

In [39]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression(fit_intercept= True)
reg.fit(x,y)

In [42]:
reg.coef_[0]  # pendenza retta

0.5

In [43]:
reg.intercept_

1.1102230246251565e-16

In [None]:
evaluate(reg, (x,y)) # Per calcolo R^2 e RMSE

Si possono anche cercare i Non negative Least Squared, ovvero con coefficienti tutti non negativi, utile in caso  di rappresentazione di alcuni fenomeni fisici o naturali che non possono assumere valori negativi. 

## Ridge regression
Per compensare alcuni problemi degli OLS, imponendo una penalità per la dimensione dei coefficienti

In [21]:
x = np.array([[0, 0], [1, 1], [2, 2]])
y = np.array([0, 1, 2])

In [22]:
from sklearn import linear_model
reg = linear_model.Ridge(alpha=.5)
reg.fit(x,y)

In [23]:
reg.coef_

array([0.44444444, 0.44444444])

In [24]:
reg.intercept_

0.11111111111111116

## Elastic Net
Modello di regressione lineare utilizzato con normo-regolarizzazione dei coefficienti *l1* e *l2*; utile per modelli sparsi, che mantengono pesi non uguali a 0 (come il Lasso) mantenendo le proprietà di regolarizzazione del Ridge.   

In [None]:
from sklearn.linear_model import ElasticNet
regr = ElasticNet(random_state=0)
regr.fit(X, y)

In [None]:
regr.coef_

In [None]:
regr.intercept_

In [None]:
regr.predict([[0, 0]])

## Lasso 
Modello lineare che permette la stima di coefficienti sparsi; si può preferire in contesti dove si preferiscono soluzioni con pochissimi o 0 coefficienti con valori non nulli. (il parametro alpha definisce il livello di sparsità dei coefficienti stimati)

In [None]:
x = np.array([[0, 0], [1, 1], [2, 2]])
y = np.array([0, 1, 2])

In [25]:
from sklearn import linear_model
reg = linear_model.Lasso(alpha=.1)
reg.fit(x,y)

In [26]:
reg.coef_

array([0.85, 0.  ])

In [27]:
reg.intercept_

0.15000000000000002

## Modelli lineari generalizzati
Modelli di regressione lineare in cui la funzione di perdita è rimpiazzata dalla devianza di una distribuzione particolare (Normale, Poisson, Gamma, inversa della Gaussiana...)

La distribuzione dipende dal parametro di partenza:
- = 0 distribuzione Normale
- = 1 distribuzione di Poisson
- = 2 distribuzione Gamma
- = 3 inversa della distribuzione Gaussiana

In [None]:
x = np.array([[0, 0], [1, 1], [2, 2]])
y = np.array([0, 1, 2])

In [29]:
from sklearn.linear_model import TweedieRegressor
reg = TweedieRegressor(power=1, alpha=0.5, link='log')
reg.fit(x,y)

In [30]:
reg.coef_

array([0.38885627, 0.38885627])

In [31]:
reg.intercept_

-0.9699690512672052

## Regressione con SVM (Support Vector Machines)
Si chiama anche SVR, o Support Vector Regression.

Ci sono tre tipi possibili, come per la classificazione delle SVM:
- SVR: considera solo il kernel lineare;
- LinearSVR: fornisce un'implementazione più rapida;
- NuSVR: formulazione diversa dalle precedenti. 

In [32]:
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]

In [33]:
from sklearn import svm
regr = svm.SVR()
regr.fit(X, y)

In [34]:
regr.predict([[1, 1]])

array([1.5])

In [None]:
# OPPURE
# DA PROVARE

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from scripts.viz import plot_bounds

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

le = LabelEncoder()
Y_train = le.fit_transform(Y_train)
Y_test = le.transform(Y_test)

ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

from sklearn.svm import LinearSVC

svc = LinearSVC()
svc.fit(X_train, Y_train)
print("ACCURACY con tutte le proprietà: Train=%.4f Test=%.4f" % (svc.score(X_train, Y_train), svc.score(X_test,Y_test)))

## Decision Tree e Random Forest

### Regressione con Decision Tree

In [46]:
from sklearn import tree

In [47]:
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]

In [48]:
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)

In [49]:
clf.predict([[1, 1]])

array([0.5])

In [None]:
# OPPURE
# DA PROVARE

df = pd.get_dummies(df)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

from sklearn.tree import DecisionTreeClassifier

#gini è il valore di default, quindi potremmo anche omettere il parametro; altri sono 'entropy' e 'log_loss'

tree = DecisionTreeClassifier(criterion="gini", max_depth=6) 
tree.fit(X_train, Y_train)

y_pred_train = tree.predict(X_train)
y_pred = tree.predict(X_test)

accuracy_train = accuracy_score(Y_train, y_pred_train)
accuracy_test = accuracy_score(Y_test, y_pred)

print("ACCURACY: TRAIN=%.4f TEST=%.4f" % (accuracy_train,accuracy_test))

In [None]:
from sklearn.tree import export_graphviz # per visualizzarli

dotfile = open("tree.dot", 'w')
export_graphviz(tree, out_file = dotfile, feature_names = titanic.columns.drop("Survived"))
dotfile.close()

### Regressione con Random Forest

In [45]:
from sklearn.ensemble import RandomForestRegressor

In [51]:
rng = np.random.RandomState(42)
x = 10 * rng.rand(200)
def model(x, sigma=0.3):
    fast_oscillation = np.sin(5 * x)
    slow_oscillation = np.sin(0.5 * x)
    noise = sigma * rng.randn(len(x))
    return slow_oscillation + fast_oscillation + noise

y = model(x)

In [52]:
forest = RandomForestRegressor(200)
forest.fit(x[:, None], y)

In [1]:
# OPPURE
# DA PROVARE

from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(n_estimators=30, max_depth=8, random_state=False)

forest.fit(X_train, Y_train)

y_pred_train = forest.predict(X_train)
y_pred = forest.predict(X_test)

accuracy_train = accuracy_score(Y_train, y_pred_train)
accuracy_test = accuracy_score(Y_test, y_pred)

print("ACCURACY: TRAIN=%.4f TEST=%.4f" % (accuracy_train,accuracy_test))

## Regressione logistica
Chiamata anche logit regression, dove le probabilità che descrivono l’outcome sono modellate utilizzando una funzione logistica

In [None]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X, y)

In [None]:
clf.predict(X[:2, :])

In [None]:
clf.predict_proba(X[:2, :])

In [None]:
clf.score(X, y)

In [None]:
clf.intercept_

In [None]:
clf.coef_

## SGD (Stochastic Gradient Descent)
Modello semplice ma molto efficace quando il numero dei campioni e delle features è molto elevato

In [None]:
from sklearn.linear_model import SGDRegressor
from sklearn.pipeline import make_pipeline    # bisogna sempre scalare l’input
reg = make_pipeline(StandardScaler(), SGDRegressor(max_iter=1000, tol=1e-3))
reg.fit(X, y)

In [None]:
reg.intercept_

In [None]:
reg.coef_

In [None]:
# OPPURE
# DA PROVARE

from sklearn.linear_model import SGDClassifier
sgd = SGDClassifier(loss="log", verbose=False, shuffle=True) #verbose ci mostrerà informazioni sull'avanzamento dell'addestramento<
sgd.fit(X_train,Y_train)
print("LOSS: %.4f" % (log_loss(Y_test, sgd.predict_proba(X_test))))

In [None]:
from sklearn.utils import shuffle

epochs = 5

n_batches=X_train.shape[0]
batch_size = X_train.shape[0]/n_batches

classes = np.unique(Y_train)

sgd = SGDClassifier(loss="log")
sgd_losses = []

for epoch in range(epochs):
        X_shuffled, Y_shuffled = shuffle(X_train, Y_train)
        for batch in range(n_batches):
            batch_start = int(batch*batch_size)
            batch_end = int((batch+1)*batch_size)
            X_batch = X_shuffled[batch_start:batch_end,:]
            Y_batch = Y_shuffled[batch_start:batch_end]

            sgd.partial_fit(X_batch, Y_batch, classes=classes)
            loss = log_loss(Y_test, sgd.predict_proba(X_test),labels=classes)
            sgd_losses.append(loss)       
        print("Loss all'epoca %d = %.4f" % (epoch+1, loss))

## Perceptron 
Modello semplice, lavora bene su dataset enormi, aggiorna il suo modello in base agli errori che esso compie in fase di apprendimento

In [None]:
from sklearn.linear_model import Perceptron
clf = Perceptron(tol=1e-3, random_state=0)
clf.fit(X, y)

In [None]:
clf.score(X, y)

## KNearest Neighbors Regression 
Utile quando ci sono più variabili continue che discrete; basato sui *k* vicini di ogni punto, con *k* specificato dall’utente

In [1]:
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

In [2]:
from sklearn.neighbors import KNeighborsRegressor
neigh = KNeighborsRegressor(n_neighbors=2)
neigh.fit(X, y)

In [3]:
neigh.predict([[1.5]])

array([0.5])

In [2]:
# OPPURE
# DA PROVARE

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import log_loss
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MinMaxScaler

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

mms = MinMaxScaler()
X_train = mms.fit_transform(X_train)
X_test = mms.transform(X_test)

from sklearn.neighbors import KNeighborsClassifier

Ks = [1,2,3,4,5,7,10,12,15,20]

for K in Ks:
    print("K="+str(K))
    knn = KNeighborsClassifier(n_neighbors=K)
    knn.fit(X_train,Y_train)
    
    y_pred_train = knn.predict(X_train)
    y_prob_train = knn.predict_proba(X_train)
    
    y_pred = knn.predict(X_test)
    y_prob = knn.predict_proba(X_test)
    
    accuracy_train = accuracy_score(Y_train, y_pred_train)
    accuracy_test = accuracy_score(Y_test, y_pred)

    loss_train = log_loss(Y_train, y_prob_train)
    loss_test = log_loss(Y_test, y_prob)
    
    print("ACCURACY: TRAIN=%.4f TEST=%.4f" % (accuracy_train,accuracy_test))
    print("LOG LOSS: TRAIN=%.4f TEST=%.4f" % (loss_train,loss_test))

## Radius Nearest Neighbors Regression 
Utile quando ci sono più variabili continue che discrete; basato sul raggio radius in cui si considerano vicini i vari punti, con radius specificato dall’utente

In [4]:
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

In [6]:
from sklearn.neighbors import RadiusNeighborsRegressor
neigh = RadiusNeighborsRegressor(radius=1.0)
neigh.fit(X, y)

In [11]:
neigh.predict([[1.5]])



array([0.5])

## Bagging
Classe di algoritmi che costruisce diversi stimatori di campioni random presi dal dataset di training, e poi forma una previsione finale aggregando queste singole stime; utili per ridurre la varianza di uno stimatore base; in generale si usano spesso per migliorare le stime di un singolo stimatore senza doverlo adattare ad un modello completamente diverso

In [None]:
from sklearn.ensemble import BaggingRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_samples=100, n_features=4, n_informative=2, n_targets=1, random_state=0, shuffle=False)
regr = BaggingRegressor(estimator=SVR(), n_estimators=10, random_state=0).fit(X, y)

In [None]:
regr.predict([[0, 0, 0, 0]])

## AdaBoost 
Fitta una sequenza di modelli deboli su versioni modificate del dataset di training, e poi combina queste previsioni, pesandole in base alla precisione, per una previsione finale

In [None]:
from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features=4, n_informative=2, random_state=0, shuffle=False)
regr = AdaBoostRegressor(random_state=0, n_estimators=100)
regr.fit(X, y)

In [None]:
regr.predict([[0, 0, 0, 0]])

In [None]:
regr.score(X, y)

## Gradient Boosting
Generalizzazione del boosting

In [None]:
from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)

In [None]:
reg.predict(X_test[1:2])

In [None]:
reg.score(X_test, y_test)

## MLP (Multi Layer Perceptron)
Usa l'errore quadratico come funzione di perdita

In [None]:
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import train_test_split
X, y = make_regression(n_samples=200, random_state=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
regr = MLPRegressor(random_state=1, max_iter=500).fit(X_train, y_train)

In [None]:
regr.predict(X_test[:2])

In [None]:
regr.score(X_test, y_test)

In [None]:
# OPPURE
# DA PROVARE

import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import log_loss
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MinMaxScaler

from scripts.mnist import load_mnist

X_train, X_test, Y_train, Y_test = load_mnist(path="MNIST")
print("Numero totale di proprietà: "+str(X_train.shape[1]))
print("Esempi di training: "+str(X_train.shape[0]))
print("Esempi di test: "+str(X_test.shape[0]))

mms = MinMaxScaler()
X_train = mms.fit_transform(X_train)
X_test = mms.transform(X_test)

from sklearn.neural_network import MLPClassifier

mlp = MLPClassifier(hidden_layer_sizes=(100,), verbose=True)
mlp.fit(X_train, Y_train)
    
y_pred_train = mlp.predict(X_train)
y_prob_train = mlp.predict_proba(X_train)
    
y_pred = mlp.predict(X_test)
y_prob = mlp.predict_proba(X_test)
    
accuracy_train = accuracy_score(Y_train, y_pred_train)
accuracy_test = accuracy_score(Y_test, y_pred)

loss_train = log_loss(Y_train, y_prob_train)
loss_test = log_loss(Y_test, y_prob)
    
print("ACCURACY: TRAIN=%.4f TEST=%.4f" % (accuracy_train,accuracy_test))
print("LOG LOSS: TRAIN=%.4f TEST=%.4f" % (loss_train,loss_test))