# Machine Learning con Python

Carichiamo i dati del famaso dataset iris.

Citazione
Fisher,R. A.. (1988). Iris. UCI Machine Learning Repository. https://doi.org/10.24432/C56C76. This dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. https://creativecommons.org/licenses/by/4.0/legalcode

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np

In [None]:
iris=sns.load_dataset("iris")

In [None]:
iris.head(5)

In [None]:
#se non hai installato seaborn
iris = pd.read_csv(filepath_or_buffer="iris.csv",
                  header=1)

Diamo preliminarmente un'occhiata ai dati

In [None]:
iris.info()

Partiamo con una lista contenente i valori di un nuovo iris

In [None]:
nuovo_iris = [4.3, 3.2, 1.4, 0.3]

In [None]:
#Osservazione: su python posso valorizzare più variabili contemporneamente con questa sintassi
#x, y, z, w = 4.3, 3.2, 1.4, 0.3

Creiamo una colonna distanza

In [None]:
iris["distanza"] = np.sqrt( (iris["sepal_length"]-nuovo_iris[0])**2 + \
                            (iris["sepal_width"]-nuovo_iris[1])**2 + \
                            (iris["petal_length"]-nuovo_iris[2])**2 + \
                            (iris["petal_width"]-nuovo_iris[3])**2) 

Ordiniam i valori dello storico per distanza e prendiamo l'iris più vicino

In [None]:
iris.sort_values(by="distanza", ascending = True).head(1)

# Generalizziamo il procedimento con scikit-learn

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

import pandas as pd
import numpy as np
import seaborn as sns

Importiamo il dataset iris

In [None]:
iris=sns.load_dataset("iris")

In [None]:
#se non hai installato seaborn
iris = pd.read_csv(filepath_or_buffer="iris.csv",
                  header=1)

Ripassiamo come si "elimina" una colonna

In [None]:
iris.drop("species", axis=1).head(5)

Dividiamo i dati in training e test utilizzando from il metodo train_test_split di scikit-learn

In [None]:
features_training,features_test, target_training, target_test = train_test_split(iris.drop("species", axis=1),
                                                                   iris[["species"]],
                                                                   test_size = 0.3,
                                                                   shuffle = True,
                                                                   random_state = 1)

Guardiamo i quattro dataset

In [None]:
features_training.head(5)

In [None]:
target_training.head(5)

In [None]:
features_test.head(5)

In [None]:
target_test.head(5)

Istanziamo l'algoritmo K-Neighbours tramite scikit-learn

In [None]:
knc = KNeighborsClassifier(n_neighbors=1)

Alleniamolo soltanto sui dati di training tramite il metodo fit

In [None]:
#per eliminare il warning usare target_training.values.ravel()
knc.fit(features_training,target_training)

Utilizziamo il metodo allenato per calcolare le predizioni sui dati di test tramite il metodo predict

In [None]:
predizioni = knc.predict(features_test)
predizioni

Con il metodo score posso calcolare quante di queste predizioni sono corrette

In [None]:
score = knc.score(features_test,target_test)
score

Ricreiamo il dataset features_test aggiungendo i valori delle classi reali e predette

In [None]:
iris_completo = features_test.copy()
iris_completo["species_originale"]=target_test["species"]
iris_completo["species_predetta"]=predizioni
iris_completo.head(5)

Vediamo gli errori

In [None]:
iris_completo.query("species_originale != species_predetta")

Calcoliamo di nuovo l'accuratezza "manualmente"

In [None]:
len(iris_completo.query("species_originale == species_predetta"))/len(iris_completo)

Calcoliamo la matrice di confusione

In [None]:
confusion_matrix(target_test, predizioni)

Graficamente

In [None]:
ConfusionMatrixDisplay.from_predictions(target_test, predizioni)

## Utilizziamo altri algoritmi di Machine Learning ed estendiamo il processo di lavorazione dei dati

In [None]:
from sklearn.impute import SimpleImputer

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

import pandas as pd
import numpy as np
import seaborn as sns

Reimportiamo il dataset e dividiamo i dati in training e test (random_state = 0 ci garantisce di avere gli stessi dati di prima)

In [None]:
iris=sns.load_dataset("iris")

In [None]:
features_training,features_test, target_training, target_test = train_test_split(iris.drop("species", axis=1),
                                                                   iris[["species"]],
                                                                   test_size = 0.3,
                                                                   shuffle = True,
                                                                   random_state = 1)

Valorizziamo i valori mancanti. Partiamo istanziando la classe SimpleImputer di Scikit-learn

In [None]:
imputer = SimpleImputer(strategy='mean')

Alleniamo l'oggetto imputer sui dati di training

In [None]:
imputer.fit(features_training)

Utilizziamo il metodo allenato per trasformare i dati di training e di test

In [None]:
features_training_imputed = pd.DataFrame(
    imputer.transform(features_training),
    columns=features_training.columns,
    index=features_training.index
)

In [None]:
features_training_imputed.head(5)

In [None]:
features_test_imputed = pd.DataFrame(
    imputer.transform(features_test),
    columns=features_test.columns,
    index=features_test.index
)

In [None]:
features_test_imputed.head(5)

Applichiamo la normalizzazione dei dati. Partiamo istanziando la classe StandardScaler di Scikit-learn

In [None]:
scaler = StandardScaler() 

Alleniamo l'oggetto sui dati di training

In [None]:
scaler.fit(features_training_imputed)

Utilizziamo il metodo allenato per trasformare i dati di training e di test

In [None]:
features_training_standard = pd.DataFrame(
    scaler.transform(features_training_imputed),
    columns=features_training_imputed.columns,
    index=features_training_imputed.index
)

In [None]:
features_training_standard.head(5)

In [None]:
features_test_standard = pd.DataFrame(
    scaler.transform(features_test_imputed),
    columns=features_test_imputed.columns,
    index=features_test_imputed.index
)

In [None]:
features_test_standard.head(5)

Applichiamo un altro algoritmo di Machine Learning: il Perceptron. Istanziamo la classe relativa da scikit-learn

In [None]:
pcp = Perceptron(random_state = 0, alpha=0.001)

Alleniamola soltanto sui dati di training

In [None]:
#per eliminare il warning usare target_training.values.ravel()
pcp.fit(features_training_standard,target_training )

Utilizziamo il metodo allenato per calcolare le predizioni sui dati di test

In [None]:
predizioni = pcp.predict(features_test_standard)
predizioni

Con il metodo score posso calcolare quante di queste predizioni sono corrette

In [None]:
score = pcp.score(features_test_standard,target_test)
score

Ricreiamo il dataset features_test aggiungendo i valori delle classi reali e predette

In [None]:
iris_completo = features_test.copy()
iris_completo["species_originale"]=target_test["species"]
iris_completo["species_predetta"]=predizioni
iris_completo.head(5)

In [None]:
iris_completo.query("species_originale != species_predetta")

Calcoliamo di nuovo l'accuratezza "manualmente"

In [None]:
len(iris_completo.query("species_originale == species_predetta"))/len(iris_completo)

Calcoliamo la matrice di confusione

In [None]:
confusion_matrix(target_test, predizioni)

Graficamente

In [None]:
ConfusionMatrixDisplay.from_predictions(target_test, predizioni)

## Regressione

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso

Importiamo il dataset diamonds

Hadley Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. ISBN: 978-3-319-24277-4. Disponibile online: https://ggplot2.tidyverse.org

In [None]:
diamonds=sns.load_dataset("diamonds")

In [None]:
diamonds.head(5)

features:
- carat peso del diamante
- cut è la qualità del taglio secondo questa scala Fair, Good, Very Good, Premium, Ideal
- color riguarda il colore secondo questa scala J, I, H, G, F, E, D 
- clarity la chiarezza secondo questa scala I3, I2, I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF, FL
- depth altezza in percentuale
- table larghezza in percentuale
- x lunghezza in millimetri
- y largheza in millimetri
- z prodonfita in millimetri

target:
- price

Codifichiamo le variabili non quantitative (sono comunque tutte ordinali).

In [None]:
codifica_cut = {"Fair":1, "Good":2, "Very Good":3, "Premium":4, "Ideal":5}
codifica_color = {"J":1, "I":2, "H":3, "G":4, "F":5, "E":6, "D":7}
codifica_clarity = {"I3":1, "I2": 2, "I1":3, "SI2":4, "SI1":5, "VS2":6, "VS1":7, "VVS2":8, "VVS1":9, "IF":10, "FL":11}

In [None]:
diamonds["cut"] = diamonds["cut"].map(codifica_cut).astype("int64")
diamonds["color"] = diamonds["color"].map(codifica_color).astype("int64")
diamonds["clarity"] = diamonds["clarity"].map(codifica_clarity).astype("int64")

Vediamo il nuovo dataset

In [None]:
diamonds.head(5)

Se ci fossero variabili non quantitative e non ordinali, potrei usare il metodo di pandas get_dummies()

In [None]:
diamonds2=sns.load_dataset("diamonds")

In [None]:
pd.get_dummies(data = diamonds2["color"], dtype=int).head(5)

In [None]:
diamonds.info()

Eseguiamo il metodo describe

In [None]:
diamonds.describe(include='all')

In [None]:
diamonds[["x"]].boxplot()

In [None]:
len(diamonds.query("x==0"))

sostituiamo gli zero nelle colonne x, y e z con dei null

In [None]:
diamonds = diamonds.replace(to_replace={'x':{0:np.nan}, 
                                        'y':{0:np.nan},
                                        'z':{0:np.nan}
                             })

ora sono presenti dei null

In [None]:
diamonds.info()

In [None]:
features_training,features_test, target_training, target_test  = train_test_split(diamonds.drop("price",axis=1),
                                                                                   diamonds[["price"]],
                                                                                   test_size = 0.3,
                                                                                   shuffle = True,
                                                                                   random_state = 1)

Creiamo una pipeline standard con i passi
- simple imputer
- standard scaler
- regressione lineare

In [None]:
basic_pipeline = Pipeline([('si', SimpleImputer()),
                           ('st', StandardScaler()),
                           ('rg', LinearRegression())
                          ])

Alleniamo la pipeline

In [None]:
basic_pipeline.fit(features_training,target_training)

Vediamo le predizioni

In [None]:
predizioni = basic_pipeline.predict(features_test)
predizioni

Analizziamo lo score

In [None]:
basic_pipeline.score(features_test,target_test)

Ricomponiamo il Dataset completo

In [None]:
diamonds_completo = features_test.copy()
diamonds_completo["prezzo_originale"]=target_test["price"]
diamonds_completo["prezzo_predetto"]=predizioni
diamonds_completo.head(10)

## Clustering

In [None]:
from sklearn.cluster import KMeans

Citazione:Hind, Philip. Encyclopedia Titanica.

In [None]:
titanic=sns.load_dataset("titanic")

eliminiamo feature ridondanti e correlate

In [None]:
titanic = titanic.drop(["alive","pclass","embarked","deck","adult_male","sex","alone"],axis=1)

In [None]:
titanic.head()

Decodifichiamo le variabili non quantitative

In [None]:
codifica_class = {"First":1, "Second":2, "Third":3}
titanic["class"] = titanic["class"].map(codifica_class).astype("int64")

In [None]:
titanic_2 = pd.get_dummies(data=titanic, dtype=int)
titanic_2.head(5)

Valorizziamo i null

In [None]:
imputer = SimpleImputer(strategy='mean')

In [None]:
imputer.fit(titanic_2)

In [None]:
titanic_2_imputed = pd.DataFrame(
    imputer.transform(titanic_2),
    columns=titanic_2.columns,
    index=titanic_2.index
)

Istanziamo l'algoritmo Kmeans di Scikit-learn

In [None]:
km = KMeans (n_clusters = 2,
             n_init = 5,
             random_state = 0)

Eseguiamo il fit e predict su tutti i dati tranne survived

In [None]:
cluster = km.fit_predict(titanic_2_imputed.drop("survived",axis=1))
cluster[:5]

Creiamo la colonna "cluster"

In [None]:
titanic["cluster"] = cluster

In [None]:
titanic.head(10)

In questo caso i due cluster non sembrano corrispondere con la suddivisione tra survived e non survived.

Tuttavia la suddivisione in clustered ha senso compiuto anche se non applicata ad un problema di classificazione