# Hands-on Python 3

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/paolodeangelis/AEM/blob/main/1-Hands-on_Python3.ipynb)

## Variabili e matematica di base

### Commenti

In [None]:
# I commenti iniziano con il simbolo cancelletto `#`

"""
Per commenti lunghi più righe si scrivono aprendo
e chiudendo la sezione di codice con 3 `"`.
Solitamente questo tipo do commenti è usato all'inizio di uno script
o di una funzione/classe come documentazione (vd. docstring)
"""

### Variabili scalari

In [None]:
a_variable = "memorizza delle stringhe"  # stringhe
an_integer = 5  # numeri interi
a_float = 2.0  # numeri reali (numeri con parte decimale)
a_boolean = True  # booleani (può avere solo due valori `True` o `False`)

Python non ha problemi a fare operazioni con variabili di tipo misto

In [None]:
new_var = an_integer + a_float
type(new_var)  # la funzione `type` restituisce che tipo di variabile (o oggetto) è

In [None]:
new_var = int(new_var)  # le funzioni `int`, `float`, `bool` e  `str` convertono la
# variabile nel rispettivo tipo
type(new_var)

### Variabili "array-like"

#### Liste (`list`)

In [None]:
a_list = ["può contenere di tutto", 5, 2.0, True]
a_list

In [None]:
a_list[0]  # restituisce il primo (0) elemento della lista

In [None]:
a_list[-2]  # restituisce il secondo elemento dalla fine

In [None]:
a_list[1:4]  # porzione di lista (list slice):
# restituisce parte della lista dal secondo (1) al quarto (3) elemento

<div class="alert alert-block alert-info">
<b>NB: </b> 

Rispetto a MATLAB la numerazione degli elementi inizia da `0`, e per accedere alla fine di un array si usa gli interi negativi (`-1`, `-2`, `…`) invece che `end`, `end-1`, `…`
</div>

In [None]:
a_list.append("appende un nuovo elemento")
a_list

In [None]:
a_list.pop(2)  # restituisce e rimuove il terzo (2) elemento

In [None]:
a_list

In [None]:
a_list[0] = "cambia il primo elemento"
a_list

In [None]:
len(a_list)  # la funzione `len` restituisce la lunghezza della lista

#### Dizionari `dictionaries`

In [None]:
a_dict = {
    "key": "value",
    "integer": 5,
    "float": 2.0,
    "boolean": True,
}  # Esattamente come un dizionario abbiamo -> parola: definizione
a_dict

In [None]:
a_dict["key"]

In [None]:
a_dict["integer"]

In [None]:
a_dict["key"] = "modifico una 'voce' del dizionario"
a_dict

### Operazioni Matematiche

In [None]:
5 + 2  # Addizione

In [None]:
5 - 2  # Sottrazione

In [None]:
5 * 2  # Moltiplicazione

In [None]:
5 / 2  # Divisione, ATTENZIONE: la divisione in vecchie versioni di python può restituire solo la parte intera.

In [None]:
5.0 / 2.0  # La divisione tra numeri float restituisce il valore coretto

<div class="alert alert-block alert-warning">
<b>WARNING: </b> 

In versioni di python precedenti alla 3.6 la divisione tra interi restituisce un intero corrispondete alla parte intera del quoziente
</div>

In [None]:
5.0 // 2.0  # Divisione 'parte intera' restituisce solo la parte intera della divisione.

In [None]:
5**2  # Esponenziale

In [None]:
5 % 2  # Modulo

In [None]:
(5 + 2) * 5 + 2  # Ordine delle operazioni (PEMDAS)

### Operazioni Logiche

In [None]:
True and False  # N.B. python è sensibile alle maiuscole

In [None]:
False or True

In [None]:
True and not False

<div class="alert alert-block alert-warning">
<b>WARNING: </b> 

python è sensibile alle maiuscole (case sensitive). 
    
`True ≠ true`
</div>

In [None]:
5 == 5

In [None]:
5 == 2

In [None]:
5 != 5

In [None]:
5 != 2

In [None]:
5 > 2

In [None]:
5 < 2

In [None]:
5 <= 5

In [None]:
5 >= 5

## Flusso del programma in python

### Conditional statements: `if` `elif` `then`

In [None]:
x = 10  # prova a cambiare il valore della variabile
if x > 10:
    print("x è maggiore di 10.")
elif x < 10:
    print("x è minore di 10.")
else:
    print("x è ugguale a 10.")
# `elif` e `else` sono opzionali

<div class="alert alert-block alert-warning">
<b>WARNING: </b> 

A differenza di altri linguaggi, **python semplifica molto la sintassi**, quando si scrive uno *statement* non è necessario aprire e chiudere parentesi (in C si usa la graffa `{…}`), ma è IMPORTANTE la tabulazione. Cioè a fine di uno statement si mettono sempre i due punti (`:`) e subito dopo le istruzioni da eseguire hanno una indentazione
</div>

### Ciclo `for`

In [None]:
ungaretti = ["M'" "illumino\n" "d'" "immenso"]
poesia = ""
for parola in ungaretti:
    poesia += parola
print(poesia)

<div class="alert alert-block alert-info">
<b>NOTE: </b> 

L’operatore `+=`  (similmente `*=`, `/=`, `…`) «auto»-aggiunge un valore alla variabile.

L’operatore addizione per le stringhe equivale a concatenarle
</div>

In [None]:
for i in range(3):
    print(i)
# range() inizia da 0 e conta fino a 3 (3 escluso).

In [None]:
a_list = []
for i in range(4, 10, 2):
    a_list.append(i)
# range() inizia da 4 e conta ogni 2 fino a 10 (10 escluso).
print(a_list)

### Ciclo `while`

In [None]:
x = 0
while x < 3:
    print(f"{x:d} è minore di 3.")  # Formattazione con il method `.format`
    x += 1

In [None]:
x = 16
while True:
    x //= 2
    if x > 1:
        print(x)
    else:
        print(x, "-> end")
        break

<div class="alert alert-block alert-warning">
<b>WARNING: </b> 

Il ciclo `while` è la principale causa di «loop infiniti» se non usato correttamente. Per fermare in anticipo un ciclo usa l’istruzione `break`
</div>

### Nidificazione (nesting)

In [None]:
prime = []
for i in range(1, 100):
    is_prime = True
    for p in prime:
        if i % p == 0 and p != 1:
            is_prime = False
            break
    if is_prime:
        prime.append(i)
# N.B: Fa attenzione alle indentazioni di ogni blocco di codice
print(prime)

## Funzioni

In [None]:
def get_primes(n_max: int, display: bool = True) -> list:
    """Get the prime numbers from 1 to ``n_max``

    Args:
        n_max (int): the function search for all primes < ``n_max``.
        display (bool, optional): if True, print a message with the found prime numbers. Defaults to True.

    Raises:
        AssertionError: if ``n_max`` is not an integer.
        ValueError: if ``n_max`` is greater that 100000.

    Returns:
        list: the list with the found prime numbers
    """
    # E' una buona pratica controllare che la funzione riceva input coretti
    if not isinstance(n_max, int):
        raise AssertionError(
            f"First argument must be an integer, instead we recive a {type(n_max)}"
        )
    if n_max > 100000:
        raise ValueError(f"The first argument is too big ({n_max} > 100000)")
    prime = []
    for i in range(1, n_max):
        is_prime = True
        for p in prime:
            if i % p == 0 and p != 1:
                is_prime = False
                break
        if is_prime:
            prime.append(i)
    if display:
        print(f"prime numbers < {n_max}:")
        print(
            " ".join([f"{p}" for p in prime])
        )  # altra magia di python, cicli `for`` dentro una lista (qui usata per convertire i numeri in stringhe)
    return prime  # senza l' instance `return` la funzione ritorna `None` (cioè niente)

Con la funzione `help` stampiamo la documentazione della funzione

In [None]:
help(get_primes)

Eseguiamo la funzione:

In [None]:
list_primes = get_primes(150, display=True)

Cosa succede se passiamo un numero `float` alla funzione?

In [None]:
get_primes(1e3)

E se passiamo un numero troppo grande?

In [None]:
get_primes(999999)

## Pausa

<img src="https://github.com/paolodeangelis/AEM/raw/main/img/coffe_break.jpg" width="400"/>

## Classi (a.k.a. Oggetti)

<div class="alert alert-block alert-info">
<b>NOTE: </b> 

In python **tutto è un oggetto**, infatti anche le variabili viste prima (int, float,…) o le funzioni, sono oggetti.
</div>

Esempio definiamo l'oggetto `Student` che è una sotto-classe dell'oggetto `Person`

In [None]:
TODAY = "29/04/2022"


class Person:
    """Person class define virtually a person.

    We are not here to answer the philosophical question, "What is a person?".
    Here a person is defined by the following attributes.

    Attributes:
        name (str): Name of the person
        family name (str): Family name of the person
        age (int, optional): How old is the person
        birthday (str, optional): The person's birthday
    """

    def __init__(
        self, name: str, familyname: str, age: int = None, birthday: str = None
    ):
        """Initialize the Person object.

        The ``__init__`` method "initialize" the object, i.e., allocates a portion
        of the memory (object construction). The ``__init__`` function is called every
        time an object is created from a class.

        Args:
            name (str): Name of the person
            family name (str): Family name of the person
            age (int, optional): How old is the person. Defaults to None.
            birthday (str, optional): The person's birthday. Defaults to None.
        """
        self.name = name
        self.familyname = familyname
        self.age = age
        self.birthday = birthday

    def _convert_date(
        self, date: str
    ):  # Quando un metodo inizia con "_" è considerato privato
        for sep in [" ", "-", "\\"]:
            date = date.replace(sep, "/")
        day, month, year = (int(s) for s in date.split("/"))
        return day + month * 30 + year * 30 * 12

    def get_age(self):
        if self.age is None:
            age = round(
                (self._convert_date(TODAY) - self._convert_date(self.birthday))
                / (30 * 12)
            )
        else:
            age = self.age
        return age


class Student(Person):
    """Student class defines virtually a student.

    A student is a person with a "matricola".

    Attributes:
        name (str): Name of the person
        family name (str): Family name of the person
        matricola (int): Student identification number
        age (int, optional): How old is the person
        birthday (str, optional): The person's birthday
    """

    def __init__(
        self,
        name: str,
        familyname: str,
        matricola: int,
        age: int = None,
        birthday: str = None,
    ):
        """Initialize the Person object.

        The ``__init__`` method "initialize" the object, i.e., allocates a portion
        of the memory (object construction). The ``__init__`` function is called every
        time an object is created from a class.

        Args:
            name (str): Name of the person
            family name (str): Family name of the person
            matricola (int): Student identification number
            age (int, optional): How old is the person. Defaults to None.
            birthday (str, optional): The person's birthday. Defaults to None.
        """
        super().__init__(
            name, familyname, age=age, birthday=birthday
        )  # con `super()` richiama `__init__`` della classe Person
        self.matricola = matricola
        self.grade = None

    def set_exam_grade(self, grade: int):
        self.grade = grade

    def exam_passed(self):
        if self.grade is None:
            print(f"{self.name} {self.familyname} do the written exam first.")
        elif self.grade < 15:
            print(
                f"{self.name} {self.familyname}, sorry but you fail the exam.\nTry it again the next date."
            )
        elif self.grade < 18:
            print(f"Dear {self.name} {self.familyname}, you need to do the oral exam.")
        elif self.grade <= 30:
            print(f"Good job {self.name} {self.familyname}! you passed the exam!")
        else:
            print(
                f"Good job {self.name} {self.familyname}! you passed the exam CUM LAUDE!"
            )

<div class="alert alert-block alert-info">
<b>NOTE: </b> 

Convezione nomi:
-  `CONSTANTI` (tutto maiuscolo)
-  `variabili` (tutto minuscolo)
-  `funzioni` (tutto minuscolo solitamente inizia con un verbo in forma imperativa ex: get_something, do_something )
-  `Oggetti` (prima lettera maiuscola)
</div>

In [None]:
help(Student)  # nota come non viene mostrato il metodo `_convert_date`

Definisco lo stundete *Mario Rossi*

In [None]:
mario = Student("Mario", "Rossi", 271828, birthday="01/06/2000")

In [None]:
type(mario)

In [None]:
mario.get_age()

In [None]:
mario.set_exam_grade(28)

In [None]:
mario.exam_passed()

## Inputs/Outputs (I/O) in python

Aprimamo un file per salvare i dati di una traiettoria

In [None]:
time = [i / 10 for i in range(5)]
height = [-(t**2) + t for t in time]

file = open("a_file.txt", "w")  # w: write, r: read, a:append
file.write(
    "time[s]".ljust(12, " ") + " " + "height[m]".ljust(12, " ") + "\n"
)  # Intestazione del file
for t, y in zip(time, height):
    file.write(f"{t:<12.4e} {y:<12.4e}" + "\n")
file.close()  # una volta aperto, un file va SEMPRE chiuso

C'è anche una modalità più compatta per scrivere un file, cioe usando un blocco *Contesto* che si definisce con `with`.

Aprimao e *appendiamo* (`"a"`) nuovi dati della traiettoria sul file già creato.

In [None]:
time = [i / 10 for i in range(5, 11)]
height = [-(t**2) + t for t in time]

with open("a_file.txt", "a") as file:
    for t, y in zip(time, height):
        file.write(f"{t:<12.4e} {y:<12.4e}" + "\n")

Adesso proviamo ad aprire e leggere il file appena creato

In [None]:
time_r = []
height_r = []

with open("a_file.txt") as file:
    for i, line in enumerate(file):  # `enumerate` semplicemente conta i valori
        if i == 0:
            # la prima riga è l'intestazione che va ignorata
            continue
        line_splitted = line.split()
        time_r.append(float(line_splitted[0]))
        height_r.append(float(line_splitted[1]))

print(time_r)
print(height_r)

## Pacchetti e moduli

Installiamo (da [PiPy](https://pypi.org/) mediante [`pip`](https://pip.pypa.io/en/stable/)) le 4 librerie più utili in ambito scientifico/ingegneristico.

### Aggiornamento di `pip` all'ultima versione

In [None]:
!python -m pip install --upgrade pip

### [Numpy](https://numpy.org/) 
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/1200px-NumPy_logo_2020.svg.png" width="150"/>

NumPy è una libreria, utile per gestire grandi array multidimensionali e matrici, insieme ad una vasta collezione di funzioni matematiche di alto livello per operare su questi array

In [None]:
%pip install numpy

### [SciPy](https://scipy.org/)
<img src="https://scipy.org/images/logo.svg" width="70"/>

SciPy è una libera fondamentale per il calcolo scientifico e tecnico. Contiene moduli per l'ottimizzazione, algebra lineare, integrazione, interpolazione, funzioni speciali, FFT, ecc.

In [None]:
%pip install scipy

### [pandas](https://pandas.pydata.org/)
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width="150"/>

pandas è una libreria per la manipolazione e l'analisi dei dati. In particolare, offre strutture dati (`DataFrame`) e operazioni per manipolare tabelle numeriche e serie temporali.

In [None]:
%pip install pandas

### [matplotlib](https://matplotlib.org/)
<img src="https://matplotlib.org/_static/images/logo2.svg" width="170"/>

Matplotlib è una libreria per il plottaggio e la sua estensione matematica numerica NumPy, SciPy. Fornisce un'API orientata agli oggetti per incorporare i grafici in applicazioni che utilizzano strumenti GUI di uso generale come Tkinter, wxPython, Qt o GTK. Ha anche un modulo pylab, progettata per assomigliare molto a quella di MATLAB, sebbene il suo uso sia scoraggiato.


In [None]:
%pip install matplotlib

## Numpy, SciPy e Matplotlib

In [None]:
import numpy as np  # importo numpy
from matplotlib import pyplot as plt  # importo la libreria per plottare
from scipy.fft import fft, fftfreq  # importo i metodi di FFT
from scipy.signal import (  # importo i metodi per l'analisi dei segnali
    butter,
    freqz,
    lfilter,
)

plt.style.use("default")

SAMPLE_FREQ = 50e3  # [Hz] Frequenza di campionamento
WAVE_FREQ = 1e3  # [Hz] Frequenza segnale
NOISE_FREQ_1 = 8e3  # [Hz] Frequenza rumore 1
NOISE_FREQ_2 = 10e3  # [Hz] Frequenza rumore 2


t = np.arange(0, 8 / WAVE_FREQ, 1 / SAMPLE_FREQ)  # [s] intervallo di campionamento
wave = 2.0 * np.sin(2 * np.pi * WAVE_FREQ * t)  # onda definita come A*sin(2*pi*f*t)
noise = 1.0 * np.sin(2 * np.pi * NOISE_FREQ_1 * t) + 0.5 * np.sin(
    2 * np.pi * NOISE_FREQ_2 * t
)

signal = wave + noise

Plot the signal

In [None]:
fig = plt.figure(figsize=(9, 5))

with plt.style.context("seaborn"):
    ax = fig.add_subplot(111)
    ax.plot(t, signal, alpha=0.5, label="signal with noise")
    ax.plot(t, noise, label="noise")
    ax.plot(t, wave, linewidth=2, label="signal")
    ax.legend()
    ax.set_xlabel("Time [s]")
    ax.set_ylabel("Amplitude [-]")
plt.show()

Analisi del segnale nello spazio delle frequenze

In [None]:
signal_fft = fft(signal)
freq_fft = fftfreq(len(signal), 1.0 / SAMPLE_FREQ)

# Filtro passa-basso (numerico)
order = 10  # ordine del filtro
cutoff = (
    5e3  # frequnza di cutoff (i.e. la frequnza per cui il segnale vine ridotto di 3 dB)
)
nyq = 0.5 * SAMPLE_FREQ  # Nyquist frequency
b, a = butter(order, cutoff / nyq, btype="low", analog=False)
# applico il filtro
signal_filtred = lfilter(b, a, signal)  # spazio dei tempi
signal_filtred_fft = fft(signal_filtred)  # spazio delle frequenze

Visualiziomo il risultato (spazio delle frequenze)

In [None]:
fig = plt.figure(figsize=(9, 8))

# dati per il plot
filter_freq, filter_amplitude = freqz(b, a, worN=8000)
N = len(t)

with plt.style.context("seaborn"):
    ax1 = fig.add_subplot(211)
    ax2 = fig.add_subplot(212)
    ax1.plot(
        0.5 * SAMPLE_FREQ * filter_freq / np.pi,
        np.abs(filter_amplitude),
        label="cutoff",
    )
    ax1.axvline(cutoff, color="k", linewidth=0.5, label="cutoff")
    # plot metà della della trrasformata che è simmetrica
    ax2.plot(
        freq_fft[: N // 2],
        2.0 / N * np.abs(signal_fft)[: N // 2],
        label="signal with noise",
    )
    ax2.plot(
        freq_fft[: N // 2],
        2.0 / N * np.abs(signal_filtred_fft)[: N // 2],
        label="signal flitred",
    )
    ax2.set_xlabel("Frequency [Hz]")
    for ax in [ax1, ax2]:
        ax.legend()
        ax.set_ylabel("Intesity [-]")
plt.show()

Visualiziomo il risultato (spazio dei tempi)

In [None]:
fig = plt.figure(figsize=(9, 5))


with plt.style.context("seaborn"):
    ax = fig.add_subplot(111)
    ax.plot(t, signal, alpha=0.5, label="signal with noise")
    ax.plot(t, wave, label="source signal")
    ax.plot(t, signal_filtred, label="filtred signal")
    ax.legend()
    ax.set_xlabel("Time [s]")
    ax.set_ylabel("Amplitude [-]")
plt.show()

## Esercizio clustering fiore *Iris*

L'esercizio consiste nel usare un metodo di *unsupervised clustering* (classificazione non-supervisionata) per riconoscere automaticamente la specie di *Iris*
solo da delle lunghezze e larghezze dei petali e dei sepali.
Per fare ciò dobbiamo:

0. Installiamo `scikit-learn`
1. Scaricare ed importare il dataset (`iris.csv`)
2. Dare uno primo sguardo ai dati e vedere se è necessario "pulirli"
3. Normalizzare i valori (vd. [Normalization (EN)](https://en.wikipedia.org/wiki/Normalization_(statistics)))
4. Ridurre la dimensione con la [Analisi delle componenti principali](https://it.wikipedia.org/wiki/Analisi_delle_componenti_principali) (EN: Principal Component Analysis)
5. Usare la il metodo di unsupervised clustering *Gaussian Mixture* (vd [Gaussian Mixture Models Explained
 (EN)](https://towardsdatascience.com/gaussian-mixture-models-explained-6986aaf5a95))

![Le tre diverse sepcie di Iris](https://raw.githubusercontent.com/paolodeangelis/AEM/main/img/iris.png)

### 0. Installiamo la versione `1.0.2` di `scikit-learn`

In [None]:
%pip install scikit-learn==1.0.2

### 1. Scarichiamo il database `iris.csv`

In [None]:
!wget https://raw.githubusercontent.com/paolodeangelis/AEM/main/data/iris.csv

Importiamo con `pandas` il database usando il metodo `read_csv`


<div class="alert alert-block alert-info">
<b>NB: </b> 

csv = Comma-Separated Values (Valori Separati da Virgole)
<br>
È un formato file comune per il salvataggio di dati leggibile sia da un umano che da una macchina
</div>

In [None]:
import numpy as np  # importo numpy
import pandas as pd  # importo pandas
from matplotlib import pyplot as plt  # importo la libreria per plottare

plt.style.use("default")

iris_data = pd.read_csv("iris.csv")
iris_data

### 2. Dare uno primo sguardo ai dati e vedere se è necessario "pulirli"

Una prima cosa da fare e fare una veloce analisi dei dati e visualizzarli. 
Una buona metrica da vedere e la correlazione tra i vari dati.

In [None]:
iris_corr = iris_data.corr()  # Pearson correlation coefficient
# vd. https://it.wikipedia.org/wiki/Indice_di_correlazione_di_Pearson
iris_corr.style.background_gradient(cmap="coolwarm")

In [None]:
fig = plt.figure(figsize=(9, 6))

data_axis = ["petal_width", "petal_length"]  # prova a cambiarli

with plt.style.context("seaborn"):
    ax = fig.add_subplot(111)
    for label in iris_data["species"].unique():
        sub_set = iris_data.loc[
            iris_data["species"] == label
        ]  # plotto ogni specie con colori diversi
        ax.scatter(sub_set[data_axis[0]], sub_set[data_axis[1]], label=label)
    ax.legend()
    ax.set_xlabel(data_axis[0])
    ax.set_ylabel(data_axis[1])
plt.show()

### 3. Normalizzare i valori

Ci sono varie metodologie, le principali sono:

| Metodo | Formula    |
| --- | --- |
| Standardizzazione | $ \dfrac{X-\mu }{\sigma }$ |
| t di Student | $ \dfrac{\widehat{\beta }-\beta _{0}}{\text{s.e.} ({\widehat {\beta }})}$ |
| Min-max | $\dfrac{X - X_{\min }}{X_{\max }- X_{\min }}$ |

In [None]:
from sklearn.preprocessing import StandardScaler

X_raw = iris_data.iloc[:, :-1].values.astype(float)  # separiamo i dati...
Y_raw = iris_data.iloc[:, -1].values.astype(str)  # ...dalle etichette

normalizer = StandardScaler()
X = normalizer.fit_transform(X_raw)

# se tutto e andato bene la media dovrebbe essere 0 e la deviazione standard 1
print("mean: ", X.mean(axis=0))
print("std: ", X.std(axis=0))

### 4. Ridurre la dimensione Principal Component Analysis (PCA)

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=3)  # Prova a cambiare il numero di componenti (il massimo è 4)
X_pca = pca.fit_transform(X)

In [None]:
fig = plt.figure(figsize=(12, 6))

data_axis = ["petal_width", "petal_length"]  # prova a cambiarli

with plt.style.context("seaborn"):
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    for label in iris_data["species"].unique():
        indexs = np.where(Y_raw == label)[0]
        sub_set = iris_data.loc[
            iris_data["species"] == label
        ]  # plotto ogni specie con colori diversi
        ax1.scatter(sub_set[data_axis[0]], sub_set[data_axis[1]], label=label)
        ax2.scatter(X_pca[indexs, 0], X_pca[indexs, 1], label=label)
    ax1.legend()
    ax1.set_xlabel(data_axis[0])
    ax1.set_ylabel(data_axis[1])
    ax2.set_xlabel("1st component")
    ax2.set_ylabel("2nd component")
plt.show()

### 5. Usare la il metodo di unsupervised clustering `GaussianMixture`  

Assume che i dati di un cluster sono disposti con una probabiltà gaussiana (multidimensionale). Questo algoritmi assume che ci siano `n_components` = *numero di cluster* gaussiane e i vari paramentri ($\mu$, $\sigma$) che massimizza il [Maximum Likelihood Estimate (MLE)](https://en.wikipedia.org/wiki/Maximum_likelihood_estimation)

![EM Clustering](https://upload.wikimedia.org/wikipedia/commons/6/69/EM_Clustering_of_Old_Faithful_data.gif)

In [None]:
from sklearn.mixture import GaussianMixture

cluster_model = GaussianMixture(
    n_components=3,  # Il numero di `Mixture` cioè di cluster da cercare
    covariance_type="full",  # Stima/calcolo della matrice di covarianza
)
# training
cluster_model.fit(X_pca)
Y_prediction = cluster_model.predict(X_pca)

#### Valutiamo il risultato del clustering

prima in modo qualitativo plottando i cluster originali vs quelli predetti dal modello

In [None]:
fig = plt.figure(figsize=(12, 6))

data_axis = ["petal_width", "petal_length"]  # prova a cambiarli

with plt.style.context("seaborn"):
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    for label in iris_data["species"].unique():
        indexs = np.where(Y_raw == label)[0]
        sub_set = iris_data.loc[
            iris_data["species"] == label
        ]  # plotto ogni specie con colori diversi
        ax1.scatter(X_pca[indexs, 0], X_pca[indexs, 1], label=label)
    for clust_id in np.unique(Y_prediction):
        indexs = np.where(Y_prediction == clust_id)[0]
        ax2.scatter(X_pca[indexs, 0], X_pca[indexs, 1], label=f"cluster {clust_id}")
    for ax in [ax1, ax2]:
        ax.legend()
        ax.set_xlabel("1st component")
        ax.set_ylabel("2nd component")
plt.show()

Poi valutiamo il modello in modo quantitativo.

Per fare ciò dobbiamo usare una metrica che misura la bondà del nostro modello. 
Per gli algoritmi di clustering dobbiamo usare indipendete dalla permutazione delle etichette *labels* (`Y_raw`, `Y_prediction`)

In questo esercizion usiamo una metrica abbastaza comune che la **Mutual Info Score** (IT: [Informazione mutua](https://it.wikipedia.org/wiki/Informazione_mutua))

$
MI(U,V) = 
\sum_{i=1}^{|U|} \sum_{j=1}^{|V|} \frac{|U_i\cap V_j|}{N} \log\frac{N|U_i \cap V_j|}{|U_i||V_j|}
$

<div class="alert alert-block alert-info">
<b>NB: </b> 
    
Osserva come la misura della infomazione $I = |A|\log(|A|) = p_{A}\log(p_{A})$ 
assomiglia molto alla definzione di Gibbs dell'entropia usata in Maccanica Statistica $ S = k_{B} \sum_i p_{i}\log(p_{i}) $
</div>

In [None]:
from sklearn.metrics import mutual_info_score

mi_score = mutual_info_score(Y_raw, Y_prediction)
print(f"Mutual Information Score = {mi_score*100:1.2f} %")

# FINE

Sei arrivato alla fine e sei sopravvisuto, *python* non è così complicato no?

<div class="alert alert-block alert-danger">
<b>DA RIMUOVERE: </b> 

<b><a href="https://youtu.be/-AXetJvTfU0">📂 Soluzioni esercitazione ML </a></b> 
</div>