# Introduzione a Jupyter e Python per il Machine Learning (*pandas*, *numpy* e *scikit-learn*)

## Installazione di Anaconda

Scaricare *l'installer* di **Anaconda Individual Edition** adatta alla propria macchina (32 o 64 bit).<br>
Installare Anaconda in una directory il cui path non contenga spazi o caratteri unicode.<br>
Avviare Anaconda/Jupyter con **Anaconda Navigator** oppure l'**Anaconda Prompt**, entrambi disponibili dal menù.<br>
[In Windows, non confondere l'Anaconda Prompt con il terminale di sistema del DOS.]

Per Windows, vedi [qui](https://docs.anaconda.com/anaconda/install/windows/).<br>
Per Mac, vedi [qui](https://docs.anaconda.com/anaconda/install/mac-os/).<br>

## I principali package python per Machine Learning
* **scikit-learn**: la libreria più importante per il ML predittivo (ed anche descrittivo); si importano i vari moduli via via che servono;
* **numpy** (np): libreria per il calcolo scientifico; contiene molte funzioni matematiche di alto livello per l'algebra lineare (ad es. prodotti scalari tra vettore e matrice); contiene un generatore di numeri pseudo-casuali; permette di creare array multi-dimensionali con operazioni vettorizzate; nato nel 2006 dall'unione di due precedenti package numerici; si appoggia a veloci librerie C e Fortran (BLAS e LAPACK); è considerato la versione Python di Matlab;
* **scipy** (sp): libreria che estende numpy con 60+ funzioni statistiche e matematiche; permette la gestione di matrici sparse;
* **pandas** (pd): libreria per importare, gestire e manipolare i data frame in vari formati (serie, dataframe, ecc); per estrarre una parte dei dati, unire due dataset; contiene anche alcune funzioni statistiche di base; è costruito sopra numpy; i due oggetti principali di *pandsa* sono: il *data.frame* e le *series*;
* **matplotlib**(plt): libreria per creare grafici a partire dei dati; pandas e seaborn sono dei wrapper di matplotlib, che permette
un controllo più fine; non è di utilizzo immediato; non è oggetto di questo corso, che comunque includerà alcuni suoi utilizzi.
* **seaborn**(sn): altra libreria grafica. 

## Controllo versioni dei package necessari al corso
* python        >= 3.5
* scikit-learn  >= 0.23.2 
* pandas        >= 0.18.0 
* numpy         >= 1.11.0
* scipy         >= 0.17.0
* matplotlib    >= 1.5.1
* joblib        >= 0.11
* seaborn?

Verifica dalla scheda "Environments" di Anaconda Navigator,  <br>
oppure da Jupyter Notebook così (uno dei molti modi...): <br>
[vedi stack overflow (so) 20180543 oppure 710609].



In [1]:
# check versione python (identica in Linux o Win10):
# da un anaconda prompt: python --version
# da terminale IPython oppure da jupyter:
import sys  
print(sys.version)  # 'sys.version' provides a string containing the version number of the Python interpreter plus additional 
                    # information on the build number and compiler used. 

3.9.7 (default, Sep 16 2021, 16:59:28) [MSC v.1916 64 bit (AMD64)]


In [None]:
# check versione package (fattibile se python >= 3.8):
from importlib_metadata import version
version ('scikit-learn')

In [None]:
# check versione package (se Python < 3.8): qui, come esempio, di numpy:
import pkg_resources
pkg_resources.get_distribution('numpy').version

## Note su Python 

### Python2 vs Python3
Python3, anche chiamato Py3k o Python3000, è stato rilasciato nel 2008.<br>
Vediamo alcune differenze:

In [None]:
# in python2 'print' era un'istruzione, in python3 è una funzione, e quindi obbligatoriamente con le parentesi tonde.
print("abc")


In [None]:
# in python3:
3/2     # --> 1.5, mentre in python2 il risultato era 1, e solo 3./2 dava risultato 1.5
3.//2.  # sia con python3 che python2 il risultato è 1 (cioè, con arrotondamento)

In [None]:
# il check della versione di Python si può fare da anaconda prompt con: 'python -V'
# se la versione installata risulta la 3, si può allora verificare la (eventuale) con-presenza di python2 con: 'python2 - V'.

### L'allocazione della memoria in Python

[L'allocazione di memoria in Python](CvsPythonMemoryAllocation.png) 

**a sx**: In C la variabile x DEVE essere dichiarata, il compilatore crea uno spazio in memoria per essa (qui come intero).
Le due assegnazioni riportate non danno problemi; se si assegnasse invece una stringa ad x, il compilatore darebbe errore.<br>
**a dx**: x è solo un PUNTATORE ad un oggetto in memoria. Le tre assegnazioni riportate creano 3 differenti oggetti in <br>


In [None]:
# Poichè dunque le variabili Python sono puntatori ad oggetti di memoria, dobbiamo distinguere tra variabili che puntano allo
# STESSO oggetto e variabili che puntano ad oggetti DIFFERENTI ma UGUALI.
# Un esempio:
a = [1,2]
b = a       # cioè, b punta alla stessa locazione di memoria di a
c = [1,2]
b.append(3) # metodo che aggiunge un elemento alla lista
print("a =",a)
print("b =",b)
print("c =",c)

In [None]:
# Al contrario, in R (od in C) si otterrebbe:
# a = [1,2]
# b = [1,2,3]
# c = [1,2]

In [None]:
# Python ha un "counter of pointers" ed un "garbage collector", e cancella automaticamente dalla memoria gli oggetti
# che non sono puntati da nessuna variabile. Nella precedente figura, dopo la terza assegnazione, i primi due puntatori 
# sono cancellati automaticamente.

### Interpretazione / Compilazione e Tipizzazione
Da Wikipedia IT ("python"):<br>
1.<br>
Il controllo dei tipi è forte (strong typing) e viene eseguito in runtime (dynamic typing): una variabile è un contenitore a cui viene associata un'etichetta (il nome) che può essere associata a diversi contenitori anche di tipo diverso durante il suo tempo di vita. Fa parte di Python un sistema garbage collector per liberazione e recupero automatico della memoria di lavoro.<br>
2.<br>
Sebbene Python venga in genere considerato un linguaggio interpretato, in realtà il codice sorgente non viene convertito direttamente in linguaggio macchina. Infatti passa prima da una fase di pre-compilazione in bytecode, che viene quasi sempre riutilizzato dopo la prima esecuzione del programma, evitando così di reinterpretare ogni volta il sorgente e migliorando le prestazioni. Inoltre è possibile distribuire programmi Python direttamente in bytecode, saltando totalmente la fase di interpretazione da parte dell'utilizzatore finale e ottenendo programmi Python a sorgente chiuso.<br>
3.<br>
Se paragonato ai linguaggi compilati statically typed, come ad esempio il C, la velocità di esecuzione non è uno dei punti di forza di Python, specie nel calcolo matematico. Inoltre, il programma si basa unicamente su un core, ed il multi-threading è presente al solo livello astratto.<br>
4.<br>
Essendo Python a tipizzazione dinamica, tutte le variabili sono in realtà puntatori a oggetto. Per esempio se a una variabile è assegnato un valore numerico intero, subito dopo può essere assegnata una stringa o una lista. Gli oggetti sono invece dotati di tipo.<br>
5.<br>
Python prevede un moderato controllo dei tipi al momento dell'esecuzione, ovvero runtime.<br>
6.<br>
Per la natura fortemente imprevedibile, i linguaggi a tipizzazione dinamica sono spesso anche interpretati, in quanto l'interprete costituisce un ambiente di esecuzione sicuro, in grado di assecondare tutti i cambiamenti di tipo delle variabili.


### Alcune tipiche difficoltà (concettuali) della OOP
[copiato vs. assegnato](https://medium.com/@thawsitt/assignment-vs-shallow-copy-vs-deep-copy-in-python-f70c2f0ebd86)<br>
[l'argomento inplace di pandas](https://stackoverflow.com/questions/43893457/understanding-inplace-true)

In generale, *metodi* e *funzioni* in python sono cose un pò diverse: per semplicità diciamo che un metodo è una funzione che è 
strettamente collegata con un "oggetto" (ad es. un dataframe pandas, oppure una lista) e che ha accesso ai
suoi dati; una funzione deve invece avere specificati i dati sui quali agire tramite i suoi argomenti in parentesi.

## Note su Jupyter

### Il funzionamento del *kernel*
Ogni notebook jupyter ha un **kernel** associato, che è il lato back-end che esegue il codice.<br>
Il notebook ed il relativo kernel sono disaccoppiati, nel senso che l'uno può essere attivo senza l'altro.<br>
Le celle di tipo *markdown* possono essere eseguite anche se il kernel del notebook non è attivo. Al contrario, l'esecuzione di una cella di tipo codice è possibile solo se il kernel è attivo.<br>
Il kernel si attiva / disattiva dal tab *kernel* (nel menù in alto del notebook), oppure anche dal menù di Jupyter.<br>
Se si esegue una cella codice (con shift+enter) ed il kernel del notebook non è attivo, le parentesi quadre della cella in esecuzione contengono per tempo indefinito un asterisco e quindi non si otterrà mai l'output della cella sinchè non si riattivi il kernel.

### Celle markdown

**heading**:
- indice di primo livello: #
- indice di secondo livello: ##
- ecc

**punti elenco**: '-' oppure asterisco per ogni punto 
* a
* b
* ecc

**testo in maiuscolo** 

*testo in corsivo*

<u>testo sottolineato</u>

[nome-link](link) (filepath, url, ecc)

> evidenza a sx

**toggle tipo cella**:
* code --> markdown: esc+m
* markdown --> code: esc+y

### Temi, font e size dei caratteri
[utile link - "method two"](https://towardsdatascience.com/7-essential-tips-for-writing-with-jupyter-notebook-60972a1a8901#4f95)<br>
[VS code](https://code.visualstudio.com/download)

View > Toggle Line Numbers (comodo)

### TOC (Table of Contents) in Jupyter
[Come creare una TOC in Jupyter](https://stackoverflow.com/questions/21151450/how-can-i-add-a-table-of-contents-to-a-jupyter-jupyterlab-notebook) <br>
[Cos'è JupyterLab](https://stackoverflow.com/questions/50982686/what-is-the-difference-between-jupyter-notebook-and-jupyterlab) <br>
[Come installare le jupyter_contrib_nbextensions](https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/install.html) <br>
[Come installare PIP in Windows](https://phoenixnap.com/kb/install-pip-windows) <br>
[Come installare PIP in Linux](https://www.tecmint.com/install-pip-in-linux/) <br>

Occorre chiudere anaconda e poi riaprirla per vedere il tab estensioni di Jupyter. <br>
Occorre chiudere i notebook e riaprirli per vedere il ToC.
Il ToC è visualizzato a sinistra, ma è folttante e si può spostare in qualsiasi parte dello screen.
Attenzione: le voci del ToC sono attive (funzionanti) solo se le rispettive celle markdown che le definiscono <br>
sono in quel momento in command mode (blu).

### Help in Jupyter
* 'dir()' shows the possible object, method and function calls available to that object.
* 'help()' function for imported modules 
* tab completion
* 'shift + tab' dentro le parentesi di una funzione (non di un metodo!) fornisce la documentazione dei suoi argomenti
* nome_modulo? help on the imported module
* nome_variabile? fornisce info sulla variable
* help on-line: https://jupyter.readthedocs.io/en/latest/

[Come avere aiuto in Jupyter](https://problemsolvingwithpython.com/02-Jupyter-Notebooks/02.07-Getting-Help-in-a-Jupyter-Notebook/)

### Navigare su e giù nel notebook
**Se le nb extensions sono installate** si possono usare i consueti tasti: *home* o l'equivalente freccia verso l'alto a sx (inizio nb), <br>
*end* (fine nb), *page down*, *page up*.

### Installazione di package
In Anaconda Navigator la maggior parte dei package sono già installati (tutti per questo corso). <br>
Da terminale IPython o da Jupyter: con la funzione pip, ad esempio:
python -m pip install numpy <br>
[Installing Python Packages from a Jupyter Notebook](https://jakevdp.github.io/blog/2017/12/05/installing-python-packages-from-jupyter/)

### Output celle in Jupyter

In [14]:
# Output di cella
a = 5
b = 10
a
b # --> solo l'ultimo output è riportato sotto la cella (a meno che si usi la 'print'). 
  #     Nelle altre celle si può usare 'print'(nome_oggetto) o semplicemente nome_oggetto.

10

### Restart & Clear Output
All'apertura di un notebook esistente, jupyter visualizza tutti gli output della sessione precedente. Ciò in alcuni casi è comodo: il notebook può essere letto ed analizzato senza doverlo rieseguire. In altri casi, invece, ciò può essere fuorviante, ad esempio se si apre per la prima volta un notebook creato da un'altra persona od anche da noi su un altro PC. In questi casi, infatti, è bene rieseguire il codice su *questo* PC, per **verificarne la corretta esecuzione**.<br>
Si fa così:
* dal menù del notebook (da non confondere con il menù di Jupyter) premere *kernel*
* premere quindi *Restart & Clear Output*.

### Numerazione celle
Dopo l'esecuzione di una cella, Jupyter riporta tra parentesi quadre il numero di esecuzione e di output <u>all'interno della sessione</u>.Tale numerazione <u>non</u> segue l'ordine sequenziale del notebook, ma appunto quello di esecuzione e di display. Questi ultimi possono differire in quanto molte celle non hanno output e dunque la loro esecuzione incrementa solo il contatore di esecuzione.<br>
Se il kernel non è attivo, in parentesi quadra è riportato un asterisco, che ricorda appunto la <u>non</u> esecuzione.

###  Alcuni comandi "magic"
Per interagire con il sistema operativo

In [None]:
%quickref   # IPython -- An enhanced Interactive Python - Quick Reference Card

In [None]:
# lista dei comandi "magic"
%lsmagic

In [None]:
# print working directory (pwd)
%pwd

In [None]:
# list files & subdirectories in directory
%ls 

In [None]:
# list just subdirectories
%ddir

In [None]:
a=10

In [None]:
%whos # la lista delle variabili; è come il variable inspector ma non è aggiornata in tempo reale.

In [None]:
%timeit (10==20)

Da so 29280470:<br><br>
**%timeit** is an ipython magic function, which can be used to time a particular piece of code (A single execution statement, or a single method).<br><br>
From the docs:<br>
%timeit<br>
Time execution of a Python statement or expression<br>
Usage, in line mode:<br>
    %timeit [-n<N> -r<R> [-t|-c] -q -p<P> -o] statement<br>
To use it, for example if we want to find out whether using xrange is any faster than using range, you can simply do:<br>

In [1]: %timeit for _ in range(1000): True<br>
10000 loops, best of 3: 37.8 µs per loop<br>

In [2]: %timeit for _ in xrange(1000): True<br>
10000 loops, best of 3: 29.6 µs per loop<br>
And you will get the timings for them.<br>

The major advantage of %timeit are:<br>
* that you don't have to import timeit.timeit from the standard library, and run the code multiple times to figure out which is the better approach.
* %timeit will automatically calculate number of runs required for your code based on a total of 2 seconds execution window.

You can also make use of current console variables without passing the whole code snippet as in case of timeit.timeit to built the variable that is built in an another environment that timeit works.

Alternativamente ([stackoverflow](https://stackoverflow.com/questions/32565829/simple-way-to-measure-cell-execution-time-in-ipython-notebook)):

In [None]:
import time
start = time.time()
"the code you want to test stays here"
end = time.time()
print(end - start)

In [None]:
# oppure:
import time
start_time = time.time()
c=3 # il codice
print("--- %s seconds ---" % (time.time() - start_time))

### Trovare una stringa
* usare la funzione del browser (ctrl-F con Win10-Chrome, ctrl-G per avanzare nella sequenza)
* 'find and replace' (F in command mode)
* installare le estensioni di Jupyter (da un prompt Anaconda3): <br> 
> 'pip install jupyter_contrib_nbextensions'<br>
> 'jupyter contrib nbextension install --user'<br>
> even after enabling nbextensions, from the notebooks tree page, you need to activate it on your Jupyter notebook <br>
> so 49647705, varie risposte. <br>
* usare JupyterLab

Vedi anche [qui, ](https://stackoverflow.com/questions/35119831/ipython-notebook-keyboard-shortcut-search-for-text)
[qui](https://towardsdatascience.com/12-jupyter-notebook-extensions-that-will-make-your-life-easier-e0aae0bd181)
[ e qui](https://towardsdatascience.com/jupyter-notebook-extensions-517fa69d2231)


### La gestione delle variabili

In [None]:
%whos # la lista (stesse info del 'variable inspector' ma non dinamico)

In [None]:
a = 1
%whos 

In [None]:
# del nome_variabile
del a

In [None]:
%whos

Lo scope (l'ambito) delle variabili è (al massimo) il solo notebook aperto, cioè a meno di funzioni che definiscono variabili solo locali.<br>
Le variabili definite in altri notebook non sono qui visibili.

### Chiudere Jupyter
dalla homepage:
* 'logout' chiude i kernel aperti;
* 'quit' chiude <u>anche</u> i notebook aperti

dal singolo notebook:
* chiusura finestra browser --> lascia il kernel attivo (lo si può chiudere dalla homepage di Jupyter --> tab "Running")
* 'logout'                  --> chiude anche il kernel. Alla prossima riapertura è richiesta la pwd od un token casuale.

NB. I comandi di Jupyter NON agiscono (non possono agire) sulle finestre del browser.

Vedi anche so 10162707.

https://stackoverflow.com/questions/10162707/how-to-close-ipython-notebook-properly

### Il  Variable Inspector
Attivazione:
* passo 1: chiudere jupyter notebook.
* passo 2: da anaconda prompt: 
    * 'pip install jupyter_contrib_nbextensions' (se nbextensions NON ancora installate).
    * riattivare jupyter notebook.
* passo 3: dal tab 'Nbextensions' della Home Page di Jupyter Notebook, che vi dovrebbe ora essere comparso in alto:
    * fare check sul box 'Variable Inspector'
    * e poi attivarlo con 'enable'.

<br>
(so 37718907)

Il Variable Inspector permette anche di cancellare un oggetto (tramite la x iniziale sulla riga dell'oggetto stesso), come comoda alternativa alla funzione *del(oggetto)* da una cella di tipo *code*.<br>

Gli oggetti del Variable Inspector possono anche essere ordinati. L'ordinamento dei nomi riporta prima i nomi in maiuscolo (ordinati) e poi in minuscolo (ordinati).<br>

Con il comando magico %whos si ottiene la stessa lista di variabili, con le stesse informazioni, ma non aggiornata dinamicamente.

### Gestione dei percorsi dei file
Tramite il package 'os', che gestisce l'interazione con il sottostante sistema operativo, ed in particolare la sua funzione 'path'.

### Funzionamento cross-notebook
copy & paste di celle (intere) tra notebook non funziona. il copy&paste dal codice della cella in edit mode, invece, è a livello di sistema <br>
operativo, e dunque funziona anche tra differenti notebook.<br>
**le variabili sono locali al singolo nb**<br>
la ricerca di stringhe su vari notebook è forse fattibile da Anaconda prompt o da JupyterLab (so 60906285).

### Persistenza degli oggetti in memoria

Gli oggetti creati in memoria persistono alla chiusura del notebook, purchè non si esca da Jupyter.
E' verificabile con il Variable Inspector.<br><br>
Ciò può essere fonte di problemi. Supponiamo che un notebook esegua in questo ordine le due seguenti celle:

In [None]:
a=1

In [None]:
b=1

Supponiamo poi che, in un secondo momento, per errore si inserisca una terza cella *axb* tra le due, cioè nella seguente sequenza: 

In [None]:
a=1

In [None]:
a*b  # funziona, perchè 'b' era stata definita prima.

In [None]:
b=1

Se si esce dal notebook, dopo averlo salvato ovviamente, si rientra e si eseguono le celle nell'ordine, tutto funziona (perchè la variabile *b* è ancora in memoria). Se invece si esce da Jupyter e poi si rientra, si apre il file e si eseguono le celle in ordine, la cella *axb* dà giustamente errore!<br>
Cioè, se la sequenza delle celle non è corretta, il notebook può apparentemente funzionare anche dopo la sua chiusura e riapertuura (grazie alla persistenza in memoria delle variabili allocate). Ci accorgeremo dell'errore del notebook, con sorpresa, solo dopo aver chiuso e riattivato Jupyter!<br>
Ciò vale per tutti gli oggetti *python*, ad esempio anche con le funzioni (definite PRIMA di essere usate?).

Alcune volte, inoltre, l'output delle celle sembra persistere in memoria anche se Jupyter è chiuso e riavviato. Tali oggetti non sono visibili nel Variable Inspector, che non elenca nessun oggetto in questi casi, tuttavia le celle non sono eseguite! Cioè non ci si rende  conto dell'ordine errato delle celle sino a chè non si spegne e riavvia il computer! 

## Insidie di Jupyter

### Doppio save??
Attenzione: Jupyter **non ha controllo di versione**. Pertanto:
* se aprite la versione A del notebook e la modificate (al tempo t0, senza fare save o checkpoint automatico!) 
* e poi involontariamente (capita!) aprite una seconda versione B del <u>medesimo</u> notebook (sun altro tab del browser) e la modificate al tempo t1 (>t0)
* poi salvate la versione B
* ed infine (erroneamente) salvate la versione A, le modifiche fatte al tempo t1 sulla versione B sono perse perchè sovrascritte.

### Cut & Paste dentro una cella??
Provate sulla cella di prova sottostante. Se selezionate Parte 2 e poi premete l'icona in alto a sinistra (le forbici) --> perdete l'intera cella.<br>
Le icone del menù in alto lavorano sulle **celle intere**. Per lavorare con le parti di una cella usate i comandi del menu **tasto destro del mouse**.

Parte 1.

Parte 2.

### Testo in rosso

L'editor visualizza in rosso le variabili (ed i commenti) che non sono indentati secondo gli standard (4 spazi). Vedi [qui](https://stackoverflow.com/questions/35330872/why-are-some-variables-and-comments-in-my-ipython-notebook-red).

## Il dataset iris

[Toy dataset forniti da scikit-learn](https://scikit-learn.org/stable/datasets/toy_dataset.html)

In [15]:
import numpy as np
from sklearn import datasets # sklearn is part of scikit-learn (so 46113732)
from sklearn.datasets import load_iris

In [16]:
iris = load_iris() # è un oggetto scikit-learn, inclusivo di documentazione. Non è ancora un df pandas

In [17]:
print(iris.data) # le variabili di previsione 
                 # feature, predittori, variabili indipendenti, dimensioni, assi di analisi, colonne, attributi, proprietà

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [18]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [19]:
iris.target # i VALORI della variabile risposta (per ogni riga)
            # risposta, output, variabile dipendente, ecc

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [20]:
iris.target_names # i valori DISTINTI del target
                  # The classes are already converted to integer labels where 0=Iris-Setosa, 1=Iris-Versicolor, 
                  # 2=Iris-Virginica. (PML notebook)

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [21]:
print(iris.target_names) # come sempre la funzione 'print' cambia (può cambiare) l'output. 
                         # 'print' di python3 (funzione) è diversa da python2 (istruzione).

['setosa' 'versicolor' 'virginica']


In [22]:
print(iris.DESCR) # la descrizione inclusa nel dataset

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [23]:
iris.filename

'C:\\Users\\Utente\\anaconda3\\lib\\site-packages\\sklearn\\datasets\\data\\iris.csv'

In [24]:
# attenzione:
type(iris) # un bunch dataset.
           # 'type' fornisce la classe dell'oggetto.

sklearn.utils.Bunch

## pandas

[Conversione di un dataset scikit-learn in un df pandas](https://stackoverflow.com/questions/38105539/how-to-convert-a-scikit-learn-dataset-to-a-pandas-dataset)

In [None]:
import pandas as pd
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= list(iris['feature_names']) + ['target'])
print(df)
print(type(df))

In [None]:
df.dtypes  # This returns a Series with the data type of each column.
           # 'dtype' sta per 'data-type'.
           # --> Non confondere con 'type(df)'' che fornisce il data-type dell'oggetto 'df' nel suo insieme.

In [None]:
df.select_dtypes(['number']) # utile metodo per selezionare tutte e sole le variabili NUMERICHE

In [None]:
df.select_dtypes(['object']) # utile metodo per selezionare tutte e sole le variabili STRINGA (object);
                             # --> nessuna, in questo dataset.

In [None]:
df.select_dtypes(['datetime']) # utile metodo per selezionare tutte e sole le variabili DATETIME; 
                             # --> nessuna, in questo dataset.

In [None]:
df.select_dtypes(['timedelta']) # utile metodo per selezionare tutte e sole le variabili TIMEDELTA;
                             # --> nessuna, in questo dataset.

In [None]:
df.select_dtypes(['category']) # utile metodo per selezionare tutte e sole le variabili CATEGORICHE;
                               # nessuna, in questo dataset.

In [None]:
df # meglio che 'print(df) in questo caso'

In [None]:
help(pd.DataFrame()) # il DF è la struttura di pandas più importante che estende le serie, ci permette di importare i dataset

[Plot di iris](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html)

In [None]:
df.describe() # funzioni statistiche (solo per le variabili numeriche, che sono comunque escluse automaticamente dal metodo);
              # questo metodo interpreta la variabile 'target' come numerica;
                  

In [None]:
# cambiamo i nomi delle variabili (senza i cm) - con 'inplace=True'
df.rename(columns={'sepal length (cm)': 'sepal length', 'sepal width (cm)': 'sepal width','petal length (cm)': 'petal length','petal width (cm)': 'petal width'},inplace=True)
# Notare l'argomento 'inplace=True.'

In [None]:
df.columns # i nuovi nomi delle variabili (per lo standard PEP8 in lettere minuscole ed underscore)

In [None]:
df.index # l'indice numerico creato automaticamente da pandas (la prima colonna in neretto nel display di prima)
# attenzione: un df pandas NON è una tabella relazionale con chiavi primarie, secondarie ed esterne; singole e composte.

In [None]:
# set_index() --> Utile quando si vuole sostituire all'indice numerico progressivo automaticamente creato da 'pandas' 
# (la prima colonna) un altro indice su una certa colonna.

df.set_index('sepal length',inplace=True)  # poco sensato qui
df.head()

In [None]:
df.reset_index(inplace=True)  # senza l'argomento 'inplace' il reset index vale solo per l'output della cella,
                              # ma non persistente nell'oggetto.

In [None]:
# Per indici multipli c'è la funzione di pandas 'MultiIndex'.

In [None]:
df.info()  # --> range index, non-null values, data types, memory usage.

In [None]:
print(pd.DataFrame({'Variabili': df.columns})) # mix di testo e dati (DMforBA, python ed., p. 167)

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail(10)

In [None]:
df.shape

In [None]:
len(df.index)

In [None]:
print(df.shape[0])
print(df.shape[1])

In [None]:
df.sort_values(by = 'sepal length',ascending=True) # senza 'inplace=True', altrimenti diventa permanente

In [None]:
df.sort_values(by = 'sepal length', ascending = False) # in modo discendente

In [None]:
df.drop(columns=['sepal length']) # un semplice modo per liberarsi di una o più colonne del df.
                                  # inplace=True lo rende persistente.

In [None]:
print(df.groupby(by='sepal length'))            # senza metodi di aggregazione, la groupby si limita a creare l'oggetto
                                                # raggruppato
print(df.groupby(by='sepal length').count())    # 'count()' è una delle molte funzioni di aggregazione.
                                                # Per maggiori dettagli ed esempi sulla funzione 'groupby' vedi Corso TS.

Pandas is designed to work only on a single core. Pandas cannot utilize the multi-cores available on the system.<br>
However, the *cuDF* library aims to implement the Pandas API on the GPU; *Modin* as well as *Dask Dataframe library* provides parallel algorithms around the Pandas API.

## il subsetting di pandas
**accesso**: *slicing*, *subsetting*, *indexing*: termini sostanzialmente equivalenti per indicare un sottoinsieme di righe e/o colonne.

diversi metodi:
* il metodo di BASE (so 16096627)
* loc
* iloc

Secondo DMBA: il metodo *loc* è più generale e permette di accedere alle righe usando le label; il metodo *iloc*, d'altra parte, permtte di usare solo numeri interi.<b>

Ci sono alcune inconsistenze; ad esempio: *iloc* esclude l'estremo superiore del range 0:9 (secondo la convenzione generale di Python); al contrario, il metodo *loc* lo include.




In [None]:
df # per tenerlo in vista

In [None]:
# iniziamo con il metodo di base.
# estraiamo i primi tre casi per intero  (so 16096627)
df[:3] # da 0 a lenght-1 

In [None]:
df[4:] # i casi dal quinto fino alla fine del dataset. 
# --> Ci sono delle righe con ... (non visualizzate) perchè è un subset troppo grande.

In [None]:
df2 = df[4:]     # ovviamente nelle copie dati, sono copiati TUTTE le righe.
print(df2)

In [None]:
df[1:3] # da 1 a lenght-1 (so 16096627)

In [None]:
df[::2] # i casi uno sì ed uno no

In [None]:
# --> non è possibile selezionare una sola riga! è una inconsistenza del metodo di base, occorre usare il metodo .iloc, vedi 
#     più avanti (so 16096627)

In [None]:
# con [label] selezioniamo una colonna come SERIE (un'altra struttura di pandas). Notare l'uso di [] anzichè di [[]].
df['sepal length'] # label colonna

[Series vs. Dataframe in pandas](https://stackoverflow.com/questions/38105539/how-to-convert-a-scikit-learn-dataset-to-a-pandas-dataset)

In [None]:
type(df['sepal length']) # è una Series

In [None]:
print(df['sepal length'])              # la serie (indice e valori)
print('\n',df['sepal length'].values)  # i valori della serie
print('\n',df['sepal length'].index)   # il range dell'indice della serie

In [None]:
help(pd.Series())

In [None]:
len(df['sepal length'])    # lunghezza della serie

In [None]:
df['sepal length'].shape   # la stessa cosa

In [None]:
df[:2].shape               # si agisce sul dataframe che ha comunque due dimensioni (è solo un subset)

In [None]:
df[['sepal length']] # estrazione colonna per nome (con la modalità dataframe: [[]]);
                     # riporta solo le prime ed ultime osservazioni;
                     # sia l'indice che i valori della colonna del df

In [None]:
type(df[['sepal length']]) # oggetti differenti (dataframe o series, in questo caso) hanno metodi differenti associati

In [None]:
print(df[['sepal length']].values) # estrazione colonna per nome (con la modalità dataframe: [[]]);
                                   # riporta TUTTE le osservazioni (senza interruzioni ...)

In [None]:
df.sepal_length            # comoda alternativa se il nome colonna NON contiene spazi

In [None]:
print(df[['sepal length']].index)  # il range dell'indice della serie

In [None]:
df[['sepal length']].head(2) # solo le prime due righe (di quella colonna)

In [None]:
df[['sepal length', 'sepal width']] # 2 colonne (in modalità dataframe)

In [None]:
df['sepal length'][2] # selezioniamo un caso di una variabile 

In [None]:
df['sepal length'][0:10] # le prime 10 righe di una determinata colonna

In [None]:
df[['sepal length', 'sepal width']][0:2] # 2 colonne (in modalità dataframe) delle prime due righe

In [None]:
df[['sepal length', 'sepal width']][0] # NON funziona! (come detto prima: col metodo base di subsetting di Pandas NON è 
                                       # possibile estrarre una sola riga)

In [None]:
# loc vs iloc, i due metodi di accesso (slicing) a righe e colonne dei dataframe di pandas (DMforBA, p. 25);
# - il metodo loc è più generale e permette di accedere alle righe tramite le label; loc include l'ultimo elemento del range
#   specificato, a differenza di numpy e del metodo iloc;
# - il metodo iloc permette di accedere solo tramite gli interi
print(df.loc[0:3])    # le prime 4 righe (da 0 a 3)
print(df.iloc[0:3])   # le prime 3 righe (da 0 a 2) - comportamento standard di python

# NB. loc ed iloc, se la selezione è resa persistente, fanno perdere i nomi delle variabili.

In [None]:
# selezione di un solo caso (non era possibile col metodo base di pandas) 
df.iloc[0,:] # tutte le colonne del caso 0

In [None]:
# .iloc (usa l'indice intero riga colonna) - sintassi COERENTE con quella di numpy per il subsetting delle array

In [None]:
df.iloc[:,2] # tutti i valori della colonna 3 (l'opposto di prima)

In [None]:
df.iloc[0,2] # un SINGOLO elemento: df.iloc[row_indexer,column_indexer]df1.iloc[0,2] # un SINGOLO elemento: df.iloc[row_indexer,column_indexer]

In [None]:
df.iloc[0,20] # IndexError --> out of bounds (errore voluto)

In [None]:
df.iloc[0:2,2] # un insieme di righe (consecutive) da 0 a length-1 (solo colonna 2, cioè petal length, la terza!)

In [None]:
df.iloc[:2,2]  # stessa cosa

In [None]:
df.iloc[0,0:3] # un insieme di colonne (consecutive) del caso 0

In [None]:
df.iloc[[4,3,0],2] # un insieme di righe non consecutive (solo colonna 2)

In [None]:
df.iloc[1] # un solo indice è interpretato come indice di riga (a differenza di altri linguaggi di ML, ad es. R)

In [None]:
# uso degli operatori (nel subsetting) --> condizioni di estrazione

In [None]:
df[df['sepal length'] > 7] # tutti i casi con height > 7 # subsetting di base

In [None]:
# alternativa molto usata (ad esempio da Hwang) con subsetting di tipo .loc
df.loc[df['sepal length'] > 7] # tutti i casi con height > 7

In [None]:
# come sopra ma con =:
df.loc[df['sepal length'] == 7.1] # tutti i casi con height = 7.1

In [None]:
# concatenazione di colonne non-consecutive in un nuovo df (DMforBA, p. 24)
pd.concat([df.iloc[4:6,0],df.iloc[4:6,3]],axis=1) # combina la colonna 1 dei casi 5 e 6 con la colonna 4 dei medesimi casi.
                                                  # 'axis' specifica la dimensione lungo la quale la concatenazione avviene.
                                                  # 0 righe - 1 colonne.

In [None]:
# Subsetting BOOLEANO
sample_arr = [True, False]
bool_arr = np.random.choice(sample_arr, size=df.shape[0])
print(bool_arr)
df[bool_arr]

Vedi anche [questo post](https://www.kdnuggets.com/2019/06/select-rows-columns-pandas.html?__s=o7u740my87lkp9nksy5d&utm_source=drip&utm_medium=email&utm_campaign=Building+an+image+classifier&utm_content=Building+an+image+classifier) (*How to Select Rows and Columns in Pandas Using [ ], .loc, iloc, .at and .iat*).

## *numpy*
Il pacchetto per il calcolo scientifico di base, estendibile con il pacchetto gemello ***scipy*** che si appoggia su numpy stesso. <br>Il principale oggetto di numpy sono le **ndarray** (n-dimensional array), più semplicemente chiamate <u>array</u>. Sono usate per rappresentare <u>vettori</u> (1D), <u>matrici</u> (2D) e <u>tensori</u> (3D+). Gli 0D-array sono <u>scalari</u>.


In [1]:
import numpy as np   # np è l'abbreviazione convenzionale per numpy 
import scipy as sp   # sp è l'abbreviazione convenzionale per scipy 

### Creazione di array numpy

In [2]:
np.array(2)                   # --> si ottiene uno scalare (0D-array)
np.array(2,ndmin=1)           # --> si ottiene un vettore (1D-array) 
np.array(2,ndmin=2)           # --> si ottiene una matrice (2D-array)
                              # in tutti e tre i casi l'array è costituita da un SOLO numero.

array([[2]])

In [None]:
np.array([1,2,3],ndmin=0)     # un vettore con tre componenti
np.array([1,2,3])             # idem 
                              # cioè, indipendentemente da 'ndmin', ora, per crare un vettore si elencano dentro le 
                              # parentesi quadre tutti gli elementi.

In [None]:
np.array([1,2,3],ndmin=2)     # una matrice 1x3; è necessario per moltiplicare il vettore (colonna) con una matrice
np.shape(a)

In [None]:
np.array([[1,2,3],
          [4,5,6]],
         ndmin=1)             # una matrice 2x3

np.array([[1,2,3],
          [4,5,6]])           # una matrice 2x3
                              # cioè, indipendentemente da 'ndmin', per crare una matrice si elencano dentro le parentesi 
                              # quadre tutti i vettori [..].

In [None]:
a = np.array([[1,2,3],
          [4,5,6]],
         ndmin=3)             # ??
np.shape(a)

### Funzioni di creazione utili

In [None]:
n = 5
np.identity(n)

In [None]:
n = 3
m = 5
np.eye(n,m,k=0)

In [None]:
np.random.rand(n,m)       # una matrice di numeri pseudo-casuali (ognuno estratto da una distribuzione uniforme standard)

### Metodi ed attributi di un'array numpy

In [None]:
a = np.array([[1,2,3],
          [4,5,6]])
a

In [None]:
a.shape         # le dimensioni dell'array

In [None]:
a.ndim          # il numero di dimensioni dell'array
len(a.shape)    # la stessa cosa

In [None]:
a.size          # il numero totale di elementi dell'array

In [None]:
a.T             # l'array trasposta (righe e colonne invertite); non ha effetto se a è 0D oppure 1D.

In [None]:
b = a.copy()    # crea una NUOVA array che è la copia di a.
                # [b = a --> si continua a lavorare sulla STESSA array]

In [None]:
a.nonzero()     # restituisce un'array di indici che corrispondono agli elementi non-zero di a.

In [None]:
a.sum(axis=0)   # somma lungo l'asse indicato (qui le colonne)

In [None]:
a.sum(axis=1)   # somma lungo l'asse indicato (qui le righe)

In [None]:
a.min(axis=1)   # gli elementi minimi delle due righe

In [None]:
a.max(axis=0)   # gli elementi massimi delle tre colonne

### Subsetting di un'array numpy 1D



### Subsetting di un'array numpy 2D
Da [questo](https://stackoverflow.com/questions/30917753/subsetting-a-2d-numpy-array) post stackoverflow

In [3]:
# i dati
voti = np.array([[87,96,70], [100,87,90], 
                 [94,77,90],[100,81,82]])
voti

array([[ 87,  96,  70],
       [100,  87,  90],
       [ 94,  77,  90],
       [100,  81,  82]])

In [4]:
# selezione di un elemento:
voti[0,1]       # prima riga, seconda colonna

96

In [5]:
voti[1]         # la seconda riga (per default, numpy considera l'unico indice come indice di riga, come fa anche il 
                # metodo iloc di pandas - vedasi sopra)

array([100,  87,  90])

In [6]:
voti[0:2]       # le prime due righe (sequenziali)

array([[ 87,  96,  70],
       [100,  87,  90]])

In [7]:
voti[[1,3]]     # righe NON sequenziali

array([[100,  87,  90],
       [100,  81,  82]])

In [None]:
voti[:,0]       # la prima colonna (':' indica tutte le righe)

In [None]:
voti[:,1:3]     # due colonne in sequenza (la seconda e la terza)

In [None]:
voti[0:,[0,2]]  # due colonne NON in sequenza (la prima e la terza) 

Ora un altro esempio da [questo](https://stackoverflow.com/questions/30917753/subsetting-a-2d-numpy-array) post stackoverflow:

In [None]:
# creazione dei dati (l'array numpy 2D 'a')

import numpy as np

a = np.arange(100)
a.shape = (10,10)

# scritto meglio:
a = np.arange(100).reshape(10,10)

a

In [None]:
a[0] # la prima riga dell'array

In [None]:
# OBIETTIVO più generale: subsetting di righe e colonne di a, specificate dai vettori n1 ed n2:

n1 = range(5)
n2 = range(5)

# scritto meglio:
n1, n2 = np.arange(5), np.arange(5)

In [None]:
a[n1,n2] # i primi 5 elementi della diagonale principale;
         # NON è il risultato attteso (che è invece una subarray n1*n2)

In [None]:
# il risultato attteso (l'estrazione della subarray 5*5 in alto a sx), tramite creazione di una nuova array 'b'
b = a[n1,:]     
b = b[:,n2]
b

In [None]:
# Vorremmo una 'VISTA' dell'array 'a', senza la creazione di una nuova array 2D.

# RISPOSTA più votata:
# There's a big difference between "fancy" indexing (i.e. using a list/sequence) and "normal" indexing (using a slice).
# The underlying reason has to do with whether or not the array can be "regularly strided" (percorsa), and therefore 
# whether or not a copy needs to be made. Arbitrary sequences therefore have to be treated differently, if we want to 
# be able to create "views" without making copies.

In [None]:
# Not what you want
b = a[n1, n2]  # array([ 0, 11, 22, 33, 44])

# What you want, but only for simple sequences
# Note that no copy of *a* is made!! This is a view.
b = a[:5, :5]
print(b)

# What you want, but probably confusing at first. (Also, makes a copy.)
# np.meshgrid and np.ix_ are basically equivalent to this.
b = a[n1[:,None], n2[None,:]]
print('\n',b)

In [None]:
# un'altra soluzione, con la funzione 'np.ix'
a[np.ix_(n1, n2)]

In [None]:
# un'altra soluzione ancora
a = np.arange(100).reshape(10,10)
subsetA = [1,3,5,7]
a[subsetA].T[subsetA]

In [None]:
# Fancy indexing with 1D sequences is basically equivalent to zipping them together and indexing with the result.

print ("Fancy Indexing:")
print (a[n1, n2])

print ('\n',"Manual indexing:")
for i, j in zip(n1, n2):
    print (a[i, j])

In [None]:
# However, if the sequences you're indexing with (will?, ndt) match the dimensionality of the array you're indexing 
# (2D, in this case), the indexing is treated differently. Instead of "zipping the two together", numpy uses the 
# indices like a mask.
# In other words, a[[[1, 2, 3]], [[1],[2],[3]]] is treated completely differently than a[[1, 2, 3], [1, 2, 3]], 
# because the sequences/arrays that you're passing in are two-dimensional.
print(a[[[1, 2, 3]], [[1],[2],[3]]])
print('\n',a[[1, 2, 3], [1, 2, 3]])

In [None]:
# To be a bit more precise:
a[[[1, 2, 3]], [[1],[2],[3]]]
# is treated exactly like:
i = [[1, 1, 1],
     [2, 2, 2],
     [3, 3, 3]]
j = [[1, 2, 3],
     [1, 2, 3],
     [1, 2, 3]]
a[i, j]
# In other words, whether the input is a row/column vector is a shorthand for how the indices should repeat in the 
# indexing.

### Convertire array numpy
Da ND ad 1D: vedi [questo post so](https://stackoverflow.com/questions/13730468/from-nd-to-1d-arrays).<br>
Ad esempio: *np.reshape(X,-1)*.

### Convertire un df *pandas* in un'array *numpy*
Vedi [questo post](https://stackoverflow.com/questions/13187778/convert-pandas-dataframe-to-numpy-array) di *stack overflow*.

In [None]:
df.values
df_to_numpy()  # meglio! vedi il post
to_numpy()     # per consistenza

## Calcoli numerici in *pandas* 
*pandas* è ottimo per la gestione dei dataframe, *numpy* per i calcoli numerici.<br>
Diverse funzioni di *pandas* che richiedono **calcoli numerici** (ad es. standardizzazione, calcolo correlazione, ecc) ricevono in ingresso un *dataframe* e restituiscono *un'array* di *numpy* (non necessariamente da riconvertire in *pandas*).<br>
Occorre perciò <u>conoscere i data-type di entrambi i package</u> (*pandas* e *numpy*) e sapere come <u>convertirli</u> da uno all'altro.

## L'API di scikit-learn
Uno dei maggiori benefici di scikit-learn.<br>
Un'interfaccia molto ben documentata on-line.<br>
Un'interfaccia semplice e consistente per tutti i metodi di scikit-learn, detti 'estimators'.<br>
4 metodi in sequenza: costruttore, fit, predict, transform (per metodi non-supervisionati).<br>
input/output sono array numpy o sparse matrix (scikit-learn è costruito sopra numpy e scipy, infatti).<br>
probability classification con 'predict_proba'.<br><br>

![API di scikit-learn](sklearn_elements.png)

[API Reference](https://scikit-learn.org/stable/modules/classes.html)<br><br>
[Common pitfalls and recommended practices (in particolare: data leakage)](https://scikit-learn.org/stable/common_pitfalls.html)<br><br>

**<u>Dalle FAQ di scikit-learn:</u>**<br><br>
**How can I load my own datasets into a format usable by scikit-learn?**
Generally, scikit-learn works on any numeric data stored as numpy arrays or scipy sparse matrices. Other types that are convertible to numeric arrays such as pandas DataFrame are also acceptable. *[nota MIA: pandas è costruito sopra numpy! - PML, p. 16].* For more information on loading your data files into these usable data structures, please refer to 'loading external datasets'.

**Why does Scikit-learn not directly work with, for example, pandas.DataFrame?**
The homogeneous NumPy and SciPy data objects currently expected are most efficient to process for most operations. Extensive work would also be needed to support Pandas categorical types. Restricting input to homogeneous types therefore reduces maintenance cost and encourages usage of efficient data structures.

**Why do categorical variables need preprocessing in scikit-learn, compared to other tools?**
Most of scikit-learn assumes data is in NumPy arrays or SciPy sparse matrices of a single numeric dtype. These do not explicitly represent categorical variables at present. Thus, unlike R’s data.frames or pandas.DataFrame, we require explicit conversion of categorical features to numeric values, as discussed in Encoding categorical features. See also Column Transformer with Mixed Types for an example of working with heterogeneous (e.g. categorical and numeric) data.

**How do I deal with string data (or trees, graphs…)?**
scikit-learn estimators assume you’ll feed them real-valued feature vectors. This assumption is hard-coded in pretty much all of the library. However, you can feed non-numerical inputs to estimators in several ways.

Gli argomenti degli stimatori (*estimator*) che terminano per '-' <u>per convenzione</u> sono stati creati dai metodi successivi al creatore dell'istanza (Raschka, p. 26). 

![API di scikit-learn](skln_API_transformation.png)

![API di scikit-learn](skln_API_classification.png)

[Persistenza dei modelli](https://scikit-learn.org/stable/modules/model_persistence.html)

## Preprocessing dei dati

In [None]:
import numpy as np
from sklearn import preprocessing
input_data = np.array(
[[2.1, -1.9, 5.5],
 [-1.5, 2.4, 3.5],
 [0.5, -7.9, 5.6],
 [5.9, 2.3, -5.8]]
)
print(input_data)

In [None]:
# il seguente comando apre un'ampia finestra informativa sull'oggetto il cui nome è prima del ?
input_data?

In [None]:
# array alternativo (di test): NON USARLO nel seguito dello notebook come esempio!
import numpy as np
from sklearn import preprocessing
input_data = np.array(
[[1,2,3],
 [4,5,6],
 [7,8,9],
 [10,11,12]]
)
print(input_data)

In [None]:
type(input_data)

In [None]:
input_data.shape # in questo consistenza con pandas nel nome del metodo 'shape'

In [None]:
input_data.mean() # la media totale su tutti i valori. E' un metodo associato ad un oggetto nd-array di numpy.
                  # la documentazione in linea (shift+tab dentro le parentesi) riporta, per questa ed altre funzioni numeriche:
                  # 'Refer to `numpy.mean` for full documentation.'. Cioè rimanda alla funzione. 

In [None]:
df['sepal length'].mean() # consistenza tra pandas e numpy sul nome di questo metodo

In [None]:
# nota bene: senza parentesi.
input_data.mean # specifica il metodo, implementato con una funzione (vedi anche help), come detto prima.

In [None]:
round(input_data.mean(),2) # con arrotondamento a due cifre decimali

In [None]:
input_data.mean(axis=0) # le medie sull'asse X (cioè delle colonne)

In [None]:
print(input_data.mean(axis=0)) # una migliore formattazione?

In [None]:
input_data.mean(axis=1) # le medie sull'asse Y (cioè delle righe)

In [None]:
input_data.std() # la deviazione standard totale su tutti i valori

In [None]:
input_data.std(axis=0) # le dev std delle colonne
                       # attenzione: le dev.std fornite da questa funzione sono biased, cioè i SS sono
                       # divisi per n, e non per (n-1) come in R. [Con pochi dati ciò è discutibile] 

In [None]:
help(np.std) # la funzione 'np.std' (non il metodo!!) ha l'argomento 'ddof' per impostare il valore del divisore
             # 'ddof' means Delta Degrees of Freedom.  The divisor used in calculations is ``N - ddof``, where ``N`` 
             # represents the number of elements. By default `ddof` is zero.

In [None]:
np.std(input_data,axis=0,ddof=1) # le dev std delle colonne

In [None]:
print(np.cov(input_data,rowvar=False)) # matrice delle varianze / covarianze.
                          # è una funzione; il metodo .cov non è disponibile.
                          # attenzione: il default è 'rowvar' = True ("Each row represents a variable, and each column a single 
                          # observation of all those variables.

In [None]:
print(np.corrcoef(input_data,rowvar=False)) # matrice delle correlazioni

In [None]:
std_data = preprocessing.scale(input_data) # la funzione 'scale' fa SIA centering CHE rescaling;
                                           # notare i 3 booleani a True per default.
                                           # usa uno stimatore BIASED della dev.std. Dall'help in linea, infatti:
                                           # "We use a biased estimator for the standard deviation, equivalent to
                                           # 'numpy.std(x, ddof=0). Note that the choice of 'ddof' is unlikely to
                                           # affect model performance."
                                           # la funzione 'scale' NON ha l'argomento 'ddof'!
            
print(std_data)                            # --> standardizzare significa prendere le SD come unità di misura.
print(input_data)                          # per confronto

**standardizzazione**: 2 passi:
* centratura, aka centering oppure mean removal
* (re)scaling, cioè dev. std tutte a 1

**(Xi - mu) / sigma**. <br>
Se 'with_mean' = False --> mu = 0;<br>
Se 'with_std' = False --> sigma = 1.<br>
dove mu e sigma sono di colonna (cioè calcolate su tutte le righe, per ogni colonna)

Vantaggi ed applicazioni.<br>
Considerazioni numeriche (Brandimarte I, p. 217).<br><br>
--> I modelli lineari (ad es.Regressione Lineare, Regressione Logistica) sono molto sensibili alla trasformazione lineare, 
    <u>non al rescaling</u> (ISLR, p. 217). Altri metodi di ML (Clustering, PCA, ecc), invece, sono molto sensibili al rescaling (da fare obbligatoriamente in questi casi, in modo preliminare).<br>
    
La standardizzazione dei dati, inoltre, facilita la convergenza dell'algoritmo di discesa del gradiente (*gradient descent*), 
spesso usato con funzioni di costo convesse (PML).<br>
La standardizzazione non è una gausianizzazione.<br>
Vedi anche DMforBA, p. 33.

In [None]:
print(std_data.mean(axis=0)) # le medie delle colonne (standardizzate)
                             # sono tutte e tre 0.
                             # nei computer a doppia precisione (tutti, in pratica) e-16 è l'approssimazione digitale di 0
print(input_data.mean(axis=0))

In [None]:
print(std_data.std(axis=0)) # le medie delle colonne (standardizzate)
                             # sono tutte e tre 0.
                             # nei computer a doppia precisione (tutti, in pratica) e-16 è l'approssimazione digitale di 0
print(input_data.std(axis=0))

In [None]:
1.11022302*10**-16

**Nota sulla rappresentazione interna dei numeri reali**<br>
I numeri reali nei computer sono memorizzati separatamente, come mantissa ed esponente (in base 10).<br>
Con la notazione scientifica, i numeri reali sono visualizzati in questo modo.<br>
In una macchina a "doppia precisione" (la più comune), <u>l'esponente -16 associato ad una mantissa unitaria significa 0</u>.<br>
Ovviamente, se, a seguito dei calcoli, un numero ha mantissa 0.01 ed esponente -16, è rappresentato più correttamente dal<br>
computer come mantissa 1 ed esponente -18.  

In [None]:
np.set_printoptions(precision=3) # imposta la precisione dell'output della mantissa (se tutte le cifre decimali danno fastidio)
print(std_data.mean(axis=0))

In [None]:
np.set_printoptions(suppress=False) # sopprime l'uso della notazione scientifica per piccoli numeri:
print(std_data.mean(axis=0))

In [None]:
print(std_data.std(axis=0)) # le dev std delle colonne (standardizzate)

In [None]:
# standardizzazione fattibile anche così:
(input_data - input_data.mean(axis=0)) / input_data.std(axis=0) # ricordarsi di 'axis'
# --> illustra il funzionamento VETTORIALE di numpy e pandas (non serve un loop). R e Matlab funzionano così, i linguaggi 3GL, no.

In [None]:
centered_data = preprocessing.scale(input_data,with_std=False) # per centrare solo
centered_data 

In [None]:
print(centered_data.mean(axis=0)) # le medie di colonne sono giustamente a zero (circa).

In [None]:
print(centered_data.std(axis=0)) # le dev std originali
                                 # la centratura dati NON modifica la loro dispersione!
print(input_data.std(axis=0))    # per confronto

In [None]:
scaled_data = preprocessing.scale(input_data,with_mean=False) # per riscalare solo (no centratura)
scaled_data 

In [None]:
print(scaled_data.std(axis=0)) # le dev std delle colonne sono tutte a 1

In [None]:
print(scaled_data.mean(axis=0)) # le medie delle colonne non sono perchè non ho richiesto la centratura
# (ma non sono quelle originali, ovviamente)

In [None]:
# spesso utile "normalizzare" i dati in un determinato intervallo, ad es. 0-1
data_normalizer = preprocessing.MinMaxScaler(feature_range=(0,100)) # costruzione del normalizzatore 
data_normalizer

In [None]:
normalized_data = data_normalizer.fit_transform(input_data) # applicazione del metodo del normalizzatore ai dati di input
normalized_data

In [None]:
print(input_data)

In [None]:
input_data_2 = np.array([[4,5,6]]); print(input_data_2)
data_normalizer = preprocessing.MinMaxScaler(feature_range=(0,100)) # costruzione del normalizzatore 
normalized_data = data_normalizer.fit_transform(input_data_2) # applicazione del metodo del normalizzatore ai dati di input
normalized_data

In [None]:
# la normalizzazione implementata da 'MinMaxScaler' è questa (che NON è la standardizzazione):
(input_data_2 - input_data_2.min(axis=1)) / (input_data_2.max(axis=1) - input_data_2.min(axis=1))

In [None]:
# la normalizzazione implementata da 'MinMaxScaler' è questa (che NON è la standardizzazione):
(input_data_2 - input_data_2.min) / (input_data_2.max - input_data_2.min)

In [None]:
# binarizzazione dei dati: usata in alcuni algoritmi, ad esempio nei motori di raccomandazione 
data_binarized = preprocessing.Binarizer(threshold=3).transform(input_data)
data_binarized # tutti i valori SOPRA il threshold sono convertiti ad 1, tutti quelli SOTTO sono convertiti a 0.

**TensorFlow 2** permette di costruire *data pipeline* (per la trasformazione dei dati) molto efficienti per:
* centrare i dati
* scalare i dati
* aggiungere rumore per aumentare il training dataset e prevenire l'overfitting (*data augmentation*, molto usata per costruire le reti neurali di classificazione immagini). <br>

Vedasi Python ML, p. 436.

## Riproducibilità dei risultati.
Nel ML (e non solo) serve un generatore di numeri casuali. <br>
E' utile quando c'è un campionamento di dati oppure c'è un *tie* (legame) nei dati da risolvere (ad es. in kNN - vedi cap. B). <br>
Utile anche nelle simulazioni di Monte Carlo. <br>

Non è facile da realizzare. Si parla quindi di "pseudo"-generazione. <br>
Si parte da un "seme". <br>

Metodo standard: Linear Congruential Generator (LCG), che genera delle variabili uniformi standard, <br>
cioè variabili equiprobabili in (0,1). <br>

Metodo della trasformata inversa.<br>

Brandimarte 1 (pp. 451) e Brandimarte 2.


In [None]:
# in scikit-learn spesso realizzata con l'argomento 'random-state=k'.

# 'random_state' can be 0 or 1 or any other integer. It should be the same value if you want to validate your processing 
# over multiple runs of the code; 
# the 'random_state' parameter is used for initializing the internal random number generator.
# If random_state is an integer, then it is used to seed a new RandomState object.
# if random_state is None or np.random, then a randomly-initialized RandomState object is returned.

# in numpy l'inizializzazione del generatore di (pseudo) numeri casuali è tramite la funzione 'random.seed'.

In [None]:
np.random.rand(5,4) # matrice casuale di numeri tra 0 e 1 - ogni volta diversa

In [None]:
np.random.seed(0)
np.random.rand(5,4) # matrice casuale di numeri tra 0 e 1 - sempre la stessa

[Importanti funzioni ulteriori](https://docs.python.org/3/library/random.html)

## Utilità di Python<br>
Molte utilità sono disponibili nel package *dmba*, che è presente nel *PPI (Python Package Index)* all'indirizzo: <u>https:// pypi.org/ project/ dmba</u>. Installare il package con: *pip install dmba* (da un prompt anaconda) e poi fare: *import dmba* da una cella Jupyter. Il codice sorgente è mantenuto su GitHub a: *https:// github.com/gedeck/dmba*.

## Traceback

In [None]:
vedi libro "Introduzione a Python", pp. 313-315.