# Python Fundamentals

Questo documento vuole essere una breve introduzione ad alcuni concetti necessari per poter utilizzare efficacemente gli strumenti di **Python** e **Jupyter Notebook** al fine di risolvere problemi inerenti alla Data Science.

Per fare questo, saranno illustrati alcuni concetti base, fondamentali per l'esecuzione dei comandi che si vogliono imporre al computer.
Questo spazio sarà anche dedicato a creare un gergo comune, per chiunque non fosse a suo agio con i termini tipici di questo ambiente.



## Python

Python è un linguaggio di programmazione. Le sue caratteristiche principali sono:
* è un linguaggio *interpretato*, il che vuol dire che il computer esegue i comandi non appena noi glieli inviamo. Si dice anche che è un linguaggio di *scripting*, nel senso che tu **gli dai una serie di comandi in sequenza e lui li esegue in quell'ordine, uno per uno, tenendo traccia dello stato** di volta in volta
* è la lingua franca della Data Science perchè è inserito in un ecosistema ricchissimo di librerie. Vedremo quindi che si farà ampio uso di alcune librerie standard.


## Jupyter Notebook

I Notebook Jupyter sono questo modo particolare di scrivere codice Python. Come vedremo tra poco, è possibile organizzare il codice in blocchi che vengono eseguiti uno ad uno, in modo da tenere traccia dei cambiamento che stiamo facendo più facilmente e da permettere un utilizzo dello strumento **molto interattivo**.

Se necessario infatti possiamo in qualsiasi momento dividere i blocchi, spostarli o modificarli per capire cosa sta facendo il nostro codice o ispezionarne i prodotti per poi decidere come continuare.

Per eseguire una cella di codice si usa la scorciatoia da tastiera *shift+invio*.


### Google Colab
[Google Colab](https://colab.research.google.com/) è una particolare versione dei notebook che stiamo utilizzando, mantenuta da Google. È utile perchè evita la preparazione di un ambiente di sviluppo vero e proprio, probabilmente su Linux; l'ambiente viene invece creato su richiesta e gestito direttamente da Google. I dati che vogliamo utilizzare devono essere caricati in questo ambiente, ed è possibile ad esempio tramite Google Drive. Questo implica che il codice che scriviamo (e i dati che carichiamo!) è eseguito su macchine virtuali nei server di Google. Se, per una questione di riservatezza, è un problema caricare i dati sull'infrastruttura Google, internet è pieno di tutorial su come creare un ambiente di sviluppo Python praticamente ovunque (Windows, Linux, Mac...).

## Python essentials

Ok, lanciamoci in alcuni concetti base di Python.

Innanzitutto, i commenti in python possono essere scritti in due modi:


In [None]:
# Con il cancelletto / hashtag, se i commenti sono su una sola riga di codice

'''
Oppure con i tripli apici,
che permettono di fare commenti
su più righe
'''

Introduciamo le variabili e il concetto di asseganzione

In [None]:
# Questa è un'assegnazione
a = 20 # a è una variabile

Con questo comando abbiamo *assegnato* alla lettera "a" il valore 5. Questo fa di "a" un *intero*, almeno al momento. Essenzialmente abbiamo detto a Python che per noi il numero 5 lo possiamo chiamare anche "a". 

**N.B.** "a" *punta* a 5, **non** è diventato 5.

**N.B.** i *tipi* di variabile (intero, stringa, ecc) esistono anche in Python, ma è comunque un linguaggio *tipizzato dinamicamente* perché non è necessario dichiarare il tipo di una variabile. Il tipo viene inferito dinamicamente. Questo rende Python molto malleabile, anche se a volte questa libertà può causare qualche mal di testa..

In [None]:
a + 5

Se scriviamo un codice che fornisce un risultato in una cella da solo, l'ambiente ci mostra il risultato senza dover specificare nient'altro.

Altrimenti dobbiamo usare la *funzione* `print()` oppure la funzione `display()`:

In [None]:
a + 3
print(a+5)
print(a-2)
display(a + 3)

A proposito di *funzioni*: una funzione è una trasformazione completamente definita da noi. Prende in ingresso degli input, chiamati *argomenti*, e restituisce degli output. Le funzioni si dice che vengono "chiamate" e sono caratterizzate da delle parentesi tonde alla fine che possono contenere gli argomenti.

In [None]:
def moltiplica_per_due(numero_in_input):
    output = numero_in_input * 2
    return output

Osserviamo una **caratteristica sintattica** di python molto importante. La definizione di una funzione, cioè il codice che descrive ciò che fa, si dice che costituisce lo *scope* di quella funzione. In python, lo *scope* è identificato semplicemente dall'**indentazione**, a differenza di altri linguaggi che fanno un uso profuso di parentesi di vario tipo. Questa caratteristica è un punto di forza di python, che rende il codice molto più leggibile e veloce da scrivere, evitando spesso errori dovuti alla presenza di parentesi multiple che chiudono scope innestati.

In pratica, quando dichiariamo una funzione con un `def` e dopo i due punti che concludono la dichiarazione della funzione, tutto il codice sottostante che ha un livello di indentazione in più rispetto al `def` costituisce il corpo della funzione e ne definisce lo *scope*.

La stessa regola, come vedremo, vale anche per le condizioni `if` e i cicli.

In [None]:
moltiplica_per_due(a) # Ricordiamoci che a vale 5 perchè stiamo parlando con lo stesso Python di poco fa

In [None]:
def calcola_percentuale(numero, totale):
    return f"{round((numero / totale) * 100, 3)} %"

In [None]:
calcola_percentuale(7, 50)

Le funzioni hanno molte possibilità di personalizzazione e di estensione. Una di queste è la possibilità di includere dei parametri con dei valori di default:

In [None]:
def calcola_percentuale_default(numero, totale = 100):
    return f"{round((numero / totale) * 100, 3)} %"

In [None]:
print(calcola_percentuale_default(7))
print(calcola_percentuale_default(7, 50))

Un altro ingrediente essenziale sono le *strutture dati*. Spesso dobbiamo organizzare i dati in strutture che hanno alcune caratteristiche particolari in base alle necessità. In genere, le strutture dati possono contenere qualsiasi cosa, sono solo metodi di organzzare i dati nel modo più comodo per recuperarli al momento opportuno. Le strutture dati più importanti sono:
* Le **liste**. Caratterizzate dalle parentesi quadre, sono elenchi **ordinati** di cose. Sono indicizzate, quindi si può accedere a un elemento utilizzando la sua posizione ordinale.
* I **dizionari**. Chiamati anche mappe, sono strutture dati che associano una *chiave* ad un *valore*. Sono caratterizzate dalle parentesi graffe. La chiave è tipicamente una stringa o un intero. Sono intrinsecamente non ordinati, per richiamare i valori all'interno si usa la chiave associata ad essi.
* Gli **insiemi** (**set**). Gli insiemi sono strutture **non ordinate** dove i duplicati sono automaticamente rimossi.
* Le **tuple**. Sono strutture dati ordinate. Simili alle liste, si comportano in modo lievemente diverso riguardo alla loro mutabilità, una caratteristiche che incontreremo molto raramente. Una delle differenze principali dalle liste, ad esempio, è quella di non poter sostituire un elemento della tupla tramite l'indice ad esso riferito.

In base alla struttura dati utilizzata sono disponibili alcune funzioni, per esempio `len()` ci restituisce la lunghezza della struttura dati richiesta.

Alcuni esempi di utilizzo:

In [None]:
# Le liste
lista = ["A", "B", 3]
# La lista è identificata dalle parentesi quadre nell'output

In [None]:
lista[1] # Si conta da 0!

In [None]:
len(lista)

In [None]:
# I dizionari
dizionario = {"chiave1": "valore1", 
              "chiave2": 3, 
              123456789: 6}
dizionario
# I dizionari sono identificati dalle parentesi graffe nell'output

In [None]:
dizionario["chiave1"]

In [None]:
dizionario[123456789]

I dizionari hanno a disposizione alcune funzioni per conoscerne le caratteristiche:

In [None]:
display(dizionario.keys())     # Visualizza l'elenco delle chiavi
display(dizionario.values())   # Visualizza l'elenco dei valori
display(dizionario.items())    # Visualizza l'elenco delle coppie (chiave, valore)

Come si crea una nuova coppia chiave-valore in un dizionario già esistente?

In [None]:
# Con questa sintassi creaiamo una nuova chiave SOLO se questa non è ancora presente nel dizionario!
dizionario["chiave3"] = 200
display(dizionario)

# Con la stessa sintassi, possiamo SOVRASCRIVERE il valore associato ad una chiave già esistente
dizionario["chiave3"] = 1
display(dizionario)

In [None]:
try:
    dizionario[1]
except KeyError:  # Errore generato quando una chiave non è presente
    print("Chiave non presente. I dizionari non supportano l'indicizzazione perchè non sono ordinati!")

In [None]:
ingredienti = {"torta": ["cioccolato", "burro", "uova"], 
               "biscotti": ["farina", "uova", "nutella"], 
               "gelato": ["latte", "panna", "zucchero"]}

In [None]:
cibo = "torta"
print("Gli ingredienti di " + cibo + " sono: " + ", ".join(ingredienti[cibo]))

In [None]:
cibo = "gelato"
print("Gli ingredienti di " + cibo + " sono: " + ", ".join(ingredienti[cibo]))

In [None]:
# I set
insieme = set(["A", "a", "C", 3])  # I set devono essere creati da oggetti iterabili, come le liste
# I set sono identificati da parentesi graffe nell'output

I set sono molto utili per escludere duplicati da collezioni già esistenti

In [None]:
# Io e i miei amici dobbiamo decidere dove andare in viaggio questa estate e vogliamo escludere i posti dove siamo già stati
luca_gia_stato = ["Londra", "Madrid", "Berlino"]
jacopo_gia_stato = ["Parigi", "Vienna", "Berlino"]
daniele_gia_stato = ["Mosca", "Madrid", "Dublino"]

In [None]:
luca_gia_stato + jacopo_gia_stato + daniele_gia_stato

In [None]:
set(luca_gia_stato + jacopo_gia_stato + daniele_gia_stato)

In [None]:
# Le tuple
tupla = ("A", "B", 1)

In [None]:
# Le tuple possono essere definite anche solo tramite l'elenco ordinato separato da virgole, senza bisogno di usare le parentesi tonde
tupla2 = 1, 2, 3
tupla2

In [None]:
tupla[1]

In [None]:
len(tupla)

## Operatori

Operazioni matematiche più comuni:
* \+
* \-
* /
* \*
* %: modulo, ovvero restituisce il resto della divisione (11 % 2 --> 1)

Operatori logici:
* <
* \>
* <=
* \>=
* == --> uguale a
* != --> diverso da

In alcuni casi possiamo utilizzare operatori logici letterali nelle nostre condizioni:
* `not`: per negare una condizione
* `in`: per verificare se una variabile è presente in una collezione (lista o set, ad esempio)
* `is`: per verificare l'uguaglianza tra due variabili

## Espressioni condizionali e cicli

In [None]:
condizione = True
if condizione:
    print("Condizione era vera!")
else:
    print("Condizione era falsa!")

In [None]:
condizione = False
if condizione:
    print("Condizione era vera!")
else:
    print("Condizione era falsa!")

Possiamo creare espressioni logiche anche più complesse da inserire negli `if`. Ad esempio, possiamo verificare se una lista è vuota oppure contiene qualche valore prima di effettuare altre operazioni

In [None]:
lista = []
if len(lista) == 0:
    print("Condizione era vera!")
else:
    print("Condizione era falsa!")

Esiste anche la clausola `elif`, che permette di concatenare più condizioni e ramificare le scelte possibili.

In [None]:
if a < 3:
    print("ciao1")
elif 3 <= a < 6:
    print("ciao2")
else:
    print("ciao3")

Condizioni semplici come questa e che implicano l'assegnamento di un valore ad una variabile possono essere riscritti in maniera più leggibile e chiara in questo modo:

In [None]:
condizione = True
nuovo_valore = 10 if condizione else 100
print(nuovo_valore)

Se non siamo sicuri di come un'espressione sarà valutata, cioè se darà risultato vero o falso, possiamo usare la funzione `bool()` per fare dei test. Questa funzione prova a convertire una variabile o un'espressione a un booleano (cioè a un valore VERO o FALSO).

In [None]:
display(bool(True))   # True
display(bool(False))  # False
display(bool(0))      # False
display(bool(1))      # True
display(bool(1000))   # True! 1000 (o una variabile che contiene il valore 1000) viene valutata a True perché è definita e diversa zero
display(bool(-300))   # True, come sopra
display(bool([1, 2])) # True! La lista non è vuota, contiene dei valori. Viene valutata di default a True
display(bool([]))     # False, la lista è vuota. Questo può essere un modo alternativo per verificare se una lista è vuota
display(bool("ciao")) # True! La stringa , non è vuota, contiene dei caratteri
display(bool(""))     # False, la stringa è vuota

Vogliamo ora calcolare la somma dei primi `n` numeri. Questo è un modo in cui possiamo fare:

In [None]:
accumulatore = 0
for i in range(5):
    accumulatore = accumulatore + i # Sommo tutte le successive i
    print(f"Iterazione numero {i}. Accumulatore ha valore: {accumulatore}")

Bonus! Alcuni cicli for con le liste possono essere scritti come *list comprehensions*, uno strumento molto utilizzato e utile.

In [None]:
[c for c in range(5)]

In [None]:
[c for c in range(5) if c > 2]

Esistono anche le *dict comprehension*.

In [None]:
persone = ["luca", "daniele", "jacopo"]
citta = ["Ancona", "Milano", "Milano"]

indirizzi = {p: c for p, c in zip(persone, citta)}
indirizzi

## Funzioni utili

In [None]:
print("Alcuni modi di creare stringhe:")

numero_parole = 9
print("Sto stampando a schermo una stringa di " + str(numero_parole) + " parole")
print("Sto stampando a schermo una stringa di {} parole".format(numero_parole))
print(f"Sto stampando a schermo una stringa di {numero_parole} parole") # Stringa formattata, si indica con 'f' davanti agli apici

In [None]:
print(type(10))
print(type(lista))

# La funzione isisntance verifica se una data variabile è del tipo specificato.
if isinstance(lista, list):
    print("è una lista!")

## Programmazione ad oggetti: perchè devo sapere cosa è a grandi linee

La maggior parte delle persone usa Python come linguaggio orientato agli oggetti. Cosa vuol dire? Sarebbe molto lungo spiegarlo, ma siccome alcune librerie utilizzano pesantemente questi concetti è meglio avere un posto, come referenza futura, dove questo è spiegato.

Inoltre, molta documentazione va letta in questa chiave, quindi vale la pena spenderci 10 minuti.

Nella programmazione ad oggetti tutto gira attorno a definire *oggetti*, i loro *attributi* e le cose che possono fare, ovvero delle funzioni chiamate *metodi*. I metodi sono specifiche del tipo di oggetto costruito (una *classe*). Normalmente succede quindi che si costruisce un istanza dell'oggetto che ci serve, e se ne usano le funzioni. Lo stato viene conservato dalla singola istanza dell'oggetto che abbiamo *costruito*.

Usiamo un semplice esempio preso dalla data science, e in particolare sfruttiamo la classe `LinearRegression` della libreria `sklearn`.

La classe `LinearRegression` è un oggetto che permette di costruire un modello lineare sui nostri dati, del tipo:

y = α + β * x

dove α rappresenta l'intercetta e β il coefficiente angolare della retta di regressione.

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Costruiamo la NOSTRA istanza dell'oggetto LinearRegression
model = LinearRegression()
print(model)

Proviamo ora a costruire una retta di regressione su alcuni dati.

In [None]:
x = [[0], [1], [3], [4]]
y = [[1], [3], [4], [5]]
model.fit(x, y)   # NOTA che non viene restituito nessun output! Il risultato delle elaborazioni è salvato nello stato interno della classe, negli attributi

Dopo aver fittato il modello, proviamo ad utilizzarlo per avere una previsione.

In [None]:
model.predict([[2]])

Ogni classe in genere contiene alcuni *attributi*, che determinano lo stato della classe. Osserviamo alcuni degli attributi della classe `LinearRegression`.

Nel caso particolare della classe `LinearRegression`, questi attributi sono definiti solo dopo aver chiamato il metodo `.fit()`.

In [None]:
print(model.coef_)            # Valore dei coefficienti fittati (nel nostro caso il coefficiente angolare beta)
print(model.intercept_)       # Valore dell'intercetta alfa
print(model.n_features_in_)   # Numero di features date in input

Gli attributi sono utili perché tengono traccia dello stato del nostro oggetto, che cambia solo dopo operazioni specifiche. In questo caso, lo stato ci permette di effettuare tutte le previsioni che vogliamo a fronte di aver allenato il modello una sola volta.

In [None]:
print(model.predict([[3]]))
print(model.predict([[0], [5], [9]]))

## Installare librerie

Python contiene nella sua distribuzione base alcune librerie standard, molto comuni ed utilizzate, ad esempio:
- `os`: per comunicare con il sistema operativo (ad es., listare file nelle cartella, lanciare comandi, ecc.);
- `datetime`: per manipolazioni di date;
- `logging`: per la scrittura dei log del programma;
- `itertools`: alcune funzioni di utilità per ciclare in maniera efficace su liste e dizionari;

e tantissime altre.

Esiste inoltre un vasto ecosistema di librerie di terze parti, spessissimo sviluppate dalle community online, che permettono di accedere alle funzionalità più svariate, il tutto in modalità open source. Alcune di queste librerie hanno funzionalità molto generali e sono largamente utilizzate (ad esempio `pandas`, che vedremo nella prossima lezione), altre svolgono compiti molto specifici(ad esempio librerie che implementano particolari algoritmi numerici o statistici).

In generale, se pensi di avere tra le mani un problema complesso che vorresti risolvere tramite Python, prima fai una bella ricerca in internet: quasi certemente qualcuno avrà già pubblicato una libreria che può fare al caso tuo ;)

Per installare le librerie che di cui necessiti ci sono svariati modi, che dipendono anche dal sistema operativo su cui si sta lavorando. Su windows è disponibile il framework Anaconda che permette di installare le librerie necessarie tramite interfaccia grafica. Altrimenti si può procedere più a basso livello tramite programmi da linea di comando come [`conda`](https://docs.conda.io/en/latest/) o [`pip`](https://pip.pypa.io/en/stable/).

L'altro riferimento da avere sempre presente quando si installato librerie esterne è il seguente: [Pypi](https://pypi.org/). Tutte le librerie raccolte in questo portale sono liberamente scaribili, e i vari comandi di installazione vanno ad attingere proprio da qui. Inoltre questo è un ottimo punto di partenza per informarsi sulle funzionalità della libreria e trovare i riferimenti alla documentazione aggiuntiva, al manuale utente e al codice sorgente.

## Extra

### Mutabilità

In [None]:
print(lista)
lista[2] = 100
print(lista)

print(tupla)
try:
  tupla[2] = 100
except TypeError as e:
  print(e)


In [None]:
# Gli interi sono immutabili
a = 3
# Qui l'assegnamento è eseguito tramite copia
b = a
a = a +1
print(a)
print(b)

# Le liste sono mutabili
l1 = [1, 2, 3]
# Qui l'assegnamento è eseguito tramite referenza (reference)
l2 = l1
l1[0] = 1000
print(l1)
print(l2)

### Gestione errori

Spesso capiterà di incontrare errori durante l'esecuzione del codice. Gli errori commessi possono essere delle tipologie più svariate, da semplici typo nella scrittura delle variabili, fino ad arrivare agli errori logici nell'esecuzione del programma.

Nella maggior parte dei casi, un errore corrisponde ad un utilizzo improprio o vietato di certe strutture dati o di classi e funzioni. In questi casi il programma si interrompe e fornisce una breve spiegazione dell'errore (sperabilmente parlante e di facile comprensione, ma non sempre è così).

In [None]:
1 / 0

In [None]:
dizionario["peppino"]

In [None]:
moltiplica_per_due(model)

Si può gestire un errore inaspettato tramite il costrutto `try ... except`. Questo permette di mantenere stabile il flusso del programma ed evitare che si interrompa anche se si verificano errori.

In [None]:
try: 
    moltiplica_per_due(model)
except:
    print("errore")
    raise ValueError("Non si poteva fare")

Quando viene restituito un errore abbiamo due informazioni per ricostruire quello che è successo e correggere il problema:
- la *tracebak*: ovvero la sequenza di chiamate a funzioni che ricostruisce il punto esatto del codice in cui l'errore si è verificato (attenzione che l'errore potrebbe però originarsi da un errore logico precedente nel codice!);
- l'*exception* il messaggio di errore.

Nella maggior parte dei casi, e con un po' di esperienza, queste informazioni sono sufficienti per eseguire la correzione. Se il problema è particolarmente ostico o si ha avuto un messaggio di errore mai visto prima o poco parlante, si può invece effettuare una ricerca su internet per verificare se è un errore comune e quali sono i contesti in cui si verifica.

[Stackoverflow](https://stackoverflow.com/) è la risorsa principe per questo.

In caso si fosse proprio alle strette, ci si può anche affidare ad una [paperella di gomma](https://en.wikipedia.org/wiki/Rubber_duck_debugging), il risultato è assicurato ;)

### Lanciare codice da script

Python è anche un linguaggio di scripting, cioè che si esegue tramite *script*. Uno *script* è semplicemente un file di testo in cui è contenuto il codice da eseguire.

Vediamo un esempio.

## Conclusioni

Questi spunti sono sufficienti ad affrontare lo strumento senza perdersi in ricerche di Google poco profittevoli. La realtà è che, anche dopo anni di esperienza, tutti i programmatori si rivologono a una sana ricerca in internet se non sanno come fare qualcosa di specifico. 

Il consiglio finale è il seguente: grazie a strumenti come i Notebook è possibile provare tutti questi concetti in tempo zero da un semplice browser, riducendo di molto la difficoltà di entrata. **Non ci sono scuse per non provare** a fare qualche piccola modifica a questo codice e vedere come si comporta, magari cercando in Google la soluzione se le cose non vanno come previsto.

# Link utili
- Funzioni python built-in: https://docs.python.org/3.10/library/functions.html
- scikit-learn: https://scikit-learn.org/stable/
- stackoverflow: https://stackoverflow.com/
- PyPI: https://pypi.org/
- github: https://github.com/