# Python Intensivo

<img src="images/python_logo.png"/>

Il corso consiste di sole 6 ore. 
Gli argomenti sono tanti. 

<img src="images/brace_yourselves.jpg"/>

Il contenuto del corso si trova anche su https://github.com/lgelmi/PythonCourse.

## Indice:
* [Strumenti Avanzati](#advanced_tools)
    - [Conda](#conda)
        - [Che è?](#conda_purpose)
        - [Installazione](#conda_install)
        - [Gestione Ambienti](#conda_envs)
        - [Gestione Pacchetti](#conda_packages)
    - [Jupyter](#jupyter)
        - [Che è?](#jupyter_purpose)
        - [Installazione](#jupyter_install)
        - [Lancio](#jupyter_start)
        - [Markdown](#jupyter_markdown)
        - [Codice](#jupyter_code)
        
        
* [Peppotto (PEP8)](#pep8)
    - [Imports](#pep8_imports)
    - [Naming](#pep8_naming)
    
    
* [The Zen of Python](#zen)
    - [Simple is better than complex](#zen_3)
    - [Complex is better than complicated](#zen_4)
    - [Special cases aren't special enough to break the rules](#zen_8)
    - [Altough praticality beats purity](#zen_9)
    

* [Compattezza, Efficienza, Leggibilità](#compactness)
    - [Misurare le performance](#performance)
        - [time](#time)
        - [timeit](#timeit)
        - [profile](#profile)
    - [Operatore ternario](#ternary)
    - [Comprehension](#comprehension)
    - [Mapping](#mapping)
    - [Ricorsione](#recursion)


* [Funzioni Avanzate](#advanced_features)
    - [\*args e \**kwargs](#args)
    - [Gestione Errori](#error_handling)
        - [Eccezione? E che roba è?](#exception)
        - [raise](#raise)
        - [except](#except)
        - [else](#else)
        - [finally](#finally)
        - [Debug](#debug)
    - [Decoratori](#decorators)

* [Pacchetti essenziali](#essential_packages)
    - [logging](#logging)
    - [re](#re)
    - [Itertools](#itertools)


* [Basi di data analisi](#data_analysis)
    - [Gestione File](#file_handling)
        - [with](#with)
        - [Load data from csv](#csv)
        - [Fixing Data Types](#fixing_types)
    - [numpy](#numpy)
    - [pandas](#pandas)


* [Documentare il codice](#documenting)
    - [Typing](#typing)
    - [Struttura dei Progetti](#project)
    - [Sphinx](#sphinx)
    

* [Risorse Esterne](#external_resources)
***

<a id='advanced_tools'></a>
# Strumenti Avanzati
A volte un IDE non basta per gestire tutte le necessità di uno sviluppatore.

In questo capitolo vedremo un paio di tool utili **conda** e **jupyter**. 

<a id='conda'></a>
<img src="images/conda.png" width="400" align="left"/>

<a id='conda_purpose'></a>
### Che è?

**Gestore di pacchetti**

Conda è fondamentalmente un gestore di pacchetti: permette di installare e/o rimuovere dei pacchetti dal proprio ambiente non curandosi delle loro dipendenze.

**N.B.:** I pacchetti in questione non necessariamente devono essere dei moduli Python. Questo significa che si possono gestire anche ambienti composti da moduli in diversi linguaggi.

In questo somiglia a pip, con la differenza che pip non è in grado di gestire librerie con dipendenze esterne a Python!

**Gestore di ambienti**

Oltre alla gestione di pacchetti, conda permette la gestione di *ambienti*. 
Un ambiente è essenzialmente un'insieme di pacchetti isolati tra loro.

Essenzialmente svolge una funzione analoga a quella dei Virtual Env.

***

<a id='conda_install'></a>
#### Installazione

<img src="images/real_conda.jpg" align="left"/>

Esistono diversi modi per installare conda, ma il più semplice in assoluto è semplicemente scaricare l'installer dal [sito di Anaconda](https://www.anaconda.com/distribution/).

A prescindere dalla versione di Python che vorrete utilizzare, il mio consiglio è di installare la versione Anaconda in Python 3: questa indica la versione in cui è scritto conda stesso.
Potrete poi configurare i vostri ambienti con le versioni che meglio credete.

La distribuzione di Anaconda viene installata con tanto di un bellissimo IDE per la gestione di ambienti e pacchetti. 
Io l'ho sempre trovata troppo lenta, quindi preferisco un approccio più a basso livello, che vi consiglio.

***

<font color='red'>Attenzione:</font> Powershell fa al momento un po' fatica a gestire i comandi conda...

***

<a id='conda_envs'></a>
#### Gestione Ambienti

Ovviamente anaconda permette di svolgere una lunga serie di operazioni per gestire gli ambienti a disposizione di cui si può trovare una descrizione piuttosto completa nella [documentazione ufficiale](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html).

Di seguito riporto solo le principali, che tendenzialmente saranno le uniche di cui vi capiterà di avere bisogno per un utilizzo *standard*.

**Creazione**
Ci sono diversi modi per creare un ambiente, a seconda di quanto se ne voglia automatizzare il processo:

    conda create --name myenv
    
    conda create -n myenv python=3.7 numpy
    
    conda env create -f environment.yml

**Attivazione/Disattivazione**
Finchè un ambiente non è attivo, di fatto non lo starete utilizzando. 
I comandi di attivazione possono cambiare a seconda del sistema operativo.
Su Windows i comandi sono:
    
    activate myenv
    deactivate

**Elencare gli ambienti**
Capita spesso di non ricordarsi il nome di tutti gli ambienti che si sono installati, o semplicemente non sapere qual è quello correntemente attivo.
Per avere queste informazioni:

    conda env list
    
Questo vi darà anche informazioni sulla cartella di installazione dell'ambiente.

***

<a id='conda_packages'></a>
#### Gestione Pacchetti
La gestione dei pacchetti è molto simile a quella di pip.
Anche in questo caso, il riferimento migliore è la [documentazione ufficiale](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-pkgs.html)

**Installazione**
Python è considerato un pacchetto come tanti altri, quindi si presta bene come esempio:

    conda install python
    
    conda install python=3
    
    conda install python=3.7
    
    conda install python numpy

    
**Aggiornamento**
Una volta installati i pacchetti si possono aggiornare alla versione più recente:

    conda update numpy

Si noti che conda stesso è considerato un pacchetto:
    
    conda update conda
    
Si può anche aggiornare tutto:

    conda update --all

**Rimozione**   
Si può rimuovere un pacchetto nell'ambiente corrente

    conda remove numpy
    
o specificarne il nome
    
    conda remove -n myenv numpy

**Elenco**
Per avere tutte le informazioni riguardanti i pacchetti installati nell'ambiente attivo:

    conda list
    
Oppure per un ambiente usandone il nome:

    conda list -n myenv
   

***

<font color='red'>Attenzione:</font> Alcuni pacchetti potrebbero non essere disponibili sui server conda standard. Potete installarli tramite pip, ma non verranno gestiti da conda in tal caso.

***

#### Esercizio 1: Creare un nuovo ambiente

#### Esercizio 2: Creare un nuovo ambiente tramite PyCharm

***

<a id='jupyter_notebooks'></a>
<img src="images/jupyter_logo.png" width="250" align="left" target="_blank"/>

<a id='jupyter_purpose'></a>
### Che è?

È quest'affare che sto usando come supporto per la lezione.

**Il progetto**
Nato per Python, essenzialmente al servizio della data analisi, Jupyter permette di sviluppare codice in modo dinamico e associarne la documentazione.

Essenzialmente si appoggia a un server che esegue il codice e ne restituisce i  risultati.

**I Notebook**
Le "pagine" (notebook) di Jupyter sono composti da una serie di celle che possono eseguire del codice o visualizzare della documentazione.

Queste celle possono essere eseguite e modificate nell'ordine che si preferisce, prestandosi perfettamente ad applicazioni di analisi dati, prototipazione e, per esempio, training.

**Linguaggi supportati**
Il progretto era partito in Python, ma siccome sui server si può idealmente far girare qualsiasi linguaggio, di fatto si è esteso più o meno a tutti i linguaggi (testuali!).

**Uscite**
Il formato di base dei fogli è .ipynb, ma si può esportare in diversi altri: .py, .html, .pdf, .tex, etc...

**P.S.:** PyCharm gestisce e legge anche questi notebook, nel caso non fosse chiaro che è un figo.

***

<a id='jupyter_install'></a>
### Installazione
Se avete installato Python tramite anaconda, Jupyter è già incluso. Congratulazioni!
Per installarlo in un ambiente attivo:

    conda install jupyter

Altrimenti, si può installare tramite pip:
    
    pip install jupyter

***

<a id='jupyter_start'></a>
### Lancio
Una volta installato, lanciare Jupyter è un po' complicato, che è una delle ragioni per cui è così poco diffuso:

    jupyter notebook

***

<a id='jupyter_markdown'></a>
### Markdown
Come detto, le celle di un notebook si distinguono in diversi tipi. 

Quello principale per scrivere documentazione è il tipo *Markdown*, cioè una cella in cui si può scrivere in un particolare formato, che poi viene abbellito esteticamente una volta lanciato. 

Per vederne degli esempi basta doppio cliccare una qualsiasi delle celle con del testo.

***

<a id='jupyter_code'></a>
### Codice
La potenza di Jupyter sta nella semplicità e dinamicità nella creazione di celle di codice, che può essere eseguito a piacere.

Di seguito qualche esempio.

In [None]:
print("Bella Zio!")

In [None]:
persone_che_ascoltano = 1

In [None]:
if persone_che_ascoltano > 0:
    print("Yeeeee")
else:
    print("L'ha sempre detto la mamma che dovevo zappare")

In [None]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 2*np.pi, 300)
y = np.sin(x**2)
plt.plot(x, y)
plt.title("A little chirp")
_ = plt.gcf()

In [None]:
import plotly.graph_objects as go
fig = go.Figure(
    data=[go.Bar(y=[2, 1, 3])],
    layout_title_text="A Figure Displayed with fig.show()"
)
fig.show()

In [None]:
import plotly.express as px
iris = px.data.iris()
fig = px.scatter(iris, x="sepal_width", y="sepal_length")
fig.show()

***

<a id='pep8'></a>
# Peppotto (PEP8)

<img src="images/pep8.jpg" align="left"/>

A differenza di altri linguaggi, in cui non esiste un'indicazione centralizzata dello stile da mantenere, in Python tutte le regole riguardanti il formato del codice viene raccolto nella **PEP8**.

In generale, le *Python Enachement Proposals* (PEP) raccolgono tutte le feature, regole e filosofie che riguardano Python.
Ne esistono diverse centinaia, ma oltre alla PEP8 noi daremo uno sguardo solo alla 20.

La [PEP8](https://www.python.org/dev/peps/pep-0008/) stessa è un documento piuttosto lungo che più o meno nessuno conosce interamente. 
Normalmente sono gli IDE che segnalano (e correggono automaticamente) gli errori di formattazione del codice.

Vediamo solo i due più importanti.

***

<a id='pep8_imports'></a>
### Imports
Gli import di diversi pacchetti dovrebbero essere su linee di codice separato:

In [None]:
# Bene
import sys
import os
# No Bene
import sys, os
# Bene, perchè è comunque dallo stesso pacchetto
from subprocess import Popen, PIPE

Gli import dovrebbero sempre essere in testa al file, dopo le stringhe di documentazione del file stesso e andrebbero fatti nel seguente ordine, separando i gruppi con una riga vuota:
1. Librerie standard
2. Librerie di terze parti
3. Librerie personali

In [None]:
import os
import sys
from threading import Thread

import PyQt5

import MyQt
from MyWidget import FluoLed

Ci sono altre regole per la gestione degli import, ma queste sono quelle base.

***

<a id='pep8_naming'></a>
### Naming
La PEP8 fornisce delle linee guida su come andrebbero dati i nomi alle cose in  Python. Basta discussioni su cosa va messo *CamelCase* e cosa in underscore!

**Classi**

Le classi dovrebbero essere in *CamelCase*.

In [None]:
class MyBeatifulClass:
    pass

**Funzioni e Variabili**

Funzioni e variabili dovrebbero essere scritte interamente in *lowercase*, con gli underscore come separatori. Questo vale anche per i metodi di classe.

In [None]:
def invade_france:
    invade_belgium()
    result_message = "France invaded"
    return result_message

**Moduli**

Moduli e pacchetti dovrebbero avere nomi brevi e interamente *lowercase* eventualmente separati da underscore.

Nomi buoni: pollon, my_app, greta_thunberg. <br>
Nomi cattivi: TrumpForPresident, DEATHSTAR.

**Costanti**

Come in tanti linguaggi, le costanti sono generalmente scritte in uppercase:
PI, GLOBAL_WARMING.

<font color='red'>Attenzione:</font> Esistono altre regole a riguardo, ma generalmente queste sono le entità principali a cui si finisce per dare nomi.

***

<a id='zen'></a>
# The Zen of Python

<img src="images/python_zen.png" align="left"/>

La **PEP20**, conosciuta per lo più come *Zen of Python*, sono una serie di massime in stile confucio che esprimono la filosofia che si dovrebbe sempre avere in mente programmando in Python.

Questo porta anche alla distinzione di uno stile "pytonico" da uno non.

In [None]:
import this

Noi ne analizzeremo qualcuna per capire cosa si intende.

***

<img src="images/kiss.png" style="float: right" width=300/>

<a id='zen_3'></a>

## Simple is better than complex
*Semplice è meglio di complesso*

Questa massima è piuttosto chiara e intuitiva ed è riconducibile al classico concetto del **KISS**. 

È meglio scrivere qualcosa del tipo:

In [None]:
print("Ciao", "Pampino")

piuttosto che:

In [None]:
class StringConcatenator:
    def __init__(self, first, second):
        self.first = first
        self.second = second
    
    def get_concatenated(self):
        return "{first} {second}".format(first=self.first, second=self.second)
    
    
concatenator = StringConcatenator("Ciao", "Pampino")
print(concatenator.get_concatenated())

***

<a id='zen_4'></a>
## Complex is better than complicated
*Complesso è meglio che complicato*

Questo può sembrare un po' più oscuro, ma ha anche un impatto maggiore sull'attività quotidiana.

In [None]:
num = 3
for i in range(num):
    print("Bello")
    
counter = 0
while counter < num:
    print("Brutto")
    counter += 1

Il concetto si applica anche, in modo meno ovvio, all'equivalente del *case*:

In [None]:
def bad_case(label, *args):
    if label == "Apply":
        return print("Apply")
    elif label == "Cancel":
        return print("Cancel")
    elif label == "Ok":
        return print("Ok")
    else:
        raise ValueError("Not Implemented")

def apply(*args):
    print("Apply")
    
def cancel(*args):
    print("Cancel")
    
def ok(*args):
    print("Ok")
        
def good_case(label, *args):
    cases = {
        "Apply": apply,
        "Cancel": cancel,
        "Ok": ok
    }
    
    if label in cases:
        return cases[label](*args)
    
    raise ValueError("Not Implemented")        

Si noti che in questo caso *bad_case* può sembrare un'alternativa più semplice, specialmente finchè le opzioni sono poche, ma sono solo false promesse. 

***

<a id='zen_8'></a>
## Special cases aren't special enough to break the rules
*I casi speciali non sono speciali abbastanza per rompere le regole*

* Tutto quello che si scrive dovrebbe essere il più generico possibile. 
* Si dovrebbe rispettare la regola del *ZOI* (Zero, One or Infinity).
* Gli errori dovrebbero essere sempre gestiti tramite eccezioni.

***

<a id='zen_9'></a>
## Altough practicality beats purity
*Benché la praticità vinca sulla purezza*

Tutto bello, ma se si ha l'esigenza di rompere una regola, lo si può fare.
Ci sono molto esempi di questa coppia di regole.

La stessa PEP8 afferma *do not break backwards compatibility just to comply with this PEP!*.

***

<a id='compactness'></a>
# Compattezza, Efficienza, Leggibilità

<img src="images/efficiency.jpg" align="left"/>

Ora che sappiamo a grandissime linee la filosofia di Python, o quantomeno che ne esiste una, possiamo vedere alcune indicazioni pratiche su come migliorare il proprio codice.

Nel migliorare codice Python, bisogna sempre tenere bene in mente che il focus principale dovrebbe sempre essere la sua leggibilità, perchè Python stesso **non** è un linguaggio efficiente.

Non che faccia pena... ma non è il suo focus.

***

<a id='performance'></a>
## Misurare le performance
Prima cosa che bisogna essere in grado di fare per migliorare il proprio codice, è cercare di capire quale soluzione è più veloce.

Ovviamente, esistono trilioni (licenza poetica) di modi per misurare le performance. Concentriamoci su tre. È più pragmatico.

***

<a id='time'></a>
### time

<img src="images/time.jpg" align="left"/>

Il modo più semplice per avere informazioni temporali di un codice Python è utilizzare il modulo *time*.

Questi i comandi base:

In [None]:
import time
print("time", time.time(), sep="\n\t")
print("gmtime(time)", time.gmtime(time.time()), sep="\n\t")
print("ctime(time)", time.ctime(time.time()), sep="\n\t")


Insomma il modulo time permette di accedere semplicemente al valore di *epoch* corrente, e farci delle elaborazioni base.
Per misurare le performance di un pezzo di codice possiamo fare:

In [None]:
pow_count = 10000

def with_pow():
    pow_2 = []
    for i in range(pow_count):
        pow_2.append(pow(i, 2))
    return pow_2

def with_square():
    pow_2 = []
    for i in range(pow_count):
        pow_2.append(i ** 2)
    return pow_2

def with_mul():
    pow_2 = []
    for i in range(pow_count):
        pow_2.append(i * i)
    return pow_2

def with_preallocation():
    pow_2 = [0] * pow_count
    for i in range(pow_count):
        pow_2[i] = i * i
    return pow_2

def measure_performance(func, name):
    begin = time.time()
    func()
    print(name, time.time() - begin)
    
measure_performance(with_pow, "Pow")
measure_performance(with_square, "Square")
measure_performance(with_mul, "Mul")
measure_performance(with_preallocation, "Preallocation")

<font color='red'>Attenzione:</font> Non vi consiglio di usare più di tanto il modulo *time* per la gestione delle date. Date un occhio ai moduli *datetime* e annessi piuttosto, ma questa è un'altra storia...

***

<a id='timeit'></a>
### timeit

*time* ha una misura delle performance un po' grezza e casereccia. Va bene per delle prove qua e là, ma niente di più. Per di più *time* viene considerevolmente influenzato dallo stato del sistema operativo, rendendo la misura poco ripetibile.

**timeit** si usa per misurare ripetutamente *snippet* di codici, rendendo la misura molto più affidabile. 

Vediamo prima un esempio base:

In [None]:
import timeit
repeats = 100000
print(timeit.timeit('"-".join(str(n) for n in range(100))', number=repeats))
print(timeit.timeit('"-".join([str(n) for n in range(100)])', number=repeats))
print(timeit.timeit('"-".join(map(str, range(100)))', number=repeats))

Ora l'equivalente di ciò che abbiamo fatto sopra:

In [None]:
repeats = 100
print("Pow:", timeit.timeit(stmt="with_pow()", setup="from __main__ import with_pow", number=repeats))
print("Square:", timeit.timeit(stmt="with_square()", setup="from __main__ import with_square", number=repeats))
print("Mul:", timeit.timeit(stmt="with_mul()", setup="from __main__ import with_mul", number=repeats))
print("Preallocation:", timeit.timeit(stmt="with_preallocation()", setup="from __main__ import with_preallocation", number=repeats))
# Calls timeit several times
print("\nRepeat:", timeit.repeat(stmt="with_preallocation()", setup="from __main__ import with_preallocation", number=repeats))

<font color='red'>Attenzione:</font> *timeit* si può chiamare anche direttamente dalla command line, ma questa è un'altra storia...

***

<a id='profile'></a>
### profile

I moduli visti finora permettono di misurare la durata dell'esecuzione. Bello, ma come faccio a sapere dov'è che sto perdendo tempo?

Il comando profile (anzi cProfile, più performante) permette di raccogliere tutte le statistiche sull'esecuzione di uno script.
Il modo più semplice per utilizzarlo è da riga di comando:
    
    python -m cProfile script_name.py

Più difficile usarlo dall'interprete (io lo faccio qui solo per visualizzarlo interattivamente):

In [None]:
import cProfile, pstats, io
pr = cProfile.Profile()
pr.enable()
for _ in range(100):
    with_pow()
    with_square()
    with_mul()
    with_preallocation()
    with_list_comprehension()
pr.disable()
s = io.StringIO()
ps = pstats.Stats(pr, stream=s).sort_stats("cumulative")
ps.print_stats()
print(s.getvalue())

***

<a id='ternary'></a>
## Operatore Ternario
Vediamo ora all'atto pratico qualche metodo per migliorare compattezza, leggibilità e performance.

L'operatore ternario permette di esprimere in una sola riga di codice un'assegnazione dipendente da una condizione di if else:

    conditioned_value = value_if_true if condition else value_if_false

Per esempio:

In [None]:
gender = "Elicottero"
if gender == "M":
    print("Benvenuto")
else:
    print("Benvenuta")
# Equivale a
print("Benvenuto" if gender == "M" else "Benvenuta")

Vediamo se c'è differenza di performance:

In [None]:
setup = "gender = 'M'"

standard = """\
if gender == "M":
    message = "Benvenuto"
else:
    message = "Benvenuta"
"""
print("Standard:", timeit.timeit(standard, setup))
print("Ternary:", timeit.timeit("message = 'Benvenuto' if gender == 'M' else 'Benvenuta'", setup))

La differenza non è ben poco significativa, specialmente considerandone la leggibilità. 


Questo operatore serve a migliorare **leggibilità e compattezza**.

***

<a id='comprehension'></a>
## Comprehension
Le comprehension sono il principale strumento di ottimizzazine nelle mani di un programmatore Python. 
Velocizzano e compattano mostruosamente il codice in tutto ciò che riguarda la creazione di strutture quali liste e dizionari. 

Quando usate nel modo corretto rendono il codice ovvio e leggibile, andando incontro a tutto ciò che fa parte dello Zen di Python, rappresentandone un ottimo esempio. 
Spesso ai neofiti risultano però illeggibili, un po' perchè non sono moltissimi i linguaggi con una sintassi simile e un po' perchè è effettivamente non ovvia. 

Altrettanto spesso vengono concatenate esageratamente, trasformando centinaia di righe in una sola (bello) illeggibile (brutto brutto) riga di codice.

**List Comprehension**

Vediamo un esempio di *List Comprehension*:

In [None]:
# Generiamo la tabellina del 3
# Con ciclo for
tabellina = []
for i in range(1, 11):
    tabellina.append(3*i)
# Con List Comprehension
tabellina = [3*i for i in range(1, 11)]

Le due scritture sono esattamente equivalenti dal punto di vista del risultato, ma proviamo a confrontare le performance dei due approcci tornando all'esempio di prima (generare i primi n quadrati di un numero):

In [None]:
def with_preallocation():
    pow_2 = [0] * pow_count
    for i in range(pow_count):
        pow_2[i] = i * i
    return pow_2

def with_list_comprehension():
    return [i * i for i in range(pow_count)]

repeats = 1000
print("Preallocation:", timeit.timeit(stmt="with_preallocation()", setup="from __main__ import with_preallocation", number=repeats))
print("List Comprehension:", timeit.timeit(stmt="with_list_comprehension()", setup="from __main__ import with_list_comprehension", number=repeats))

Le List Comprehension sono **sempre più veloci**.

**Filtri**

<img src="images/list_comprehensions.gif" align="center"/>

Una delle applicazioni delle list comprehension è la rapida generazione di liste a cui si applica un filtro:

In [None]:
# Filtriamo solo i numeri pari nella tabellina del 3 
print([multiple for multiple in tabellina if not multiple % 2])
# Equivale a
multiples = []
for multiple in tabellina:
    if not multiple % 2:
        multiples.append(multiple)
print(multiples)

**Concatenazioni**

Le list comprehension si possono concatenare, ma occhio all'ordine e alle parentesi!

In [None]:
print("Concatenated", [multiple*power for multiple in tabellina if not multiple % 2 for power in with_list_comprehension() if power < 100])
# Equivale a
values = []
for multiple in tabellina:
    if not multiple % 2:
        for power in with_list_comprehension():
            if power < 100:
                values.append(multiple*power)
# print(values)
# E non a 
for power in with_list_comprehension():
    if power < 100:
        for multiple in tabellina:
            if not multiple % 2:
                values.append(multiple*power)
# print(values)
# Oppure
print("Nested", [[multiple*power for multiple in tabellina if not multiple % 2] for power in with_list_comprehension() if power < 100])
# Equivale a
values = []
for power in with_list_comprehension():
    if power < 100:
        values.append([multiple*power for multiple in tabellina if not multiple % 2])
# print(values)

Mi sembra piuttosto evidente che si arriva in fretta a produrre codice difficilmente leggibile o quantomeno fraintendibile se non si sta ben attenti...

**Dict Comprehension**

Con la stessa tecnica si possono anche generare dizionari:

In [None]:
# Precalcola la tabellina del tre
print({i: i*3 for i in range(1, 11)})

Ma non addentriamoci oltre nella tana del bianconiglio...

<img src="images/white_rabbit.jpg" align="center"/>

***

#### Esercizio 1: Data una lista di nomi, stamparne l'equivalente in uppercase

In [None]:
lista_nomi = ["Piruffo", "Mannino", "berello", "barzio"]

#### Esercizio 2: Data una lista di numeri, stamparne i positivi, come interi

In [None]:
numeri = [34.6, -203.4, 44.9, 68.3, -12.2, 44.6, 12.7]

#### Esercizio 3: Stampa una lista dei primi 1000 anni bisestili (extra: a partire da oggi)

***

<a id='mapping'></a>

## Mapping

Il mapping è una pratica diffusa in tutti i linguaggi di programmazione funzionale, quindi non poteva mancare in Python. 
Essenzialmente si tratta di applicare un funzione a tutti gli elementi di un iterabile.

Partiamo con un esempio banale:

In [None]:
# Trasforma tutte le stringhe in interi
values = ["1", "123", "2566"]
for integer in map(int, values):
    print(type(integer), integer)

Questo torna specialmente utile, per esempio, quando si leggono centinaia di righe da un file e bisogna trasformarle in un tipo noto.

**N.B.:** la funzione *map* non genera una lista, ma un iterabile (un generatore):

In [None]:
my_map = map(int, values)
print(my_map)
print(list(my_map))
print(list(my_map))

Rivediamo la buona vecchia tabellina del 3:

In [None]:
tabellina = list(map(lambda i: i * 3, range(1, 11)))
print(tabellina)

In [None]:
def comprehension():
    # Questa è una generator comprehension, la cosa più simile al mapping 
    return (int(value) for value in values) 

def mapping():
    return map(int, values)

repeats = 1000000
print("Comprehension:", timeit.timeit(stmt="comprehension()", setup="from __main__ import comprehension", number=repeats))
print("Mapping:", timeit.timeit(stmt="mapping()", setup="from __main__ import mapping", number=repeats))

#### Esercizio 1: Data una lista di nomi, stamparne l'equivalente in uppercase (usando il mapping)

***

<a id='recursion'></a>

## Ricorsione

<img src="images/recursion.jpg" width=400 align="center"/>

La ricorsione è un'altro dei concetti basilari della programmazione funzionale e, ovviamente, è un costrutto valido in Python.

Essenzialmente consiste nel realizzare funzioni che chiamino se stesse:

In [None]:
def factorial_recursive(n):
    # Base case: 1! = 1
    if n == 1:
        return 1

    # Recursive case: n! = n * (n-1)!
    else:
        return n * factorial_recursive(n-1)
    
print(factorial_recursive(1000))

Una delle insidie peggiori della ricorsione è la facilità con cui si può ricadere in ricorsioni infinite. 

Un po' come nei cicli iterativi, spesso capita dimenticandosi di aggiungere una condizione di uscita:

In [None]:
def factorial_recursive(n):
    return n * factorial_recursive(n-1)
    
print(factorial_recursive(10))

O dimenticandosi un caso limite:

In [None]:
def factorial_recursive(n):
    # Base case: 1! = 1
    if n == 1:
        return 1

    # Recursive case: n! = n * (n-1)!
    else:
        return n * factorial_recursive(n-1)
    
print(factorial_recursive(0))

(S)Fortunatamente Python ha un limite superiore (modificabile) di profondità di ricorsione oltre il quale genera un errore e si blocca. 

Ma non basta: la ricorsione in Python è estremamente inefficiente.

In [None]:
def factorial_recursive(n):
    # Base case: 1! = 1
    if n == 0:
        return 1

    # Recursive case: n! = n * (n-1)!
    else:
        return n * factorial_recursive(n-1)

def factorial_iterative(n):
    factorial = 1
    for factor in range(1, n + 1):
        factorial *= factor
    return factorial

repeats = 10000
print("Recursive:", timeit.timeit(stmt="factorial_recursive(100)", setup="from __main__ import factorial_recursive", number=repeats))
print("Iterative:", timeit.timeit(stmt="factorial_iterative(100)", setup="from __main__ import factorial_iterative", number=repeats))

Se vi interessa il motivo, è legato al fatto che Python non applica la cosidetta *tail recursion elimination*.
Ma noi saremo più pragmatici.

**La ricorsione in Python va evitata quanto più possibile**

*...Altough practicality beats purity*: algoritmi ricorsivi possono essere estremamente più semplici dei loro equivalenti iterativi in certi casi. Basta tenerne presenti i limiti dovuti al linguaggio.
***

<a id='advanced_features'></a>

# Funzioni avanzate

<img src="images/advanced_features.jpg"/>

Stiamo solo grattando la superficie, ma vediamo qualcuna delle caratteristiche fondamentali, ma più avanzate del linguaggio.

***

<a id='args'></a>

## \*args e \**kwargs

Partiamo da un esempio:

In [None]:
print("a", "b", "c", "d", ...)

Come fa la funzione *print* a gestire un numero indefinito di input?

In Python un numero indefinito di parametri anonimi si possono passare tramite le liste di argomenti, identificate da un asterisco a precederne il nome. Lo standard prevede di chiamarli * *args*.

Allo stesso modo si possono passare dei parametri per nome (*named* o *keyworded*) tramite i dizionari di argomenti, identificati da un doppio asterisco, di solito * \**kwargs*.

Proviamo a costruire una funzione che restituisce il prodotto di tutti i suoi argomenti:

In [None]:
def mul(*values):
    # L'approccio migliore sarebbe usare reduce()...
    total = 1
    for val in values:
        total *= val
    return total

print(mul(1, 2, 323))

Possiamo anche passare una lista (o un iterabile in generale) direttamente alla funzione!

In [None]:
names = ["Manzo", "Parra", "Bargiggio"]
print(*names)
print(*(i * 3 for i in range(1, 11)))

La stessa cosa vale per i kwargs.

In [None]:
def serialize_arguments(**kwargs):
    print("Nella funzione:\n\t", kwargs)
    return " ".join("{key}: {value}".format(key=key, value=value) for key, value in kwargs.items())

print("Serializzato:\n\t", serialize_arguments(primo=1, secondo=2, quello_che_mi_pare=None))

In [None]:
def welcome_message(name, gender, title=None, surname=None):
    return "Benvenut{vocale} {title}{name}{surname}".format(vocale="a" if gender == "F" else "o",
                                                            title= (title + ' ') if title else '',
                                                            name=name,
                                                            surname= (' ' + surname + ' ') if surname else '')
users = [{"name": "Manzo", "gender": "M"},
         {"name": "Parra", "gender": "F", "title": "Mrs.", "surname": "Berecchia"},
         {"name": "Bargiggio", "gender": "M", "title": "Mr."}]
print(*(welcome_message(**data) for data in users), sep="\n")

L'utilizzo di questi costrutti risulta fondamentale specialmente in relazione alla programmazione dinamica, ai decoratori o all'ereditarietà.

Supponiamo per esempio di voler fare l'override di un metodo che ha una luuuuuuuuuunga lista di argomenti:

In [None]:
class Base:
    def many_args(self, a, b, c, d=1, e=None, f=12):
        print("I'm doing stuff with", a, b, c, d, e, f)
    
class Extend(Base):
    def many_args(self, *args, extra_data=123, **kwargs):
        print(extra_data)
        super(Extend, self).many_args(*args, **kwargs)

e = Extend()
e.many_args(1, 2, 3, extra_data="Pippo")

Diventa però estramente facile cadere nel rendere il codice oscuro:

In [None]:
class ObscureExtend(Base):
    def many_args(self, *args, **kwargs):
        extra_data = kwargs.pop("extra_data") if "extra_data" in kwargs else 12
        print(extra_data)
        super(ObscureExtend, self).many_args(*args, **kwargs)
o = ObscureExtend()
o.many_args(1, 2, 3, extra_data="Pippo")

Visto dall'esterno il metodo non ha niente di diverso da quello del genitore, ma accetta un argomento extra... No Buono.

#### Esercizio 1: Scrivere una funzione che dati dei keyword arguments, stampi tutte le coppie chiave-valore su righe diverse nel formato "{chiave} vale {valore}"

***

<a id='error_handling'></a>

## Gestione Errori

<img src="images/error_handling.jpg"/>

"Tutti" sanno che uno degli svantaggi di Python sta nel fatto che gli errori possono essere noti soltanto a *runtime*. 

L'altro lato della medaglia è che questo ha portato a sviluppare uno strumento di gestione errori decisamente completo e personalizzabile basato sulle eccezioni.

<font color='red'>Attenzione:</font> che a nessuno venga in mente di gestire gli errori in maniera diversa da questa. Le funzioni che restituiscono un codice di errore in caso di fallimento sono generalmente vietate.

<font color='red' style="font-weight:bold">ATTENZIONE:</font> La sintassi per la gestione delle eccezioni è cambiata tra Python 2 e 3. Quella riportata qui è cross-version.

***

<a id='exception'></a>

### Eccezione? E che roba è?

<img src="images/exceptions.jpg"/>

Ormai state vedendo Python da qualche ora, sicuramente avete visto qualcosa del tipo:

In [None]:
None + 5

L'output di un codice di errore è composto da diverse parti. 

Per primissima cosa il **tipo** di eccezione. Le eccezioni non sono altro che classi di errori.

Viene poi visualizzato il **traceback**, cioè l'elenco di chiamate che hanno portato all'eccezione (si noti che in caso di programmazione dinamica potrebbe essere ben poco chiaro, perchè fa riferimento alla riga di codice).

Infine viene visualizzato il **messaggio** di errore, che di solito contiene un buon numero di dettagli su cosa ha causato l'eccezione. In questo caso, è piuttosto chiaro che non è possibile fare la somma di None con 5.

Dicendo che le eccezioni sono classi di errori, intendo precisamente che sono classi (d'altronde tutto è un oggetto in Python). Ciò che hanno tutte in comune è che ereditano dalla classe Exception.

Nulla vieta quindi di crearne di proprie:

In [None]:
class PizzaError(Exception):
    pass

Tra poco vedremo perchè una si potrebbe volerlo fare, ma prima diamo un occhio alle principali eccezioni.
<img src="images/exception_tree.png"/>

In [None]:
my_list = []
my_list[0]

In [None]:
my_dict = {}
my_dict["any"]

In [None]:
class MyClass:
    pass

print(MyClass.not_existing)

In [None]:
1/0

In [None]:
print(ajeje_braso)

In [None]:
int("Gianni")

<a id='raise'></a>

### raise
Supponete di voler generare un allarme nel momento in cui qualcuno ordina una pizza e tra gli ingredienti c'è l'ananas.

Noi ci siamo creati la nostra bella eccezione per le pizze, ma come facciamo a trasmetterla?

In [None]:
def make_pizza(*ingredients):
    if "ananas" in ingredients:
        raise PizzaError
        
make_pizza("pomodoro", "mozzarella", "ananas")

Bene, ma la descrizione dell'errore è un po' povera. Per aggiungerla basta allegare il messaggio nel momento in cui viene generata l'eccezione.

In [None]:
def make_pizza(*ingredients):
    if "ananas" in ingredients:
        raise PizzaError("Mamma mia! L'ananassi sulla pizza!")
        
make_pizza("pomodoro", "mozzarella", "ananas")

<a id='except'></a>

### except
Bene, il nostro codice sa generare errori, ma come si reagisce?

Il blocco di controllo *try...except* permette di intercettare gli errori e reagire nel modo che si preferisce.

In [None]:
try:
    print("This will raise an error")
    make_pizza("pomodoro", "mozzarella", "ananas")
except:
    print("Yep...\n\t it did")

Bellino, ma che tipo di errore ho catturato? Qual era la causa? E se volessi loggarlo o almeno lanciare un messaggio di avvertimento?

In [None]:
# Filtrare uno specifico errore
try:
    make_pizza("pomodoro", "mozzarella", "ananas")
except PizzaError:
    print("Errore di Pizza!")

In [None]:
# Riportare il messaggio
try:
    make_pizza("pomodoro", "mozzarella", "ananas")
except Exception as e:  # Si noti che tutte una classe genitore cattura tutte le figlie
    print("Errore:", e)
    print("Exception Type:", type(e))

In [None]:
# Filtrare e riportare
try:
    make_pizza("pomodoro", "mozzarella", "ananas")
except PizzaError as e:
    print("Errore di Pizza:", e)
    raise e

La parola chiave "as" salva l'errore catturato (la classe dell'eccezione) nella variabile associata ("e" in questo caso, un nome abbastanza standard). Si noti che la rappresentazione in formato stringa di e è il suo messaggio, ma la classe contiene anche altre informazioni. 

In [None]:
try:
    raise ValueError("Meh", "Incredibile")
except Exception as e:
    print(e)
    print(type(e), e.args, e.__traceback__)

È anche possibile catturare più errori specifici in un singolo blocco o in diversi.

In [None]:
# Double
try:
    a = 1/0
    make_pizza("pomodoro", "mozzarella", "ananas")
except (PizzaError, ZeroDivisionError) as e:
    print("Errore di Pizza:", e)
# Split
try:
    a = 1/0
    make_pizza("pomodoro", "mozzarella", "ananas")
except PizzaError as e:
    print("Errore di Pizza:", e)
except ZeroDivisionError:
    print("Come sei finito a dividere per zero facendo una pizza?")

E anche lanciare warning:

In [None]:
def tolerant_pizza(*ingredients):
    if "ananas" in ingredients:
        raise Warning("Io la faccio, ma non voglio saperne niente...")

tolerant_pizza("pomodoro", "mozzarella", "ananas")
print("Ma qui non ci arrivo comunque")

***

#### Esercizio 1: Scrivere una funzione che dato un dizionario che ha come chiave il nome di un cliente e come valore una lista di ingredienti, stampi per ciascuno se la pizza è pronta o l'eventuale errore. 
Gli errori possibili dovrebbero essere che nella pizza ci siano ingredienti non permessi, che siano esauriti o che non siano disponibili. Questi tre errori dovrebbero essere tutti di tipo diverso.

***

<a id='else'></a>

### else
Che fare se voglio eseguire un blocco di codice solo quando so che non ci sono stati problemi?

Beh, di per sé tutto viene eseguito finché non ci sono eccezioni, ma lo stile più pitonico è

In [None]:
try:
    make_pizza("mozzarella", "panchine")
except PizzaError as e:
    print(e)
else:
    print("Pizza Fatta")

per due motivi:
1. è chiaro dove ci si aspetta di vedere un eccezione e dove no
2. è chiaro cosa succede in caso di successo

<a id='finally'></a>

### finally
Cosa succede se a prescindere da come va l'operazione devo accertarmi di rilasciare un risorsa?

In [None]:
orders = [] # lista di liste con ingredienti di pizze

while pizzeria_is_open:
    try:
        if orders:
            order = orders.pop(0)
            if oven_is_off:
                turn_on_oven()
                wait_temperature()
            make_pizza(order)
    except PizzaError as e:
        print("Errore di Pizza:", e)
    finally:
        if not orders:
            turn_off_oven()
print("E anche oggi ci siamo portati a casa lo stipendio")

<a id='debug'></a>

### Debug
Capiterà spesso che non abbiate pensato a qualche eccezione e che il vostro codice si spacchi.
Vediamo quindi un paio di metodi per debuggare.

Il metodo base per debuggare è utilizzare [pdb (python debugger)](https://docs.python.org/3/library/pdb.html), ma PyCharm offre un'interfaccia decisamente più semplice.

Vedi esempio su file *pyzzeria/debug_example.py*.

***

<a id='decorators'></a>

## Decoratori

<img src="images/decorators.jpg"/>

Per definizione i decoratori sono funzioni che hanno come argomento altre funzioni e che di solito si utilizzano per estenderne il comportamento.

Adesso ne vedremo un esempio basilare, ma non ci cureremo troppo dei dettagli di come implementarli, ma piuttosto di alcuni decoratori che tornano utili qua e là.

**Implementazione**

Supponiamo di voler registrare le performance di una funzione. 

Potremmo farlo come prima

In [None]:
import time

def ancora_sta_tabellina():
    return [i * 3 for i in range(1,11)]

before = time.time()
for i in range(100000):
    ancora_sta_tabellina()
print(time.time() - before)

oppure creado una funzione che faccia la stessa cosa

In [None]:
# args e kwargs mi servono per passare eventuali argomenti alla funzione interna
# Occhio che se repeat facesse parte dei kwargs ci sarebbero problemi...
def test_performance(func, *args, repeat=10000, **kwargs):
    before = time.time()
    for i in range(repeat):
        result = func(*args, **kwargs)
    print('Function', func.__name__, 'time:', time.time() - before)
    return result

test_performance(ancora_sta_tabellina)

Ma supponiamo che io voglia SEMPRE misurare le performance della funzione (magari per loggarlo).

Santi decoratori!

In [None]:
def performance_decorator(func):
    
    def timed_function(*args, **kwargs):  # Questa spesso viene chiamata inner
        before = time.time()
        for i in range(10000):  # Notare la mancanza di repeat
            result = func(*args, **kwargs)
        print('Function', func.__name__, 'time:', time.time() - before)
        return result
    
    return timed_function

@performance_decorator
def tabellina_list_comprehension(base, step=1):
    return [i * base * step for i in range(1,11)]

@performance_decorator
def tabellina_generator_comprehension(base, step=1):
    return (i * base * step for i in range(1,11))

@performance_decorator
def tabellina_for(base, step=1):
    tabellina = []
    for i in range(1, 11):
        tabellina.append(i * base * step)
    return tabellina


print(tabellina_list_comprehension(10))
print(tabellina_generator_comprehension(10))
print(tabellina_for(10, 2))


Nessuno vieta di decorare funzioni decorate con altri decoratori.

È possibile anche fare decoratori che accettino argomenti (per personalizzare il numero di ripetizioni, per esempio), ma la cosa diventa complessa, perchè la funzione decoratrice dovrebbe restituire una funzione decoratrice che restituisce la funzione decorata...

A posto così!

***

**Classmethod**

La funzione *built-in* *classmethod* può essere utilizzata efficacemente come decoratore nell'ambito della programmazione a oggetti. Essenzialmente si aspetta una classe come primo argomento implicito.

In [None]:
class Singleton:
    __instanciated = False
    def __init__(self):
        if not Singleton.__instanciated:
            # Do things
            Singleton.__instanciated = True
    
    @classmethod
    def is_instanciated(cls):  # Notare che di solito si chiama cls, non self
        return cls.__instanciated    

print(Singleton.is_instanciated())
instance = Singleton()
print(Singleton.is_instanciated())
print(Singleton.__instanciated)

***

**Staticmethod**

Similmente *staticmethod* può essere utilizzata efficacemente come decoratore per dichiarare metodi di classe statici, che non necessitano ne della classe ne dell'istanza.

In [None]:
class CommonMath:
    @staticmethod
    def tabellina(base, step=1):  # Notare che di solito si chiama cls, non self
        return (i * base * step for i in range(1, 11))

print(list(CommonMath.tabellina(15)))

***

**Property**

A mio avviso questo è il più utile: permette di definire delle proprietà di classe accessibili come fossero attributi, ma scatenando effetti collaterali come se piovessero. Da utilizzare con cautela perchè può rendere il codice parecchio oscuro.

Si può decidere se fare setter, getter o deleter a seconda delle proprie necessità. 

(Suggerimento, provate a creare una classe in PyCharm e iniziare a scrivere prop)

In [None]:
class User:
    def __init__(self, name):
        self.__username = name
    
    @property
    def username(self):
        return self.__username
    
user = User("Trump")
print(user.username)

In [None]:
class User:
    def __init__(self, name):
        # Get user data from DB
        self.__username = name
    
    @property
    def username(self):
        return self.__username
    
    @username.setter
    def username(self, new_name):
        # Update DB database
        self.__username = new_name
        
    @username.deleter
    def username(self):
        # Non mi è venuto nessun motivo buono per cancellare il nome dell'utente... ma avete capito
        del self.__username
    
trump = User("Trump")
print(trump.username)
trump.username = "Big Kim"
print(trump.username)

***

<a id='essential_packages'></a>
# Pacchetti essenziali

<img src="images/modules.svg"/>

Python ha tanti pacchetti. 

Una delle ragioni principali del successo che sta raggiungendo questo linguaggio è la quantità sconfinata di librerie a disposizione per qualuncque tipo di applicazione. Cosa che rende impossibile conoscerli tutti, ma vediamo almeno quelli irrinunciabili nello sviluppo della maggior parte delle applicazioni Python.

***

<a id='logging'></a>
# Logging

<img src="images/logging.jpg"/>

Quando un'applicazione supera le ~20 righe di codice (troppe?) si inizia ad aver bisogno di qualche meccanismo per tracciarne il funzionamento nel tempo. 

Di solito si finisce con lo sbatterci dentro una serie di *print* incrontrollabile, che non è possibile gestire una volta che si vuole abilitarne solo alcuni, solo in alcuni pezzi, solo per alcuni tipi di informazioni. 
Bisogna quindi gestire il logging.

La comunità di Python, nella sua fantasia sconfinata, ha quindi creato il modulo *logging*, che fa esattamente questo.

In [None]:
import logging

logging.warning('This is a warning message')
logging.critical('This is a critical message')

**Livelli**

Logging ha cinque livelli di logging, che si suppone coprano la stragrande maggioranza delle esigenze:
* Debug
* Info
* Warning
* Error
* Critical

Questi corrispondono a dei valori numerici.

In [None]:
print(*[logging.DEBUG, logging.INFO, logging.WARNING, logging.ERROR, logging.CRITICAL, '',logging.NOTSET], sep="\n")

Il che permette, nella pratica, di crearsi livelli personalizzati. Per esempio, ULTRA_DUPER_DEBUG = 1 che stampa il nome di ogni funzione che viene chiamata...

**Configurazioni**

Per cambiare il livello di logging bisogna gestirne la configurazione

In [None]:
import logging
print(logging.root.level)
logging.basicConfig(level=logging.DEBUG)
print(logging.root.level)
logging.warning("Basic Config crea una configurazione per il logger 'root'. Chiamarlo più volte non ha effetti.")

Tra le altre configurazioni possibili ci sono:
* Dirottare il log su un file (si può anche decidere in che modalità aprirlo)
* Specificare un formato del log. Se visualizzare la data, il nome del logger, l'utente, il tipo di messaggio, ecc...
* Dirottare il log su uno stream a piacere (in alternativa al file, per esempio ad un server)
* Specificare un "Handler".

**Classi principali**
* **Logger**, la classe base. <br>
    Questi oggetti sono quelli che effettivamente si chiamano per loggare un messaggio.<br>
    Anche quando si chiama direttamente 'logging', di fatto si sta utilizzando il Logger *root*.
        
        
* **Hanlder** <br>
    Il gestore dell'indirizzamento dei messaggi.
   
    
* **Formatter** <br>
    Gestisce e centralizza la formattazione dei messaggi.

In [None]:
import logging 

# Logger
pizza_logger = logging.Logger("Pizza Logger")  # Di solito si usa getLogger

# Formatter
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

# Handler
chandler = logging.StreamHandler()
chandler.setLevel(logging.DEBUG)
chandler.setFormatter(formatter)
pizza_logger.addHandler(chandler)
pizza_logger.debug("Set Up Logger")
pizza_logger.info("Idle")
print(pizza_logger.handlers)


Si noti che si possono aggiungere un numero indefinito di handlers a un logger, duplicando di fatto la registrazione del logging, con livelli e impostazioni indipendenti.

Gli handler possono anche gestire dei filtri complessi, per esempio loggando solo un intervallo di livelli.

***

<a id='re'></a>
# re

<img src="images/xkcd_regex.png"/>

Le *regular expression* (o *regex*) sono l'ARMA di qualunque programmatore che debba analizzare una stringa (anche detto parsare...).

Queste non sono altro che sequenze di caratteri che definiscono un pattern di ricerca. Uno dei primi lingugaggi ad utilizzare le *regex* è stato *Perl*, ma se ne sono ormai sviluppati diversi dialetti e Python stesso ne ha uno proprio.

Facciamone un esempio giusto per chiarirne l'utilizzo:

In [None]:
import re

victim_mails = ["Sì l'appuntamento è in Via Longoturbi 12, Cerbenghio", 
                "Sì grazie, vorrei confermare la prenotazione per l'Hotel Colabrughi in Piazza Melanzane 1, Pustorzio",
                "Sì mamma, l'ho lavato il gatto."]

matcher = re.compile(r'(?P<road>(via|viale|piazza)( \w+)+( \d+)), (?P<city>(\w+)+)', re.I)
for mail in victim_mails:
    match = matcher.search(mail)
    if match:
        print(match.group(), "\n\tVia:", match.group('road'), "\n\tCittà:", match.group('city'))

Per poter utilizzare le *regex* in Python occorre il modulo *re*. Non avremo modo di affrontare la sintassi delle regular expression né modulo nella sua interezza. Per approfondire, la risorsa migliore è senza dubbio la [documentazione officiale](https://docs.python.org/3/library/re.html).

Per provare, suggerisco dei tool online come [questo](https://regex101.com/).

<font color='blue'>Nota:</font> Gli esempi di HTML sono presi dai risultati della ricerca di "python" su amazon.

In [None]:
with open("files/amazon_python.html", encoding="utf8") as f:
    html_body = f.read()
print(html_body)

**match**

*match* permette di verificare la corrispondenza tra il pattern fornito e la stringa, partendo dall'inizio.

In [None]:
print(re.match("pyt", "python"))
print(re.match("tho", "python"))
print(re.match("..tho", "python"))

Si noti che questa funzione (così come la maggior parte delle funzioni del modulo) restituisce un oggetto *Match* che, oltre a contenere diverse informazioni sul matching, si può usare per valutare la corrispondenza in un if:

In [None]:
if re.match("pyt", "python"):
    print("Found")
else:
    print("Not Found")

**search**

Simile a *match* ma esegue la ricerca ovunque.

In [None]:
print(re.search("pyt", "python"))
print(re.search("tho", "python"))
print(re.search("python", html_body))
print(re.search('class=".+?"', html_body))

**findall**

Restituisce tutte le corrispondenze non sovrapposte sotto forma di lista di stringhe.

In [None]:
print(*re.findall('class=".+?"', html_body), sep='\n')

**split**

Spezza la lista a ciascun match.

In [None]:
for index, spanned in enumerate(re.split('<span.*?>|</span>', html_body)):
    print("Spanned", index, "\n", spanned)

**Groups**

Gli oggetti di tipo Match contengono i gruppi di matching. 
In proposito ci sarebbe molto da dire, ma limitiamoci ad un esempio base.

In [None]:
victim_mails = ["Sì l'appuntamento è in Via Longoturbi 12, Cerbenghio", 
                "Sì grazie, vorrei confermare la prenotazione per l'Hotel Colabrughi in Piazza Melanzane 1, Pustorzio",
                "Sì mamma, l'ho lavato il gatto."]

for mail in victim_mails:
    match = re.search(r'((via|viale|piazza) \w+ \d+), (\w+)', mail, re.I)  # re.I lo rende case insensitive
    if match:
        print(match.group(0))
        print("\t", match.group(1))
        print("\t", match.group(2))
        print("\t", match.group(3))

L'utilizzo dei gruppi in findall porta a restituire una tupla contenente i gruppi trovati.

In [None]:
re.findall('abc(de)fg(123)', 'abcdefg123 and again abcdefg123')

 Che permette di creare ricerche efficienti quanto utili:

In [None]:
print(*re.findall('<a class="attribute-value">a-size-medium a-color-base a-text-normal</a>.+?<span>(.+?)</span><span>', html_body), sep='\n')

***

<a id='itertools'></a>
# itertools

<img src="images/real_itertools.jpg"/>

Una libreria standard fondamentale quando si ha bisogno di generare iterabili standard. Niente di complesso, semplicemente comodo e veloce.

Al solito, suggerisco di dare uno sguardo alla [documentazione officiale](https://docs.python.org/3/library/itertools.html) perchè noi vedremo solo alcune delle funzioni della libreria, giusto per dare un'idea del suo contenuto. 

**count**

Cominciamo con qualcosa di facile: contare.

In [None]:
import itertools

for value in itertools.count(5, 0.2):
    print(value)
    if value > 7:
        break

<font color='red'>Attenzione:</font> Itertools produce generatori, il che vuol dire che il dato non esiste (e non occupa memoria) finchè non viene esplicitamente richiesto.

**Iteratori Combinatori**

Itertools contiente diverse funzioni per generare combinazioni. 
Per generare tutti i possibili terni del lotto per esempio:

In [None]:
combination = list(itertools.combinations(range(1,91), 3))
print(len(combination))
print(*combination, sep='\n')

O le possibili configurazioni di Mastermind, con 4 biglie e 6 colori:

In [None]:
for configuration in itertools.permutations(["Yellow", "Red", "White", "Blue", "Green", "Black"], 4):
    print(configuration)

O un semplice prodotto di due (o più) liste, quello che fareste con due loop annidati, per esempio per battaglia navale tridimensionale:

In [None]:
for coordinate in itertools.product("ABCDEF", [1, 2, 3, 4, 5, 6], ["Alpha", "Beta", "Gamma"]):
    print(coordinate)

**cycle**

Semplicemente continua a ciclare su iterabile.

In [None]:
mesi = itertools.cycle(["Gennaio", "Febbraio", "Marzo", "..."])
for _ in range(13):
    print(next(mesi))

**chain**

Concatena iterabili.

In [None]:
print(list(itertools.chain([1, 2, 3], ["Quattro", "Cinque"])))

***

<a id='data_analysis'></a>
# Basi di data analisi

<img src="images/data_analysis.jpg"/>

La data analisi è una delle maggiori applicazioni di Python, per due motivi:
* Parsare un file in Python è estremamente facile
* Le librerie numpy e pandas

Ma cos'è la data analisi? Di fatto, è l'estrazione di informazioni utili da gruppi di dati. Estrazione fatta in maniera analitica, cioè basata su principi di statistica. Lo scopo è tendenzialmente quello di prendere delle decisioni sulla base di queste informazioni. 

***

<a id='file_handling'></a>
## Gestione File
La prima cosa da fare per poter analizzare dei dati, è leggerli.

I dati possono provenire da svariate fonti (database, stdin, stream, ecc...), ma nella maggior parte dei casi provengono da dei file. 

La base per aprire e leggere un file in Python è:

In [None]:
file = open("files/Data Analisi/SimpleData.txt", "r")
print(file.read())
file.close()

Ma non è il metodo migliore.

<font color='red'>Attenzione:</font> La modalità di apertura di default è 'r', che permette solo la lettura del file. Per vedere le altre modalità, fate riferimento alla [documentazione ufficiale](https://docs.python.org/3/library/functions.html#open).

***

<a id='with'></a>
### With
*With* è uno statement che essenzialmente permette di eseguire del codice come se ci fosse un *finally*:

In [None]:
# Without with 
file = open('files/Data Analisi/SimpleData.txt') 
try: 
    file.read() 
finally: 
    file.close() 
    
# With with
with open('files/Data Analisi/SimpleData.txt') as file: 
    file.read() 

Capita anche troppo spesso di dimenticarsi di chiudere un file al momento opportuno, quindi questa è la metodologia raccomandata per aprirlo.

Vediamo un esempio di come si potrebbe parsare il file di esempio. 
La prima riga contiene il numero delle righe restanti che a loro volta contengono una lista di valori (non curiamoci del loro significato).

In [None]:
with open("files/Data Analisi/SimpleData.txt") as f:
    row_number = int(f.readline())
    for _ in range(row_number):
        print(list(map(int, f.readline().split())))


***

<a id='csv'></a>
### Load data from CSV
Uno dei formati più popolari per il salvataggio dei dati è il csv. 

Se usassimo la stessa metodologia per leggerne i dati otterremmo: 

In [None]:
with open('files/Data Analisi/enrollments.csv') as file: 
    print(file.read())

Potremmo certamente parsare i dati per renderli più leggibili, ma ovviamente qualcuno l'ha già fatto:

In [None]:
import unicodecsv

with open('files\Data Analisi\enrollments.csv', 'rb') as f:
    reader = unicodecsv.DictReader(f)
    enrollments = list(reader)
enrollments

Che è molto più fruibile.

***

<a id='fixing_types'></a>
### Fixing Data Types
Dato che dai file si leggono stringhe, tutto ciò che si ottiene sono stringhe, che solitamente male rappresentano i dati, che quindi vanno formattati.

In [None]:
from datetime import datetime

def parse_date(date):
    """
    Riceve una data in formato stringa e ne restituisce il corrispondente datetime, se esiste.
    """
    if date == '':
        return None
    else:
        return datetime.strptime(date, '%Y-%m-%d')
    
def parse_maybe_int(i):
    """
    Riceve una stringa e la trasforma in intero, se esiste.
    """
    if i == '':
        return None
    else:
        return int(i)

# Pulisce i dati
for enrollment in enrollments:
    enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
    enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
    enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
    enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
    enrollment['join_date'] = parse_date(enrollment['join_date'])
    
enrollments

Una volta puliti i dati se ne possono estrarre informazioni, come i giorni che in media gli utenti impiegano a cancellare l'abbonamento e quanti lo fanno.

In [None]:
total_num = len(enrollments)
cancelled = [enrollment for enrollment in enrollments if enrollment["status"] == "canceled"]
cancelled_num = len(cancelled)
print(cancelled_num * 100 / total_num)
print(sum(enrollment["days_to_cancel"] for enrollment in cancelled) / cancelled_num)

***

<a id='numpy'></a>

<img src="images/numpy.png"/>

La potenza di *NumPy* sta essenzialmente nel fatto che permette di raggiungere sintassi estremamente semplici per filtrare i dati, una delle cose più faticose nella data analisi. 

Lo fa definendo un oggetto array che si comporta in modo simile, ma non uguale, alle liste:

In [None]:
import numpy

my_array = numpy.array([1, 2, 3])
my_matrix = numpy.array([[1, 2, 3], ["A", "B", "C"]])
print("Qui tutto uguale")
print(my_array)
print(my_array[0])
print(my_array[1:])
print(my_matrix[0, 0])

print("Da qui cambia qualcosa")
print(my_array.shape)
print(my_matrix)
print(my_matrix.shape)

Numpy contiene una mostruosità di metodi per generare dati, cambiargli forma e analizzarli, ma la sua feature vincente è la possibilità di indicizzare i dati con dei booleani:

In [None]:
print("Genera un array di 10 valori")
array = numpy.arange(10)
print(array)

In [None]:
print("Gli cambia forma")
array = array.reshape(2, 5)
print(array)

In [None]:
print("Indicizza per indici")
print(array[[0, 1],[1, 1]])
# Equivale a 
print(numpy.array([array[0,1], array[1,1]]))

In [None]:
print("Crea un array con una condizione")
print(array > 6)

In [None]:
print("Usa una condizione per filtrare i dati")
print(array[array > 6])

***

<font color='red'>Attenzione:</font> Al di là delle migliorie fatte, ci sono alcune differenze fondamentali tra numpy array e liste, specialmente per quanto riguarda lo slicing e le operazioni matematiche.
La più importante di queste è che le liste creano delle copie (shallow) quando vi si accede in slicing, mentre gli array numpy creano delle viste:

In [None]:
print("List")
my_list = [0, 1, 2, 3]
my_view = my_list[:]
print(my_list)
print(my_list + my_list)
for i in range(len(my_view)):
    my_view[i] = True
print(my_list)

In [None]:
print("Numpy")
my_numpy = np.arange(4)
my_view = my_numpy[:]
print(my_numpy)
print(my_numpy + my_numpy)
my_view[:] = True
print(my_numpy)

***

Vediamo un esempio pratico:

In [None]:
# Spesso l'import viene abbreviato
import numpy as np

# First 20 countries with employment data
countries = np.array([
    'Afghanistan', 'Albania', 'Algeria', 'Angola', 'Argentina',
    'Armenia', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas',
    'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium',
    'Belize', 'Benin', 'Bhutan', 'Bolivia',
    'Bosnia and Herzegovina'
])

# Employment data in 2007 for those 20 countries
employment = np.array([
    55.70000076,  51.40000153,  50.5       ,  75.69999695,
    58.40000153,  40.09999847,  61.5       ,  57.09999847,
    60.90000153,  66.59999847,  60.40000153,  68.09999847,
    66.90000153,  53.40000153,  48.59999847,  56.79999924,
    71.59999847,  58.40000153,  70.40000153,  41.20000076
])


def max_employment(countries, employment):
    '''
    Fill in this function to return the name of the country
    with the highest employment in the given employment
    data, and the employment in that country.
    '''
    max_value = employment.max()
    max_country = countries[np.where(employment == max_value)[0][0]]
    

    return (max_country, max_value)

print("Media", employment.mean())
print("Deviazione Standard", employment.std())
print("Massimo", employment.max())
print("Somma", employment.sum())
print(max_employment(countries, employment))

***

<a id='pandas'></a>
## Pandas
<img src="images/pandas.jpg"/>
Numpy non lo usa nessuno.

No, non è vero, ma raramente viene usato direttamente, questo perchè ci hanno costruito sopra un'altra libreria: [*pandas*](https://pandas.pydata.org/).
La differenza tra le due è che numpy gestisce tabelle di numeri (generalmente), mentre pandas gestisce tabelle di dati. Dati che si portano dietro il proprio significato. 

**Lettura di CSV**

I csv si traducono spontanemante nei cosiddetti *DataFrame* pandas:

In [None]:
import pandas

df_enrollments = pandas.read_csv("files/Data Analisi/enrollments.csv")
print(df_enrollments.head()) # Display some data

<font color='blue'>Attenzione:</font> pandas ha già tradotto i dati in stringhe, numeri e booleani!

In [None]:
df_enrollments.info()  # Fornisce qualche informazione generica

**Leggere i dati**

Ai dati si accede un po' come fosse un array, un po' come fosse un dizionario:

In [None]:
df_enrollments["cancel_date"]  # Andando per chiavi si accede alle colonne

In [None]:
df_enrollments[["cancel_date", "is_udacity"]].head()  # Si possono anche selezionare più colonne

In [None]:
df_enrollments[1:3]  # Usando lo slicing si accede alle righe

In [None]:
df_enrollments[0]  # Occhio che non si possono indicizzare le righe direttamente

In [None]:
print(df_enrollments.iloc[0])  # Bisogna usare iloc

In [None]:
print(df_enrollments.iloc[0:4])  # Anche in questo caso lo slicing è valido

**Semplici analisi**

Sulle colonne dei DataFrame si può fare tutto ciò che si può fare in numpy.

In [None]:
print(df_enrollments["days_to_cancel"].max())
print(df_enrollments["days_to_cancel"].std())
print(df_enrollments["days_to_cancel"].mean())

In [None]:
# Counting
cancel_counts = df_enrollments["days_to_cancel"].value_counts()  # Occorrenze per ogni valore
cancel_counts

Ed è qua che si vede tutto il suo splendore, permettendo di filtrare una colonna sulla base delle altre.

In [None]:
df_enrollments[df_enrollments["days_to_cancel"] > 200]  # Filtro basato su una colonna

In [None]:
df_enrollments[(pd_enrollments["days_to_cancel"] > 20) & (df_enrollments["is_udacity"])]  # Filtro basato su due condizioni
# Da notare l'and "binario"

In [None]:
# Grouping
df_engagement = pandas.read_csv("files/Data Analisi/daily_engagement.csv")
print(df_engagement.head()) # Display some data
df_engagement.groupby("num_courses_visited").mean()

**Visualizzare i dati**

Anche la visualizzazione dati è esageratamente semplice (e ovviamente personalizzabile):

In [None]:
df_enrollments["days_to_cancel"].plot()

In [None]:
print(type(cancel_counts))
cancel_df = cancel_counts.reset_index()  # Turn the Series in a DataFrame
print(type(cancel_df))
print(cancel_df[:])
cancel_df.rename(columns={"index": "count"}, inplace=True)
cancel_df.plot(kind='scatter', x="count", y='days_to_cancel')

***

<a id='documenting'></a>
# Documentare il Codice

<img src="images/documenting.jpg"/>

Come in tutti i linguaggi è fondamentale documentare adeguatamente il codice. Al di là del fatto che il codice *self documenting* è sempre la cosa migliore da fare, non basta: 
    
    Code is more often read than written

Negli anni si sono formati alcuni standard di documentazione; tra i principali: 
 * Google Docstrings
 * reStructured Text
 * NumPy/Scipy Docstrings
 * Epytext.

Noi affronteremo *reStructured* perchè è quello che per *default* viene gestito da PyCharm (ma si può ovviamente cambiare), perchè si integra meglio (ma non è l'unico utilizzabile) con *Sphinx*, che vedremo dopo, e soprattutto perchè... è quella che conosco meglio.

Le cose principali che vanno documentate sono:
* Funzioni
* Classi
    * Attributi
    * Metodi
* Moduli

Il progetto di esempio Pyzzeria ne riporta la maggior parte. Vediamo qualche dettaglio.

**Funzioni**

In [None]:
def get_spreadsheet_cols(file_loc, print_cols=False):
    """
    Gets and prints the spreadsheet's header columns.
    
    Takes care of opening the passed file and printing its column if the parameters allows it.

    :param file_loc: The file location of the spreadsheet
    :type file_loc: str
    :param print_cols: A flag used to print the columns to the console (default is False)
    :type print_cols: bool
    :returns: a list of strings representing the header columns
    :rtype: list
    """
    # PS. PyCharm automatically generates the parameter parts.
    file_data = pd.read_excel(file_loc)
    col_headers = list(file_data.columns.values)

    if print_cols:
        print("\n".join(col_headers))

    return col_headers

**Classi**

In [None]:
class MyClass:
    """
    This class has this purpose.
    
    The class can be used to...
    """
    class_attribute = 0
    
    def say_hello(self, name: str):
        """
        Says Hello.
        
        Not much details to add here...
        """
        print(f'Hello {name}')

**TODOs**

In [None]:
def my_function():
    # TODO implementation
    # Le etichette TODOs sono anche tracciate da PyCharm...
    pass

<font color='blue'>N.B.:</font> Una documentazione adeguata riempie anche l'help.

In [None]:
help(MyClass)

<a id='typing'></a>
## Typing

**Python si può tipare.**

Sì. 

...

Solo se hai Python >= 3.5.

...

Non ha effetti a runtime (*)

...

A parte un piccolo rallentamento

...

**Ma è ottimo per la documentazione!**

In [None]:
def get_spreadsheet_cols(file_loc, print_cols=False):
    """
    Gets and prints the spreadsheet's header columns.
    
    Takes care of opening the passed file and printing its column if the parameters allows it.

    :param file_loc: The file location of the spreadsheet
    :type file_loc: str
    :param print_cols: A flag used to print the columns to the console (default is False)
    :type print_cols: bool
    :returns: a list of strings representing the header columns
    :rtype: list
    """
    # PS. PyCharm automatically generates the parameter parts.
    file_data = pd.read_excel(file_loc)
    col_headers = list(file_data.columns.values)

    if print_cols:
        print("\n".join(col_headers))

    return col_headers

#Diventa

def get_spreadsheet_cols(file_loc: str, print_cols: bool=False) -> list:
    """
    Gets and prints the spreadsheet's header columns.
    
    Takes care of opening the passed file and printing its column if the parameters allows it.

    :param file_loc: The file location of the spreadsheet
    :param print_cols: A flag used to print the columns to the console (default is False)
    :returns: a list of strings representing the header columns
    """
    # PS. PyCharm automatically generates the parameter parts.
    file_data = pd.read_excel(file_loc)
    col_headers = list(file_data.columns.values)

    if print_cols:
        print("\n".join(col_headers))

    return col_headers

Il pacchetto *typing* (quello effettivamente pesante) permette anche di creare tipy più complessi:

In [None]:
import typing

my_list: typing.List[typing.Union[None, int]] = [None, 1]

<font color='blue'>N.B.:</font> Un buon IDE riconosce i suggerimenti di tipo e segnala eventuali discrepanze.

In [None]:
help(get_spreadsheet_cols)

<a id='project'></a>
## Struttura dei Progetti

In questo caso un esempio è decisamente meglio. Diamo un occhio a Pyzzeria.

<a id='sphinx'></a>

<img src="images/sphinx.png"/>

Bello il codice documentato, ma se si dovesse fare una guida utente?
Aggiungere informazioni che non ha senso mettere nel codice?

[Sphinx](http://www.sphinx-doc.org/en/master/) è uno strumento che permette di creare documentazione utente **E(!)** generare in automatico la documentazione riguardante il codice, sulla base dei commenti.
Siccome anche l'occhio vuole la sua parte, suggerisco **fortemente** l'utilizzo del tema [Read The Docs](https://sphinx-rtd-theme.readthedocs.io/en/stable/).

    conda install sphinx_rtd_theme

Purtroppo, sono stato deprivato del tempo per preparare questo pezzo, quindi andremo di documentazioni ufficiali e esempi.

[Impostazioni Base](https://matplotlib.org/sampledoc/getting_started.html)<br>
[Generare documentazione del codice](https://gisellezeno.com/tutorials/sphinx-for-python-documentation.html)

<a id='external_resources'></a>

# Risorse Esterne

Riporto qui una lista di risorse esterne che possono essere di aiuto per chi vuole rivedere le basi, approfondire, etc...
Riporto anche alcune delle documentazioni che ho linkato nel corso.

**Basi:**

* [SoloLearn](https://www.sololearn.com/Course/Python/)
    Breve corso online che ripete (e testa) le basi.

**Avanzati**

* [Data Analisi](https://classroom.udacity.com/loading)
    È essenzialmente quello su cui mi sono basato. Bisogna fare un account, ma è free.
   

**Siti**

* [Real Python](https://realpython.com/)
    Questo è anche quello da cui ho preso la maggior parte delle immagini. 
    In realtà la maggior parte degli articoli sono da pagare, ma avendogli rubato le immagini mi sembrava brutto non metterlo...

**Coding Challenges**

* [HackerRank](https://www.hackerrank.com/domains/python)
    Il mio sito preferito per tenermi in allenamento (se fate l'account, il mio profilo è @gelmilorenzo).
    
* [CodeWars](https://www.codewars.com/?language=python)
    Altrettanto buono, per ragioni "storiche" non l'ho mai usato molto...

**Things you should know**

* [GIL](https://realpython.com/python-gil/)
    Perchè il multithreading in Python è una bugia
    
* [Generatori](https://realpython.com/introduction-to-python-generators/)
    Ciò che non ho avuto il coraggio di dirvi

**Documentazioni**

* [Documentazione Python Ufficiale](https://docs.python.org/3/)
* [Conda](https://docs.conda.io/en/latest/)
* [Jupyter](https://jupyter.org/documentation)
* [Numpy](https://docs.scipy.org/doc/numpy/reference/)
* [Pandas](https://pandas.pydata.org/pandas-docs/stable/)
* [Sphinx](http://www.sphinx-doc.org/en/master/contents.html)
* [Sphinx RTD Theme](https://sphinx-rtd-theme.readthedocs.io/en/stable/)


