# Introduzione a Python per l’analisi dei dati testuali

Questo è un [Jupyter Notebook](https://jupyter-notebook-beginner-guide.readthedocs.io/en/latest/what_is_jupyter.html), ovvero un file che contiene codice scritto in Python eseguibile dall'interprete e caselle di testo come questa, formattabili utilizzando la sintassi di un linguaggio di markup chiamato [Markdown](https://it.wikipedia.org/wiki/Markdown). È un ottimo strumento per mischiare codice e spiegazioni!

Cominciamo!

## Due parole su Python

Questa è una mia traduzione della risposta alla domanda ["what is Python"](https://docs.python.org/3/faq/general.html#what-is-python) sulle FAQ del sito [www.python.org](www.python.org):

> Python è un linguaggio di programmazione `interpretato, interattivo e orientato agli oggetti`. Incorpora al proprio interno `moduli, eccezioni, tipizzazione dinamica, tipi di dati di altissimo livello e classi`. Supporta `molteplici paradigmi di programmazione`, oltre alla programmazione orientata agli oggetti, ad esempio la programmazione procedurale funzionale. Python combino un eccezionale potenza con una sintassi estremamente chiara. [...] Da ultimo, `Python e portabile`: può girare su molte varianti di UNIX, incluso Linux e MacOS, e su Windows.

In parole molto semplici, Python è un linguaggio di programmazione interpretato, ovvero necessita di un particolare programma (un **interprete**) affiché i comandi che noi scriviamo utilizzando la sua sintassi vengano "tradotte" riga per riga nella "lingua madre" del computer.

L'interprete Python può essere eseguito in **modalità interattiva**, ovvero possiamo avviarlo e scrivere istruzioni che vengono immediatamente eseguite. Non è necessario scrivere prima uno script che viene poi letto e interpretato. Possiamo "dialogare" con il nostro interprete e questo è una grandissima comodità quando si impara!

In un Jupyter notebook, noi possiamo scrivere le nostre istruzioni nelle celle di codice (**Attenzione**: dovete assicurarvi di creare celle di codice, non di testo. È sempre possibile cambiare la tipologia di una cella). Dopodiché, lanciando il comando "esegui" sulla cella, le istruzioni verranno eseguite dall'interprete.

Alcuni "shortcut" comodi in Jupyter:
- `esc`: deselzionare la cella; se siete all'interno di una cella, ad es. per modificarne il contenuto, è necessario uscirne per eseguire alcuni comandi, come ad es. cambiare la tipologia da codice a testo. Vedrete che il bordo della cella cambia colore!
- `esc+m`: uscire dalla cella e trasformare la cella da codice a testo
- `esc+y`: uscire dalla cella e trasformare la cella da testo a codice
- `shift+return`: esegui la cella e passa alla successiva
- `option+return`: esegui la cella e creane una vuota (dello stesso tipo) immediatamente sotto
- `esc+dd`: esci dalla cella ed eliminala (attenzione! la cella è persa per sempre...)

Ad esempio, eseguiamo questo strano comando (non preoccupatevi: cosa significa l'istruzione `import` lo vedremo dopo!)

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


## E ora... Python!

Che cosa possiamo fare con Python? Beh... un computer sarà bravo a fare i calcoli, no?

In [9]:
# quanto fa 2+3?
# A proposito: io sono un commento. Ogni riga di codice che inizia con # viene 
# ignorata dall'interprete

2 + 3

5

### Il nostro primo "programmino"

Ottimo! Abbiamo scritto la nostra prima riga di codice. Ora un piccolo esercizio per voi. Scrivete nella cella sotto un programma che calcoli quanti minuti ci sono in 3 settimane.

(**Suggerimento**: usare `*` per la moltiplicazione)

In [2]:
# In 3 settimane ci sono...


### Le variabili

Suppongo, però, che il nostro obiettivo sia usare il computer per fare qualcosa di un po' più complesso... Ad esempio, probabilmente, una volta che abbiamo scoperto quanti giorni ci sono in una settimana, potremmo volere salvare il risultato e aggiungere qualche altro numero.

Quanti minuti abbiamo se ai nostri minuti in 3 settimane aggiungiamo i minuti di un giorno? E di 2 giorni?

Per fare questo (ovvero: **salvare** i risultati di un'operazione in una "scatoletta" che possiamo riprendere per svolgere operazioni successive) usiamo le `variabili`!

Pensate ad una variabile come ad una scatola di scarpe: la create e la riempite del contenuto che vi serve.

Ad esempio:
- calcoliamo quanti minuti ci sono in un giorno e salviamolo in una variabile (`giorno`)
- moltiplichiamo `giorno` * 7 e salviamolo in una variabile (`sett`)
- sommiamo: `sett * 3 + giorno`

In [24]:
giorno = 60 * 24
sett = giorno * 7
print('In tre settimane + 1 giorno ci sono ' + str(sett * 3 + giorno) + ' minuti')

In tre settimane + 1 giorno ci sono 31680 minuti


Nell'ultima riga ho fatto un bel po' di cose complicate! In particolare:
- ho usato la **funzione** predefinita `print`
- ho concatenato il risultato della nostra variabile con del testo ('In una settimana...')
- ho usato un altro 'oggetto misterioso' `str()`

Cominciamo da `print`. Quando non sappiamo qualcosa, Python ci aiuta sempre: usiamo la funzione `help()` per farci stampare la documentazione:

In [9]:
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



### Le funzioni

`print`, dunque, è una *funzione*, ovvero un blocco di codice che serve a fare qualcosa e viene eseguito quando è chiamato. Può richiedere degli argomenti (alcuni dei quali possono avere dei valori di default preimpostati) e può restituire un output, che possiamo salvare in una variabile. È molto comune, ad esempio, scrivere istruzioni di questo tipo:

```python
x = some_function(par1, par2)
```

Che leggiamo così: esegui il codice di `some_function` passandogli `par1` e `par2` come input; salva il risultato nella variabile `x`.

Possiamo noi stessi definire le nostre funzioni, in modo tale da non dover riscrivere sempre lo stesso codice!!!

Ad esempio, se vogliamo calcolare quanti minuti ci sono in una settimana e/o in un giorno possiamo scrivere 2 funzioni: `minperday` e `minperweek`. Ciascuna delle due prenderà 1 argomento come input: rispettivamente, il numero di giorni e il numero di settimane; la seconda funzione invocherà la prima moltiplicando il risultato per 7! facile no?

Vediamo qual è la sintassi in Python:

In [39]:
def minperday(days):
    result = days * 60 * 24
    return result

def minperweek(weeks):
    dd = weeks * 7
    return minperday(dd)

three_week = minperweek(3)
one_day = minperday(1)

print('In 3 settimane + 1 giorno ci sono ' + str(three_week + one_day) + ' minuti')

In 3 settimane + 1 giorno ci sono 31680 minuti


Cosa notate nella sintassi della definizione di una formula? Vi faccio io un breve elenco:
- keyword `def`: stiamo iniziando la definizione di una funzione
- i due punti `:` alla fine della riga in cui diamo un nome alla funzione e elenchiamo gli argomenti tra parentesi

e... (rullo di tamburi...)

- l'**indentatura** delle righe dove viene definito il codice della funzione!

L'indentatura è un aspetto *fondamentale* della sintassi di Python. L'indentatura è l'unica cosa che, in questo codice, ci permette di sapere che le righe di codice che definiscono il funzionamento di `minperweek` (ad es.) appartengono alla funzione.

Proviamo a vedere che succede se togliamo i 4 spazi all'ultima riga di `minperweek`:

In [32]:
def minperweek(weeks):
    dd = weeks * 7
return minperday(dd)

SyntaxError: 'return' outside function (3458504271.py, line 3)

Quanti spazi bianchi per indentare il codice? È indifferente! Possono essere 2, 4, 6; può anche essere 1 carattere di tabulazione (`\t`; **attenzione**: ricordatevi che il tabulato e lo spazio bianco per il computer sono caratteri diversi!). L'importante è che lo stesso numero di spazi sia usato sempre e che per livelli successivi di indentatura (quando il codice è "nested") si usino dei multipli (es 4 spazi per il primo livello, 8 per il secondo...).

Di default, si usano 4 spazi bianchi per livello di indent. Fate la prova: nella cella successiva scrivete `def my_func():` e premete invio (non uscite dalla cella!). Vedrete che Jupyter vi manderà a capo e creerà automaticamente la giusta indentatura 

## Tipi di dati

### Numeri interi e stringhe

Proviamo a riscrivere il codice di prima "dimenticandoci" di passare il risultato a `str()`

In [40]:
three_week = minperweek(3)
one_day = minperday(1)
result = three_week + one_day

print('In 3 settimane + 1 giorno ci sono ' + 
       result +
       ' minuti')

TypeError: can only concatenate str (not "int") to str

Molto interessante! Abbiamo il seguente messaggio di erroe:

```python
TypeError: can only concatenate str (not "int") to str
```

Sembra quasi che a Python non piaccia la nostra idea di "concatenare" due oggetti chiamati `int` e `str`. Il nostro interprete ci informa che possiamo solo concatenare `str` con `str`. 

Ogni linguaggio di programmazione definisci i *tipi* di dati con cui può lavorare, il come li conserva nella memoria e li elabora, e i tipi di operazioni che può svolgere su di essi. In molti linguaggi, prima di usare una variabile bisogna dichiarare il tipo di valore che conterrà e questo tipo, non può cambiare!

Ad es. in Java per creare una variabile `myNum` inizializzata col valore 15, scriveremmo:

```java
int myNum = 15;
```

Possiamo aggiornare il valore di `myNum` a piacimento, ma non potremmo salvare una stringa di testo!

Non così in Python, dove il tipo è assegnato dinamicamente.

Fino ad ora, abbiamo lavorato con operazioni matematiche che restituivano numeri interi. Non sorprende che il tipo di valore restituito come output dalla funzione (ad es.) `minperday` sia di tipo "numero intero", in inglese *integer*, ovvero `int`.

In python, per conoscere il tipo di un dato conservato in una variabile possiamo usare la funzione `type()`:

In [41]:
one_day = minperday(1)
type(one_day)

int

E come facciamo a sapere il tipo di "in una settimana"?

(non importa che salviate i dati in una variabile! Potete passare direttamente il valore, ad es. la stringa di testo, alla funzione type)

Ogni sequenza di caratteri testuali è una stringa di testo `str`!

È possibile convertire un tipo in un altro. Certamente! `str()` nel codice sopra faceva esattamente questo: convertiva l'int restituito dalle funzioni in modo da poterlo concatenare con le altre stringhe ("In una settimana ci sono...").

(parentesi: c'è un modo molto più "carino" di farlo in Python 3, utilizzando le cosiddette `f-string`, ovvero stringhe in cui possiamo inserire variabili):

In [42]:
one_day = minperday(1)
three_week = minperweek(3)
print(f'In 3 settimane + 1 giorno ci sono {three_week + one_day} minuti')

In 3 settimane + 1 giorno ci sono 31680 minuti


Per creare una stringa, semplicemente scriviamo il testo fra virgolette, doppie o semplici:

In [43]:
hello = 'hello!'
print(hello)
hello = "goodbye!"
print(hello)

hello!
goodbye!


In [44]:
message = 'I said "hello"!'
print(message)

I said "hello"!


Ecco un elenco dei tipi di dati di base:


- Integers (-1,0,1,2,3,4...)
- Strings ("Hello", "s", "Wolfgang Amadeus Mozart", "I am the α and the ω!"...)
- floats (3.14159; 2.71828...)
- Booleans (True, False)


Se Python è così "carino" da non farci dichiarare i tipi delle variabili al momento della creazione, perché dovrebbe importancene qualcosa del tipo di un dato?

Beh, perché Python non ci lascia fare tutto con tutti i tipi di dati! Abbiamo visto cosa succede se proviamo a concatenare stringhe e numeri interi, ad esempio. E le operazioni non significano esattamente la stessa cosa se fatte su un tipo o su un altro!

Prendiamo `2` e `3` e convertiamoli in stringhe. Proviamo a sommarli. Che risultato abbiamo?

### Liste e dizionari

Liste e dizionari ci consentono di conservare collezioni di più dati!

In [46]:
beatles = ["John", "Paul", "George", "Ringo"]
type(beatles)

list

In [47]:
# dictionaries collections of key : value pairs
beatles_dictionary = { "john" : "John Lennon" ,
                      "paul" : "Paul McCartney",
                      "george" : "George Harrison",
                      "ringo" : "Ringo Starr"}
type(beatles_dictionary)

dict

(Ci sono anche [tuple](https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences) e [set](https://docs.python.org/3/tutorial/datastructures.html#sets) ma non facciamo in tempo a parlarne!)

Gli oggetti nelle liste sono accessibili attraverso un indice. Ma **ricordatevi** che l'indice parte da 0!!!

In [48]:
print(beatles[0])

John


In [49]:
#indexes can be negative!
print(beatles[-1])

Ringo


I dizionari sono coppie di chiavi:valori; si può recuperare i valori usando le chiavi come indice

In [50]:
# beatles_dictionary[0] non funzionerà!!!

beatles_dictionary["john"]

'John Lennon'

Ci sono un po' di metodi delle liste che possiamo usare per lavorare con il loro contenuto:

In [51]:
# usiamo `append()` per aggiungere elementi
beatles.append("Billy Preston")
beatles

['John', 'Paul', 'George', 'Ringo', 'Billy Preston']

In [52]:
# possiamo scoprire l'indice di un elemento (il primo, se ce n'è più di uno)
beatles.index("George")

2

In [53]:
# possiamo inserire un elemento ad un dato indice
beatles.insert(0, "Pete Best")
print(beatles.index("George"))
beatles

3


['Pete Best', 'John', 'Paul', 'George', 'Ringo', 'Billy Preston']

Ma, cosa più, importante possiamo ottenere delle sottoliste (**slice**) usando gli indici di inizio e di fine:

In [None]:
beatles[1:5]

Notate qualcosa di strano? Sì, il limite esterno **non è incluso**. Il codice prima fa arrivare la nostra sotto-lista fino all'elemento con l'indice 4!

Notate bene una cosa! Stringhe e liste sono tipi diversi, ma **anche con le stringhe** possiamo utilizzare gli indici; in una stringa gli indici si riferiscono ai caratteri:

In [62]:
stringa = 'Non mi piace il gelato al puffo'
stringa[16:]

'gelato al puffo'

## Sintassi di base: if statement e loop

Most of the times, what you want to do when you program is to check a value and execute some operation depending on whether the value matches some condition. That's where **if statements** help!

In its easiest form, an If statement is syntactic construction that checks whether a condition is met; if it is some part of code is executed

In [None]:
bassist = "Paul McCartney"

if bassist == "Paul McCartney":
    print("Paul played bass with the Beatles!")

Paul played bass with the Beatles!


Mind the **indentation** very much! This is the essential element in the syntax of the statement

In [None]:
bassist = "Bill Wyman"

if bassist == "Paul McCartney":
    print("I'm part of the if statement...")
    print("Paul played bass in the Beatles!")

What happens if the condition is not met? Nothing! The indented code is not executed, because the condition is not met, so lines 4 and 5 are simply skipped.

**But what happens if we de-indent line 5**? Can you guess why this is what happes?

Most of the time, we need to specify what happens if the conditions are not met

In [None]:
bassist = ""

if bassist == "Paul McCartney":
    print("Paul played bass in the Beatles!")
else:
    print("This guy did not play for the Beatles...")

This guy did not play for the Beatles...


This is the flow:
* the condition in line 3 is checked
* is it met?
    * **yes**: then line 4 is executed
    * **no**: then line 6 is executed

Or we can specify many different conditions...

In [None]:
bassist = "Bill"

if bassist == "Paul McCartney":
    print("Paul played bass in the Beatles!")
elif bassist == "Bill Wyman":
    print("Bill Wyman played for the Rolling Stones!")
else:
    print("I don't know what band this guy played for...")

I don't know what band this guy played for...


Ora possiamo scrivere del codice usando un doppio livello di indent. Scriviamo una funzione (chiamata `guess_the_bass_player`) che, data una band, restituisce il nome del bassista:

In [68]:
def guess_the_bass_player(band_name):
    if band_name.lower() == 'beatles':
        # 8 spazi!
        return 'Paul McCartney'
    elif band_name.lower() == 'rolling stones':
        return 'Bill Wyman'
    elif band_name.lower() == 'byrds':
        return 'Chris Hillman'
    elif band_name.lower() == 'weather report':
        return 'Miroslav Vitous'
    else:
        return "I don't know who played the bass in this band..."

In [69]:
guess_the_bass_player('weather report')

'Miroslav Vitous'

Avete notato che funziona anche se passate il nome della band in minuscolo, oltre che in maiuscolo? Come mai?

##  For loops

Una delle cose più belle delle liste (ma anche delle stringhe, se è per questo) è che sono un oggetto su cui si può iterare, sono degli **iterable**. Questo significa che si possono creare dei **loop** su di esse.

Come facciamo se vogliamo applicare qualche operazione su ogni elemento di una lista? La costruzione più semplice che ci può aiutare è il `for loop`!

Possiamo parafrasare un **for loop** in questi termini: "per (for) ogni elemento chiamato x di un oggetto iterable (e.g. una lista): esegui del codice (ad es. stampa il valore di x)"

In [70]:
for b in beatles:
    print(f"{b} was one of the Beatles")

Pete Best was one of the Beatles
John was one of the Beatles
Paul was one of the Beatles
George was one of the Beatles
Ringo was one of the Beatles
Billy Preston was one of the Beatles


Analizziamo separatamente ogni elemento del codice percedente:

* **b**: un nome totalmente arbitrario per la variabile in cui viene salvato ogni valore successivo dell'iterabile ad ogni ciclo di iterazione. Poteva essere qualunque cosa; `b` è solamente molto intuitivo in questo caso!
* **beatles**: la lista su cui iteriamo (ad ogni ciclo un valore di beatles verrà salvato in b)
* **:** come per l'if-statements: don't forget the colon!
* **indent**: stessa cosa: non dimenticativi di indentare il codice! è l'unica cosa che dica a Python che deve applicare questa istruzione agli elementi del loop!
* **riga 2**: è l'istruzione (o la funzione, o... qualunque cosa!) che vogliamo applicare agli elementi del loop

E ora, fondiamo `if` e `for` per fare qualcosa di carino (loop sugli elementi, se un elemento rispetta una qualche condizione, fai qualcosa)

In [None]:
beatles = ["John", "Paul", "George", "Ringo"]
for b in beatles:
    if b == "Paul":
        instrument = "bass"
    elif b == "John":
        instrument = "rhythm guitar"
    elif b == "George":
        instrument = "lead guitar"
    elif b == "Ringo":
        instrument = "drum"
    print(b + " played " + instrument + " with the Beatles")

John played rhythm guitar with the Beatles
Paul played bass with the Beatles
George played lead guitar with the Beatles
Ringo played drum with the Beatles


## Lavorare con i file

Una delle attività più frequenti per i programmatori è leggere i dati dai file e scrivere parte dell'output dei programmi in un file.

In Python (come in molti linguaggi), dobbiamo prima aprire un "file handler", ovvero un oggetto che rappresenta il file, con la modalità appropriata per elaborarlo. I file possono essere aperti in modalità:
* read ("r")
* write ("w")
* append ("a")

Proviamo a leggere il contenuto del file "Readme.md"

First, we open the file handler in **read mode**:

In [None]:
#see? we assign the file-handler to a variable, or we wouldn't be able
#to do anything with that!
f =  open("NOTES.md", "r")

note that **"r" is optional**: read is the default mode!

Now there are a bunch of things we can do:
* read the full content in one variable with this code:

`content = f.read()`

* read the lines in a list of lines:

`lines = f.readlines()`

* or, which is the easiest, simply read the content one line at the time with a for loop; the **f object is iterable**, so this is as easy as:

In [None]:
for l in f:
    print(l)

Password = ~Sun0ikiS1s!2oi62oi7#



	pip install jupyter

	jupyter notebook --generate-config



Once you're done, don't forget to **close the handle**:

In [None]:
f.close()

In [None]:
#all together
f = open("NOTES.md")
for l in f:
    print(l)
f.close()

Now, there's a shortcut statement, which you'll often see and is very convenient, because it takes care of opening, closing and cleaning up the mess, in case there's some error:

In [None]:
with open("NOTES.md") as f:
    #mind the indent!
    for l in f:
        #double indent, of course!
        print(l)

Password = ~Sun0ikiS1s!2oi62oi7#



	pip install jupyter

	jupyter notebook --generate-config



Now, how about **writing** to a file? Let's try to write a simple message on a file; first, we open the handler in write mode

In [None]:
out = open("test.txt", "w")

In [None]:
#the file is now open; let's write something in it
out.write("This is a test!\nThis is a second line (separated with a new-line feed)")

70

The file has been created! Let's check this out

## Lavorare con i testi