# Statistica per i Big Data Economico-Aziendali - Esercitazioni in Python

*Contatti*: giovanni.bocchi1@unimi.it

*Materiale*: https://github.com/jb-sharp/stat4bigdata.

**GitHub** è una piattaforma utilizzata per lo sviluppo collaborativo di software basata sul controllo di versione.
- [Guida a GitHub](https://docs.github.com/en/get-started/quickstart/hello-world)
- [Guida a Git](https://github.com/git-guides)

## Introduzione a Python

**Python** è un linguaggio di programmazione ad alto livello, utilizzato nelle applicazioni web, nello sviluppo di software, nella data science e nel machine learning. Può essere eseguito su tutti i principali sistemi operativi informatici ed è estremamente semplice da comprendere grazie ad una sintassi simile a quella della lingua inglese. Data la sua vasta diffusione ed adozione tra gli sviluppatori, è possibile reperire con facilità tutorial e documentazione, oltre a migliaia di pacchetti sviluppati per numerose attività.
- [Documentazione](https://docs.python.org/3/)

Esistono diverse opzioni per scrivere codice in Python. 

- Gli *script* sono file di testo con estensione *.py*. Possono essere creati e modificati con semplici editor di testo, oppure tramite ambienti di sviluppo integrato (IDE); questi ultimi sono software che assistono lo sviluppatore nella scrittura del codice tramite l'utilizzo di diversi strumenti, come il debugger o l'evidenziatore di sintassi. Gli script vengono eseguiti linearmente, dall'alto verso il basso, riga per riga, fino al raggiungimento della fine del file; nel caso in cui bisognasse modificare anche solo una linea di codice, sarà necessario rieseguire lo script per attuare le modifiche.
    - Text Editors: [Sublime](https://www.sublimetext.com), [Notepad++](https://notepad-plus-plus.org)
    - IDEs: [Visual Studio Code](https://code.visualstudio.com), [PyCharm](https://www.jetbrains.com/pycharm/), [Spyder](https://www.spyder-ide.org/), [Atom](https://atom-editor.cc/)

- I *notebook* sono composti da celle: in ogni cella è possibile scrivere sia del codice in Python, sia del semplice testo. È dunque possibile affiancare a delle sezioni di codice, delle altre contenenti spiegazioni, link o immagini. I notebook vengono eseguiti in maniera non lineare, ovvero è possibile eseguire le celle in qualsiasi ordine; ciò rende possibile modificare parte del codice presente in una cella, senza dover necessariamente rieseguire l'intero notebook.
    - [Jupyter Notebook](https://jupyter.org),
    - [Google Colab](https://colab.research.google.com/notebooks/)

In [1]:
# Il primo programma in Python
print('Hello, world!')

Hello, world!


## Commenti

Un commento è introdotto da un asterisco (`#`) e termina alla fine di una linea di codice. I commenti vengono ignorati in fase di esecuzione del codice.

In [2]:
# Questo è un commento
# Anche questo è un commento

## Tipi di Dato

Un **tipo di dato** restringe l'insieme di possibili valori che un'espressione può avere e definisce l'insieme di operazioni consentite su di essa. Python supporta tipi di dato basilari, come *interi* e *booleani*, e sequenziali, come *stringhe* e *liste*.

#### `type(object)`
La funzione `type()` restituisce il tipo di un dato. 

Vediamo ora un esempio di un tipo numerico intero:

In [3]:
type(12)

int

e di un tipo stringa:

In [4]:
type('ciao')

str

## Tipi Numerici

Esistono tre tipi numerici: gli interi (*int*), i decimali (*float*) e i numeri complessi (*complex*).

- `int`: gli interi comprendo lo zero ed i numeri positivi e negativi, numeri dunque privi di parte decimale.
- `float`: chiamati *floating point numbers*, i decimali sono rappresentano i numeri reali positivi e negativi con una componente decimale indicata dal simbolo `.` o tramite la notazione scientifica `E` o `e`.
- `complex`: un numero complesso è un numero avente una componente reale ed una immaginaria; la componente immaginaria è indicata dalla lettera `J` o `j`.

In [5]:
# Interi
print(10)
type(10)

10


int

In [6]:
print(12312432152314123414)

12312432152314123414


In [7]:
# Decimali
print(10.0)
type(10.0)

10.0


float

In [8]:
0.00000000000000023

2.3e-16

In [9]:
print(2.3e-16)

2.3e-16


In [10]:
# Complessi
print(2 + 3j)
type(2 + 3j)

(2+3j)


complex

In [11]:
print(2.2 + 3.5j)
type(2.2 + 3.5j)

(2.2+3.5j)


complex

### Operatori Aritmetici

In Python, gli **operatori** sono speciali simboli che indicano ad alto livello l'esecuzione di una cera opearazione. I dati che vengono coinvolti nell'operazione da un operatore, vengono detti *operandi*.

Gli **operatori aritmetici** vengono utilizzati per eseguire operazioni matematiche, come l'addizione, la sottrazione, la moltiplicazione e la divisione tra dati numerici.

L'operatore *addizione* è indicato dal simbolo `+` ed è utilizzato per sommare due valori.

In [12]:
# Addizione
print(2 + 12)
type(2 + 12)

14


int

In [13]:
print(2 + 12.5)
type(2 + 12.5)

14.5


float

In [14]:
print(2 + 12j)
type(2 + 12j)

(2+12j)


complex

L'operatore *sottrazione* è indicato dal simbolo `-` ed è utilizzato per sottrarre il secondo valore dal primo.

In [15]:
# Sottrazione
print(12 - 6)
type(12 - 6)

6


int

L'operatore *moltiplicazione* è indicato dal simbolo `*` ed è utilizzato per calcolare il prodotto di due valori.

In [16]:
# Moltiplicazione
print(12.6 * 2)
type(12.6 * 2)

25.2


float

L'operatore *divisione* è indicato dal simbolo `/` ed è utilizzato per calcolare il quoziente quando il primo valore è diviso per il secondo.

In [17]:
# Divisione (float)
print(20 / 7)
type(20 / 7)

2.857142857142857


float

L'operatore *divisione floor* è indicato dal simbolo `//` ed è utilizzato per calcolare la parte intera del quoziente quando il primo valore è diviso per il secondo.

In [18]:
# Divisione (int)
print(20 // 7)
type(20 // 7)

2


int

Nel caso si tenti di dividere un numero per 0, il codice non viene eseguito e si ottiene un errore:

In [19]:
20 / 0.0

ZeroDivisionError: float division by zero

L'operatore *resto della divisione intera* è indicato dal simbolo `%` ed è utilizzato per calcolare il resto quando il primo valore è diviso per il secondo.

In [20]:
# Resto
print(20 % 7)
type(20 % 7)

6


int

L'operatore *elevamento a potenza* è indicato dal simbolo `**` ed è utilizzato per elevare il primo valore alla potenza del secondo.

Attenzione a non confondersi: in Python l'elevamento a potenza è `**` e non `^` come in altri linguaggi.

In [21]:
# Elevamento a potenza
2 ** 4

16

È possibile usare anche numeri floating point come esponente ricordando che per l'elevamento a potenza con esponente frazionario vale la formula
$$
x^\frac{a}{b} = \sqrt[b]{x^a}
$$

Per esempio per calcolare la radice quadrata $\sqrt[]{}$ di un numero:

In [22]:
# Radice quadrata
print(4 ** 0.5)
type(4 ** 0.5)

2.0


float

In generale il risultato di un elevamento a potenza con esponente `float` produce un `float`.

## Tipo Stringa

In Python, i dati testuali sono gestiti con gli oggetti `str`, o *stringhe*. Una stringa può essere definita in tre diversi modi:
- Apici (`'...'`): possono contenere virgolette.
- Virgolette (`"..."`): possono contenere apici.
- Tripli apici/virgolette (`'''...'''`, `"""..."""`): possono essere definite su più linee.

In [23]:
# Apici

'in una stringa definita da apici, posso inserire "virgolette"'

'in una stringa definita da apici, posso inserire "virgolette"'

In [24]:
# Virgolette

"in una stringa definita da virgolette, posso inserire 'apici'"

"in una stringa definita da virgolette, posso inserire 'apici'"

Usando apici/virgolette la stringa deve essere definita su una sola riga (niente a capo), in caso contrario si ottiene un errore.

In [25]:
"Questa
è 
una stringa su
linee multiple"

SyntaxError: unterminated string literal (detected at line 1) (1005411363.py, line 1)

In [26]:
# Triple Virgolette

print("""
Questa stringa
è definita su
diverse linee 
""")


Questa stringa
è definita su
diverse linee 



In [27]:
"""
Questa stringa
è definita su
diverse linee 
"""

'\nQuesta stringa\nè definita su\ndiverse linee \n'

Per definire su una sola linea una stringa con degli 'a capo' occorre usare la sequenza di escape `\n` che produce un a capo.

### Concatenazione
È possibile concatenare due stringhe diverse oppure ripetere la stessa stringa più volte utilizzando rispettivamente gli operatori aritmetici `+` e `*`. Gli operatori arimetici che abbiamo visto per i tipi numerici possono essere ustati anche su altri dati spesso e volentieri ottenedo altri risultati. Questo fenomeno si chiama **Overloading** ovvero la possibilità di usare uno stesso operatore su più tipi di dato con risultati diversi. 

In [28]:
# Concatenazione di due stringhe
print('Ci' + 'ao')

Ciao


In [29]:
# Ripetizione della stessa stringa
print('Ciao ' * 5)

Ciao Ciao Ciao Ciao Ciao 


Se si cerca di sommare due tipi non compatibili come una stringa e un intero, invece, si ottiene un errore.

In [30]:
print('Ciao' + 1)

TypeError: can only concatenate str (not "int") to str

### Carattere Escape
Nelle stringhe, la barra rovesciata (*backslash*) `\` è un carattere speciale, chiamato **escape**. È utilizzato per definire alcune sequenze di caratteri come `\t` e `\n` (come abbiamo già visto).

In [31]:
print('Questo è un carattere tabulazione \t mentre questa \n è una nuova linea')

Questo è un carattere tabulazione 	 mentre questa 
 è una nuova linea


Utilizzare `\` prima di un carattere speciale trasforma quest'ultimo in un carattere ordinario. 

In [32]:
print('I\'m a python coder.')

I'm a python coder.


### Slicing e Indexing
Poiché la stringa in Python viene trattata come una sequenza di caratteri, come vedremo per le Liste, è possibile selezionare un sottoinsiemi di caratteri da una stringa utilizzando l'operazione di *slicing*. 

All'interno di parentesi quadre, si specifica l'indice del carattere di inizio (compreso) e l'indice di fine (escluso), separati da `:`.

In [33]:
'Statistica per i Big Data Economico-Aziendali'[0:10]

'Statistica'

In Python, a differenza di altri linguaggi, gli indici partono da zero. Per esempio gli indici degli *n* caratteri all'interno di una stringa vanno da *0* a *n-1*. 

Indicando soltanto un numero all'interno delle parentesi quadre si seleziona soltanto l'elemento che occupa la posizione data da quell'indice.

In [34]:
'Statistica per i Big Data Economico-Aziendali'[0]

'S'

Uno dei due indici può essere omesso durante lo *slincig*.

Se si omette l'indice di inizio si selezionano tutti i caratteri dal primo fino all'indice di fine (escluso).

In [35]:
'Statistica per i Big Data Economico-Aziendali'[:10]

'Statistica'

Se si omette l'indice di fine si selezionano tutti i caratteri dall'indice di inizio (compreso) fino alla fine della stringa.

In [36]:
'Statistica per i Big Data Economico-Aziendali'[11:]

'per i Big Data Economico-Aziendali'

### Metodi

Le stringhe, come vederemo per molti altri oggetti in Python, posseggono una serie di *metodi integrati (built-in)* che possono essere utilizzati. Un metodo è una funzione che agisce sulla stringa su cui viene *chiamato* e che tipicamente restituisce un risultato.

Per esempio `str.capitalize()` restituisce una copia della stringa con la prima lettera in maiuscolo e tutto il resto in minuscolo.

In [37]:
'ciao'.capitalize()

'Ciao'

I metodi delle stringhe sono propri di questo tipo di dato e non possono essere usati (a differenza degli operatori aritmetici) su altri tipi.

In [38]:
123.capitalize()

SyntaxError: invalid decimal literal (2147238821.py, line 1)

`str.lower()` restituisce una copia della stringa con tutte le lettere minuscole.

In [39]:
'CIAO'.lower()

'ciao'

In [40]:
'C\\IAO'.lower()

'c\\iao'

`str.upper()` restituisce una copia della stringa con tutte le lettere maiuscole.

In [41]:
'ciao'.upper()

'CIAO'

`str.strip()` restituisce una copia della stringa eliminando eventuali spazi all'inizio e alla fine di essa.

In [42]:
'  ciao  '.strip()

'ciao'

In [43]:
'  ci ao  '.strip()

'ci ao'

I metodi possono anche accettare degli *argomenti*: per esempio `str.find(sub)` restituisce il primo indice della stringa in cui viene trovata la sottostringa `sub`.

In [44]:
'ciao'.find()

TypeError: find() takes at least 1 argument (0 given)

In [45]:
'ciao'.find('i')

1

In [46]:
'hello'.find('l')

2

Si può limitare la ricerca di `find` fra due indici.

In [47]:
'Statistica per i Big Data Economico-Aziendali'.find('a', 11, 30)

22

In [48]:
'Statistica per i Big Data Economico-Aziendali'.find('a', 11)

22

`str.replace(old, new)` restituisce una copia della stringa con tutte le occorrenze di `old` sostituite da `new`.

In [49]:
'ciao'.replace('o', 'p')

'ciap'

`str.format(string)` esegue un'operazione di formattazione sulla stringa.

In [50]:
'ciao, {}'.format('come stai ?')

'ciao, come stai ?'

## Booleani

L'ultimo tipo di dato che vediamo sono i booleani: esistono sono due valori possibili per un dato booleano:

In [51]:
True
type(True)

bool

In [52]:
False
type(False)

bool

I Booleani vengono usati per indicare il valore di verità di determinate condizioni che possono essere solo vere o false.

## Conversione di Tipo

Il processo di convertire un valore da un tipo di datio ad un altro è chiamato **conversione**. In Python esistono due tipologie di conversione:
- *implicita*: Python converte automaticamente un tipo di dato in un altro senza che venga specificato dall'utente.
- *esplicita*: l'utente converte l'oggetto da un tipo di dato all'altro utilizzando delle funzioni integrate, ad es. `int()`, `float()`, `str()`.

In [53]:
# Conversione implicita
print(type(2))
print(type(12.5))
print(type(2 + 12.5))

<class 'int'>
<class 'float'>
<class 'float'>


In [54]:
# Conversione esplicita
print(123)
print(type(123))
print(str(123))
print(type(str(123)))

123
<class 'int'>
123
<class 'str'>


## Variabili

Finora abbiamo lavorato solo usando tipi di dato costanti, ovvero che non possono essere cambiati durante l'esecuzione di un programma.

In [55]:
# Costante numerica intera
12

12

Una variabile, invece, permette di memorizzare delle informazioni e può essere poi recuperata e modificata durante l'esecuzione di un programma. È anche un modo per descrivere in maniera più significativa i nostri dati, in modo da rendere più leggibile e comprensibile il nostro codice.

Per creare una variabile è necessario *dichiararla*. In Python ciò avviene definendo il nome della variabile, seguita dall'operatore *assegnamento* `=` e dal valore che le vogliamo assegnare.

In [56]:
# Dichiarazione ed assegnamento di una variabile numerica
x = 5
y = 3

In [57]:
x

5

Come con le costanti possiamo eseguire operazioni fra variabili:

In [58]:
z = x + y

In [59]:
z

8

Ma, a differenza delle costanti, possiamo cambiare il valore di una variabile:

In [60]:
# Aggiornamento ddel valore di una variabile
x = 10
x

10

In [61]:
z = x + y
z

13

### Altri Operatori di Assegnazione

`+=` (*somma e assegna*): aggiungi l'operando a destra con quello a sinistra e assegna il risultato all'operando a sinistra.

In [62]:
x

10

In [63]:
x += 1 # Equivalente a x = x + 1
x

11

`-=` (*sottrai e assegna*): sottrai l'operando a destra da quello a sinistra e assegna il risultato all'operando a sinistra.

In [64]:
x -= 2 # Equivalente a x = x - 2
x

9

`*=` (moltiplica e assegna): moltiplica l'operando a destra con quello a sinistra e assegna il risultato all'operando a sinistra.

In [65]:
x *= 2 # Equivalente a x = x * 2
x

18

## Riferimento agli Oggetti

Una variabile in Python è un valore simbolico che crea un riferimento ad un dato. Una volta che un dato viene assegnato ad una variabile, è possibile riferirsi ad esso utilizzando il nome della variabile; l'informazione è comunque contenuta all'interno del dato e non della variabile. 

In [66]:
y

3

In [67]:
y = x

In [68]:
y

18

Ad ogni oggetto creato viene assegnato un codice che lo identifica. È garantito che due oggetti diversi non possano avere lo stesso identificatore. La funzione integrata `id(object)` restituisce l'identificatore di un oggetto.

In [69]:
id(y)

8908424

In [70]:
id(x)

8908424

In [71]:
id(18)

8908424

In [72]:
x = 10
id(x)

8908168

## Convenzioni

I nomi delle variabili dovrebbero essere formati da soli caratteri minuscoli, con parole separate da trattini bassi `_` per migliorarne la leggibilità.

In Python, un ridotto insieme di parole chiave sono riservate per particolari funzionalità del linguaggio. Alle variabili non possono essere assegnati nomi uguali a parole chiave. È possibile controllare la lista di parole chiave in ogni momento utilizzando il comando `help('keywords')`.

In [73]:
popolazione_italiana = 60000000

In [74]:
def = 10

SyntaxError: invalid syntax (3594483855.py, line 1)

In [75]:
help('keywords')


Here is a list of the Python keywords.  Enter any keyword to get more help.

False               class               from                or
None                continue            global              pass
True                def                 if                  raise
and                 del                 import              return
as                  elif                in                  try
assert              else                is                  while
async               except              lambda              with
await               finally             nonlocal            yield
break               for                 not                 



## Esercizi

Scrivi un programma che dati due numeri interi `a` e `b` calcoli il valore della divisione intera fra `a` e `b` e il resto e che stampi `{} diviso {} fa {} con resto di {}.`, sostituendo le graffe con i risultati.

Scrivi un programma che dato il raggio del cerchio calcola l'area e stampa `L'area del cerchio con raggio {} è uguale a {}.`, sostituendo le graffe con i risultati.

Scrivi un programma che sposti l'ultimo careattere di una stringa all'inizio della stessa. Ad esempio `fragola` -> `afragol`

Scrivi un programma che sostituisce tutte le occorrenze del primo carattere di una stringa con `?`, eccetto per il primo carattere. Ad esempio `ananas` -> `an?n?s`.

Scrivi un programma che dato il volume di una sfera ne calcoli il raggio.
Il volume della sfera si calcola con la formula:
$$
V = \frac{4\pi}{3}r^3
$$