# Statistica per i Big Data Economico-Aziendali - Esercitazioni in Python

*Contatti*: sergio.picascia@unimi.it

*Materiale*: www.github.com/sergiopicascia/Stat4BigData.

**GitHub** è una piattaforma utilizzata per lo sviluppo collaborativo di software basata sul controllo di versione.
- [Guida a GitHub](https://docs.github.com/en/get-started/quickstart/hello-world)
- [Guida a Git](https://github.com/git-guides)

## Introduzione a Python

**Python** è un linguaggio di programmazione ad alto livello, utilizzato nelle applicazioni web, nello sviluppo di software, nella data science e nel machine learning. Può essere eseguito su tutti i principali sistemi operativi informatici ed è estremamente semplice da comprendere grazie ad una sintassi simile a quella della lingua inglese. Data la sua vasta diffusione e adozione tra gli sviluppatori, è possibile reperire con facilità tutorial e documentazione, oltre a migliaia di pacchetti sviluppati per numerose attività.
- [Documentazione](https://docs.python.org/3/)

Esistono diverse opzioni per scrivere codice in Python. Gli *script* sono file di testo con estensione *.py*. Possono essere creati e modificati con semplici editor di testo, oppure tramite ambienti di sviluppo integrato (IDE); questi ultimi sono software che assistono lo sviluppatore nella scrittura del codice tramite l'utilizzo di diversi strumenti, come il debugger o l'evidenziatore di sintassi. Gli script vengono eseguiti linearmente, dall'alto verso il basso, riga per riga, fino al raggiungimento della fine del file; nel caso in cui bisognasse modificare anche solo una linea di codice, sarà necessario rieseguire lo script per attuare le modifiche.
- Text Editors: [Sublime](https://www.sublimetext.com), [Notepad++](https://notepad-plus-plus.org)
- IDEs: [Visual Studio Code](https://code.visualstudio.com), [PyCharm](https://www.jetbrains.com/pycharm/)

I *notebook* sono composti da celle: in ogni cella è possibile scrivere sia del codice in Python, sia del semplice testo. È dunque possibile affiancare a delle sezioni di codice, delle altre contenenti spiegazioni, link o immagini. I notebook vengono eseguiti in maniera non lineare, ovvero è possibile eseguire le celle in qualsiasi ordine; ciò rende possibile modificare parte del codice presente in una cella, senza dover necessariamente rieseguire l'intero notebook.
- [Jupyter Notebook](https://jupyter.org), [Google Colab](https://colab.research.google.com/notebooks/)

In [1]:
# Il primo programma in Python
print('Hello, world!')

Hello, world!


## Commenti

Un commento è introdotto da un asterisco (`#`) e termina alla fine di una linea di codice. I commenti vengono ignorati in fase di esecuzione del codice.

In [2]:
# Questo è un commento
# Anche questo è un commento

## Tipi di Dato

Un **tipo di dato** restringe l'insieme di possibili valori che un'espressione può avere e ne definisce l'insieme di operazioni consentite su di essa. Python supporta tipi di dato basilari, come *interi* e *booleani*, e sequenziali, come *stringhe* e *liste*.

#### `type(object)`
La funzione `type()` restituisce il tipo di un oggetto. 

In [3]:
type(12)

int

In [4]:
type('ciao')

str

## Tipi Numerici

Esistono tre tipi numerici: gli interi (*int*), i decimali (*float*), e i numeri complessi (*complex*).

- `int`: gli interi sono lo zero, numeri positivi e negativi interi, dunque senza la componente decimale
- `float`: chiamati *floating point numbers*, i decimali sono numeri reali positivi e negativi con una componente decimale indicata dal simbolo `.`or dalla notazione scienrifica `E` o `e`
- `complex`: un numero complesso è un numero avente una componente reale ed una immaginaria; la componente immaginaria è indicata dalla lettera `J` o `j`

In [5]:
# Interi
print(10)
type(10)

10


int

In [6]:
print(12312432152314123414)

12312432152314123414


In [8]:
# Decimali
print(10.0)
type(10.0)

10.0


float

In [10]:
0.00000000000000023

2.3e-16

In [9]:
print(2.3e-10)

2.3e-10


In [13]:
# Complessi
print(2 + 3j)
type(2 + 3j)

(2+3j)


complex

### Operatori Aritmetici

In Python, gli **operatori** sono speciali simboli che indicano che una certa computazione deve essere compiuta. I valori che vengono coinvolti nella computazione da un operatore, vengono detti *operandi*.

Gli **operatori aritmetici** vengono utilizzati per eseguire operazioni matematiche, come l'addizione, la sottrazione, la moltiplicazione e la divisione.

L'operatore *addizione* è indicato dal simbolo `+` ed è utilizzato per sommare due valori.

In [14]:
# Addizione
2 + 12.5

14.5

L'operatore *sottrazione* è indicato dal simbolo `-` ed è utilizzato per sottrarre il secondo valore dal primo.

In [17]:
# Sottrazione
print(12 - 6)
type(12 - 6)

6


int

L'operatore *moltiplicazione* è indicato dal simbolo `*` ed è utilizzato per calcolare il prodotto di due valori.

In [18]:
# Moltiplicazione
12.6 * 2

25.2

L'operatore *divisione* è indicato dal simbolo `/` ed è utilizzato per calcolare il quoziente quando il primo valore è diviso per il secondo.

In [19]:
# Divisione (float)
20 / 7

2.857142857142857

L'operatore *divisione floor* è indicato dal simbolo `//` ed è utilizzato per calcolare la parte intera del quoziente quando il primo valore è diviso per il secondo.

In [20]:
# Divisione (int)
20 // 7

2

In [21]:
import math

math.ceil(20 / 7)

3

L'operatore *modulo* è indicato dal simbolo `%` ed è utilizzato per calcolare il resto quando il primo valore è diviso per il secondo.

In [22]:
# Modulo
20 % 7

6

L'operatore *esponenziale* è indicato dal simbolo `**` ed è utilizzato per elevare il primo valore alla potenza del secondo.

In [23]:
# Esponenziale
2 ** 4

16

## Tipo Stringa

In Python, i dati testuali sono gestiti con gli oggetti `str`, o *stringhe*. Una stringa può essere definita in tre diversi modi:
- singole virgolette (`'...'`): possono contenere doppie virgolette
- doppie virgolette (`"..."`): possono contenere singole virgolette
- triple virgolette (`'''...'''`, `"""..."""`): possono essere definite su più linee

In [25]:
# Singole Virgolette
'in una stringa definita da virgolette singole, posso inserire "doppie virgolette"'

'in una stringa definita da virgolette singole, posso inserire "doppie virgolette"'

In [26]:
# Doppie Virgolette
"in una stringa definita da doppie virgolette, posso inserire 'singole virgolette'"

"in una stringa definita da doppie virgolette, posso inserire 'singole virgolette'"

In [27]:
"Questa
è 
una stringa su
linee multiple"

SyntaxError: EOL while scanning string literal (1005411363.py, line 1)

In [29]:
# Triple Virgolette
print("""
Questa stringa
è definita su
diverse linee 
""")


Questa stringa
è definita su
diverse linee 



In [30]:
"""
Questa stringa
è definita su
diverse linee 
"""

'\nQuesta stringa\nè definita su\ndiverse linee \n'

### Concatenazione
È possibile concatenare due stringhe diverse oppure ripetere la stessa stringa più volte utilizzando rispettivamente gli operatori aritmetici `+` e `*`.

In [31]:
# Concatenazione di due stringhe
print('Ci' + 'ao')

Ciao


In [32]:
# Ripetizione della stessa stringa
print('Ciao ' * 5)

Ciao Ciao Ciao Ciao Ciao 


In [33]:
print('Ciao' + 1)

TypeError: can only concatenate str (not "int") to str

### Carattere Escape
Nelle stringhe, la barra rovesciata (*backslash*) `\` è un carattere speciale, chiamato **escape**. È utilizzato per definire alcune sequenze di caratteri come `\t` e `\n`.

In [34]:
print('Questo è un carattere tabulazione \t mentre questa \n è una nuova linea')

Questo è un carattere tabulazione 	 mentre questa 
 è una nuova linea


Utilizzare `\` prima di un carattere speciale trasforma quest'ultimo in un carattere ordinario. 

In [35]:
print('I\'m Sergio')

I'm Sergio


### Slicing e Indexing
È possibile selezionare un sottoinsiemi di caratteri da una stringa utilizzando l'operazione di *slicing*: all'interno di parentesi quadre, si specifica l'indice di inizio e l'indice di fine, separati da `:`.

In [37]:
'Statistica per i Big Data Economico-Aziendali'[0:11]

'Statistica '

In Python, i tipi sequenziali sono indicizzati a zero, ovvero le posizioni (indici) degli *n* elementi all'interno di un oggetto va da *0* a *n-1*. Indicando soltanto un numero all'interno delle parentesi quadre si seleziona soltanto l'elemento presente a quell'indice.

In [38]:
'Statistica per i Big Data Economico-Aziendali'[0]

'S'

In [39]:
'Statistica per i Big Data Economico-Aziendali'[:11]

'Statistica '

In [40]:
'Statistica per i Big Data Economico-Aziendali'[11:]

'per i Big Data Economico-Aziendali'

### Metodi

Esistono una serie di *metodi integrati (built-in)* che possono essere utilizzati sulle stringhe.

`str.capitalize()` restituisce una copia della stringa con la prima lettera in maiuscolo e il resto in minuscolo.

In [41]:
'ciao'.capitalize()

'Ciao'

In [42]:
123.capitalize()

SyntaxError: invalid syntax (2147238821.py, line 1)

In [43]:
True.capitalize()

AttributeError: 'bool' object has no attribute 'capitalize'

`str.lower()` restituisce una copia della stringa con tutte le lettere minuscole.

In [44]:
'CIAO'.lower()

'ciao'

In [51]:
'C\\IAO'.lower()

'c\\iao'

`str.upper()` restituisce una copia della stringa con tutte le lettere maiuscole.

In [45]:
'ciao'.upper()

'CIAO'

`str.strip()` restituisce una copia della stringa eliminando eventuali spazi all'inizio e alla fine di essa.

In [46]:
'  ciao  '.strip()

'ciao'

In [47]:
'  ci ao  '.strip()

'ci ao'

`str.find(sub)` restituisce il primo indice della stringa in cui viene trovata la sottostringa `sub`.

In [53]:
'ciao'.find()

TypeError: find() takes at least 1 argument (0 given)

In [52]:
'ciao'.find('i')

1

In [54]:
'hello'.find('l')

2

In [56]:
'Statistica per i Big Data Economico-Aziendali'.find('a', 11, 30)

22

In [57]:
'Statistica per i Big Data Economico-Aziendali'.find('a', 11)

22

`str.replace(old, new)` restituisce una copia della stringa con tutte le occorrenze di `old` sostituite da `new`.

In [60]:
'ciao'.replace('o', 'p')

'ciap'

`str.format()` esegue un'operazione di formattazione sulla stringa.

In [61]:
'ciao, {}'.format('mi chiamo Sergio')

'ciao, mi chiamo Sergio'

## Conversione di Tipo

Il processo di convertire un valore da un tipo di dati ad un altro è chiamato **conversione**. In Python esistono due tipologie di conversione:
- *implicita*: Python converte automaticamente un tipo di dato in un altro senza che venga specificato dall'utente
- *esplicita*: l'utente converte l'oggetto da un tipo di dato all'altro utilizzando delle funzioni integrate, ad es. `int()`, `float()`, `str()`.

In [62]:
# Conversione implicita
print(type(2))
print(type(12.5))
print(type(2 + 12.5))

<class 'int'>
<class 'float'>
<class 'float'>


In [64]:
# Conversione esplicita
print(type(123))
print(type(str(123)))

<class 'int'>
<class 'str'>


## Variabili
Una variabile è un contenitore utilizzato per memorizzare informazione che viene poi recuperata e modificata da un programma. È anche un modo per descrivere in maniera più significativa i nostri dati, in modo da rendere più leggibile e comprensibile il nostro codice.

Per creare una variabile è necessario *dichiararla*. In Python ciò avviene definendo il nome della variabile, seguita dall'operatore *assegnazione* `=` e dal valore che le vogliamo assegnare.

In [65]:
# Dichiarazione di una variabile
x = 5
y = 3

In [66]:
x

5

In [74]:
z = x + y

In [75]:
z

14

In [70]:
# Aggiorna una variabile
x = 10
x

10

In [71]:
z

8

### Altri Operatori di Assegnazione

`+=` (*somma e assegna*): aggiungi l'operando a destra con quello a sinistra e assegna il risultato all'operando a sinistra.

In [72]:
x

10

In [73]:
x += 1
x

11

`-=` (*sottrai e assegna*): sottrai l'operando a destra da quello a sinistra e assegna il risultato all'operando a sinistra.

In [76]:
x -= 2
x

9

`*=` (moltiplica e assegna): moltiplica l'operando a destra con quello a sinistra e assegna il risultato all'operando a sinistra.

In [77]:
x *= 2 
x

18

## Riferimento agli Oggetti

Una variabile in Python è un nome simbolico che fa da riferimento per un oggetto. Una volta che un oggetto viene assegnato ad una variabile, è possibile riferirsi a tale oggetto utilizzando il nome della variabile; il dato è comunque contenuto all'interno dell'oggetto e non della variabile. 

In [78]:
y

3

In [79]:
y = x

In [80]:
y

18

Ad ogni oggetto creato viene assegnato un numero che lo identifica. È garantito che due oggetti non possano avere lo stesso identificatore. La funzione integrata `id(object)` restituisce l'identificatore di un oggetto.

In [81]:
id(y)

4490845232

In [82]:
id(x)

4490845232

In [83]:
id(18)

4490845232

In [84]:
x = 10
id(x)

4490844976

## Convenzioni

I nomi delle variabili dovrebbero essere formati da soli caratteri minuscoli, con parole separate da trattini bassi `_` per migliorarne la leggibilità.

In Python, un ridotto insieme di parole chiave sono riservate per particolari funzionalità del linguaggio. Alle variabili non possono essere assegnati nomi uguali a parole chiavi. È possibile controllare la lista di parole chiave in ogni momento utilizzando il comando `help('keywords')`.

In [None]:
popolazione_italiana = 60000000

In [86]:
def = 10

SyntaxError: invalid syntax (3594483855.py, line 1)

In [87]:
help('keywords')


Here is a list of the Python keywords.  Enter any keyword to get more help.

False               class               from                or
None                continue            global              pass
True                def                 if                  raise
and                 del                 import              return
as                  elif                in                  try
assert              else                is                  while
async               except              lambda              with
await               finally             nonlocal            yield
break               for                 not                 



## Esercizi

- Scrivi un programma che sostituisce tutte le occorrenze del primo carattere di una stringa con `?`, eccetto per il primo carattere. Ad esempio `ananas` -> `an?n?s`.

In [7]:
parola = 'burbero'
car = parola[0]
parola.replace(car, '?')

'?ur?ero'

In [8]:
car + parola[1:].replace(car, '?')

'bur?ero'

- Scrivi un programma che dato il raggio del cerchio calcola l'area e stampa `L'area del cerchio con raggio _ è uguale a _.`, sostituendo i trattini bassi con i reali valori.

In [12]:
raggio = 5
PI_GRECO = 3.14

area = raggio ** 2 * PI_GRECO

In [13]:
print(f"L'area del cerchio con raggio {raggio} è uguale a {area}.")

L'area del cerchio con raggio 5 è uguale a 78.5.


In [19]:
raggio_utente = input('Definisci il valore del raggio: ')
area = float(raggio_utente) ** 2 * PI_GRECO
print(f"L'area del cerchio con raggio {raggio_utente} è uguale a {area}.")

Definisci il valore del raggio: 6
L'area del cerchio con raggio 6 è uguale a 113.04.
