<a href="https://colab.research.google.com/github/beppezampieri/SPAZIO-DI-LAVORO/blob/master/Copia_di_01_intro_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisi e Gestione dei Dati in Python

# Parte 1: Python Basics

### Mara Pistellato (mara.pistellato@unive.it)
#### DAIS, Ca'Foscari University of Venice


# Google Colab & Python notebooks

Google Colab è uno strumento online che permette di gestire Python notebooks come questo.

Le componenti base che formano un notebook sono le **celle**.
Ogni cella è una sezione di documento e può mostrare  diversi tipi di contenuto. Possiamo distinguere tra:

- **Celle di codice**: contengono codice Python che può essere eseguito. Il pulsante **"+ Code"** (in alto sotto al menù) permette di aggiungere una nuova cella contenente codice Python.
- **Celle di testo**: contengono testo in formato markdown, utile per descrivere e integrare le parti di codice (quello che state leggendo in questo momento). È possibile aggiungere una nuova casella contenente testo attraverso il pulsante **"+ Text"**

Selezionando una cella appare un menù (in alto a destra della cella stessa).
I pulsanti **freccia su/giu** permettono di spostare la cella. Lo stesso menù include altre operazioni sulle celle (copia, elimina, ecc).

---

### Celle di testo: Markdown
Markdown è un linguaggio di markup che definisce un semplice stile di formattazione del testo (https://it.wikipedia.org/wiki/Markdown). Per modificare il testo originale è sufficiente fare doppio click sulla cella o selezionarla e premere invio. Per visualizzare il testo formattato è sufficiente "eseguire" la cella di testo (ctrl+invio) o selezionare un'altra cella.

---

### Eseguire codice Python
- Per eseguire del codice Python presente all'interno di una cella, è sufficiente selezionarla e cliccare il pulsante **Play/run** (nella parte sinistra della cella) o la combinazione di tasti **ctrl+enter**.
- L'eventuale output (come il print su standard output o grafici) sarà visualizzato sotto la cella.
- Le variabili definite nelle celle esistono globalmente in tutto il notebook, a meno che l'ambiente non venga riavviato ("restart kernel")

---

### Shortcuts
- **ctrl+enter** esegue la cella selezionata.
- **shift+enter** esegue la cella selezionata e seleziona la successiva.
- **ctrl+M B** inserisce una cella sottostante.
- **ctrl+M M** rende la cella una cella di testo.
- **ctrl+M D** elimina la cella.

In [None]:
# this is a comment in a code cell
print('Hello world!')

# Pyhton Basics

## Variabili e Tipi

- Python è un linguaggio **dinamicamente tipato**: ogni oggetto è associato ad un tipo, ma le variabili usate possono assumere tipi diversi durante l'esecuzione del programma. Questo non accade per altri inguaggi di programmazione, dove il tipo della variabile è dichiarato all'inizio del programma e non cambia.
- Ogni **variabile** in Python può essere vista come **un'etichetta**, ovvero un nome all'interno del programma che viene associato a dei dati in memoria, i quali hanno un tipo.

Alcuni tipi di dati con cui lavoreremo sono:
- ```bool```
- ```int ```
- ```float```
- ```string```
- ```list```

Lista completa che descrive i tipi di dato definiti dal linguaggio: https://docs.python.org/3/library/stdtypes.html

Inoltre:

- Il tipo di un'espressione o di un variabile può essere stampato attraverso la funzione ```type()```
- La funzione ```len()``` ritorna la lunghezza di diversi tipi di oggetti come stringhe o liste.
- Le funzioni built-in definite dal linguaggio sono elencate qua: https://docs.python.org/3/library/functions.html

In [None]:
# type() function
print(type(True))
print(type(2))
print(type(4.5))
print(type('Hello'))
print(type([0,1,2,3,4]))

In [None]:
# len() function
print(len("Ciao"))
print(len([0,1,2,3,4]))

In [None]:
# definiamo due variabili di tipo float
n = 17.0
pi = 3.141592653589793
print('n ->', n, type(n))
print(pi, '--->', type(pi))

# assegnamo la variabile n ad un tipo diverso
n = 'Hello!'
print('n->', n, type(n))

## Conditionals

- Come per altri linguaggi, i costrutti `if` e `if-else` eseguono diverse porzioni di codice a seconda del valore di un'espressione booleana.
- Un'espressione booleana ritorna ```True``` o ```False``` (tipo ```bool```, ovvero un valore binario che può essere 0 o 1).

**Indentazioni**

- In Pyhton i blocchi di codice sono identificati come delle righe **indentate ed allineate allo stesso livello**. Questo è diverso da altri linguaggi, dove i blocchi di codice sono racchiusi tra parentesi graffe <tt>{ ... }</tt> o specifiche parole chiave come <tt>begin ... end</tt>.
- Per convenzione, ogni livello di indentazione corrisponde a quattro spazi: l'editor indenta in maniera automatica ma è necessario comunque prestare attenzione per evitare possibili errori.

### `if` syntax

```python
if x > 0:
    print('the condition is True')
    print('x is positive')
```

### `if-else` syntax

```python
if x % 2 == 0:
    print('the first branch was taken.')
    print('x is even')
else:
    print('x is odd')
```        

### Operatori Relazionali

```   
     x == y           # test if x is equal to y
     x != y           # test if x is not equal to y
     x > y            # test if x is greater than y
     x < y            # test if x is less than y
     x >= y           # test if x is greater than or equal to y
     x <= y           # test if x is less than or equal to y
```

La documentazione Python definisce le relazioni di precedenza tra gli operatori [qui](https://docs.python.org/3/reference/expressions.html#operator-precedence).



In [None]:
x = 17

if x%2 == 0:
  print(x,'is even')
else:
  print(x,'is odd')

## Liste

Python definisce il tipo di dato **list** (https://docs.python.org/3/tutorial/datastructures.html#more-on-lists).
- Una lista è una sequenza di valori eterogenei: possiamo infatti avere tipi diversi all'interno della stessa lista.

```python
     [10, 15, 2]
     ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
     ['spam', 2.0, 5, [10, 20]]
```

In [None]:
empty_list = [] # lista vuota
cheeses = ['Parmigiano', 'Pecorino', 'Piave']
numbers = [123, 42]
my_list = [4.2, "Hello", [1,2,3]]

print(cheeses, numbers, empty_list)
print(len(empty_list))
print(len(cheeses))
print(len(numbers))

- Per accedere agli elementi di una lista usiamo le parentesi quadre (gli indici partono da zero).
- Gli indici possono anche essere negativi: -1 rappresenta l'ultimo elemento della lista, -2 il penultimo e così via.

| posizione nella lista | 1° | 2° | 3° | 4° | ... | penultimo | ultimo |
|---|---|---|---|---|---|---|---|
| indici positivi | 0 | 1 | 2 | 3 | ... | len(var) -2 | len(var) -1 |
| indici negativi |-len(var) | -(len(var)-1) | -(len(var) -2) | -len(var)+3 | ... | -2 | -1 |

In [None]:
my_lst = [7,10,14,20,27,30,31,55,60]
print(my_lst[3])
print(my_lst[-3])

# modifichiamo l'elemento nella seconda posizione
my_lst[1] = 33 
print("After the change: ", my_lst)

Un altro modo per accedere agli elementi della lista è lo *slicing*:

- La notazione `[n:m]` restituisce gli indici da n a m-1 (m escluso)
- Omettendo il primo indice prima dei due punti (`[:m]`) gli indici iniziano dallo zero
- Omettendo il secondo indice dopo i due punti (`[n:]`) gli indici finiranno in corrispondenza dell'ultimo elemento (len(lista)-1)
- Un terzo valore (`[n:m:s]`) aggiunge uno *step* s tra indici successivi (se omesso è 1)


In [None]:
my_lst = [15, 93, 44.1, 72, 97.65, 12, 48.1, 99.2, 5.3]
print(my_lst[1:3])
print(my_lst[:5])
print(my_lst[:5:2])


print('[1:1]: ', my_lst[1:1]) # empty list!

# indici negativi
print('[-1]:', my_lst[-1])    # last char
print('[-9:-6]:', my_lst[-9:-6]) # it works, as delta is -6-(-9) = 3, 
                                # so starts from -9 and prints 3 chars: [-9, -8, -7] (extreme -6 excluded)
print('[-6:-9]:', my_lst[-6:-9]) # does not work, -9-(-6) = -3: negative delta


- Aggiungere e modificare elementi: il metodo append consente di aggiungere elementi in coda alla lista

In [None]:
t =  ['a', 'b', 'c']

# append: aggiungo un elemento alla fine
t.append('d')
print(t)

# concatenazione di liste
t = t + ['k', 'x']
print(t)
t.append("ciao")
t.append(1)
print(t)

- Ordinamento: per ordinare una lista, i suoi elementi devono essere dello stesso tipo. Ci sono due metodi principali per odinare una lista:
    - sort() metodo che ordina gli elementi della lista in-place
    - sorted() funzione che ritorna una nuova lista ordinata, non modifica quella originale

In [None]:
s = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"] # stringhe
#s = [1, 45, 2, 17.1]   # valori numerici

# sorted() è una funzione che ritorna una nuova lista ordinata, non modifica quella originale
print(sorted(s))  
print(s)

# sort è un metodo che ordina gli elementi di s in-place, non restituisce una nuova lista
s.sort()
print(s) 

# stampa None, perchè sort() non ritorna un valore!
print(s.sort())   

## Ciclo `for`

La sintassi generica per il <tt>for</tt> loop è
  ```python
  for <var> in <list>:
      <statement>
      ....
      <statement>
  ```


- Il ciclo `for` itera su tutti gli oggetti contenuti in una certa collezione (oggetto iterabile)
- Per ogni elemento, esegue il blocco di codice (indentato) al suo interno.


In [None]:
# iterare su una lista generica
names =  ['Mara', 'Emma', 'Giada', 'Silvia']

for n in names:
    print("Hello", n, "!")

In [None]:
# iterare su valori: stampo gli interi da 0 a 4
for i in range(5):
  print(i)

La funzione range() genera un oggetto iterabile che itera sugli interi da 0 a 5 (non incluso). Può essere chiamata in diversi modi:
- range(N): un argomento, gli indici partono da zero a N-1 (con step = 1)
- range(M,N): da M a N-1 (con step = 1)
- range(M,N,S): da M a N-1, con step = S

In [None]:
# un argomento: da zero a N-1
print(list(range(10)))

# due argomenti: da M an N-1
print(list(range(3,10)))

# tre argomenti: da M an N-1 con step S
print(list(range(3,10,2)))

# con valori negativi
print(list(range(-10,-3)))

# ordine decrescente con step negativo
print(list(range(10,0, -1)))

### List Comprehension

Python supporta un costrutto chiamato [list comprehensions](https://docs.python.org/3.8/tutorial/datastructures.html#list-comprehensions), che può essere usato per costruire liste in maniera rapida e simile alla notazione matematica di insiemi finiti:

$S = \{x^2 \mid x \in \{0, \ldots, 9\}\}$

$V = \{2^i \mid i \in \{1, \ldots, 12\}\}$ 

$M = \{x \mid x \in S \wedge x\ \text{is even}\}$

In Python:

```python
S = [x**2 for x in range(10)]
V = [2**(i+1) for i in range(12)]
M = [x for x in S if x % 2 == 0]
```

Le list comprehensions offrono una modo più compatto per creare una lista a partire da una struttura già esistente.
Per esempio, la lista ```S``` avrebbe potuto essere creata con il seguente codice:

```python
S = []
for i in range(10):
    S.append(i**2)
```

In [None]:
S = [x**2 for x in range(10)]
V = [2**(i+1) for i in range(12)]
M = [x for x in S if x % 2 == 0]

print("S:\n", S)
print("V:\n", V)
print("M:\n", M)

# iteriamo su una lista senza nome
for i in [x**2 for x in range(10)]: 
    print(i)

## Dizionari

- Struttura dati che contiene coppie (chiave, valore): https://docs.python.org/3/library/stdtypes.html#dict
- Iterabile con un for loop

In [None]:
my_dict = {
  "brand": "Ford",
  "model": "Mustang",
  "year": 1964
}
print(my_dict)
print(type(my_dict))

print("Model:", my_dict["model"])

# il metodo keys() ritorna la lista delle chiavi
print(my_dict.keys())

# il metodo values() ritorna la lista dei valori
print(my_dict.values())

# il metodo items() ritorna una lista di coppie (chiave,valore)
print(my_dict.items())

In [None]:
capital_city = {
    "Spain": "Madrid",
    "Nepal": "Kathmandu",
    "Italy": "Rome",
    "England": "London",
    "France": "Paris"}

# add one element
capital_city["Japan"] = "Tokyo"

for k,v in capital_city.items():
    print("The capital of", k, "is", v)

## Funzioni

La sintassi per definire una funzione è la seguente:

```python
        def name_of_function([<comma-separated parameters>]):  # the list can be empty
            < indented block of statements>
```

Per invocare la funzione:

```python
        name_of_function([<comma-separated arguments>])        # function call
```


In [None]:
def print_twice(word1, word2):
    print(word1, word2)
    print(word1, word2)

print_twice('Hello', 'world')

- Gli argomenti (parametri della funzione) possono essere associati ad un nome (*named parameters*) ed avere un valore di default.
- I parametri con nome devono essere inseriti dopo tutti i parametri senza nome:

In [None]:
def print_greet(str1, name='Mara, ', str2='How are you?'):
    print(str1, name, str2)

print_greet('Hello', name="Giovanni!", str2='How old are you?')
print_greet('Hello', str2="Giovanni!")
print_greet('Hello', name="Marco")
print_greet('Hello')
print_greet('Ciao')

I parametri ed i nomi delle variabili definite all'interno della funzione sono locali.

- Quando viene creata una variabile dentro alla funzione, questa smette di esistere una volta che il codice all'interno alla funzione è stato eseguito e la funzione ritorna.
- Anche i parametri della funzione sono variabili locali e non accessibili all'esterno


In [None]:
def foo(val):
  incr = 12
  a = 10
  val = val + incr + 10
  print(val)


a = 20
val = 10
foo(8) # stampa 8+12+10

print('a = ',a) # a vale ancora 20 (siamo all'esterno della funzione)
#print(incr) # errore: incr è definito solo dentro la funzione 
print('val = ',val)


## Lambda Functions

- In Python possiamo definire delle funzioni anonime attraverso le lambda functions.
- Una lambda function può avere un numero qualsiasi di parametri ma è composta da un'unica espressione

In [None]:
# definisco una funzione x che somma due numeri
x = lambda a, b : a * b
print(x(5, 6))

- La funzione filter (https://docs.python.org/3/library/functions.html#filter) prende in input una funzione ed un oggetto iterabile (lista, dizionario, ...)
- Restituisce solo gli elementi per cui la funzione dà True
- La funzione può essere definita utilizzando una lambda

In [None]:
# given a list of numbers, find numbers divisible  by 13
my_list = [12, 65, 54, 39, 102, 339, 221, 50, 70 ]
  
# use anonymous function to filter if divisible or not
result = list(filter(lambda x: (x % 13 == 0), my_list)) 
print(result) 

## Files


In [None]:
with open('files/abc.txt') as f:
    for line in f:
        print(line)

In [None]:
# read the first n lines of a file
def read_nlines(fname, nlines):
    
    counter = 0
    with open(fname) as f:
        for line in f:
            print("Line %d: %s"%(counter,line))
            counter += 1
            if counter >= nlines:
                break

read_nlines('files/abc.txt', 2)

### csv files


In [None]:
# read each row from a given csv file and print a list of strings
import csv
with open('files/departments.csv', newline='') as csvfile:
    data = csv.reader(csvfile)
    for row in data:
        print(row)

- read a given CSV file as a dictionary

In [None]:
# Create an object that operates like a regular reader but maps the 
# information in each row to a dict whose keys are given by the optional fieldnames parameter.
import csv

with open("files/departments.csv") as csvfile:
    data = csv.DictReader(csvfile)

    fields = data.fieldnames # list with the column names
    #print(data.fieldnames)

    for row in data:
        #print(row) # row is a dictionary
        print(row[fields[1]])