# Programming for data science - exercise session 2 (Python)

Ricordiamo come creare una lista:

In [1]:
lista = list()
for i in range(10):
    lista.append(i)
    
print(lista)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Le liste possono contenere non soltanto numeri:

In [2]:
lista = ["Python", "is", "meant", "to", "be", "an", "easily", "readable", "language"]
print(lista)

['Python', 'is', 'meant', 'to', 'be', 'an', 'easily', 'readable', 'language']


Possiamo iterare su una lista utilizzando un ciclo "for":

In [3]:
lunghezza = 0
for parola in lista:
    print(parola)
    lunghezza += 1
    
print("La lunghezza della lista è", lunghezza)

Python
is
meant
to
be
an
easily
readable
language
La lunghezza della lista è 9


In realtà, per conoscere la lunghezza di una lista possiamo utilizzare la funzione "len":

In [4]:
help(len)
print(len(lista))

Help on built-in function len in module builtins:

len(obj, /)
    Return the number of items in a container.

9


## Find the max

Abbiamo già visto che per trovare il valore massimo in una lista possiamo usare la funzione "max".

Cerchiamo ora di implementare questa funzione per capire meglio cosa succede.

In [5]:
def massimo(lista):
    massimo = 0               # supponiamo di avere solo numeri positivi
    for numero in lista:      # iteriamo sui numeri della lista
        if numero > massimo:  # se il numero corrente è maggiore del massimo
            massimo = numero  # allora il massimo verrà aggiornato
    return massimo

num_positivi = [1, 145, 64, 78, 90, 54, 21]
print(massimo(num_positivi))

145


## Esercizio 1 - Trovare il minimo

Allo stesso modo, possiamo implementare una funzione che trovi il minimo in una lista:

In [6]:
from math import inf

def minimo(lista):
    minimo = inf             # inizializziamo il minimo a + infinito
    for numero in lista:
        if numero < minimo:
            minimo = numero
    return minimo

num_positivi = [98, 84, 46, 57, 21, 35, 76]
print(minimo(num_positivi))

21


## Indexing

Molto spesso vogliamo eseguire delle operazioni sui singoli elementi di una lista. Vediamo come selezionare questi elementi.

In [7]:
frase = "questa lista ha 5 elementi"
lista = frase.split()
print(lista)

['questa', 'lista', 'ha', '5', 'elementi']


In [8]:
help(str.split)

Help on method_descriptor:

split(...)
    S.split(sep=None, maxsplit=-1) -> list of strings
    
    Return a list of the words in S, using sep as the
    delimiter string.  If maxsplit is given, at most maxsplit
    splits are done. If sep is not specified or is None, any
    whitespace string is a separator and empty strings are
    removed from the result.



Selezioniamo il primo elemento della lista. __NB__: gli indici in Python (e nella maggior parte dei linguaggi di programmazione) partono da 0:

In [9]:
print(lista[0])

questa


Secondo elemento della lista:

In [10]:
print(lista[1])

lista


E l'ultimo?

In [11]:
print(lista[len(lista)])

IndexError: list index out of range

In [12]:
print(lista[len(lista) - 1])

elementi


C'è un modo tuttavia più semplice di selezionare l'ultimo elemento:

In [13]:
print(lista[-1])

elementi


In [14]:
print(lista[-2])

5


## Esercizio 2 - Trovare massimo e minimo con "sorted"

Potendo usare gli indici, possiamo anche pensare di riscrivere le funzioni di massimo e minimo ordinando la lista..

In [15]:
def massimo(lista):
    lista = sorted(lista, reverse=True) # ordiniamo la lista in modo decrescente (nota reverse=True)
    return lista[0]                     # ritorniamo il primo elemento della lista

def minimo(lista):
    lista = sorted(lista)               # ordiniamo la lista in modo crescente
    return lista[0]                     # ritorniamo il primo elemento della lista

num_positivi = [98, 84, 46, 57, 21, 35, 76]
print(massimo(num_positivi))
print(minimo(num_positivi))

98
21


## Enumerate

Come fare se volessimo stampare tutti gli elementi in una lista il cui indice è un numero pari?

In [16]:
lista = "spero che nel weekend non piova".split()
print(lista)
for i in range(len(lista)):
    if i % 2 == 0:
        print(lista[i])

['spero', 'che', 'nel', 'weekend', 'non', 'piova']
spero
nel
non


Il metodo visto sopra non è errato, tuttavia è poco "pythonic": uno dei fondamenti di python è quello di essere facilmente comprensibile. Esiste una funzione molto utile che si chiama "enumerate":

In [17]:
for index, value in enumerate(lista):
    print("index:", index, "value:", value)

index: 0 value: spero
index: 1 value: che
index: 2 value: nel
index: 3 value: weekend
index: 4 value: non
index: 5 value: piova


Utilizzando "enumerate", possiamo riscrivere il codice sopra in modo diverso:

In [18]:
for indice, valore in enumerate(lista):
    if indice % 2 == 0:
        print(valore)

spero
nel
non


## Slicing

Oltre che selezionare singoli elementi di una lista, possiamo anche considerare interi sottoinsiemi dell'intera lista:

In [19]:
inizio = 2
fine = 4
print(lista[inizio:fine])
print(lista[inizio:])
print(lista[:fine])

['nel', 'weekend']
['nel', 'weekend', 'non', 'piova']
['spero', 'che', 'nel', 'weekend']


In più possiamo specificare anche lo "step", così come nel "range":

In [20]:
prom_sposi = "Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, \
tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, \
e a prender corso e figura di fiume, tra un promontorio a destra, e un'ampia costiera dall'altra parte; e il ponte, \
che ivi congiunge le due rive, par che renda ancor più sensibile all'occhio questa trasformazione, e segni il punto \
in cui il lago cessa, e l'Adda ricomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, \
lascian l'acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni."
lista = prom_sposi.split()
print(len(lista))
print(lista[10:50:4])

111
['tra', 'interrotte', 'a', 'golfi,', 'sporgere', 'di', 'a', 'ristringersi,', 'corso', 'fiume,']


## Esercizio 3 - Stampa somma prima e seconda metà della lista

In questo esercizio abbiamo una lista di numeri e vogliamo la somma della prima e seconda metà della lista.

__Nota 1__: per sommare elementi all'interno di una lista esiste la funzione "sum".

__Nota 2__: gli indici degli elementi di una lista devono essere numeri interi!

In [21]:
def somme_metà(lista):
    meta = len(lista) // 2   # len(lista) / 2 restituirebbe un float
    return sum(lista[:meta]), sum(lista[meta:])

numeri = [98, 84, 46, 57, 21, 35, 76, 22]
print(somme_metà(numeri))

(285, 154)


## Esercizio 4 - Numeri primi

Il crivello di Eratostene (https://en.wikipedia.org/wiki/Sieve_of_Eratosthenes) è tra i primi algoritmi di cui si conosce l'esistenza e serve per trovare numeri primi. Proviamo ad implementarlo..

In [22]:
def sieve(n):
    """
    Input: n - limite superiore
    """
    lista = [True] * n                      # creiamo una lista di lunghezza n che contenga True in ogni cella
    for pos, value in enumerate(lista):     # scorriamo la lista per indice e valore
        if value is True and pos > 1:       # se il valore corrente è ancora True e l'indice è maggiore di 1 allora abbiamo un numero primo
            for i in range(pos*2, n, pos):  # scorriamo tutta la lista per i multipli del numero primo trovato, partendo dal numero primo x 2
                lista[i] = False            # settiamo tutti i multipli nella lista di True a False
    primi = []                              # creiamo una lista vuota che conterrà i numeri primi
    for pos, value in enumerate(lista):     # scorriamo di nuovo la lista di True/False
        if value is True:                   # se il valore nella lista non è stato settato a False allora abbiamo un primo
            primi.append(pos)               # aggiungiamo il numero primo alla lista di numeri primi
    return primi[2:]                        # ritorniamo la lista a partire dal secondo indice (0 e 1 non sono inclusi)

print(sieve(100))

[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]


## Set

A differenza delle liste i set sono una struttura dati non ordinata (non possiamo indicizzarla), che non contiene duplicati. Possiamo eseguire varie operazioni con i set, tra cui l'unione ("|"), l'intersezione ("&") e la differenza (-). Funzioni che abbiamo già visto con le liste come "len", "max", "min" possono essere usate anche con i set. Tuttavia, quelle che implicano un ordinamento no (es. "append").

In [23]:
insieme = set()
insieme.add(1)
print(insieme)
insieme.add("hello")
print(insieme)
insieme.add(1)
print(insieme)

{1}
{'hello', 1}
{'hello', 1}


In [24]:
insieme = {1, 2, 3}
insieme.append(4)

AttributeError: 'set' object has no attribute 'append'

## Esercizio 5 - Studenti

Abbiamo 3 set che rappresentano gli studenti iscritti alle classi di "Programming for data Science", "Data Mining and Machine Learning Lab" e "R and Python". Vogliamo trovare gli studenti che sono iscritti al primo o al secondo corso e non al terzo.

In [25]:
prog_for_data_science = {"Tizio", "Caio"}
data_mining = {"Sempronio", "Lucrezio", "Tizio"}
r_and_python = {"Virgilio", "Tizio", "Caligola", "Sempronio"}

## Dizionari

I dizionari sono delle strutture dati formati da coppie (chiave, valore). Possiamo pensarli come una lista in cui però gli indici non sono dei numeri, ma possono essere anche altri tipi di dati. Il requisito è che questi elementi che usiamo per indicizzare il dizionario siano unici.

Vediamo qualche esempio:

In [26]:
rubrica = dict()
rubrica['Tizio'] = 349
rubrica['Sempronio'] = 328
rubrica['Caio'] = 143
print(rubrica)

{'Tizio': 349, 'Sempronio': 328, 'Caio': 143}


In [27]:
print(rubrica.keys())

dict_keys(['Tizio', 'Sempronio', 'Caio'])


In [28]:
print(rubrica.values())

dict_values([349, 328, 143])


I valori nei dizionari possono essere anche delle liste:

In [29]:
province = dict()
province['Lombardia'] = ['Bergamo', 'Brescia', 'Como', 'Cremona', 'Lecco', 'Lodi', 'Mantova', 'Milano', 'Monza', 'Pavia', 'Sondrio', 'Varese']
province['Campania'] = ['Napoli', 'Salerno', 'Avellino', 'Caserta', 'Benevento']
print(province)

{'Lombardia': ['Bergamo', 'Brescia', 'Como', 'Cremona', 'Lecco', 'Lodi', 'Mantova', 'Milano', 'Monza', 'Pavia', 'Sondrio', 'Varese'], 'Campania': ['Napoli', 'Salerno', 'Avellino', 'Caserta', 'Benevento']}


In [30]:
print(province['Molise'])

KeyError: 'Molise'

Anche Python sembra confermare che il Molise non esiste!

Così come con le liste (o set), possiamo iterare sui dizionari:

In [31]:
for key in rubrica:
    print(rubrica[key])

349
328
143


## Esercizio 6 - Contare le lettere

Se i numeri da 1 a 4 sono scritti in parole: uno, due, tre, quattro, allora abbiamo 3 + 3 + 3 + 7 = 16 lettere in totale.
Se tutti i numeri da 1 a 10 fossero scritti in parole, quante lettere avremmo?

In [32]:
# creiamo il dizionario
lettere = {1: 'uno', 2: 'due', 3: 'tre',
           4: 'quattro', 5: 'cinque',
           6: 'sei', 7: 'sette', 8: 'otto',
           9: 'nove', 10: 'dieci'}
tot_lettere = 0                     # inizializziamo il totale a 0
for i in range(1, 11):              # scorriamo i numeri da 1 a 10
    tot_lettere += len(lettere[i])  # aggiungiamo la lunghezza del numero corrente
    
print(tot_lettere)

43
