# Python from Scratch - Esercizi

*Chinellato Diego - TPSIT*

*ITTS V. Volterra*

*A.S. 2022/2023*

Ogni esercizio è accompagnato da una serie di `assert` che verificano se la funzione è corretta. In poche parole, `assert` è un operatore Python (ma è presente in molti linguaggi) che lancia un'eccezione se una certa condizione non viene rispettata:

In [None]:
assert 1 == 1, 'primo assert passato'
assert 1 == 2, 'secondo assert fallito'

AssertionError: secondo assert fallito

La sintassi è `assert check msg`, dove `check` è l'espressione booleana da valutare e `msg` è il messaggio che viene printato se il check fallisce. Sono estremamente utili, sopratutto per debuggare e testare il codice. Per approffondire: https://realpython.com/python-assert-statement/

## Esercizio 1: find and replace

Find-and-replace è una feature molto comune in text editors, IDEs e software di word processing. In questo esercizio, dovrai implementare questa comune funzione.

Definisci una funzione `find_and_replace(text, old_text, new_text)` che sostituisce tutte le occorrenze di `old_text` in `text` con `new_text`. La funzione deve essere case sensitive (vedi esempi nella cella con assert).

In [34]:
def find_and_replace(text, old_text, new_text):
    old = len(old_text)
    i = 0
    while i in range(len(text)-old+1):
        if text[i:i+old] == old_text:
            text = text[0:i] + new_text + text[i+old:]
            i += len(new_text)-1
        i+=1
    return text

In [35]:
assert find_and_replace('The fox', 'fox', 'dog') == 'The dog'
assert find_and_replace('fox', 'fox', 'dog') == 'dog'
assert find_and_replace('Firefox', 'fox', 'dog') == 'Firedog'
assert find_and_replace('foxfox', 'fox', 'dog') == 'dogdog'
assert find_and_replace('The Fox and fox.', 'fox', 'dog') == 'The Fox and dog.'
assert find_and_replace('THE FOX AND THE DOG', 'fox', 'dog') == 'THE FOX AND THE DOG'

## Esercizio 2: ore, minuti, secondi
Definisci una funzione `get_hours_minutes_seconds(seconds)` che converte il numero di secondi passato come parametro nel numero di ore, minuti e secondi.
Ad esempio, `get_hours_minutes_seconds(90)` deve ritornare '1m 30s'
Per una sfida in più, considera anche il periodo di 24 ore e aggiungi il suffisso "d"; ad esempio, `get_hours_minutes_seconds(90042)` ritorna '1d 1h 42s'.

In [None]:
def get_hours_minutes_seconds(seconds):
    time = ''
    if seconds>=3600:
        time+= f"{seconds//3600}h"
        seconds %= 3600
        if seconds>0:
            time += ' '
    if seconds>=60:
        time+= f"{seconds//60}m"
        seconds %= 60
        if seconds>0:
            time += ' '
    if seconds>0 or time == '':
        time+= f"{seconds}s"
    return time

In [None]:
assert get_hours_minutes_seconds(30) == '30s'
assert get_hours_minutes_seconds(60) == '1m'
assert get_hours_minutes_seconds(90) == '1m 30s'
assert get_hours_minutes_seconds(3600) == '1h'
assert get_hours_minutes_seconds(3601) == '1h 1s'
assert get_hours_minutes_seconds(3661) == '1h 1m 1s'
assert get_hours_minutes_seconds(90042) == '25h 42s'
assert get_hours_minutes_seconds(0) == '0s'

## Esercizio 3: massimi e minimi, somme e prodotti, medie e mediane 
Scrivere le seguenti funzioni che "riducono" un iterabile (lista, tupla, set, ...) a un singolo valore:
* `maximum(t)` e `minimum(t)` che ritornano rispettivamente il valore massimo e minimo presente in `t`
* `somma(t)` e `prod(t)` che ritornano rispettivamente la somma e il prodotto di tutti gli elementi di `t`
* `moda(t)` che ritorna l'elemento più frequente di `t`
* `avg(t)` e `median(t)` che ritornano rispettivamente la media e la mediana di `t`. 
  * Assumendo che `t` contenga `n` elementi, la media è definita come: $\frac{1}{n}∑_{x \in t}x$. 
  * La mediana è invece definita come l'elemento centrale di t, dopo che t è stato ordinato in ordine crescente. Se n è dispari, l'elemento centrale è l'elemento in posizione $\frac{n+1}{2}$, mentre se n è pari l'elemento centrale è la media dei due elementi nelle posizioni $\frac{n}{2}, \frac{n}{2} + 1$ ($\frac{t[\frac{n}{2}] + t[\frac{n}{2} + 1]}{2}$).

In [None]:
def maximum(t):
    return max(t)

def minimum(t):
    return min(t)

def somma(t):
    a = 0
    for i in t:
        a+=i
    return a

def prod(t):
    a=1
    for i in t:
        a*=i
    return a

def moda(t):
    s = set(t)
    d = dict.fromkeys(s, 0)
    for i in t:
        d[i] += 1
    mode_value = max(d.values())
    mode = [i for i in d if d[i]==mode_value]
    return mode[0]

def avg(t):
    return somma(t)/len(t)

def median(t):
    t = sorted(t)
    n = len(t)
    if n == 0:
        return 0
    if n % 2 == 1:
        return t[n//2]
    else:
        i = n//2
        return (t[i-1] + t[i])/2

In [None]:
t = [1, 2, 3, 4, 5, 7]
assert maximum(t) == 5-5+7
assert minimum(t) == 1
assert somma(t) == 15+7
assert prod(t) == 120*7
assert round(avg(t), 2) == 3.67
assert median(t) == 3.5
assert moda([1, 2, 3, 1, 2, 1, 1, 1, 2]) == 1
assert moda([1, 2, 3, 3, 3, 1, 2, 1, 2, 3, 3, 3]) == 3

# mescolare t non deve cambiare la mediana
import random
random.seed(42)
t = [3, 7, 10, 4, 1, 9, 6, 2, 8]
for _ in range(5):
  random.shuffle(t)
  assert median(t) == 6

## Esercizio 4: generatore di password
Definisci una funzione `gen_pwd(length)` che genera una password casuale di lunghezza `length`. Per sicurezza, la password deve sempre essere di almeno 8 caratteri (anche nei casi in cui `length < 8`). La password ritornata (stringa) deve contenere almeno una lettera minuscola, una maiuscola, un numero e un carattere speciale. I caratteri speciali sono i seguenti: ~!@#$%^&*()_+.
La soluzione dovrebbe importare il modulo `random` per generare queste password in maniera casuale. 

In [None]:
def gen_pwd(length):
    special = '~!@#$%^&*()_+.'
    pwd = random.choice('qwertyuiopasdfghjklzxcvbnm')
    pwd+=random.choice('QWERTYUIOPOASDFGHJKLZXCVBNM')
    pwd+=random.choice('0123456789')
    pwd+=special[random.randint(0, len(special)-1)]         
    for i in range(max(length, 8)-4):
        rand = random.randint(0,3)
        if rand == 0:
            pwd+=random.choice('qwertyuiopasdfghjklzxcvbnm')
        elif rand == 1:
            pwd+=random.choice('QWERTYUIOPOASDFGHJKLZXCVBNM')
        elif rand == 2:
            pwd+=random.choice('0123456789')            
        else:
            pwd+=special[random.randint(0, len(special)-1)]            
    return pwd

In [None]:
assert len(gen_pwd(7)) == 8 
assert len(gen_pwd(8)) == 8 
from string import ascii_uppercase, ascii_lowercase, digits
special = '~!@#$%^&*()_+.'
pwd = gen_pwd(8)
assert any(c in pwd for c in ascii_uppercase), 'uppercase letter missing'
assert any(c in pwd for c in ascii_lowercase), 'lowercase letter missing'
assert any(d in pwd for d in digits), 'digit missing'
assert any(s in pwd for s in special), 'special char missing'

## Esercizio 5: Bubble Sort
Il Bubble Sort è un algoritmo di ordinamento, spesso il primo insegnato agli studenti di informatica. Anche se inefficiente e inadatto al software del mondo reale, è un algoritmo molto semplice da capire e implementare. L'idea è iterare ripetutamente il vettore da ordinare, considerando coppie consecutive di elementi; se la coppia non è in ordine (cioè, in posizione $i-1$ c'è un elemento più grande di quello in posizione $i$), i due elementi vengono scambiati. L'algoritmo termina quanto itero il vettore dall'inizio alla fine senza effettuare alcuno swap. Su Wikipedia (https://en.wikipedia.org/wiki/Bubble_sort) trovate una spiegazione più dettagliata e un esempio visivo, oltre al pseudocodice.

Definisci una funzione `bubble_sort(numbers)` che ordina in-place (senza creare una nuova variabile) la lista `numbers` tramite bubble sort e ritorna la lista ordinata. 




In [None]:
def bubble_sort(numbers):
    if len(numbers) == 0:
        return
    for j in range(len(numbers)-1):
        for i in range(len(numbers)-j-1):
            if numbers[i] > numbers[i+1]:
                numbers[i], numbers[i+1] = numbers[i+1], numbers[i]
    return numbers

In [None]:
assert bubble_sort([2, 0, 4, 1, 3]) == [0, 1, 2, 3, 4]
assert bubble_sort([2, 2, 2, 2]) == [2, 2, 2, 2]

## Esercizio 6: strette di mano
Definisci una funzione `print_handshakes(people)` che, data una lista di nomi di persone `people` printa "X shakes hands with Y", where X e Y sono tutte le possibili combinazioni di strette di mano tra persone nella lista. Non devono esserci duplicati - se A stringe la mano a B, B non deve stringerla ad A. Ad esempio, `print_handshakes(['Alice', 'Bob', 'Carol', 'David'])` dovrebbe printare:

Alice shakes hands with Bob
Alice shakes hands with Carol
Alice shakes hands with David
Bob shakes hands with Carol
Bob shakes hands with David
Carol shakes hands with David

La funzione deve anche ritornare un intero che rappresenta il numero totale di strette di mano.

In [None]:
def print_handshakes(people):
    if len(people) == 0:
        return 0
    handshakes = 0
    for i in range(len(people)-1):
        print(f"{people[0]} shakes hands with {people[i+1]}")
        handshakes+=1
    return handshakes + print_handshakes(people[1:])

In [None]:
assert print_handshakes(['Alice', 'Bob']) == 1
assert print_handshakes(['Alice', 'Bob', 'Carol']) == 3
assert print_handshakes(['Alice', 'Bob', 'Carol', 'David']) == 6

Alice shakes hands with Bob
Alice shakes hands with Bob
Alice shakes hands with Carol
Bob shakes hands with Carol
Alice shakes hands with Bob
Alice shakes hands with Carol
Alice shakes hands with David
Bob shakes hands with Carol
Bob shakes hands with David
Carol shakes hands with David


## Esercizio 7: random shuffle
Definisci una funzione `shuffle(values)` che mescola la lista `values`, ovvero modifica in maniera randomica la posizione di ogni elemento della lista. La funzione non deve ritornare la lista ordinata. La lista mescolata deve contenere gli stessi elementi, ma in un ordine diverso (random).
Nota: l'esercizio chiede di implementare una funzione identical al `random.shuffle()` nativamente incluso in Python. Chiaramente, evita di usare questa funzione dato che renderebbe l'esercizio inutile.

In [None]:
import random
def shuffle(values):
    if len(values) == 0:
        return 
    for i in range(len(values/2)):
        a = random.randint(0, len(values)-1)
        b = random.randint(0, len(values)-1)
        values[a] , values[b] = values[b], values[a]

In [None]:
import random
random.seed(42)
# Perform this test ten times:
for i in range(10):
    testData1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    shuffle(testData1)
# Make sure the number of values hasn't changed:
assert len(testData1) == 10
# Make sure the order has changed:
assert testData1 != [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Make sure that when re-sorted, all the original values are there:
assert sorted(testData1) == [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Make sure an empty list shuffled remains empty:
testData2 = []
shuffle(testData2)
assert testData2 == []

## Esercizio 8: merge di due liste ordinate
Uno degli algoritmi di ordinamento più efficienti è il Merge Sort, che si compone di due fasi: divisione e merge. è un algoritmo discretamente complesso, quindi non lo tratteremo interamente. Ci concentriamo invece sulla seconda parte, ovvero il merge.

Scrivi una funzione `merge_lists(l1, l2)` che prende due liste ordinate `l1, l2` e ritorna una singla lista ordinata contenente gli elementi di queste due liste. Cerca di non usare `sorted()` o `list.sort()` nella soluzione dell'esercizio.

In [None]:
def merge_lists(l1, l2):
    ls = []
    while len(l1) > 0 and len(l2) > 0:
        if l1[0] <= l2[0]:
            ls.append(l1[0])
            l1 = l1[1:]
        else:
            ls.append(l2[0])
            l2 = l2[1:]
    if len(l1)>len(l2):
        ls.extend(l1)
    else:
        ls.extend(l2)
    return ls

In [None]:
assert merge_lists([1, 3, 6], [5, 7, 8, 9]) == [1, 3, 5, 6, 7, 8, 9]
assert merge_lists([1, 2, 3], [4, 5]) == [1, 2, 3, 4, 5]
assert merge_lists([4, 5], [1, 2, 3]) == [1, 2, 3, 4, 5]
assert merge_lists([2, 2, 2], [2, 2, 2]) == [2, 2, 2, 2, 2, 2]
assert merge_lists([1, 2, 3], []) == [1, 2, 3]
assert merge_lists([], [1, 2, 3]) == [1, 2, 3]

## Esercizio 9: file CSV
Un file CSV (Comma Separated Values) è un file di testo in cui ogni riga è un record (simile a una tabella di un DB) e usa la virgola (o altro carattere speciale) per delimitare i valori dei campi all'interno del record. Spesso inoltre presenta una priga riga (header) contenente il nome di ogni colonna. Questo tipo di file è molto usato, specie per contenere dataset (insiemi di dati).

Le due celle di codice che seguono scaricano un famoso file CSV (un dataset contenente dati dei passeggeri del Titanic) e mostrano le prime righe di tale file.

In [39]:
!wget https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

--2022-12-05 08:20:41--  https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 60302 (59K) [text/plain]
Saving to: ‘titanic.csv’


2022-12-05 08:20:42 (4.97 MB/s) - ‘titanic.csv’ saved [60302/60302]



In [40]:
!head titanic.csv

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,11.1333,,S


Ad esempio, la prima colonna è l'ID del passeggero, la seconda indica se è sopravvissuto o meno (notare 0/1 anzichè True/False) e la terza la classe del passeggero. Notare che in generale un record potrebbe avere dei campi mancanti (ad esempio nel primo record il campo "cabin" è mancante, si nota dalle doppie virgole ",,"). 

L'obiettivo è definire una funzione `load_data(file)` che legge il file e ritorna una struttura dati contenente tutti i dati di tutti i passeggeri. I campi mancanti devono avere valore `None`. La scelta della struttura sta a te, ad esempio si potrebbe usare un `dict` che ha come chiavi i nomi delle colonne, oppure una classe definita ad hoc. Idealmente, la struttura dati dovrebbe permettere di accedere a un particolare record in maniera rapida (es. tramite slicing `print(data[50])` o un metodo custom `print(data.get(50))` o come vi pare dovrei riuscire ad ottenere qualunque record in maniera semplice, in questo caso il 50esimo). Sarebbe ottimale avere la possibilità di effettuare slicing "column-wise", ovvero richiedere una singola colonna; ad esempio, `data['Name']` o `data.col['Name']` dovrebbe ritornare un iterabile contenente il nome di tutti i passeggeri.

Fatto questo, computare qualche semplice statistica del dataset usando la vostra struttura dati. Qualche suggerimento: percentuale di uomini/donne a bordo, nome più (o meno) diffuso, costo medio del biglietto, distribuzione delle età (cioè: $x$ persone con 22 anni, $y$ persone con 23 anni, $z$ con 24 anni, ...).

In [128]:
def load_data(file):
    columns = file.readline().strip('\n').split(',')
    dictionary = {k:[] for k in columns}
    for line in file:
        line = line.replace('""', '𐩕')
        ls = line.split('"')                
        li = []
        for i in range(len(ls)):
          if i%2 == 0: 
            li.extend(ls[i].strip(',\n').split(','))
          else:
            li.append(ls[i].strip().replace('𐩕', '""'))    
        for i in range(len(li)):
            #print(columns[i], li[i])
            if li[i] == '':
                dictionary[columns[i]].append(None)
            else:
                dictionary[columns[i]].append(li[i])
    return dictionary

def getEntry(d, parameter, value):
    value = str(value)
    ls = []
    try:
      index = d[parameter].index(value)
    except(ValueError):
      return 'Valore non presente nel campo specificato'
    for i in d.values():
      ls.append(i[index])
    return ls

def getAverage(d, parameter):
    sum = 0
    for i in d[parameter]:
      if i != None:  
        try:
          i = float(i)
        except(ValueError):
          return 'Tipo invalido (prova ad usare valori numerici)'
        sum += i
    return round(sum/len(d[parameter]), 2)
    
#funzionante su colab ma non su Jupyter hostato localmente 

In [129]:
test = load_data(open('titanic.csv', 'r'))
for k, v in test.items():
  print(f"{k}: {v}")

print(getAverage(test, "Survived"))
print(getEntry(test, "PassengerId", 420))
print(getEntry(test, "Name", 'Collyer, Miss. Marjorie ""Lottie""'))
print(getEntry(test, "Ticket", "LINE"))

PassengerId: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44', '45', '46', '47', '48', '49', '50', '51', '52', '53', '54', '55', '56', '57', '58', '59', '60', '61', '62', '63', '64', '65', '66', '67', '68', '69', '70', '71', '72', '73', '74', '75', '76', '77', '78', '79', '80', '81', '82', '83', '84', '85', '86', '87', '88', '89', '90', '91', '92', '93', '94', '95', '96', '97', '98', '99', '100', '101', '102', '103', '104', '105', '106', '107', '108', '109', '110', '111', '112', '113', '114', '115', '116', '117', '118', '119', '120', '121', '122', '123', '124', '125', '126', '127', '128', '129', '130', '131', '132', '133', '134', '135', '136', '137', '138', '139', '140', '141', '142', '143', '144', '145', '146', '147', '148', '149', '150', '151', '152', '153', '154', '155', '156', '1

In [None]:
§