# Prova di esame (laboratorio)

La prova avrà una durata massima di due ore e porterà a una valutazione massima di 21 punti. Il voto finale si otterrà per somma del punteggio del test di teoria e della prova di laboratorio. 

La prova consiste in un insieme di quiz proposti attraverso un Jupyter Notebook (non sono ammessi altri strumenti software) da svolgere sui computer del laboratorio (non sono ammessi altri strumenti hardware). Durante la prova si può consultare il libro di testo, le slide usate a lezione, un manuale python (approvato dal docente) oppure le guide in linea suggerite da Jupyter Notebook. Non sono ammessi altri strumenti di consultazione. 

### Prima della prova

Specificare la informazioni richieste nelle celle sottostanti e salvare il notebook con il proprio nome.

### Durante la prova

Nelle celle markdown, cancellare il testo "YOUR ANSWER HERE" con la propria risposta. Nelle celle codice, rimuovere la linea di codice
```python
raise NotImplementedError()
```
e sostituirla con la propria implementazione.
Dopo ogni cella codice che deve contenere la risposta al quesito, esiste una cella codice con delle *asserzioni*, ossia delle istruzioni che verificano la correttezza della propria soluzione. (Queste asserzioni saranno usate per valutare la correttezza della risposta data e assegnare un punteggio.) E' possibile eseguire queste celle per verificare che la soluzione proposta sia corretta.


### Dopo la prova

Salvare il file dopo aver terminato. Consegnare l'elaborato utilizzando la piattaforma ADA. 

## Traccia

### Fair's Extramarital Affairs Data
Dati sull'infedeltà, noti come Fair's Affairs. Dati trasversali di un'indagine condotta da Psychology Today nel 1969. 

#### Formato
Il dataset contiene 601 osservazioni su 9 variabili oltre all'indice di riga.

1. affair (numerico) Quante volte ha avuto rapporti extraconiugali nell'ultimo anno? 0 = nessuna, 1 = una volta, 2 = due volte, 3 = 3 volte, 7 = 4-10 volte, 12 = mensile, 12 = settimanale, 12 = giornaliero.
2. gender. fattore che indica il genere.
3. age. età codificata come: 17.5 = meno di 20 anni, 22 = 20-24, 27 = 25-29, 32 = 30-34, 37 = 35-39, 42 = 40-44, 47 = 45-49, 52 = 50-54, 57 = 55 o più.
4. yearsmarried. variabile numerica che codifica il numero di anni di matrimonio: 0.125 = 3 mesi o meno, 0.417 = 4-6 mesi, 0.75 = 6 mesi-1 anno, 1.5 = 1-2 anni, 4 = 3-5 anni, 7 = 6-8 anni, 10 = 9-11 anni, 15 = 12 o più anni.
5. children. fattore. Ci sono figli nel matrimonio?
6. religiousness. Codifica della religiosità: 1 = anti, 2 = per niente, 3 = leggermente, 4 = un po', 4 = abbastanza, 5 = molto.
7. education. Livello di istruzione: 9 = scuola dell'obbligo, 12 = licenza professionale, 14 = diploma, 16 = post-diploma, 17 = laurea triennale, 18 = laurea magistrale, 20 = dottorato o simili.
8. occupation. occupazione secondo la classificazione di [Hollingshead](https://dictionary.fitbir.nih.gov/portal/publicData/dataElementAction!view.action?dataElementName=HollingsheadJobClassCat&publicArea=true).
9. rating. Variabile numerica che codifica l'autovalutazione del matrimonio: 1 = molto infelice, 2 = un po' infelice, 3 = medio, 4 = più felice della media, 5 = molto felice.


### Caricamento dati (3 pt)

Caricare il dataset `Affair.csv` in un DataFrame di nome `dataset`. Utilizzate la prima colonna come indice di riga (utilizzare il parametro `index_col`)

In [1]:
import pandas as pd

dataset = pd.read_csv('Affairs.csv', index_col = 0)

dataset.head(5)

Unnamed: 0,affairs,gender,age,yearsmarried,children,religiousness,education,occupation,rating
4,0,male,37.0,10.0,no,3,18,7,4
5,0,female,27.0,4.0,no,4,14,6,4
11,0,female,32.0,15.0,yes,1,12,1,4
16,0,male,57.0,15.0,yes,5,18,6,5
23,0,male,22.0,0.75,no,2,17,6,3


In [2]:
assert dataset.shape[0] == 601

In [3]:
assert dataset.shape[1] in {9, 10}

In [4]:
assert dataset.shape[1] == 9

### Funzioni (2 pt)

Definire una funzione denominata `correlation` con due argomenti iterabili `x` e `y`, che calcoli il coefficiente di correlazione $$\rho = \frac{1}{N}\sum_i^N\frac{(x_i-\mu(x))(y_i-\mu(y))}{\sigma(x)\sigma(y)}$$
dove:
- $\mu$ è la funzione che calcola la media. Si assume che `x` e `y` siano dotate del metodo `mean()`
- $\sigma$ è la funzione che calcola la deviazione standard. Si assume che `x` e `y` siano dotate del metodo `std()`

La funzione deve restituire correttamente dei valori se `x` e `y` corrispondono a delle Series.

In [5]:
def correlation(x, y):
    
    return (1 / len(x)) * sum([(a - x.mean()) * (b - y.mean()) / (x.std() * y .std()) for a , b in zip(x , y)])

In [6]:
assert 0 <= correlation(dataset['age'], dataset['affairs']) <= 1.0
assert -1.0 <= correlation(dataset['religiousness'], dataset['affairs']) <= 0

### Comprensioni (2 pt)

Attraverso l'uso della comprensione, definire un dizionario denominato `corrs` che associ, a ogni attributo numerico di `dataset` il coefficiente di correlazione tra l'attributo e `affairs`. 


In [7]:
import numpy as np

corrs = dict((elem , correlation(dataset[elem] , dataset.affairs)) for elem in dataset.select_dtypes([np.int64 , np.float64]))

corrs

{'affairs': 0.9983361064891862,
 'age': 0.09507873959022463,
 'yearsmarried': 0.18653080166360533,
 'religiousness': -0.14426091063811738,
 'education': -0.0024333851054381744,
 'occupation': 0.04952920915098738,
 'rating': -0.27904732421401246}

In [8]:
assert 'age' in corrs
assert type(corrs['education']) == float

### Programmazione funzionale (3 pt)

Usando `map` e `lambda`, trasformare la colonna `gender` per sostituire il valore `male` con `m` e `female` con `f`.

In [9]:
dataset['gender'] = list(map(lambda x: 'm' if x == 'male' else 'f' , dataset.gender))

dataset.head()

Unnamed: 0,affairs,gender,age,yearsmarried,children,religiousness,education,occupation,rating
4,0,m,37.0,10.0,no,3,18,7,4
5,0,f,27.0,4.0,no,4,14,6,4
11,0,f,32.0,15.0,yes,1,12,1,4
16,0,m,57.0,15.0,yes,5,18,6,5
23,0,m,22.0,0.75,no,2,17,6,3


In [10]:
assert all(map(lambda s: s in {'m','f'}, dataset['gender']))

### Manipolazione DataFrame (2 pt)

Estrarre dal dataset i valori della colonna `education` corrispondenti a tutti i campioni di genere maschile e senza figli. Inserire questi valori in una lista denominata `male_no`. 

In [11]:
male_no = list(dataset[(dataset.gender == 'm') & (dataset.children == 'no')].education)

In [12]:
assert isinstance(male_no, list)
assert isinstance(male_no[0], int)

### Operazioni su liste (2 pt)

A partire dalla lista `male_no` definire una lista denominata `male_no_3` i cui elementi sono triple di elementi consecutivi e disgiunti di `male_no`. (Ogni elemento appartiene a una sola tripla.)

In [13]:
male_no_3 = [(male_no[i] , male_no[i + 1] , male_no[i + 2])  for i in range(0, len(male_no), 3)]

male_no_3

[(18, 17, 14),
 (17, 16, 18),
 (18, 20, 17),
 (16, 20, 18),
 (16, 18, 17),
 (18, 20, 20),
 (14, 16, 17),
 (18, 18, 17),
 (20, 17, 17),
 (16, 18, 18),
 (18, 18, 20),
 (18, 16, 16),
 (16, 17, 18),
 (14, 20, 18),
 (20, 17, 20),
 (16, 16, 20),
 (14, 12, 18),
 (20, 9, 18),
 (12, 16, 14),
 (18, 16, 18),
 (18, 20, 14),
 (14, 14, 14),
 (14, 18, 16),
 (14, 12, 18)]

In [14]:
assert len(male_no_3) == len(male_no) // 3
assert len(male_no_3[0]) == 3

### Funzioni su liste (3pt)

Definire una funzione denominata `check_dup` con argomento `l` (si assume una lista) che restituisca il numero di duplicati in una lista. La funzione opera nel seguente modo:
1. in una variabile locale memorizza una copia ordinata della lista `l`
2. scandisce sequenzialmente la lista ordinata contando le volte in cui un elemento è uguale al successivo
3. restituisce il conteggio.

Nota: la funzione non deve modificare il contenuto di `l`.

Applicare la funzione `check_dup` a `male_no` e a `male_no_3`.

In [15]:
def check_dup(l):
    
    import numpy as np
    
    sorted_list = sorted(l)
    counter = 0
    
    for i in range(1 , len(sorted_list)):
        counter += 1 if sorted_list[i] == sorted_list[i - 1] else 0
        
    return counter
    
    
print(check_dup(male_no))
print(check_dup(male_no_3))

65
1


In [16]:
assert male_no != sorted(male_no)
assert check_dup(male_no_3) == 1
assert check_dup(male_no) == 64

AssertionError: 

### Elaborazione di stringhe (3 pt)

Generare una stringa collegando tutti gli elementi della colonna `gender` del dataset separandoli dal carattere `':'`. Denominare la stringa risultante come `gs`.

In [None]:
gs = ':'.join(dataset['gender'])

gs

In [None]:
assert set(gs)==set('fm:')

In [None]:
assert len([(gs[i], gs[i+1]) for i in range(0,len(gs)-1,2) if not(gs[i] in {'m','f'} and gs[i+1] == ':')])==0

### Espressioni regolari (1 pt)

Attraverso le espressioni regolari, contare i gruppi di sequenze di almeno 4 maschi o almeno 4 femmine. Memorizzare in `count` il risultati del conteggio

In [None]:
import re

count = len(re.findall(r'(f:){4,}|(m:){4,}', gs))

count

In [None]:
assert count == 39