#### Autori: Domenico Lembo, Giuseppe Santucci and Marco Schaerf

[Dipartimento di Ingegneria informatica, automatica e gestionale](https://www.diag.uniroma1.it)

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.eu.png"
     alt="License"
     style="float: left;"
     height="40" width="100" />
This notebook is distributed with license Creative Commons *CC BY-NC-SA*

# Trivia: indovina città e attrazione da immagini
1. Obiettivo del gioco
2. Preparazione del gioco
3. Creazione delle strutture dati
4. Esecuzione del gioco
5. Analisi dei dati

### Obiettivo del gioco
Dobbiamo implementare un semplice gioco a quiz su città e attrazioni. Il gioco consiste nel proporre all'utente una sequenza di immagini e chiedergli di riconoscere la città e l'attrazione a cui si riferiscono.

### Preparazione del gioco
Selezioniamo 3 città e 3 attrazioni per ogni città. Assegnamo a ogni città e ad ogni attrazione un nome univoco. Creiamo la directory del progetto e salviamo lì questo notebook.
Troviamo sul web 2 immagini per ogni attrazione. Per ogni immagine copiamo l'indirizzo dell'immagine. Ad esempio, in questa pagina Wikipedia sul [Colosseo](https://it.wikipedia.org/wiki/Colosseo) selezioniamo l'immagine in alto a destra e copiamo il suo indirizzo immagine, che dovrebbe essere https://upload.wikimedia.org/wikipedia/commons/thumb/d/d8/Colosseum_in_Rome-April_2007-1-_copie_2B.jpg/390px-Colosseum_in_Rome-April_2007-1-_copie_2B.jpg. 

In Windows (Chrome o Firefox), premi il pulsante destro sull'immagine e quindi seleziona copia indirizzo immagine, in iOS (Safari) fai clic / tocca e tieni premuto sull'immagine e quindi selezionare copia. Creiamo un file CSV con una linea per ogni immagine (vedi formato sotto) e salviamo questo file come "images.csv" nella directory del progetto.
Il file CSV ha il seguente formato:

```
Città,attrazione,image_address
```

Dove image_address è l'indirizzo web del file dell'immagine. Non inserire spazi vuoti prima e dopo le virgole. **Non inseriamo** una riga di intestazione nel file.

### Creazione delle strutture dati
Leggiamo il file CSV e creiamo cinque strutture dati:
1. Una lista **lcitta** (ordinata alfabeticamente) delle città
2. Un dizionario **immagini** con chiave ottenuta concatenando il nome della città e il nome dell'attrazione, separati da un punto e virgola. Ad esempio, se la città è 'Roma' e l'attrazione è il 'Colosseo', la chiave è 'Roma:Colosseo'. Ad ogni chiave associamo come valore la lista degli indirizzi delle immagini che si riferiscono a quella città e attrazione.
3. Un dizionario **attrazioni** con chiave la città e valore la lista (ordinata alfabeticamente) delle attrazioni (senza ripetizioni).
4. Una lista **tutteImmagini** composta da tuple di 3 elementi (città,attrazione,indirizzo), una per ogni immagine.
5. Un dizionario **origini** con chiave l'indirizzo dell'immagine e valore la tupla (città,attrazione) corrispondente
Per maggiore pulizia e riusabilità del codice scriviamo una funzione che prende in input il nome del file e restituisce le strutture dati costruite.

In [31]:
def creaStruttureDati(file):
    #Inizializziamo le variabili
    lcitta = []
    immagini = {}
    attrazioni = {}
    tutteImmagini = []
    origini = {}
    f = open(file,'r',encoding='UTF-8') # apro il file
    for riga in f:
        riga = riga.strip().split(',') # separo la riga nelle sue parti
        citta = riga[0]
        attrazione = riga[1]
        url = riga[2]
        chiave = citta+attrazione # costruisco la chiave per il diz. immagini
        tupla = (citta,attrazione)
        if citta not in lcitta: # inserisco nella lista delle città (se non presente)
            lcitta.append(citta)
        if chiave not in immagini:
            immagini[chiave] = []
        if citta not in attrazioni:
            attrazioni[citta] = []
        immagini[chiave].append(url)
        if attrazione not in attrazioni[citta]:
            # inserisco nella lista delle attrazioni della città (se non presente)
            attrazioni[citta].append(attrazione)
        if url not in tutteImmagini: # inserisco nella lista delle immagini (se non presente)
            tutteImmagini.append(url)
        origini[url] = tupla
    f.close()
    lcitta.sort()
    for key in attrazioni:
        attrazioni[key].sort()
    return lcitta, immagini, attrazioni, tutteImmagini, origini

lcitta, immagini, attrazioni, tutteImmagini, origini = creaStruttureDati('images.csv')

### Esecuzione del gioco
Implementiamo il seguente gioco: chiediamo all'utente di inserire il suo nome (idealmente ogni esecuzione del gioco dovrebbe avere un utente diverso), quindi scegliamo in modo casuale 10 immagini dalla lista **tutteImmagini**. Mostriamo le immagini una alla volta all'utente e gli chiediamo di che città si tratti (l'utente può scegliere dall'elenco delle città possibili, cioè dalla lista **citta**).
Quindi gli chiediamo di indovinare l'attrazione (l'utente può scegliere dall'elenco delle possibili attrazioni per la città che ha selezionato). In entrambi i casi l'utente può anche selezionare la risposta "Non so". Salviamo tutti i risultati in un file CSV 'risposte.csv' con il seguente formato:

```
utente,cittàCorretta,attrazioneCorretta,indirizzoImmagine,cittàScelta,attrazioneScelta
```

Ogni esecuzione deve sempre aggiungere le nuove informazioni senza eliminare le risposte fornite dai giocatori precedenti.

Per selezionare 10 immagini a caso, possiamo usare la funzione di NumPy np.random.choice(dati,num,replace=False), dove dati è l'array dei dati tra cui scegliere, num è il numero di elementi da selezionare e replace=False specifica che NON bisogna mai selezionare 2 volte lo stesso elemento. Questa funzione restituisce un array di num elementi, ognuno dei quali è un indice dei dati.

In [35]:
import numpy as np
from IPython.display import display, Image, clear_output

nonSo = "Non so" # Per poter poi cambiare questa frase, la salviamo in una variabile

utente = input('Inserisci il tuo nome per iniziare: ')

# Sceglie le 10 foto a caso
scelta = np.random.choice(tutteImmagini,10,replace=False)

# Apre il file per le risposte in modalità append
f = open('risposte.csv','a',encoding = 'UTF-8')

for foto in scelta:
    immagine = Image(foto)
    display(immagine)
    cittaCorretta = origini[foto][0]
    attrazioneCorretta = origini[foto][1]
    print('Di quale città si tratta ?')
    for i in range(len(lcitta)):
        print(i+1,lcitta[i])
    print(i+2,nonSo)
    indiceRisposta1 = int(input('Inserisci il numero corrispondente alla risposta scelta')) - 1
    if indiceRisposta1 == len(lcitta):
        risposta1 = nonSo
        # Ha risposto "Non so", assumo che non conosca neanche l'attrazione e smetto
        risposta2 = nonSo
    else:
        risposta1 = lcitta[indiceRisposta1]
        lattrazioni = attrazioni[risposta1]
        print('Di quale attrazione si tratta ?')
        for i in range(len(lattrazioni)):
            print(i+1,lattrazioni[i])
        print(i+2,nonSo)
        indiceRisposta2 = int(input('Inserisci il numero corrispondente alla risposta scelta')) - 1
    if indiceRisposta2 == len(lattrazioni):
        risposta2 = nonSo
    else:
        risposta2 = lattrazioni[indiceRisposta2]
    riga = utente+','+cittaCorretta+','+attrazioneCorretta+','+foto+','+risposta1+','+risposta2+'\n'
    f.write(riga)
    clear_output()
f.close()

### Analisi dei dati
Leggiamo il file 'risposte.csv' prodotto nel passaggio precedente e visualizziamo le seguenti informazioni:
1. Creiamo la [matrice di confusione](https://it.wikipedia.org/wiki/Matrice_di_confusione) delle città
2. Tracciamo con un istogramma il numero di risposte di città corrette per ogni esecuzione del gioco
3. Tracciamo con un istogramma il numero di risposte di città/attrazione corrette per ogni esecuzione del gioco
4. Tracciamo per ogni immagine la percentuale di risposte corrette di città e di città/attrazione

Vediamo queste operazioni una per una. Ogni operazione aprirà il file delle risposte e calcolerà i dati che gli servono, questa soluzione non è ovviamente molto efficiente, ma permette di separare meglio il codice ed i grafici.

#### Punto 1:
Creiamo la [matrice di confusione](https://it.wikipedia.org/wiki/Matrice_di_confusione) delle città. Questo vuol dire creare una matrice **matConf** nx(n+1), dove n è il numero delle città, ed in ogni posizione (i,j) c'è il numero di volte in cui la risposta giusta era la città con indice i nella lista **lcitta** e l'utente ha risposto la città con indice j. Se l'utente ha risposto "Non so" inseriamo la risposta nella cella (i,n), cioè la colonna in più (quella di indice n, serve per contare le risposte "Non so" date ad immagini delle varie città.

In [36]:
n = len(lcitta) # numero delle città
matConf = np.zeros((n,n+1)) # inizializzazione della matrice di confusione

f = open('risposte.csv','r',encoding='UTF-8')
for riga in f:
    dati = riga.strip().split(',')
    cittaCorretta = dati[1]
    indice1 = lcitta.find(cittaCorretta)
    risposta = dati[4]
    if risposta == nonSo:
        indice2 = n
    else:
        indice1 = lcitta.find(risposta)
    matConf[indice1,indice2] += 1

f.close()
print('la matrice di confusione per le città:',lcitta,'è:')
print(matConf)

FileNotFoundError: [Errno 2] No such file or directory: 'risposte.csv'

#### Punto 2:
Tracciamo con un istogramma il numero di risposte di città corrette per ogni esecuzione del gioco. Assumendo che ad ogni esecuzione del gioco venga usato un nome diverso, dobbiamo contare per ogni utente quante risposte esatte sulla città ha fornito e metterle in un array, poi disegnare l'istogramma corrispondente. Per fare questo calcolo creiamo un dizionario con chiave il nome dell'utente e valore il numero di risposte corrette.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

corrette = {}
f = open('risposte.csv','r',encoding='UTF-8')
for riga in f:
    dati = riga.strip().split(',')
    utente = dati[0]
    cittaCorretta = dati[1]
    risposta = dati[4]
    if utente not in corrette:
        corrette[utente] = 0
    if risposta == cittaCorretta:
        corrette[utente] += 1

f.close()
dati = np.array(list(corrette.values()))

plt.hist(dati)
plt.xlabel('Numero risposte corrette')
plt.ylabel('Numero di utenti')
plt.title('Istogramma risposte Città')
plt.grid(True) # disegna la griglia per render più leggibile l'istogramma
plt.show()

#### Punto 3:
Tracciamo con un istogramma il numero di risposte di città e attrazione corrette per ogni esecuzione del gioco. Assumendo che ad ogni esecuzione del gioco venga usato un nome diverso, dobbiamo contare per ogni utente quante risposte esatte su città e attrazione ha fornito e metterle in un array, poi disegnare l'istogramma corrispondente. Come prima, definiamo un dizionario con chiave il nome dell'utente e valore il numero di risposte corrette.

In [None]:
corrette = {}
f = open('risposte.csv','r',encoding='UTF-8')
for riga in f:
    dati = riga.strip().split(',')
    utente = dati[0]
    cittaCorretta = dati[1]
    attrazioneCorretta = dati[2]
    risposta1 = dati[4]
    risposta2 = dati[4]
    if utente not in corrette:
        corrette[utente] = 0
    if risposta1 == cittaCorretta and risposta2 == attrazioneCorretta:
        corrette[utente] += 1

f.close()
dati = np.array(list(corrette.values()))

plt.hist(dati)
plt.xlabel('Numero risposte corrette')
plt.ylabel('Numero di utenti')
plt.title('Istogramma risposte Città')
plt.grid(True) # disegna la griglia per render più leggibile l'istogramma
plt.show()

#### Punto 4:
Tracciamo per ogni immagine la percentuale di risposte corrette di città e di città/attrazione. Quindi dobbiamo fare un grafico con 2 plot, uno che mostra le risposte esatte sulla città dell'attrazione ed uno sul riconoscimento di città ed attrazione. L'asse x è quindi semplicemente l'indice delle immagini nella lista **tutteImmagini** e le 2 funzioni sono 2 array,della stessa dimensione della x, con il numero di risposte esatte nei 2 casi.

In [38]:
# creo l'array delle x ed inizializzo i 2 arrays delle y a 0
x = np.arange(n)
y1 = np.zeros(n)
y2 = np.zeros(n)

f = open('risposte.csv','r',encoding='UTF-8')
for riga in f:
    dati = riga.strip().split(',')
    foto = dati[3]
    indiceFoto = tutteImmagini.find(foto)
    cittaCorretta = dati[1]
    attrazioneCorretta = dati[2]
    risposta1 = dati[4]
    risposta2 = dati[4]
    if risposta1 == cittaCorretta:
        y1[indiceFoto] += 1
        if risposta2 == attrazioneCorretta:
            y2[indiceFoto] += 1
f.close()

plt.plot(x, y1, 'r-', x, y2, 'b-')
plt.xlabel('indice della foto') # scritta per l'asse x
plt.ylabel('risposte corrette (parzialmente o completamente)') # scritta per l'asse y
plt.show()

array([0, 1, 2])