### Tecnologie dei dati e del linguaggio
# Dati e informazione
## Prof. Alfio Ferrara

## Informazione e incertezza
L'informazione è qualcosa che cambia il nostro sapere sul mondo e un modo per misurare questo effetto è osservare quanto un **dato**, ovvero un elemento di potenziale conoscenza, un'osservazione sulla realtà, possa ridurre il nostro grado di incertezza circa un evento, un fenomeno e più in generale sulla realtà che osserviamo.

### Esempio: indovina la città
Le città possibili sono: "New York", "Tokyo", "Parigi", "Londra", "Sydney", "Milano", "Città del Capo", "Mosca", "Roma", "Pechino"

Senza sapere nulla né fare domande, qual è la probabilità di indovinare?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

In [None]:
citta = ["New York", "Tokyo", "Parigi", "Londra", "Sydney", "Milano", "Città del Capo", "Mosca", "Roma", "Pechino"]
p = np.array([1 / len(citta) for x in citta])

fig, ax = plt.subplots(figsize=(12, 2))
sns.barplot(x=citta, y=p, ax=ax)
ax.set_ylim((0, 1))
plt.tight_layout()
plt.show()

Quanta incertezza abbiamo? Un modo per misurarlo è usare l'**entropia** come misura della quantità di informazione contenuta in un messaggio. Al momento non abbiamo alcun messaggio circa la città giusta, perciò ci troviamo in una situazione la cui incertezza può essere misurata osservando la distribuzione di probabilità circa gli esiti possibili, con questa formula (**entropia**):

$$
H = - \sum\limits_{i=0}^{n} p_i \log_2 p_i
$$

In [None]:
def entropia(probs):
    return -sum(p * np.log2(p) for p in probs if p > 0)

print(f"Nessun messaggio: {np.round(entropia(p), 2)} bit")

### L'effetto dei dati
Immaginiamo di fare ora una domanda e grazie a essa scoprire che la città da indovinare è in Europa. Come cambia ciò che sappiamo?

In [None]:
citta_eu = ['Parigi', 'Londra', 'Milano', 'Roma']
p_eu = np.array([1 / len(citta_eu) if c in citta_eu else 0 for c in citta])

fig, ax = plt.subplots(figsize=(12, 2))
sns.barplot(x=citta, y=p_eu, ax=ax)
ax.set_ylim((0, 1))
plt.tight_layout()
plt.show()

In [None]:
entropia_none = entropia(p)
entropia_eu = entropia(p_eu)
print(f"Nessun messaggio: {np.round(entropia_none, 2)} bit")
print(f"Città EU: {np.round(entropia_eu, 2)} bit")
print(f"Riduzione di incertezza: {np.round(entropia_none - entropia_eu, 2)} bit")

Ora, immaginiamo invece di scoprire con una domanda che la città è in Italia

In [None]:
citta_it = ['Milano', 'Roma']
p_it = np.array([1 / len(citta_it) if c in citta_it else 0 for c in citta])

fig, ax = plt.subplots(figsize=(12, 2))
sns.barplot(x=citta, y=p_it, ax=ax)
ax.set_ylim((0, 1))
plt.tight_layout()
plt.show()

In [None]:
entropia_none = entropia(p)
entropia_it = entropia(p_it)
print(f"Nessun messaggio: {np.round(entropia_none, 2)} bit")
print(f"Città IT: {np.round(entropia_it, 2)} bit")
print(f"Riduzione di incertezza: {np.round(entropia_none - entropia_it, 2)} bit")

#### Quale dei due dati è stato più informativo?

Si noti che se dovessimo scegliere quale domanda fare la questione sarebbe diversa, perchè dobbiamo anche considerare il caso in cui la risposta sia "no" e pertanto non si riduca affatto la nostra incertezza, anzi, al contrario se la città non fosse italiana e l'incertezza sarebbe maggiore rispetto al caso in cui la città non è europea.

## Dati e contesto interpretativo
Un'altro modo di rendere dei dati informativi è fornire loro un contesto interpretativo. Assumiamo di ricevere dei dati che ne siano privi, come ad esempio questi:

In [None]:
R = pd.read_csv('data/data-rec.csv', index_col=0, header=None, skiprows=1)
data = [int(x) for x in R[2].values]
print(data)

Una prima forma di contesto consiste nell'aggiungere una relazione ai dati esistenti

In [None]:
tuple = list(zip(data, R[3].values))
for record in tuple:
    print(record)