 # Prendere decisione nell'incertezza
 ---
 Adattamento da "Probability and Statistics for Computer Scientists", M. Baron, CRC Press, 2014

**Questo corso riguarda l'incertezza.**
 
 Più precisamente, la misurazione e la quantificazione dell'incertezza, nonché il prendere decisioni in condizioni di incertezza. In senso lato, con incertezza intendiamo la condizione in cui i risultati, gli esiti, il futuro prossimo e più lontano non sono completamente determinati; il loro sviluppo dipende da una serie di fattori e anche dal "puro caso". (Cosa che non si può definire formalmente!)

Semplici esempi di incertezza si presentano quando si acquista un biglietto della lotteria, si gira una ruota della fortuna o si lancia una moneta per prendere una decisione.

**L'incertezza compare in quasi tutti i settori dell'Informatica**. 

L'installazione di un software richiede un tempo incerto e spesso uno spazio su disco incerto. Un software appena rilasciato contiene un numero incerto di difetti. Quando un programma viene eseguito, la quantità di memoria richiesta può essere incerta. Quando un lavoro viene inviato a una stampante, il tempo necessario per la stampa è incerto e c'è sempre un numero variabile di lavori in coda davanti ad esso. I componenti elettronici si guastano in momenti imprevedibili e l'ordine con cui si verificano i guasti non può essere previsto con esattezza. I virus attaccano un sistema in momenti imprevedibili e danneggiano un numero incerto di file e directory. 

**L'incertezza ci circonda anche nella vita di tutti i giorni, a casa, al lavoro, negli affari e nel tempo libero.**

**Esempio 1.1.** Potremmo scoprire che oggi il mercato azionario ha avuto diversi rialzi e cali, causati dalla stipula di nuovi contratti, dalla pubblicazione di rapporti finanziari e da altri eventi di questo tipo. Molti andamenti dei prezzi delle azioni sono rimasti inesplicati. È chiaro che nessuno avrebbe mai perso un centesimo negli scambi azionari se nel mercato non ci fosse incertezza. Potremmo venire a sapere che il lancio di uno shuttle spaziale è stato rinviato a causa delle condizioni meteorologiche. Perché non lo sapevano in anticipo, quando l'evento era già programmato? Prevedere con precisione il tempo atmosferico, senza alcun errore, non è un problema risolvibile, ancora una volta a causa dell'incertezza. A conferma di ciò, un meteorologo potrebbe prevedere, ad esempio, una probabilità del 60% di pioggia. Perché non può dirci con certezza se pioverà o meno, in modo da sapere se portare o meno l'ombrello? Sì, perché c'è incertezza. Perché non può sempre conoscere con sicurezza la situazione futura riguardo alle precipitazioni.

Potremmo scoprire che è iniziata improvvisamente l'eruzione di un vulcano attivo, e non è chiaro quali regioni dovranno essere evacuate. Potremmo venire a sapere che una squadra di casa fortemente favorita ha perso inaspettatamente contro una squadra esterna, e che un giovane tennista ha vinto contro ogni previsione. L'esistenza e la popolarità dei totalizzatori, in cui i partecipanti scommettono sui risultati sportivi, dimostrano che l'incertezza è presente nello sport, negli esiti di ogni singola gara e persino nella classifica finale. Possiamo inoltre ascoltare notizie di incidenti stradali, crimini e condanne. Ovviamente, se quel guidatore avesse saputo in anticipo dell'incidente imminente, sarebbe rimasto a casa.

Certamente, questa lista potrebbe continuare (almeno una cosa è certa!). Anche quando domani andrai al college in auto, incontrerai un numero imprevedibile di semafori verdi avvicinandoti a essi, troverai un numero incerto di posti liberi nel parcheggio, raggiungerai l'aula a un'ora non prevedibile, e ora non puoi essere certo del numero di compagni di classe che troverai in aula quando entrerai. Rendendoci conto che molti fenomeni importanti che ci circondano sono caratterizzati da incertezza, dobbiamo imparare a comprenderla e a gestirla. Nella maggior parte dei casi, siamo costretti a prendere decisioni in condizioni di incertezza. Ad esempio, dobbiamo utilizzare internet e la posta elettronica sapendo che potremmo non essere protetti da tutti i tipi di virus. I nuovi software devono essere rilasciati anche se probabilmente i test non hanno rivelato tutti i difetti. I server, i provider di servizi internet, ecc., devono assegnare una certa quantità di memoria o spazio su disco a ciascun utente senza sapere con esattezza quale porzione di utenti sarà soddisfatta di queste limitazioni. E così via. 

Questo corso tratta della misurazione e della gestione dell'incertezza e della casualità. Attraverso la spiegazione della teoria di base e numerosi esempi, insegna:


- come **valutare le probabilità**, ovvero le possibilità che si verifichino diversi risultati (quando il risultato esatto è incerto), 

- come **selezionare un modello** adeguato per un fenomeno che presenta incertezza e utilizzarlo nel processo decisionale successivo,

- come **valutare le caratteristiche** di prestazione e altri parametri importanti per nuovi dispositivi e server, 

- come **prendere decisioni ottimali** in condizioni di incertezza.



**Riassunto e conclusione** L'incertezza è una condizione in cui la situazione non può essere predeterminata o prevista con certezzza e senza errori. L'incertezza esiste nell'informatica, nell'ingegneria del software, in molti aspetti della scienza, degli affari e della nostra vita quotidiana. È una realtà oggettiva, con cui è necessario saper confrontarsi. Siamo costretti a prendere decisioni in condizioni di incertezza.



## 1.2 Panoramica del corso (ideale) 



**Il primo capitolo introduce il linguaggio che utilizzeremo per descrivere e quantificare l'incertezza: la Probabilità**. Quando i risultati sono incerti, possiamo comunque identificare quelli più probabili e quelli meno probabili, assegnando loro rispettivamente probabilità elevate o basse. _Le probabilità_ sono numeri compresi tra 0 e 1, dove 0 corrisponde a un evento impossibile e 1 a un evento che si verifica certamente. 

Successivamente, utilizzando questo linguaggio, affronteremo il concetto di **variabili aleatorie**, ovvero **quantità** il cui valore è incerto in un determinato istante temporale. Si dice che tali variabili "assumono valori diversi con diverse probabilità". A causa dell'incertezza, non è possibile calcolare con esattezza il valore di una variabile aleatoria _prima_ che essa venga effettivamente osservata o misurata. 

> Ti rendi conto dell'importanza del fattore **tempo** quando si cerca di parlare, formalmente, di ciò che è la Probabilità?

Il modo migliore per descriver il comportamento delle variabili aleatorie è elencare tutti i suoi possibili valori insieme alle corrispondenti probabilità. 


Questa collezione di probabilità è detta **distribuzione**. 

> Sorprendentemente, molti fenomeni diversi, apparentemente non correlati tra loro, possono essere descritti dalla stessa distribuzione o da una stessa famiglia di distribuzioni. 

Questo permette un approccio piuttosto generale a tutta una classe di situazioni caratterizzate da incertezza. Come applicazione, una volta individuata una famiglia di distribuzioni adatta, sarà possibile calcolare le probabilità di interesse. I capitoli 3 e 4 introducono le famiglie di distribuzioni più comunemente usate nell'informatica e in altri settori. Nella pratica moderna, tuttavia, si ha spesso a che fare con fenomeni aleatori piuttosto complessi, in cui il calcolo delle probabilità e di altre quantità di interesse non è affatto immediato. 

In tali situazioni, invece di tentare un calcolo diretto, impareremo tecniche di simulazione o generazione di variabili aleatorie. Se siamo in grado di scrivere un codice informatico per simulare un certo fenomeno, possiamo immediatamente inserirlo in un ciclo e ripetere la simulazione migliaia o milioni di volte, contando semplicemente quante volte si verifica l’evento di nostro interesse. In questo modo potremo distinguere eventi più probabili da quelli meno probabili. La probabilità di un evento potrà quindi essere stimata calcolando la proporzione di simulazioni in cui l’evento si è verificato. 


Successivamente, passeremo all’**Inferenza Statistica**. Mentre nella **Probabilità** si trattano solitamente situazioni (modelli) descritte in modo abbastanza chiaro, nella **Statistica** l’intera analisi si basa sui dati raccolti e osservati. A partire dai dati disponibili, si sceglie un modello appropriato (ad esempio, una famiglia di distribuzioni), si stimano i suoi parametri e si traggono conclusioni riguardo all’intera popolazione di soggetti di interesse — sia osservati che non osservati — che dovrebbero seguire lo stesso modello. 

Un problema tipico di **Probabilità** è il seguente. 

**Esempio 1.2.** Una cartella contiene 50 file eseguibili. Quando un virus informatico attacca il sistema, ogni file viene infettato con probabilità 0,2. Calcolare la probabilità che, durante un attacco virale, _più_ di 15 file vengano infettati. 

♦ Si noti che la situazione è descritta in modo piuttosto chiaro: si conosce il numero totale di file e la probabilità che ciascun file venga colpito. L’unica quantità incerta è il numero di file infettati, che non può essere previsto con certezza. 

Un problema tipico di **Statistica**, invece, è il seguente.

**Esempio 1.3.** Una cartella contiene 50 file eseguibili. Quando un virus informatico attacca il sistema, ogni file viene infettato con la stessa probabilità \( p \). Durante un attacco virale, si è osservato che 15 file sono stati infettati. Stimare \( p \). C’è una forte indicazione che \( p \) sia maggiore di 0,2? 

♦ Questa è una situazione pratica. L’utente conosce soltanto i dati effettivamente osservati: il numero di file nella cartella e il numero di file infettati. Sulla base di questi dati, deve stimare \( p \), cioè la proporzione di file infettati, estendendo la stima non solo al proprio sistema ma anche a sistemi simili. Si può fornire una **stima puntuale** di \( p \) (un singolo valore numerico), oppure optare per la costruzione di un **intervallo di confidenza**, che contiene i valori “più probabili” di \( p \). Analogamente, un meteorologo potrebbe prevedere una temperatura di 70°F, il che in realtà non esclude la possibilità di 69° o 72°, oppure potrebbe fornire un intervallo, ad esempio promettendo una temperatura compresa tra 68° e 72°. La maggior parte delle previsioni (statistiche) si basa su un modello accuratamente scelto e adatto ai dati osservati.

Ogni metodo sarà illustrato da numerosi esempi pratici ed esercizi. L’obiettivo finale del corso è che, al termine del percorso, gli studenti siano in grado di leggere un problema descritto a parole o un rapporto aziendale, riconoscere l’incertezza presente nella situazione descritta, selezionare un modello probabilistico appropriato, stimare e verificare i suoi parametri sulla base di dati reali, calcolare le probabilità di eventi di interesse e altre caratteristiche fondamentali, e trarre conclusioni significative e formulare previsioni affidabili. 

**Riassunto e conclusioni** 

In questo corso, l’incertezza viene misurata e descritta mediante il linguaggio della **Probabilità**. Utilizzando questo linguaggio, studieremo le **variabili aleatorie** e impareremo a conoscere i tipi di distribuzioni più comunemente utilizzati. In particolare, saremo in grado di individuare un modello stocastico adatto alla situazione descritta e di usarlo per calcolare probabilità e altre quantità di interesse. Quando il calcolo diretto non è fattibile, ricorreremo alle simulazioni, basati sulla generazione di numeri casuali. Successivamente, impareremo come prendere decisioni in condizioni di incertezza sulla base di dati osservati e come stimare parametri di interesse.
