<a href="https://colab.research.google.com/github/PozzOver13/learning/blob/main/programming/20250220_design_machine_learning_system.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Design Machine Learning Systems by Chip Huyen

# Chip Huyen

Chip Huyen è una **scrittrice e computer scientist specializzata in machine learning e MLOps**. Ha lavorato presso NVIDIA e Snorkel AI e ha co-fondato Claypot AI, una startup focalizzata sull’implementazione di modelli di machine learning in tempo reale. Inoltre, ha **insegnato alla Stanford University** un corso su MLOps e sistemi di ML.

Chip Huyen è nota per i suoi post e articoli su blog e social, dove condivide riflessioni su AI, MLOps e ingegneria del software applicata al machine learning.

## 1. Overview of Machine Learning Systems

![ml_system](https://drive.google.com/uc?id=1kSeTKfKpGuR_P2pV58MUkbn9DlJ8frGy)

- L'algoritmo è solo una piccola parte di un sistema di Machine Learning in produzione. Il sistema comprende anche i requisiti di business che hanno dato origine al progetto di ML, l'interfaccia attraverso cui utenti e sviluppatori interagiscono con il sistema, lo stack dati e la logica per sviluppare, monitorare e aggiornare i modelli, oltre all'infrastruttura che consente l'erogazione di questa logica.

- L'obiettivo di questo libro è fornirti un **framework per sviluppare una soluzione** che si adatti al meglio al tuo problema, indipendentemente dall'algoritmo che finirai per utilizzare.

**Different stakeholders and requirements**

- Sono molti gli stakeholder coinvolti nel portare un sistema di ML in produzione, ciascuno con i propri requisiti. La presenza di requisiti diversi, spesso in conflitto tra loro, può rendere difficile progettare, sviluppare e selezionare un modello di ML che li soddisfi tutti.

**Computational priorities**

- Quando si progetta un sistema di ML, chi non ha mai implementato un sistema del genere spesso commette l'errore di concentrarsi troppo sulla fase di sviluppo del modello, trascurando invece il deployment e la manutenzione.

- Il termine "latenza" si riferisce al tempo di risposta, quindi la latenza di una richiesta misura il tempo che intercorre tra l'invio della richiesta e la ricezione della risposta. È una pratica comune utilizzare percentili elevati per specificare i requisiti di performance di un sistema; ad esempio, un product manager potrebbe stabilire che la latenza del 90° percentile o del 99,9° percentile debba rimanere al di sotto di una determinata soglia.

**Fairness**
> Gli algoritmi di ML non prevedono il futuro, ma codificano il passato, perpetuando così i bias presenti nei dati e oltre. Quando vengono implementati su larga scala, gli algoritmi di ML possono discriminare le persone su larga scala.

**Interpretability**
- All'inizio del 2020, il vincitore del Turing Award, il professor Geoffrey Hinton, sollevò una questione molto dibattuta sull'importanza dell'interpretabilità nei sistemi di ML. “Supponiamo che tu abbia un cancro e debba scegliere tra un chirurgo AI di tipo black-box, che non può spiegare come funziona ma ha un tasso di guarigione del 90%, e un chirurgo umano con un tasso di guarigione dell'80%. Vuoi che il chirurgo AI sia illegale?”

- Innanzitutto, l'interpretabilità è importante affinché gli utenti, sia i leader aziendali che gli utenti finali, comprendano il motivo di una decisione, così da poter fidarsi di un modello e individuare eventuali bias. In secondo luogo, è essenziale per gli sviluppatori, affinché possano eseguire il debug e migliorare il modello.

**Machine Learning Systems Versus Traditional Software**
- I sistemi di ML sono in parte codice, in parte dati e in parte artefatti generati dall'unione dei due. La tendenza dell'ultimo decennio mostra che le applicazioni sviluppate con più dati, e dati migliori, prevalgono. Invece di concentrarsi sul miglioramento degli algoritmi di ML, la maggior parte delle aziende si concentrerà sul miglioramento dei dati. Poiché i dati possono cambiare rapidamente, le applicazioni di ML devono adattarsi a un ambiente in continua evoluzione, il che può richiedere cicli di sviluppo e deployment più rapidi.



## 2. Introduction to Machine Learning Systems Design

**Obiettivi di Business e ML**  
- Quali metriche interessano alle aziende? Anche se molte aziende vogliono convincerti del contrario, secondo l’economista premio Nobel Milton Friedman, l’unico scopo delle imprese è massimizzare i profitti per gli azionisti.  
- I ritorni sugli investimenti in ML dipendono molto dal livello di maturità nell'adozione. Più a lungo un'azienda ha adottato il ML, più efficiente sarà la pipeline, più rapido sarà il ciclo di sviluppo, meno tempo di ingegneria sarà necessario e più bassi saranno i costi del cloud, il che porta a ritorni più elevati.  

**Requisiti per i Sistemi di ML**  
Quattro requisiti fondamentali: **affidabilità, scalabilità, manutenibilità e adattabilità**.  

- **Affidabilità**  
  - Il sistema dovrebbe continuare a svolgere la funzione corretta al livello di prestazioni desiderato anche in condizioni avverse (guasti hardware/software o errori umani). La "correttezza" può essere difficile da definire nei sistemi ML.  

- **Scalabilità**  
  - Un sistema di ML può crescere in diversi modi:  
    - Può aumentare in complessità.  
    - Può gestire un volume di traffico maggiore.  
    - Può supportare un numero crescente di modelli di ML.  
  - Un elemento indispensabile nei servizi cloud è **l'auto-scalabilità**, ovvero la capacità di aumentare o diminuire automaticamente il numero di macchine in base all'uso. Tuttavia, questa funzionalità può essere complessa da implementare.  

- **Manutenibilità**  
  - È fondamentale strutturare i flussi di lavoro e l’infrastruttura in modo che i vari team possano usare strumenti con cui si sentono a proprio agio, evitando che un gruppo imponga le proprie scelte agli altri.  
  - Il codice dovrebbe essere documentato.  
  - Codice, dati e artefatti dovrebbero essere versionati.  
  - I modelli dovrebbero essere riproducibili, in modo che chiunque possa lavorarci anche se gli autori originali non sono disponibili.  
  - Quando si verifica un problema, i vari team dovrebbero collaborare per risolverlo senza attribuire colpe.  

- **Adattabilità**  
  - I sistemi di ML devono evolversi rapidamente per rispondere ai cambiamenti del contesto.  

**Processo Iterativo**  
![ml_lifecycle](https://drive.google.com/uc?id=1yLrbgsCN91BaHf6nlVeuSvwMmHEfY34D)

- Sviluppare un sistema ML è un processo iterativo e, nella maggior parte dei casi, senza una vera fine. Una volta che un sistema è in produzione, deve essere monitorato e aggiornato continuamente.  

**Definizione dei Problemi di ML**  
- Un’assistenza clienti lenta è un problema, ma non è un problema di ML. Un problema di ML è definito da **input, output e funzione obiettivo**, che guidano il processo di apprendimento. Nessuna di queste tre componenti è ovvia da una semplice richiesta del capo. È compito dell'ingegnere ML tradurre il problema in un caso applicabile al ML.  

**Tipi di Task di ML**  
- L’output del modello determina la tipologia del problema ML. Le due categorie principali sono **classificazione e regressione**.  

**Decoupling degli Obiettivi**  
- Quando ci sono più obiettivi, è una buona pratica separarli, perché:  
  1. Rende più semplice lo sviluppo e la manutenzione del modello.  
  2. Permette di modificare il sistema senza dover riaddestrare i modelli.  
  3. Facilita la manutenzione, poiché obiettivi diversi possono avere esigenze di aggiornamento diverse.  

**Mente vs Dati**  
- Nel dibattito tra mente e dati, il Dr. **Judea Pearl**, vincitore del Turing Award e noto per i suoi studi sull'inferenza causale e le reti bayesiane, ha affermato:  
  > "I dati sono profondamente stupidi."  

- **Peter Norvig**, direttore della qualità della ricerca di Google, ha enfatizzato il ruolo dei dati rispetto agli algoritmi affermando:  
  > "Non abbiamo algoritmi migliori. Abbiamo solo più dati."  

- Se vuoi usare la data science (di cui il ML è una branca) per migliorare prodotti o processi, devi partire **dalla qualità e dalla quantità dei dati**.  
- **Senza dati, non esiste data science.**

## 3. Data Engineering Fundamentals
## 4. Training Data
## 5. Feature Engineering
## 6. Model Development and Offline Evaluation
## 7. Model Deployment and Prediction Service
## 8. Data Distribution Shifts and Monitoring
## 9. Continual Learning and Test in Production
## 10. Infrastructure and Tooling for MLOps
## 11. The Human Side of Machine Learning