# üåê Introduzione ai Big Data

## üìå Cosa sono i Big Data?

I **Big Data** sono dataset cos√¨ grandi e complessi che i sistemi tradizionali (come un singolo computer con Pandas) non riescono a processarli in modo efficiente.

### Le 3V dei Big Data:
1. **Volume**: Grandi quantit√† di dati (GB, TB, PB...)
2. **Velocit√†**: Dati generati e processati rapidamente
3. **Variet√†**: Formati diversi (CSV, JSON, immagini, log, streaming...)

### ‚ûï 2V aggiuntive moderne:
4. **Veridicit√†**: Qualit√† e affidabilit√† dei dati
5. **Valore**: Trasformare i dati in insights utili

![image.png](attachment:image.png)

### üîë Quando servono i Big Data?

I Big Data iniziano quando **una singola macchina non basta pi√π**:
- Dataset che non stanno in RAM (> 16-32 GB)
- Calcoli che richiedono ore su una macchina
- Dati che arrivano troppo velocemente per essere processati in tempo reale su un computer

### üí° Esempio pratico per chi conosce Pandas:
```python
# Con Pandas (singola macchina) - OK fino a ~10GB
df = pd.read_csv("small_data.csv")  # Si carica tutto in RAM

# Con Spark (distribuito) - OK da 10GB a Petabyte
df = spark.read.csv("huge_data.csv")  # Distribuito su cluster
```

## üß† Perch√© servono i Big Data?

Se fai **Machine Learning**, probabilmente hai gi√† lavorato con dataset piccoli che stanno in memoria. I Big Data servono quando:

1. **Training su dataset enormi**: Modelli ML moderni (deep learning, LLM) richiedono milioni/miliardi di esempi
2. **Feature Engineering su larga scala**: Creare features da TB di dati storici
3. **Predizioni in real-time**: Servire predizioni su streaming di dati
4. **Analytics aziendali**: Analizzare comportamenti di milioni di utenti
5. **IoT e sensori**: Processare dati da migliaia di device

### üéØ Applicazioni reali:
- **Recommendation systems** (Netflix, Spotify)
- **Fraud detection** (banche, e-commerce)
- **Predictive maintenance** (industria, automotive)
- **Social media analytics** (sentiment analysis su miliardi di post)

## üñ•Ô∏è Cos'√® un Cluster?

Un **cluster** √® un gruppo di computer (nodi) che lavorano insieme come se fossero un'unica macchina potente.

### Componenti:
- **Master Node** (Driver): Coordina il lavoro
- **Worker Nodes**: Eseguono i calcoli distribuiti

### üí° Analogia per chi fa ML:
- **Singola macchina**: come allenare un modello su 1 GPU
- **Cluster**: come allenare su 100 GPU in parallelo (distributed training)

**Tutte le tecnologie Big Data (Spark, Hadoop) lavorano su cluster**.

### üéØ Regola d'oro:

**Se i dati non stanno in memoria o i calcoli richiedono troppo tempo ‚Üí usa un cluster!**

In Databricks, Spark distribuisce automaticamente il carico su pi√π nodi.

## ‚öôÔ∏è Scalabilit√† ed Elasticit√†

### üìà Scalabilit√†
La **scalabilit√†** √® la capacit√† di un sistema di migliorare le prestazioni aggiungendo risorse.

- **Verticale** (scale-up): Aumenta potenza di una singola macchina (pi√π RAM, pi√π CPU)
- **Orizzontale** (scale-out): Aggiungi pi√π macchine al cluster ‚úÖ **Questo usa Spark**

**Esempio**: 
- 1 nodo processa 10GB/ora ‚Üí 10 nodi processano 100GB/ora

### üîÑ Elasticit√†
L'**elasticit√†** √® la capacit√† di adattarsi automaticamente al carico variabile.

- Carico alto ‚Üí aggiungi nodi automaticamente (autoscaling)
- Carico basso ‚Üí riduci nodi per risparmiare

**Esempio Databricks**: Il cluster scala da 2 a 10 nodi durante il giorno, torna a 2 di notte.

![image.png](attachment:image.png)

## üß± Commodity Hardware

I cluster Big Data usano **hardware standard** (commodity), non server costosi.

**Filosofia**: √à meglio avere 100 computer normali che 1 super-server costoso.
- Pi√π economico
- Fault-tolerant: se 1 nodo si rompe, gli altri continuano
- Scalabile: aggiungi nodi quando serve

**Spark sfrutta questa filosofia per rendere il Big Data accessibile**.

## ‚òÅÔ∏è Cloud e Big Data

Il **Cloud** √® l'infrastruttura ideale per Big Data:

### Vantaggi:
- **On-demand**: Crea cluster quando servono, spegni quando non servono
- **Elastico**: Scala automaticamente in base al carico
- **Pay-as-you-go**: Paghi solo per quello che usi (ore di calcolo)
- **Nessun hardware da gestire**: Tutto gestito dal provider

### üéØ Databricks √® cloud-native:
Gira su Azure, AWS, GCP senza dover configurare server.

## üåä Data Lake

Un **Data Lake** √® uno storage centrale per dati grezzi di ogni tipo e dimensione.

### Caratteristiche:
- **Schema-on-read**: Non serve definire schema in anticipo (flessibile)
- **Tutti i formati**: CSV, JSON, Parquet, immagini, video, log...
- **Scalabile**: Da GB a Petabyte
- **Cloud o on-premises**: Azure Data Lake, AWS S3, Google Cloud Storage

### üö´ NON √® un database:
- **Database**: Struttura fissa, query ottimizzate, transazioni
- **Data Lake**: Storage grezzo, si processano i dati quando servono

**In Databricks leggi dati dal Data Lake e li processi con Spark**.

## üîÑ Batch vs Streaming Processing

### ü™® Batch Processing
I dati sono **fermi**, accumulati nel tempo.

- **Quando**: Analisi periodiche (giornaliere, settimanali)
- **Volume**: Grandi dataset storici
- **Esempi**: 
  - Report mensili di vendite
  - Training di modelli ML su dati storici
  - ETL notturni

**Tool**: Spark Batch, Hadoop MapReduce

### üåä Streaming Processing
I dati **si muovono**, generati in tempo reale.

- **Quando**: Analisi in tempo reale, latenza bassa
- **Volume**: Flusso continuo di dati
- **Esempi**:
  - Fraud detection in tempo reale
  - Monitoring di sensori IoT
  - Social media analytics live
  - Real-time recommendation

**Tool**: Spark Streaming, Kafka, Flink

### üìä Confronto

| Aspetto       | Batch                      | Streaming                   |
|--------------|----------------------------|-----------------------------|
| **Latenza**   | Minuti/Ore                 | Millisecondi/Secondi        |
| **Volume**    | Grande, accumulato         | Continuo, infinito          |
| **Uso**       | Analytics storiche         | Reazioni immediate          |
| **Complessit√†** | Pi√π semplice             | Pi√π complessa               |

### üí° Per chi fa ML:
- **Batch**: Training offline su dataset storico
- **Streaming**: Inferenza real-time su nuovi dati

## üìú Evoluzione delle Sfide Big Data

### üîç Primi anni 2000: Motori di Ricerca
**Problema**: Indicizzare e cercare in miliardi di pagine web
- Google crea **MapReduce** (2004) e **Google File System**
- Yahoo crea **Hadoop** (open source) basato sui paper di Google
- **Volume + Variet√†** sono la sfida principale

### üòä Dal 2004: Social Network
**Problema**: Gestire post, foto, video di miliardi di utenti in tempo reale
- Facebook, Twitter generano dati continui
- Nasce il concetto di **streaming processing**
- **Velocit√†** diventa critica

### ü§ñ Dal 2015: Intelligenza Artificiale
**Problema**: Training di modelli su dataset enormi
- Deep Learning richiede milioni/miliardi di esempi
- GPT-3 trainato su 45TB di testo
- Computer Vision su milioni di immagini
- **Volume + Potenza di calcolo distribuita**

### üöÄ Oggi: Databricks & Spark
**Soluzione unificata**: Stesso ambiente per batch, streaming, ML, analytics
- Semplifica l'architettura
- Scala automaticamente
- Integra tutto (ETL + ML + BI)

---

## üìö Prossimi Passi

Ora che conosci i concetti base dei Big Data:

1. **[PANDAS_TO_SPARK.ipynb](../DOCS/PANDAS_TO_SPARK.ipynb)** - Come passare da Pandas a Spark
2. **[LEZIONE 1](../LEZIONI/LEZIONE 1 APPUNTI.IPYNB)** - ETL base in Databricks
3. **[databricks_cheatsheet.ipynb](../DOCS/databricks_cheatsheet.ipynb)** - Comandi Spark essenziali

### üîë Concetti chiave da ricordare:
- **Big Data** = Dataset troppo grandi per una macchina singola
- **Cluster** = Gruppo di computer che lavorano insieme
- **Spark** = Framework distribuito per processare Big Data
- **Databricks** = Piattaforma cloud che semplifica Spark