# Computer Vision & Agriculture / Environment 

## 1. Tipi di problemi in visione artificiale
- **Classificazione:** assegno un’etichetta a un’intera immagine o tile (es. questo patch 64×64 è “Forest”).
- **Detection:** localizzo oggetti all’interno dell’immagine con bounding box.
- **Segmentazione:** classifico ogni pixel (es. U-Net).
- Requisiti strutturali dei modelli:
  - Classificazione → CNN compatte (Conv+Pooling+FC).
  - Detection → backbone CNN + testata di localizzazione (es. Faster R-CNN, YOLO).
  - Segmentazione → architetture encoder–decoder con skip connections (es. U-Net).
- Perché ci concentriamo sulla classificazione CNN: il dataset EuroSAT è già tile-based, non richiede bounding box né maschere per pixel.

<figure style="text-align:center;">
  <img src="artwork/comp-vision-models.webp" alt="Confronto tra classificazione, object detection e instance segmentation" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 1. Confronto tra <b>classificazione</b>, <b>object detection</b> e <b>instance segmentation</b>.
  </figcaption>
</figure>

## 2.  CNN vs FFNN
- **FFNN:** ogni neurone collegato a tutti i pixel → esplosione parametri, nessuna nozione di spazialità.
- **CNN:** kernel locali + condivisione pesi → molto meno parametri, sfruttano la struttura spaziale e spettrale.
- Motivazione pratica: per immagini multispettrali, le CNN sono lo strumento “naturale” per catturare pattern locali e inter-banda.

## Sintesi dei tre approcci: ANN, CNN, U-Net

### 1. Reti Neurali Artificiali (ANN / FFNN)

Le **Artificial Neural Networks** (in particolare le **FeedForward Neural Networks**) rappresentano l’approccio più semplice e generalista all’apprendimento automatico.

- **Funzionamento**: ogni unità di input (es. un valore numerico per ciascuna banda spettrale di un pixel) viene collegata a più livelli di neuroni nascosti, con connessioni completamente connesse (dense).
- **Applicazione**: nei dati da telerilevamento, un’ANN può essere utilizzata trattando ogni **pixel come un’osservazione indipendente**, usando le bande spettrali come caratteristiche.
- **Limite**: ignora completamente la **struttura spaziale** dell’immagine (cioè i rapporti tra pixel vicini), e dunque può risultare poco efficace per compiti legati all’analisi di immagini, dove i pattern spaziali sono cruciali.

> ✅ Utile per introdurre i concetti base della classificazione.  
> ❌ Inadeguato per sfruttare l’informazione spaziale.

<figure style="text-align:center;">
  <img src="artwork/ANN-clay.png" alt="Analisi spaziale 3D delle proprietà del suolo" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 2. Analisi spaziale 3D delle proprietà del suolo utilizzando una <b>Rete Neurale Feed-Forward (FFNN) 6:6:6:1</b>.
  </figcaption>
</figure>

### 2. Reti Neurali Convoluzionali (CNN)

Le **Convolutional Neural Networks** rappresentano un salto qualitativo, essendo progettate **specificamente per lavorare con immagini**.

- **Funzionamento**: usano filtri (kernel) che “scandagliano” l’immagine estraendo pattern locali ricorrenti, come contorni, forme e texture.
- **Applicazione**: permettono di **classificare un’immagine intera** oppure associare una **classe dominante** a un’immagine o a una finestra (patch).
- **Vantaggio**: tengono conto del **contesto spaziale** e della **localizzazione** dei pattern.

> ✅ Ideali per compiti di **classificazione d’immagine**.  
> ❌ Offrono una classificazione globale, ma non una segmentazione dettagliata pixel-per-pixel.

<figure style="text-align:center;">
  <img src="artwork/CNN-VGG16.webp" alt="Architettura VGG-16 CNN" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 3. Architettura di una <b>Convolutional Neural Network (CNN)</b>: esempio del modello <b>VGG-16</b>, 
    caratterizzato da blocchi di convoluzione+ReLU (blu), livelli di max pooling (rosso) e strati fully connected (verde). 
    L’input (224×224×3) viene progressivamente trasformato fino ad arrivare all’output finale con 1000 classi.
  </figcaption>
</figure>

### 3. U-Net (Segmentazione Semantica)

La **U-Net** è un'architettura avanzata che nasce per applicazioni di segmentazione biomedica ma si è affermata anche nel telerilevamento.

- **Funzionamento**: segue una struttura a "U", con una fase di **downsampling (encoder)** per estrarre caratteristiche sempre più astratte, e una fase di **upsampling (decoder)** per ricostruire la mappa segmentata a livello pixel.
- **Applicazione**: perfetta per compiti in cui è importante sapere **esattamente quali pixel appartengono a quale classe**, come nella **mappatura dell’uso/occupazione del suolo**.
- **Vantaggio**: **segmentazione precisa**, sfrutta sia l’informazione locale che quella globale.

> ✅ Fondamentale per compiti di **segmentazione semantica**.  
> ❌ Più complessa e richiede dataset più strutturati e costosi da etichettare.

<figure style="text-align:center;">
  <img src="artwork/2d+Unet_classic.png" alt="Architettura U-Net per segmentazione" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 4. Architettura <b>U-Net</b> per la <b>segmentazione</b>: encoder (sinistra) con blocchi
    <i>Conv 3×3 + ReLU</i> e <i>Max Pool 2×2</i> che comprimono la risoluzione e aumentano i canali; 
    decoder (destra) con <i>Up-Conv 2×2</i> e <i>skip connections</i> (copiatura &amp; crop) che 
    riutilizzano il dettaglio dell’encoder; uscita finale tramite <i>Conv 1×1</i> che produce la mappa di classe pixel-wise.
  </figcaption>
</figure>

### Conclusione: perché salire di complessità?

Il passaggio da **ANN → CNN → U-Net** riflette una crescita nella capacità del modello di **comprendere la struttura dell’immagine** e **localizzare l’informazione rilevante**:

- ANN è un primo approccio, utile per mostrare concetti semplici e lavorare su dati tabellari (pixel → vettore di input).
- CNN introduce la **consapevolezza spaziale**, fondamentale per trattare immagini in modo coerente.
- U-Net risponde all’esigenza di una **mappatura fine**, dove la posizione e la forma delle classi (es. aree urbane, coltivi, corpi idrici) sono fondamentali.

> La scelta del modello dipende quindi **dal tipo di problema** (classificazione globale vs segmentazione dettagliata), **dalla qualità e quantità dei dati** e dagli **obiettivi dell’analisi**.

### Tabella comparativa

| Caratteristica                  | ANN / FFNN                    | CNN                              | U-Net                                |
|----------------------------------|-------------------------------|-----------------------------------|----------------------------------------|
| Struttura spaziale considerata  | ❌ No                        | ✅ Sì (pattern locali)          | ✅✅ Sì (locale + globale)             |
| Tipo di input                   | Pixel indipendenti (vettori) | Immagini o patch                 | Immagini intere (segmentazione)        |
| Output                          | Etichetta per pixel singolo   | Etichetta per immagine o patch   | Mappa etichette per pixel             |
| Complessità                     | 🟢 Bassa                      | 🟡 Media                         | 🔴 Alta                                |
| Requisiti dati (etichettatura) | 🟢 Ridotti                    | 🟡 Moderati                      | 🔴 Elevati (etichette pixel-level)     |
| Adatto per...                   | Classificazione base          | Classificazione immagini         | Segmentazione semantica                |

## Riferimenti

### Link utili
 - [Docker Desktop install](https://docs.docker.com/desktop/)
 - [Docker compose](https://docs.docker.com/compose/)
 - [Documentazione TensorFlow](https://www.tensorflow.org/api_docs/python/tf/all_symbols)
 - [Tutorial TensorFlow](https://www.tensorflow.org/tutorials)
 - [Keras](https://keras.io)
 - [Yolo Classification](https://docs.ultralytics.com/tasks/classify/)
 - Book: [Deep Learning with Python](https://livebook.manning.com/book/deep-learning-with-python-second-edition/meap-version-7/v-7)

### Caso studio: EuroSAT
 - [Zenodo](https://doi.org/10.5281/zenodo.7711810)
 - [Sessione pratica (Jupyter notebook)](00_eSat_custom.ipynb)