# Computer Vision & Agriculture / Environment 

## 1. Tipi di problemi in visione artificiale
- **Classificazione:** assegno un‚Äôetichetta a un‚Äôintera immagine o tile (es. questo patch 64√ó64 √® ‚ÄúForest‚Äù).
- **Detection:** localizzo oggetti all‚Äôinterno dell‚Äôimmagine con bounding box.
- **Segmentazione:** classifico ogni pixel (es. U-Net).
- Requisiti strutturali dei modelli:
  - Classificazione ‚Üí CNN compatte (Conv+Pooling+FC).
  - Detection ‚Üí backbone CNN + testata di localizzazione (es. Faster R-CNN, YOLO).
  - Segmentazione ‚Üí architetture encoder‚Äìdecoder con skip connections (es. U-Net).
- Perch√© ci concentriamo sulla classificazione CNN: il dataset EuroSAT √® gi√† tile-based, non richiede bounding box n√© maschere per pixel.

<figure style="text-align:center;">
  <img src="artwork/comp-vision-models.webp" alt="Confronto tra classificazione, object detection e instance segmentation" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 1. Confronto tra <b>classificazione</b>, <b>object detection</b> e <b>instance segmentation</b>.
  </figcaption>
</figure>

## 2.  CNN vs FFNN
- **FFNN:** ogni neurone collegato a tutti i pixel ‚Üí esplosione parametri, nessuna nozione di spazialit√†.
- **CNN:** kernel locali + condivisione pesi ‚Üí molto meno parametri, sfruttano la struttura spaziale e spettrale.
- Motivazione pratica: per immagini multispettrali, le CNN sono lo strumento ‚Äúnaturale‚Äù per catturare pattern locali e inter-banda.

## Sintesi dei tre approcci: ANN, CNN, U-Net

### 1. Reti Neurali Artificiali (ANN / FFNN)

Le **Artificial Neural Networks** (in particolare le **FeedForward Neural Networks**) rappresentano l‚Äôapproccio pi√π semplice e generalista all‚Äôapprendimento automatico.

- **Funzionamento**: ogni unit√† di input (es. un valore numerico per ciascuna banda spettrale di un pixel) viene collegata a pi√π livelli di neuroni nascosti, con connessioni completamente connesse (dense).
- **Applicazione**: nei dati da telerilevamento, un‚ÄôANN pu√≤ essere utilizzata trattando ogni **pixel come un‚Äôosservazione indipendente**, usando le bande spettrali come caratteristiche.
- **Limite**: ignora completamente la **struttura spaziale** dell‚Äôimmagine (cio√® i rapporti tra pixel vicini), e dunque pu√≤ risultare poco efficace per compiti legati all‚Äôanalisi di immagini, dove i pattern spaziali sono cruciali.

> ‚úÖ Utile per introdurre i concetti base della classificazione.  
> ‚ùå Inadeguato per sfruttare l‚Äôinformazione spaziale.

<figure style="text-align:center;">
  <img src="artwork/ANN-clay.png" alt="Analisi spaziale 3D delle propriet√† del suolo" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 2. Analisi spaziale 3D delle propriet√† del suolo utilizzando una <b>Rete Neurale Feed-Forward (FFNN) 6:6:6:1</b>.
  </figcaption>
</figure>

### 2. Reti Neurali Convoluzionali (CNN)

Le **Convolutional Neural Networks** rappresentano un salto qualitativo, essendo progettate **specificamente per lavorare con immagini**.

- **Funzionamento**: usano filtri (kernel) che ‚Äúscandagliano‚Äù l‚Äôimmagine estraendo pattern locali ricorrenti, come contorni, forme e texture.
- **Applicazione**: permettono di **classificare un‚Äôimmagine intera** oppure associare una **classe dominante** a un‚Äôimmagine o a una finestra (patch).
- **Vantaggio**: tengono conto del **contesto spaziale** e della **localizzazione** dei pattern.

> ‚úÖ Ideali per compiti di **classificazione d‚Äôimmagine**.  
> ‚ùå Offrono una classificazione globale, ma non una segmentazione dettagliata pixel-per-pixel.

<figure style="text-align:center;">
  <img src="artwork/CNN-VGG16.webp" alt="Architettura VGG-16 CNN" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 3. Architettura di una <b>Convolutional Neural Network (CNN)</b>: esempio del modello <b>VGG-16</b>, 
    caratterizzato da blocchi di convoluzione+ReLU (blu), livelli di max pooling (rosso) e strati fully connected (verde). 
    L‚Äôinput (224√ó224√ó3) viene progressivamente trasformato fino ad arrivare all‚Äôoutput finale con 1000 classi.
  </figcaption>
</figure>

### 3. U-Net (Segmentazione Semantica)

La **U-Net** √® un'architettura avanzata che nasce per applicazioni di segmentazione biomedica ma si √® affermata anche nel telerilevamento.

- **Funzionamento**: segue una struttura a "U", con una fase di **downsampling (encoder)** per estrarre caratteristiche sempre pi√π astratte, e una fase di **upsampling (decoder)** per ricostruire la mappa segmentata a livello pixel.
- **Applicazione**: perfetta per compiti in cui √® importante sapere **esattamente quali pixel appartengono a quale classe**, come nella **mappatura dell‚Äôuso/occupazione del suolo**.
- **Vantaggio**: **segmentazione precisa**, sfrutta sia l‚Äôinformazione locale che quella globale.

> ‚úÖ Fondamentale per compiti di **segmentazione semantica**.  
> ‚ùå Pi√π complessa e richiede dataset pi√π strutturati e costosi da etichettare.

<figure style="text-align:center;">
  <img src="artwork/2d+Unet_classic.png" alt="Architettura U-Net per segmentazione" style="max-width:100%; height:auto;">
  <figcaption style="font-size:90%; color:#444; margin-top:6px;">
    Figura 4. Architettura <b>U-Net</b> per la <b>segmentazione</b>: encoder (sinistra) con blocchi
    <i>Conv 3√ó3 + ReLU</i> e <i>Max Pool 2√ó2</i> che comprimono la risoluzione e aumentano i canali; 
    decoder (destra) con <i>Up-Conv 2√ó2</i> e <i>skip connections</i> (copiatura &amp; crop) che 
    riutilizzano il dettaglio dell‚Äôencoder; uscita finale tramite <i>Conv 1√ó1</i> che produce la mappa di classe pixel-wise.
  </figcaption>
</figure>

### Conclusione: perch√© salire di complessit√†?

Il passaggio da **ANN ‚Üí CNN ‚Üí U-Net** riflette una crescita nella capacit√† del modello di **comprendere la struttura dell‚Äôimmagine** e **localizzare l‚Äôinformazione rilevante**:

- ANN √® un primo approccio, utile per mostrare concetti semplici e lavorare su dati tabellari (pixel ‚Üí vettore di input).
- CNN introduce la **consapevolezza spaziale**, fondamentale per trattare immagini in modo coerente.
- U-Net risponde all‚Äôesigenza di una **mappatura fine**, dove la posizione e la forma delle classi (es. aree urbane, coltivi, corpi idrici) sono fondamentali.

> La scelta del modello dipende quindi **dal tipo di problema** (classificazione globale vs segmentazione dettagliata), **dalla qualit√† e quantit√† dei dati** e dagli **obiettivi dell‚Äôanalisi**.

### Tabella comparativa

| Caratteristica                  | ANN / FFNN                    | CNN                              | U-Net                                |
|----------------------------------|-------------------------------|-----------------------------------|----------------------------------------|
| Struttura spaziale considerata  | ‚ùå No                        | ‚úÖ S√¨ (pattern locali)          | ‚úÖ‚úÖ S√¨ (locale + globale)             |
| Tipo di input                   | Pixel indipendenti (vettori) | Immagini o patch                 | Immagini intere (segmentazione)        |
| Output                          | Etichetta per pixel singolo   | Etichetta per immagine o patch   | Mappa etichette per pixel             |
| Complessit√†                     | üü¢ Bassa                      | üü° Media                         | üî¥ Alta                                |
| Requisiti dati (etichettatura) | üü¢ Ridotti                    | üü° Moderati                      | üî¥ Elevati (etichette pixel-level)     |
| Adatto per...                   | Classificazione base          | Classificazione immagini         | Segmentazione semantica                |

## Riferimenti

### Link utili
 - [Docker Desktop install](https://docs.docker.com/desktop/)
 - [Docker compose](https://docs.docker.com/compose/)
 - [Documentazione TensorFlow](https://www.tensorflow.org/api_docs/python/tf/all_symbols)
 - [Tutorial TensorFlow](https://www.tensorflow.org/tutorials)
 - [Keras](https://keras.io)
 - [Yolo Classification](https://docs.ultralytics.com/tasks/classify/)
 - Book: [Deep Learning with Python](https://livebook.manning.com/book/deep-learning-with-python-second-edition/meap-version-7/v-7)

### Caso studio: EuroSAT
 - [Zenodo](https://doi.org/10.5281/zenodo.7711810)
 - [Sessione pratica (Jupyter notebook)](00_eSat_custom.ipynb)