# **Exploration des donn√©es - DynamicEarthNet**
## **1. Pr√©sentation du contexte et du jeu de donn√©es**

Dans ce projet, l‚Äôobjectif principal est la r√©alisation d‚Äôune **segmentation s√©mantique spatiale** √† partir d‚Äôimages satellites issues de la base de donn√©es **DynamicEarthNet**. Cette derni√®re se compose d‚Äôimages satellites multispectrales (RGB + proche infrarouge) annot√©es manuellement pour diff√©rents types de couverture terrestre.

Le jeu de donn√©es se caract√©rise par :
- **R√©solution spatiale** : 3 m√®tres par pixel (chaque image fait 1024x1024 pixels).
- **Annotations manuelles pr√©cises**, pixel par pixel, classifiant la couverture terrestre en plusieurs classes s√©mantiques clairement d√©finies.

> Source : *DynamicEarthNet Paper, Toker et al. 2022*.

---



La premi√®re √©tape de notre projet √† donc √©t√© de visualiser et de prendre en main la donn√©es. Pour cela deux module ont √©t√© cr√©e : [sat_image_reader](src/sat_image_reader.py) et [classes_reader](src/classes_reader.py).

Gr√¢√ße √† cela, nous avons pu analyser diverses images et les prendre en main dans un [notebook](exploration_donn√©es_Alexandre.ipynb).
Nous avons alors pu comprendre les diverses classes de DynamicEarthNet, leur impl√©mentation (sous 8 bandes √† valeurs 0 ou 255 si la classe est pr√©sente) et l'√©volution temporelle.


## **2. Classes s√©mantiques utilis√©es dans l'exploration**

Le jeu de donn√©es DynamicEarthNet comporte au total **7 classes s√©mantiques** diff√©rentes :

1. **Impervious Surface** ‚Äì Surfaces imperm√©ables (routes, b√¢timents).
2. **Forest & Other Vegetation** ‚Äì For√™t et autres v√©g√©tations.
3. **Soil** ‚Äì Sols nus ou terres agricoles non cultiv√©es.
4. **Agriculture** ‚Äì Zones agricoles cultiv√©es.
5. **Wetlands** ‚Äì Zones humides.
6. **Water** ‚Äì Plans d‚Äôeau.
7. **Snow & Ice** ‚Äì Neige et glace (rare).

Mais elles ne sont pas forc√®ment toutes pr√©sente √† chaque fois : par exemple dans une zone √©tudi√©e du notebook (**10N-123W-45N**), seules **3 classes principales** sont pr√©sentes :

- **Impervious Surface (bande 1)**
- **Forest and Other Vegetation (bande 3)**
- **Soil (bande 5)**

---


Nous avons donc pris cela en compte lors de la cr√©ation de notre [dataloader](src/dataloader.py).


## **3. Approche m√©thodologique d‚Äôexploration**

### **a. Exploration initiale des fichiers raster (.tif)**

L‚Äôanalyse initiale a consist√© √† examiner les fichiers raster pour :
- Lire les m√©tadonn√©es (dimensions, nombre de bandes, r√©solution).
- Visualiser les bandes individuellement :
  - Classification binaire (valeurs 0 ou 255).
  - Identification des pixels appartenant simultan√©ment √† plusieurs classes.
- G√©n√©rer des histogrammes confirmant la distribution binaire des pixels.

### **b. Validation spatiale avec les fichiers vectoriels (.geojson)**

Les fichiers **GeoJSON** ont √©t√© utilis√©s pour valider spatialement les annotations :
- Chargement et visualisation des contours g√©ographiques de chaque classe.
- Superposition des g√©om√©tries vectorielles sur les images raster.
- Confirmation de la coh√©rence et de la pr√©cision des annotations.

---



## **4. Analyse de la qualit√© des donn√©es (PF-QA)**

L‚Äô√©tude des fichiers **PF-QA (Planet Fusion Quality Assurance)** a permis de :
- Identifier les pixels bas√©s sur des observations satellites directes vs interpol√©es.
- V√©rifier la coh√©rence spatiale des annotations pour garantir la fiabilit√© des donn√©es d‚Äôapprentissage.

---


# **Exploration des fichiers et structuration des donn√©es**


## **1. Organisation et exploration des fichiers**
Le chemin principal des donn√©es est d√©fini par `PATH_DATA`, qui contient :
- Les images satellites **Planet Fusion** (`planet.10N/planet/10N/`).
- Les labels annot√©s (`labels/labels/` et `dynamicearthnet_test_labels`).

L‚Äôexploration initiale a permis :
- üìÇ **D‚Äôidentifier les fichiers et r√©pertoires disponibles**.
- üè∑Ô∏è **De compter et comparer les labels d‚Äôentra√Ænement et de test**.
- üìç **D‚Äôafficher les sous-dossiers Planet contenant les images TIFF** pour une organisation claire des donn√©es.

---

## **2. Construction des DataFrames de labels et images**
L‚Äôorganisation des labels a √©t√© syst√©matis√©e en DataFrames `df_labels_train` et `df_labels_test` :
- **Extraction des cl√©s d‚Äôidentification** pour assurer la correspondance avec les images satellites.
- **Identification des labels d‚Äôentra√Ænement et de test**.
- **Cr√©ation d‚Äôun chemin structur√© pour chaque label**.

Les images satellites ont √©t√© associ√©es aux labels via une fusion avec `df_planet`, permettant de structurer les correspondances entre annotations et images sources.

---

## **3. Localisation g√©ographique des images**
L‚Äôanalyse de la **localisation des images satellites** a √©t√© effectu√©e en croisant leurs coordonn√©es avec une base de donn√©es mondiale des pays (`ne_110m_admin_0_countries.shp`).

- üåç **Transformation des coordonn√©es vers EPSG:4326** (longitude/latitude).
- üó∫Ô∏è **D√©tection du pays et du continent** associ√© √† chaque image satellite.
- üîó **Association des informations g√©ographiques aux m√©tadonn√©es des images**.

---

## **4. V√©rification de l‚Äôalignement des images satellites**
Un contr√¥le d‚Äôalignement des images (`ImageAlignementCheck`) a √©t√© effectu√© pour s‚Äôassurer de leur qualit√©, nous avions initialement pr√©vu de faire avec le suivi temporelle mais nous avons ensuite abandonn√© cette id√©e :
- üìè **Analyse des d√©calages moyens et maximaux entre images successives**.
- ‚ùå **Identification des images mal align√©es** afin de les exclure du futur entra√Ænement du mod√®le.

Les r√©sultats ont √©t√© stock√©s dans `df_results.csv` et int√©gr√©s dans `df_merged_extended` pour une meilleure gestion des images.

---


L‚Äôensemble de ces √©tapes garantit une **base de donn√©es robuste et de haute qualit√©** pour l'entra√Ænement du **r√©seau de neurones de segmentation spatiale**. üöÄ
