# Prédiction de valeurs manquantes : application à des mesures de capteur

Yewan Wang, Guillaume Simon @ Miratlas, Inès Hafassa Maïza @ DataCraft
Juillet 2023

## Thème 🌟
**Prétraitement des données de séries temporelles** pour la complétion d'une valeur caractéristique de la turbulence atmosphériques.

## Contexte 🌍

La société **Miratlas** déploie un réseau instrumental mondial 🌐 pour surveiller les conditions météorologiques, en particulier les turbulences, afin de caractériser les conditions atmosphériques pour la communication optique en espace libre. 
Les variables de turbulence sont mesurées en observant les objets célestes brillants dans le ciel, tels que le soleil ☀️ pendant la journée et Polaris 🌟 pendant la nuit. 
Cependant, l'instrument ne peut pas effectuer de mesures efficaces si le soleil ou l'étoile est masqué, par exemple lorsqu'il y a des nuages ☁️ ou lorsque les objets célestes sont en dessous de l'altitude d'observation. Par conséquent, nous avons de nombreuses valeurs manquantes pour les variables de turbulences. En revanche, la station météorologique doit normalement obtenir des mesures continues sans interruption 📈. Dans cet atelier, nous souhaitons analyser les relations entre les variables et imputer les données manquantes.


## Plan 📑

- **1. Introduction** (`01_introduction.ipynb`): Présentation de la problématique et des enjeux.
- **2. Traitement des données brutes** (`02_data-engineering.ipynb`): Lecture et nettoyage des données.  
- **3. Enrichissement des données** (`03_data-enrichment.ipynb`): Ajout des variables indispensables.
- **4. Analyse et visualisations** (`04_data-analysis.ipynb`): Analyse statistique des jeux de données, en termes de corrélation, de saisonnalité et de détection des valeurs aberrantes pour explorer les relations potentielles entre les variables météorologiques et les turbulences.
- **5. Méthodes d'imputation** (`05_imputation.ipynb`): Présentation de méthodes d'imputation de base.  
- **6. Conclusion** : Discussion sur les résultats obtenus.


## Turbulence atmosphérique 🌪️

La turbulence atmosphérique désigne l'instabilité des mouvements de l'air. Lorsqu'un faisceau laser se propage dans l'atmosphère, son front d'onde est sujet à des distorsions dues à des inhomogénéités dans l'indice de réfraction de l'air. Ces dernières sont causées par des variations de température et de pression. Les effets de ces phénomènes sur un système optique peuvent être quantifiés par des paramètres de vision atmosphérique, tels que la longueur de cohérence atmosphérique (paramètre Fried, r0) et l'angle isoplanatique.

**Source**:
- [Apprends la science qui sous-tend les quatre principales causes de turbulence](https://parlonssciences.ca/ressources-pedagogiques/les-stim-expliquees/quest-ce-que-la-turbulence-atmospherique#:~:text=La%20turbulence%20en%20air%20clair%20se%20produit%20lorsque%20deux%20masses,de%20l'atmosph%C3%A8re%20appel%C3%A9e%20tropopause).


## Description du jeu de données 

1. time: sampling time  datetime64
2. d_ext_temp: external temperature, float64
3. d_humid: relative humidity, float64
4. d_rain_rate：rain rate, float64       
5. d_wind: wind speed, float64       
6. d_wind_dir: wind direction, 0° North, 180° south, float64       
7. __day_r0__: Fried parameter r0 day, float64       
8. __day_see__: Day Seeing, float64       
9. __day_see_stddev__, float64       
10. down_ir: downwelling irrandance, radiation infrared, float64       
11. humid: internal humidity, float64       
12. irrad: irradance, float64       
13. __isoplan__: Night Seeing isoplanetisme angle, Related to scintillation, float64       
14. __night_r0__: Fried parameter r0 night, float64       
15. __night_see__: Night Seeing, float64       
16. press: pression, float64       
17. pyr_temp: Pyrgeomete temperature, at 52° elevation, float64       
18. __scint__: Scintillation night, float64, 0-255       
19. sky_temp: sky temperature, float64       
20. status: four catogeries based on status of DIMM: Day time, Cloudy, Night time, Polaris locked $^*$ , string        
21. transp: Transparency night, float64, 0-255       
22. wat_col_hei: Total Water Column, water vapor, float64    

$^*$ : concerne l'étoile Polaris 

Toutes les données venant de la station météo sont préfixé `d_`.  

__en gras__ : les variables caractérisant la turbulence