# Comment expliquer le prix de l'électricité (QRT challenge)

Contexte : Une multitude de facteurs influencent le prix de l'electricité au quotidien. Des variations locales du climat pourront à la fois affecter la production et la demande électrique par exemple. Des phénomènes à plus long terme, comme le réchauffement climatique, auront également un impact évident. Des évènements géopolitiques, comme la guerre en Ukraine, peuvent en parallèle faire bouger le prix des matières premières qui sont clefs dans la production d'électricité, sachant que chaque pays s'appuie sur un mix énergétique qui lui est propre (nucléaire, solaire, hydrolique, gaz, charbon, etc). De plus chaque pays peut importer/exporter de l'électricité avec ses voisins au travers de marchés dynamiques, comme en Europe. Ces différents élements rendent assez complexe la modélisation du prix de l'électricité par pays. <br>
<br>
**But** : modéliser le prix l'électricité à partir de données météorologiques, énergétiques (matières premières) et commerciales pour deux pays européens - la France et l'Allemagne. <br>
Attention : c'est ici un problème d'explication des prix par d'autres variables concomitantes et non pas un problème de prédiction. <br> 
> Plus précisément le but est de construire un modèle qui, à partir de ces variables explicatives, renvoie une bonne estimation de la variation journalière du prix de contrats à terme (dits futures) sur l'électricité, en France ou en Allemagne. Ces contrats permettent d'acheter (ou de vendre) une quantité donnée d'électricité à un prix fixé par le contrat et qui sera livrée à une date future spécifiée (maturité du contrat). Les futures sont donc des instruments financiers qui donnent une estimation de la valeur de l'électricité au moment de la maturité du contrat à partir des conditions actuelles du marché - ici, on se restreint à des futures à courte maturité (24h). Soulignons que l'échange de futures sur l'electricité est un marché dynamique en Europe. 





La fonction de score (métrique) utilisée est la corrélation de Spearman entre la réponse du participant et les variations réelles du prix des futures contenues dans le jeu de données de test. La corrélation de Spearman est une mesure de dépendance statistique non paramétrique entre deux variables. Plus précisement, pour un échantillon de taille $n$, les variables de rang $rg X_i$ et $rg Y_i$ sont calculées à partir de $X_i$ et $Y_i$. La corrélation de Spearman est définie par : $r_s = \frac{ \text{cov}( rg_{X}, rg_{Y} )}{ \sigma _{rg_{X}} \sigma _{rg_{Y}} }$. 

## Description et analyse des données : 

La colonne ID de X_train et Y_train est identique, et de même pour les données test. Les données d'entrainement fournissent 1494 lignes, et les données de test en contiennent 654.
NB : Les données d'entrée X_train et X_test représentent les même variables explicatives mais sur deux périodes de temps différentes. <br>
<br>
<br>
**Données d'entrée** (35 colonnes): <br>
<br>
- ID : Identifiant d'indexe unique, associé à un jour (DAY_ID) et un pays (COUNTRY) <br>
- DAY_ID : Identifiant du jour - les dates ont été annonymisées en préservant la structure des données <br>
- COUNTRY : Identifiant du pays - DE = Allemagne, FR = France <br>
<br>
et composées ensuite de variations journalières du prix de matières premières, <br>
- GAS_RET : Gaz en Europe <br>
- COAL_RET : Charbon en Europe <br>
- CARBON_RET : Futures sur les emissions carbone <br>
<br>
de mesures météorologiques (journalières, dans le pays x),
- x_TEMP : Temperature <br>
- x_RAIN : Pluie <br>
- x_WIND : Vent <br>
<br>
de mesures de productions d'energie (journalière, dans le pays x),
- x_GAS : Gaz naturel <br>
- x_COAL : Charbon <br>
- x_HYDRO : Hydrolique <br>
- x_NUCLEAR : Nucléaire <br>
- x_SOLAR : Photovoltaïque <br>
- x_WINDPOW : Eolienne <br>
- x_LIGNITE : Lignite <br>
<br>
et de mesures d'utilisation électrique (journalières, dans le pays x),
- x_CONSUMPTON : Electricité totale consommée <br>
- x_RESIDUAL_LOAD : Electricité consommée après utilisation des énergies renouvelables <br>
- x_NET_IMPORT: Electricité importée depuis l'Europe <br>
- x_NET_EXPORT: Electricité exportée vers l'Europe <br>
- DE_FR_EXCHANGE: Electricité échangée entre Allemagne et France <br>
- FR_DE_EXCHANGE: Electricité échangée entre France et Allemagne. <br>
<br>
<br>
**Données de sortie** (2 colonnes):
- ID : Identifiant unique - le même que celui des données d'entrée <br>
- TARGET : Variation journalière du prix de futures d'électricité (maturité 24h). <br>
<br>
<br>
**Description du benchmark** <br>
Le benchmark pour ce challenge consiste en une simple régression linéaire, après un léger nettoyage des données : les valeurs manquantes (NaN) ont été remplacées par des zéros et la colonne COUNTRY a été supprimée - en d'autres termes, nous avons utilisé un modèle identique pour la France et l'Allemagne. <br>
<br>
Le score public obtenu pour ce benchmark est de 15.86%. Un notebook contenant la génération du benchmark et quelques discussions est disponible en "supplementary files" que vous trouverez sur cette page (colonne de droite).