# Apache Spark : Analyse des données climatiques mondiales

## Objectif :
Analyser les tendances climatiques mondiales à l'aide de Spark, y compris le nettoyage des données, l'EDA et l'extraction d'informations.

### Jeu de données / Base de Données:
**Global Surface Summary of the Day (GSOD)** provenant de NOAA.

---
##  Exploration du jeu de données


In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = SparkSession.builder \
    .appName("WeatherAnalysis") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://namenode:9000") \
    .getOrCreate()

In [2]:
# Données de la Speed Layer (Alertes transformées)
df_alerts = spark.read.json("/hdfs-data/France/Paris/alerts.json")

# Données de la Batch Layer (Profils saisonniers)
df_profiles = spark.read.json("/hdfs-data/seasonal_profile/")

df_alerts.show()

+-----+-------+--------------------+----------------+-----------+--------------------+----------------+---------+
| city|country|          event_time|heat_alert_level|temperature|           timestamp|wind_alert_level|windspeed|
+-----+-------+--------------------+----------------+-----------+--------------------+----------------+---------+
|Paris| France|2026-01-12T10:26:...|         level_0|       10.8|1.7682136112165995E9|         level_1|     19.4|
+-----+-------+--------------------+----------------+-----------+--------------------+----------------+---------+



**Questions :**
1. Combien d'enregistrements contient le jeu de données ?
2. Quels sont les noms et types de colonnes ?
3. Combien d'années de données au total ?
4. Combien de stations météorologiques uniques sont présentes ?

---
## Nettoyage des données


**Questions :**
1. Quelles colonnes ont le plus de valeurs manquantes ?
2. Après nettoyage, combien d'enregistrements restent ?

---
##  Transformation des données


In [None]:
# Transformer le jeu de données
# Ajouter de nouvelles colonnes pour l'année, le mois, le jour
df_transformed = df_cleaned.withColumn('year', F.year(F.col('date')))
# Classifier les jours chauds
df_transformed = df_transformed.withColumn('is_hot', F.col('temperature') > 30)

**Questions :**
1. Quels sont les 5 premiers enregistrements après le parsing de la colonne `date` ?
2. Combien de jours ont été classés comme 'chauds' ?
3. Creez un graphe qui permet de visualiser le nombres d'occurences de jours 'chauds' a travers les années 

---
## Analyse exploratoire des données (EDA)


In [None]:
# Calculer les moyennes annuelles et autres statistiques
# avg_temp_by_year = df_transformed.groupBy('year').avg('temperature')
avg_temp_by_year.show()

**Questions :**
1. Quelle est la température moyenne mondiale pour 2020 ?
2. Quelles sont les 5 stations ayant enregistré les températures moyennes les plus élevées, et où sont-elles situées ?
3. Comment les précipitations mondiales ont-elles évolué au cours des 50 dernières années, à l’échelle mondiale, puis spécifiquement en France ?

---
## Requêtes avancées


In [None]:
# Enregistrer comme vue SQL temporaire et exécuter des requêtes
# df_transformed.createOrReplaceTempView('climate')
# spark.sql('SELECT ...')

**Questions :**
1. Quelle a été l'année la plus froide enregistrée, et quelle était la température moyenne ?
2. Quelle station a contribué avec le plus grand nombre d'enregistrements ?
3. Fournissez la requête SQL utilisée pour trouver les réponses ci-dessus.

---
## Visualisation


In [None]:
# Exporter les données vers Pandas et créer des visualisations
# import matplotlib.pyplot as plt
# df_pandas = avg_temp_by_year.toPandas()
# plt.plot(df_pandas['year'], df_pandas['avg_temperature'])

**Questions :**
1. Créez un graphe pour visualiser les températures moyennes mondiales.
2. Créez un graphe pour visualiser les précipitations mondiales.
3. Quelles analyses supplémentaires recommanderiez-vous en fonction des visualisations, et pourriez-vous isoler les effets du réchauffement climatique ?
4. En prenant l’ensemble du jeu de données comme référence, calculez l'augmentation de la température en pourcentage par rapport à la moyenne mondiale. Ensuite, créez un graphique montrant pour chaque pays le pourcentage d'augmentation par rapport à la moyenne mondialenée