# Projet Apache Spark : Analyse des données climatiques mondiales

## Objectif :
Analyser les tendances climatiques mondiales à l'aide de Spark, y compris le nettoyage des données, l'EDA et l'extraction d'informations.

### Jeu de données :
[Global Surface Summary of the Day (GSOD) provenant de NOAA](https://www.ncei.noaa.gov/access/metadata/landing-page/bin/iso?id=gov.noaa.ncdc:C00516)


---
## Exploration du jeu de données


In [None]:
# Charger les données
# Charger le jeu de données GSOD dans Spark en tant que DataFrame (Remplacer par le chemin réel)
# df = spark.read.csv('chemin/vers/dataset.csv', header=True, inferSchema=True)

In [None]:
# Inspection du schéma et calcul des statistiques
df.printSchema()
df.count(), len(df.columns)

**Questions :**
1. Combien d'enregistrements contient le jeu de données ?
2. Quels sont les noms et types de colonnes ?
3. Combien de stations météorologiques uniques sont présentes ?

---
## Nettoyage des données


In [None]:
# Identifier les colonnes avec des valeurs manquantes et les traiter
# missing_values = df.select([F.count(F.when(F.col(c).isNull(), c)) for c in df.columns])

In [None]:
# Supprimer les lignes avec des valeurs critiques manquantes
df_cleaned = df.dropna(subset=['temperature', 'date'])

**Questions :**
1. Quelles colonnes ont le plus de valeurs manquantes ?
2. Après nettoyage, combien d'enregistrements restent ?
3. Quelle technique avez-vous utilisée pour traiter les valeurs manquantes dans la colonne des précipitations ?

---
## Transformation des données


In [None]:
# Transformer le jeu de données
# Ajouter de nouvelles colonnes pour l'année, le mois, le jour
df_transformed = df_cleaned.withColumn('year', F.year(F.col('date')))
# Classifier les jours chauds
df_transformed = df_transformed.withColumn('is_hot', F.col('temperature') > 30)

**Questions :**
1. Quels sont les 5 premiers enregistrements après le parsing de la colonne `date` ?
2. Combien de jours ont été classés comme 'chauds' ?
3. Quelles transformations ont été appliquées au jeu de données ?

---
##  Analyse exploratoire des données (EDA)


In [None]:
# Calculer les moyennes annuelles et autres statistiques
# avg_temp_by_year = df_transformed.groupBy('year').avg('temperature')
avg_temp_by_year.show()

**Questions :**
1. Quelle est la température moyenne mondiale pour 2020 ?
2. Quelles sont les 5 stations ayant enregistré les températures moyennes les plus élevées, et où sont-elles situées ?
3. Comment les précipitations mondiales ont-elles changé au cours des 50 dernières années ?

---
## Requêtes avancées


In [None]:
# Enregistrer comme vue SQL temporaire et exécuter des requêtes
# df_transformed.createOrReplaceTempView('climate')
# spark.sql('SELECT ...')

**Questions :**
1. Quelle a été l'année la plus froide enregistrée, et quelle était la température moyenne ?
2. Quelle station a contribué avec le plus grand nombre d'enregistrements ?
3. Fournissez la requête SQL utilisée pour trouver les réponses ci-dessus.

---
## Visualisation


In [None]:
# Exporter les données vers Pandas et créer des visualisations
# import matplotlib.pyplot as plt
# df_pandas = avg_temp_by_year.toPandas()
# plt.plot(df_pandas['year'], df_pandas['avg_temperature'])

**Questions :**
1. Quelles tendances sont visibles dans le graphique des températures moyennes mondiales ?
2. Quelles anomalies sont présentes dans l'histogramme des précipitations ?
3. Quelles analyses supplémentaires recommanderiez-vous en fonction des visualisations ?

---
## Optimisation et réflexion


In [None]:
# Appliquer le cache et le repartitionnement
# df_transformed.cache()
# df_repartitioned = df_transformed.repartition(4)

**Questions :**
1. Comment la mise en cache a-t-elle amélioré les performances de vos requêtes ?
2. Comment le repartitionnement a-t-il affecté le temps d'exécution des tâches ?
3. Résumez l'information la plus surprenante que vous avez dérivée du jeu de données.