# Analyse Exploratoire des Données (EDA) - Projet Météo et Tourisme

Ce notebook présente une analyse exploratoire des données collectées et transformées dans le cadre du projet EXAMEN_IA1_WEATHER_TOURISM.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
try:
    df = pd.read_csv("/home/ubuntu/EXAMEN_IA1_WEATHER_TOURISM/weather_tourism/data/weather_combined.csv")
    print("Données chargées avec succès.")
except FileNotFoundError:
    print("Le fichier weather_combined.csv n'a pas été trouvé. Veuillez vous assurer que le pipeline ETL a été exécuté.")
    df = pd.DataFrame() # Create an empty DataFrame to avoid errors


In [None]:
if not df.empty:
    print("Informations générales sur le DataFrame:")
    df.info()
    print("\nPremières lignes du DataFrame:")
    print(df.head())
    print("\nStatistiques descriptives:")
    print(df.describe())


## Distribution des Variables Clés

In [None]:
if not df.empty:
    plt.figure(figsize=(10, 6))
    sns.histplot(df["temperature"], kde=True)
    plt.title("Distribution des Températures")
    plt.xlabel("Température (°C)")
    plt.ylabel("Fréquence")
    plt.savefig("/home/ubuntu/temperature_distribution.png")
    plt.show()


In [None]:
if not df.empty:
    plt.figure(figsize=(10, 6))
    sns.histplot(df["humidity"], kde=True)
    plt.title("Distribution de l'Humidité")
    plt.xlabel("Humidité (%)")
    plt.ylabel("Fréquence")
    plt.savefig("/home/ubuntu/humidity_distribution.png")
    plt.show()


In [None]:
if not df.empty:
    plt.figure(figsize=(10, 6))
    sns.histplot(df["tourism_score"], kde=True)
    plt.title("Distribution du Score de Tourisme")
    plt.xlabel("Score de Tourisme")
    plt.ylabel("Fréquence")
    plt.savefig("/home/ubuntu/tourism_score_distribution.png")
    plt.show()


## Analyse des Corrélations

In [None]:
if not df.empty:
    numeric_cols = df.select_dtypes(include=["number"]).columns
    if not numeric_cols.empty:
        plt.figure(figsize=(12, 8))
        sns.heatmap(df[numeric_cols].corr(), annot=True, cmap="coolwarm", fmt=".2f")
        plt.title("Matrice de Corrélation des Variables Numériques")
        plt.savefig("/home/ubuntu/correlation_heatmap.png")
        plt.show()
    else:
        print("Aucune colonne numérique trouvée pour l'analyse de corrélation.")
