In [2]:
import pandas as pd

# Chemin du fichier CSV
input_file = "../city_temperature.csv"

# Chargement des données
df = pd.read_csv(input_file, delimiter=",", low_memory=False)

# Afficher les premières lignes du dataset
print("📌 Aperçu du dataset :")
print(df.head())

# Afficher les types de données des colonnes
print("\n📌 Types de données :")
print(df.dtypes)

# Nombre de lignes et de colonnes
print("\n📌 Dimensions du dataset :")
print(f"Nombre de lignes : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")


📌 Aperçu du dataset :
   Region  Country State     City  Month  Day  Year  AvgTemperature
0  Africa  Algeria   NaN  Algiers      1    1  1995            64.2
1  Africa  Algeria   NaN  Algiers      1    2  1995            49.4
2  Africa  Algeria   NaN  Algiers      1    3  1995            48.8
3  Africa  Algeria   NaN  Algiers      1    4  1995            46.4
4  Africa  Algeria   NaN  Algiers      1    5  1995            47.9

📌 Types de données :
Region             object
Country            object
State              object
City               object
Month               int64
Day                 int64
Year                int64
AvgTemperature    float64
dtype: object

📌 Dimensions du dataset :
Nombre de lignes : 2906327
Nombre de colonnes : 8


In [4]:
# Vérification des valeurs manquantes
print("\n📌 Valeurs manquantes :")
print(df.isnull().sum())

# Suppression des lignes contenant des valeurs manquantes
df_cleaned = df.dropna()

# Alternative : Remplacement des valeurs manquantes par la moyenne de la région
df_filled = df.copy()
df_filled["AvgTemperature"] = df.groupby("Region")["AvgTemperature"].transform(lambda x: x.fillna(x.mean()))

# Affichage après nettoyage
print("\n📌 Données nettoyées :")
print(df_filled.isnull().sum())



📌 Valeurs manquantes :
Region                  0
Country                 0
State             1450990
City                    0
Month                   0
Day                     0
Year                    0
AvgTemperature          0
dtype: int64

📌 Données nettoyées :
Region                  0
Country                 0
State             1450990
City                    0
Month                   0
Day                     0
Year                    0
AvgTemperature          0
dtype: int64


In [5]:
# Calcul des statistiques principales
print("\n📌 Analyse statistique des températures :")
print(f"Température moyenne : {df['AvgTemperature'].mean():.2f}°C")
print(f"Température médiane : {df['AvgTemperature'].median():.2f}°C")
print(f"Température minimale : {df['AvgTemperature'].min():.2f}°C")
print(f"Température maximale : {df['AvgTemperature'].max():.2f}°C")

# Détection des valeurs aberrantes (exemple : températures < -50°C ou > 50°C)
outliers = df[(df["AvgTemperature"] < -50) | (df["AvgTemperature"] > 50)]
print("\n📌 Valeurs aberrantes détectées :")
print(outliers)



📌 Analyse statistique des températures :
Température moyenne : 56.00°C
Température médiane : 62.50°C
Température minimale : -99.00°C
Température maximale : 110.00°C

📌 Valeurs aberrantes détectées :
                Region  Country                   State                  City  \
0               Africa  Algeria                     NaN               Algiers   
9               Africa  Algeria                     NaN               Algiers   
10              Africa  Algeria                     NaN               Algiers   
11              Africa  Algeria                     NaN               Algiers   
17              Africa  Algeria                     NaN               Algiers   
...                ...      ...                     ...                   ...   
2906322  North America       US  Additional Territories  San Juan Puerto Rico   
2906323  North America       US  Additional Territories  San Juan Puerto Rico   
2906324  North America       US  Additional Territories  San Juan Puert

In [6]:
# Filtrer les données pour un pays spécifique (exemple : France)
df_france = df[df["Country"] == "France"]
print("\n📌 Données de la France :")
print(df_france.head())

# Trier les températures d'une ville par ordre croissant
ville = "Paris"
df_ville_sorted = df[df["City"] == ville].sort_values(by="AvgTemperature")
print(f"\n📌 Jours les plus froids et chauds à {ville} :")
print(df_ville_sorted.head())  # Jours les plus froids
print(df_ville_sorted.tail())  # Jours les plus chauds

# Filtrer les températures du mois de janvier en France
df_january = df[(df["Country"] == "France") & (df["Month"] == 1)]
print("\n📌 Températures en France en janvier :")
print(df_january.head())



📌 Données de la France :
        Region Country State   City  Month  Day  Year  AvgTemperature
712420  Europe  France   NaN  Paris      1    1  1995            37.4
712421  Europe  France   NaN  Paris      1    2  1995            35.2
712422  Europe  France   NaN  Paris      1    3  1995            36.0
712423  Europe  France   NaN  Paris      1    4  1995            30.7
712424  Europe  France   NaN  Paris      1    5  1995            27.0

📌 Jours les plus froids et chauds à Paris :
        Region Country State   City  Month  Day  Year  AvgTemperature
716303  Europe  France   NaN  Paris      8   19  2005           -99.0
713874  Europe  France   NaN  Paris     12   25  1998           -99.0
713873  Europe  France   NaN  Paris     12   24  1998           -99.0
713743  Europe  France   NaN  Paris      8   16  1998           -99.0
713725  Europe  France   NaN  Paris      7   29  1998           -99.0
        Region Country State   City  Month  Day  Year  AvgTemperature
721391  Europe  Fra

In [9]:
# Ajouter une colonne date
df["Date"] = pd.to_datetime(df[["Year", "Month", "Day"]], errors="coerce")

# Moyenne annuelle des températures pour une ville donnée
ville = "Paris"
df_paris = df[df["City"] == ville]
mean_temp_per_year = df_paris.groupby("Year")["AvgTemperature"].mean()
print(f"\n📌 Moyenne annuelle des températures à {ville} :")
print(mean_temp_per_year)

# Évolution des températures moyennes par décennie
df["Decade"] = (df["Year"] // 10) * 10
mean_temp_per_decade = df.groupby("Decade")["AvgTemperature"].mean()
print("\n📌 Évolution des températures moyennes par décennie :")
print(mean_temp_per_decade)



📌 Moyenne annuelle des températures à Paris :
Year
1995    53.742192
1996    52.293169
1997    55.580000
1998    50.317534
1999    54.565753
2000    54.337705
2001    53.944932
2002    52.743014
2003    54.562192
2004    53.585246
2005    53.407671
2006    54.199726
2007    53.572055
2008    52.381694
2009    53.061096
2010    51.648219
2011    55.001918
2012    53.256557
2013    52.088493
2014    53.650411
2015    53.434973
2016    51.122951
2017    54.367945
2018    45.773151
2019    52.208219
2020    49.320149
Name: AvgTemperature, dtype: float64

📌 Évolution des températures moyennes par décennie :
Decade
200    -99.000000
1990    51.060152
2000    55.322987
2010    59.560515
2020    53.775568
Name: AvgTemperature, dtype: float64
