# Data Analysis for OpenWeather API

## Objectif du projet : 

Ce projet à pour objectif de récupéré l'ensemble des données météorologique de toute les capitals de chaque pays du monde afin de les classer en fonction de leur facteur métérologique : Ville ou il fait le plus chaud, le plus froid, etc... 

Pour cela, nous allons récupéré des données issues de l'API OpenWeather.



### Install Dependancies : 

In [32]:
! pip install requests pandas matplotlib seaborn



In [1]:
import requests
import json
import os
import time
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


### Récupération des capitales avec l'API Rest Countries

In [24]:
rest_countries_url = "https://restcountries.com/v3.1/all?fields=name,capital"

In [25]:
def get_capitals():
    """
    Interroge l'API REST Countries pour récupérer la liste des capitales de chaque pays du monde.
    Exclut les pays sans capitale.
    """
    try:
        response = requests.get(rest_countries_url, timeout=10)
        response.raise_for_status()
        countries = response.json()

        # Extraire les capitales
        capitals = []
        for country in countries:
            name = country.get('name', {}).get('common', 'Unknown Country')
            capital_list = country.get('capital', [])
            if capital_list:  # Vérifie que la liste des capitales n'est pas vide
                capitals.append({"country": name, "city": capital_list[0]})

        print("\nNombre total de capitales capturées:", len(capitals))
        return capitals

    except requests.exceptions.RequestException as e:
        print(f"Erreur lors de l'interrogation de l'API REST Countries : {e}")
        return []

In [26]:
get_capitals()


Nombre total de capitales capturées: 246


[{'country': 'South Georgia', 'city': 'King Edward Point'},
 {'country': 'Grenada', 'city': "St. George's"},
 {'country': 'Switzerland', 'city': 'Bern'},
 {'country': 'Sierra Leone', 'city': 'Freetown'},
 {'country': 'Hungary', 'city': 'Budapest'},
 {'country': 'Taiwan', 'city': 'Taipei'},
 {'country': 'Wallis and Futuna', 'city': 'Mata-Utu'},
 {'country': 'Barbados', 'city': 'Bridgetown'},
 {'country': 'Pitcairn Islands', 'city': 'Adamstown'},
 {'country': 'Ivory Coast', 'city': 'Yamoussoukro'},
 {'country': 'Tunisia', 'city': 'Tunis'},
 {'country': 'Italy', 'city': 'Rome'},
 {'country': 'Benin', 'city': 'Porto-Novo'},
 {'country': 'Indonesia', 'city': 'Jakarta'},
 {'country': 'Cape Verde', 'city': 'Praia'},
 {'country': 'Saint Kitts and Nevis', 'city': 'Basseterre'},
 {'country': 'Laos', 'city': 'Vientiane'},
 {'country': 'Caribbean Netherlands', 'city': 'Kralendijk'},
 {'country': 'Uganda', 'city': 'Kampala'},
 {'country': 'Andorra', 'city': 'Andorra la Vella'},
 {'country': 'Burund

### Récupération des données : 

In [27]:
# Clé API OpenWeather
api_key = "b022acb509eacae0875ded1afe41a527"

# URL de l'API OpenWeather
base_url = "https://api.openweathermap.org/data/2.5/weather"


In [28]:
# Fonction pour appeler l'API et récupérer les données météo
def fetch_weather_data(api_key, city):
    try:
        params = {"appid": api_key, "lang": "fr", "q": city}
        response = requests.get(base_url, params=params)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors de l'appel à l'API pour {city} : {e}")
        return None

In [29]:
# Récupération des données pour toutes les capitales
def fetch_weather_for_all_capitals(api_key, capitals):
    weather_data = {}
    for capital in capitals:
        city = capital["city"]
        country = capital["country"]
        print(f"Récupération des données pour {city}, {country}...")
        
        data = fetch_weather_data(api_key, city)
        if data:
            weather_data[city] = data
        else:
            weather_data[city] = {"error": "Données non disponibles"}
        
        # Pause pour éviter de dépasser les limites de l'API
        time.sleep(1)
    return weather_data

In [31]:
all_weather_data = fetch_weather_for_all_capitals(api_key, capitals)


Récupération des données pour King Edward Point, South Georgia...
Erreur lors de l'appel à l'API pour King Edward Point : 404 Client Error: Not Found for url: https://api.openweathermap.org/data/2.5/weather?appid=b022acb509eacae0875ded1afe41a527&lang=fr&q=King+Edward+Point
Récupération des données pour St. George's, Grenada...
Récupération des données pour Bern, Switzerland...
Récupération des données pour Freetown, Sierra Leone...
Récupération des données pour Budapest, Hungary...
Récupération des données pour Taipei, Taiwan...
Récupération des données pour Mata-Utu, Wallis and Futuna...
Récupération des données pour Bridgetown, Barbados...
Récupération des données pour Adamstown, Pitcairn Islands...
Récupération des données pour Yamoussoukro, Ivory Coast...
Récupération des données pour Tunis, Tunisia...
Récupération des données pour Rome, Italy...
Récupération des données pour Porto-Novo, Benin...
Récupération des données pour Jakarta, Indonesia...
Récupération des données pour Prai

In [32]:
# Appeler la fonction pour Paris
city = "Paris"
print(f"Récupération des données météo pour {city}...")
paris_weather_data = fetch_weather_data(api_key, city)

# Afficher toutes les données JSON pour Paris
if paris_weather_data:
    print(f"Données météo complètes pour {city} :")
    print(json.dumps(paris_weather_data, indent=4, ensure_ascii=False))
else:
    print(f"Données météo pour {city} non disponibles.")

Récupération des données météo pour Paris...
Données météo complètes pour Paris :
{
    "coord": {
        "lon": 2.3488,
        "lat": 48.8534
    },
    "weather": [
        {
            "id": 701,
            "main": "Mist",
            "description": "brume",
            "icon": "50n"
        }
    ],
    "base": "stations",
    "main": {
        "temp": 272.4,
        "feels_like": 269.74,
        "temp_min": 271.58,
        "temp_max": 273.19,
        "pressure": 1019,
        "humidity": 96,
        "sea_level": 1019,
        "grnd_level": 1009
    },
    "visibility": 2900,
    "wind": {
        "speed": 2.06,
        "deg": 60
    },
    "clouds": {
        "all": 100
    },
    "dt": 1737405872,
    "sys": {
        "type": 2,
        "id": 2012208,
        "country": "FR",
        "sunrise": 1737358471,
        "sunset": 1737390504
    },
    "timezone": 3600,
    "id": 2988507,
    "name": "Paris",
    "cod": 200
}


### Unités des champs JSON de l'API OpenWeather

Les champs et leurs unités associées récupérés depuis l'API OpenWeather sont listés ci-dessous :

#### Coordonnées géographiques
- **`coord.lon`** : degrés (longitude)  
- **`coord.lat`** : degrés (latitude)

#### Conditions météorologiques
- **`weather.id`** : sans unité (identifiant de la condition météorologique)  
- **`weather.main`** : sans unité (groupe de paramètres météorologiques)  
- **`weather.description`** : sans unité (description de la condition météorologique)  
- **`weather.icon`** : sans unité (identifiant de l'icône météo)

#### Données principales
- **`main.temp`** : Kelvin (température)  
- **`main.feels_like`** : Kelvin (température ressentie)  
- **`main.temp_min`** : Kelvin (température minimale)  
- **`main.temp_max`** : Kelvin (température maximale)  
- **`main.pressure`** : hPa (pression atmosphérique au niveau de la mer)  
- **`main.humidity`** : % (humidité)  
- **`main.sea_level`** : hPa (pression atmosphérique au niveau de la mer)  
- **`main.grnd_level`** : hPa (pression atmosphérique au niveau du sol)

#### Visibilité et vent
- **`visibility`** : mètres (visibilité)  
- **`wind.speed`** : mètres/sec (vitesse du vent)  
- **`wind.deg`** : degrés (direction du vent)

#### Nébulosité
- **`clouds.all`** : % (nébulosité)

#### Date et heure
- **`dt`** : UNIX timestamp (date et heure de calcul des données)

#### Informations système
- **`sys.type`** : sans unité (type de la station météorologique)  
- **`sys.id`** : sans unité (identifiant de la station météorologique)  
- **`sys.country`** : sans unité (code pays)  
- **`sys.sunrise`** : UNIX timestamp (heure du lever du soleil)  
- **`sys.sunset`** : UNIX timestamp (heure du coucher du soleil)

#### Fuseau horaire
- **`timezone`** : secondes (décalage horaire par rapport à UTC)

#### Informations sur la ville
- **`id`** : sans unité (identifiant de la ville)  
- **`name`** : sans unité (nom de la ville)

#### Code de réponse
- **`cod`** : sans unité (code de réponse HTTP)

---

### Remarque

Les unités par défaut peuvent être modifiées via le paramètre **`units`** dans l’appel API pour :
- Obtenir les températures en Celsius : **`units=metric`**  
- Obtenir les températures en Fahrenheit et la vitesse du vent en miles/heure : **`units=imperial`**


### Convertion des données semi-structuré : JSON en structuré : DataFrame

In [33]:
def convert_weather_data_to_dataframe(weather_data, capitals):
    # Créer une liste vide pour stocker les données structurées
    structured_data = []

    # Parcourir les données météo de chaque ville
    for capital in capitals:
        city = capital["city"]
        country = capital["country"]
        data = weather_data.get(city, {})

        if "error" in data:
            print(f"Données non disponibles pour {city}, {country}.")
            continue

        # Extraire les informations nécessaires avec gestion des clés manquantes
        structured_data.append({
            "country": country,
            "city": city,
            "id": data.get("id"),
            "lon": data.get("coord", {}).get("lon"),
            "lat": data.get("coord", {}).get("lat"),
            "base": data.get("base"),
            "main": data.get("weather", [{}])[0].get("main"),
            "description": data.get("weather", [{}])[0].get("description"),
            "temp": data.get("main", {}).get("temp"),
            "feels_like": data.get("main", {}).get("feels_like"),
            "temp_min": data.get("main", {}).get("temp_min"),
            "tem_max": data.get("main", {}).get("temp_max"),
            "pressure": data.get("main", {}).get("pressure"),
            "humidity": data.get("main", {}).get("humidity"),
            "sea_level": data.get("main", {}).get("sea_level"),
            "grnd_level": data.get("main", {}).get("grnd_level"),
            "visibility": data.get("visibility"),
            "speed": data.get("wind", {}).get("speed"),
            "deg": data.get("wind", {}).get("deg"),
            "clouds": data.get("clouds", {}).get("all"),
            "dt": data.get("dt"),
            "sunrise": data.get("sys", {}).get("sunrise"),
            "sunset": data.get("sys", {}).get("sunset"),
            "timezone": data.get("timezone"),
            "cod": data.get("cod")
        })

    # Convertir les données structurées en DataFrame
    df = pd.DataFrame(structured_data)
    return df


In [34]:
# Convertir les données collectées en DataFrame
df_weather = convert_weather_data_to_dataframe(all_weather_data, capitals)


Données non disponibles pour King Edward Point, South Georgia.
Données non disponibles pour St. Peter Port, Guernsey.
Données non disponibles pour Fakaofo, Tokelau.
Données non disponibles pour Papeetē, French Polynesia.
Données non disponibles pour Ngerulmud, Palau.
Données non disponibles pour Diego Garcia, British Indian Ocean Territory.


In [35]:
df_weather.head()

Unnamed: 0,country,city,id,lon,lat,base,main,description,temp,feels_like,...,grnd_level,visibility,speed,deg,clouds,dt,sunrise,sunset,timezone,cod
0,Grenada,St. George's,3579925,-61.7485,12.0564,stations,Clouds,peu nuageux,302.97,307.75,...,1008,10000,7.2,100,20,1737403056,1737369129,1737410619,-14400,200
1,Switzerland,Bern,2661552,7.4474,46.9481,stations,Clouds,couvert,271.74,271.74,...,945,9000,0.51,0,87,1737403058,1737356858,1737389669,3600,200
2,Sierra Leone,Freetown,2409306,-13.2299,8.484,stations,Haze,brume sèche,299.99,302.37,...,1005,6000,5.14,210,0,1737403059,1737357162,1737399292,0,200
3,Hungary,Budapest,3054643,19.0399,47.498,stations,Clouds,couvert,271.49,268.68,...,1003,6000,2.06,110,100,1737402978,1737354186,1737386775,3600,200
4,Taiwan,Taipei,1668341,121.5319,25.0478,stations,Clear,ciel dégagé,289.08,287.98,...,999,10000,3.13,100,6,1737403037,1737412800,1737451790,28800,200


In [36]:
df_weather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 25 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   country      240 non-null    object 
 1   city         240 non-null    object 
 2   id           240 non-null    int64  
 3   lon          240 non-null    float64
 4   lat          240 non-null    float64
 5   base         240 non-null    object 
 6   main         240 non-null    object 
 7   description  240 non-null    object 
 8   temp         240 non-null    float64
 9   feels_like   240 non-null    float64
 10  temp_min     240 non-null    float64
 11  tem_max      240 non-null    float64
 12  pressure     240 non-null    int64  
 13  humidity     240 non-null    int64  
 14  sea_level    240 non-null    int64  
 15  grnd_level   240 non-null    int64  
 16  visibility   240 non-null    int64  
 17  speed        240 non-null    float64
 18  deg          240 non-null    int64  
 19  clouds  

In [37]:
df_weather.describe()

Unnamed: 0,id,lon,lat,temp,feels_like,temp_min,tem_max,pressure,humidity,sea_level,grnd_level,visibility,speed,deg,clouds,dt,sunrise,sunset,timezone,cod
count,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0
mean,2499525.0,12.490642,18.854052,288.781167,288.597125,288.446375,289.082542,1016.341667,72.525,1016.341667,974.208333,9024.695833,3.515333,139.995833,46.766667,1737403000.0,1730133000.0,1730172000.0,5223.75,200.0
std,1651845.0,73.888524,25.107127,12.446014,14.565741,12.583943,12.35765,6.566041,19.226447,6.566041,64.019531,2165.998919,2.546528,105.677432,38.45004,131.6981,112146900.0,112149400.0,17620.157084,0.0
min,53654.0,-176.1745,-49.35,248.22,248.22,248.22,248.22,997.0,11.0,997.0,699.0,200.0,0.0,0.0,0.0,1737403000.0,0.0,0.0,-39600.0,200.0
25%,1156250.0,-53.32365,4.097775,277.3375,275.8025,276.8875,277.4425,1011.75,64.0,1011.75,963.5,10000.0,1.54,60.0,12.0,1737403000.0,1737352000.0,1737388000.0,-8100.0,200.0
50%,2390970.0,16.1748,17.997,291.815,291.51,291.815,292.25,1015.0,77.0,1015.0,1005.0,10000.0,2.78,109.0,40.0,1737403000.0,1737360000.0,1737399000.0,3600.0,200.0
75%,3536317.0,47.64665,40.23025,300.0625,301.3925,300.0025,300.15,1020.0,88.0,1020.0,1011.0,10000.0,5.14,230.0,83.5,1737403000.0,1737386000.0,1737422000.0,14400.0,200.0
max,8224783.0,179.1942,78.2186,306.94,309.96,306.94,306.94,1039.0,100.0,1039.0,1028.0,10000.0,11.83,360.0,100.0,1737403000.0,1737481000.0,1737527000.0,46800.0,200.0


In [38]:
df_weather.head()

Unnamed: 0,country,city,id,lon,lat,base,main,description,temp,feels_like,...,grnd_level,visibility,speed,deg,clouds,dt,sunrise,sunset,timezone,cod
0,Grenada,St. George's,3579925,-61.7485,12.0564,stations,Clouds,peu nuageux,302.97,307.75,...,1008,10000,7.2,100,20,1737403056,1737369129,1737410619,-14400,200
1,Switzerland,Bern,2661552,7.4474,46.9481,stations,Clouds,couvert,271.74,271.74,...,945,9000,0.51,0,87,1737403058,1737356858,1737389669,3600,200
2,Sierra Leone,Freetown,2409306,-13.2299,8.484,stations,Haze,brume sèche,299.99,302.37,...,1005,6000,5.14,210,0,1737403059,1737357162,1737399292,0,200
3,Hungary,Budapest,3054643,19.0399,47.498,stations,Clouds,couvert,271.49,268.68,...,1003,6000,2.06,110,100,1737402978,1737354186,1737386775,3600,200
4,Taiwan,Taipei,1668341,121.5319,25.0478,stations,Clear,ciel dégagé,289.08,287.98,...,999,10000,3.13,100,6,1737403037,1737412800,1737451790,28800,200


### Analyse des données :

### Préparation des données : 

Renomé le nom des colonnes poour plus de clarté.

supreesion des colonne: Location_ID, Data_source, Response_code

Convertir les timestamps UNIX au format ISO

Convertir la température en °C

Supprimer les doublons 

Calcule de nouvelle colonne : Daylight Duration, Temperature Difference, Indice de confort thermique

Supprimer les valeur nul / doublons si il y en a 

Standardisé les unité (Pressure (Pa, hPa) ou Wind_Speed (m/s, km/h) doivent être uniformisées.)

Ajouté une colonne Saison 

Filtrage des données par response code égale à 200. 

#### Identifier les doublons : 

In [39]:
duplicates = df_weather[df_weather.duplicated()]

# Afficher les doublons (s'ils existent)
if not duplicates.empty:
    print("Valeurs supprimées (doublons) :")
    print(duplicates)

# Supprimer les doublons du DataFrame principal
df_weather = df_weather.drop_duplicates()


#### Supprimer les lignes avec Response_Code différent de 200 : 

In [40]:
rows_to_delete = df_weather[df_weather["cod"] != 200]
print("Lignes supprimées :")
print(rows_to_delete)

# Supprimer les lignes avec Response_Code différent de 200
df_weather = df_weather[df_weather["cod"] == 200]


Lignes supprimées :
Empty DataFrame
Columns: [country, city, id, lon, lat, base, main, description, temp, feels_like, temp_min, tem_max, pressure, humidity, sea_level, grnd_level, visibility, speed, deg, clouds, dt, sunrise, sunset, timezone, cod]
Index: []

[0 rows x 25 columns]


#### Ajouter une colonne local_datetime (date et heure locale) :

In [41]:
df_weather["local_datetime"] = pd.to_datetime(df_weather["dt"], unit='s') + pd.to_timedelta(df_weather["timezone"], unit='s')

df_weather.head()

Unnamed: 0,country,city,id,lon,lat,base,main,description,temp,feels_like,...,visibility,speed,deg,clouds,dt,sunrise,sunset,timezone,cod,local_datetime
0,Grenada,St. George's,3579925,-61.7485,12.0564,stations,Clouds,peu nuageux,302.97,307.75,...,10000,7.2,100,20,1737403056,1737369129,1737410619,-14400,200,2025-01-20 15:57:36
1,Switzerland,Bern,2661552,7.4474,46.9481,stations,Clouds,couvert,271.74,271.74,...,9000,0.51,0,87,1737403058,1737356858,1737389669,3600,200,2025-01-20 20:57:38
2,Sierra Leone,Freetown,2409306,-13.2299,8.484,stations,Haze,brume sèche,299.99,302.37,...,6000,5.14,210,0,1737403059,1737357162,1737399292,0,200,2025-01-20 19:57:39
3,Hungary,Budapest,3054643,19.0399,47.498,stations,Clouds,couvert,271.49,268.68,...,6000,2.06,110,100,1737402978,1737354186,1737386775,3600,200,2025-01-20 20:56:18
4,Taiwan,Taipei,1668341,121.5319,25.0478,stations,Clear,ciel dégagé,289.08,287.98,...,10000,3.13,100,6,1737403037,1737412800,1737451790,28800,200,2025-01-21 03:57:17


#### Supprimer les colonnes inutiles : 

In [42]:
columns_to_drop = ["dt", "timezone","id", "base", "cod"]
df_weather = df_weather.drop(columns=columns_to_drop)

df_weather.head()

Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,humidity,sea_level,grnd_level,visibility,speed,deg,clouds,sunrise,sunset,local_datetime
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,302.97,307.75,302.97,302.97,...,70,1014,1008,10000,7.2,100,20,1737369129,1737410619,2025-01-20 15:57:36
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,271.74,271.74,271.1,273.98,...,92,1020,945,9000,0.51,0,87,1737356858,1737389669,2025-01-20 20:57:38
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,299.99,302.37,299.99,299.99,...,78,1011,1005,6000,5.14,210,0,1737357162,1737399292,2025-01-20 19:57:39
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,271.49,268.68,271.37,272.29,...,93,1026,1003,6000,2.06,110,100,1737354186,1737386775,2025-01-20 20:56:18
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,289.08,287.98,288.18,289.86,...,48,1019,999,10000,3.13,100,6,1737412800,1737451790,2025-01-21 03:57:17


#### Conversion des timestamps UNIX en format ISO 8601 : 

In [43]:
for col in ["sunrise", "sunset"]:
    df_weather[col] = pd.to_datetime(df_weather[col], unit='s')

df_weather.head()


Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,humidity,sea_level,grnd_level,visibility,speed,deg,clouds,sunrise,sunset,local_datetime
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,302.97,307.75,302.97,302.97,...,70,1014,1008,10000,7.2,100,20,2025-01-20 10:32:09,2025-01-20 22:03:39,2025-01-20 15:57:36
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,271.74,271.74,271.1,273.98,...,92,1020,945,9000,0.51,0,87,2025-01-20 07:07:38,2025-01-20 16:14:29,2025-01-20 20:57:38
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,299.99,302.37,299.99,299.99,...,78,1011,1005,6000,5.14,210,0,2025-01-20 07:12:42,2025-01-20 18:54:52,2025-01-20 19:57:39
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,271.49,268.68,271.37,272.29,...,93,1026,1003,6000,2.06,110,100,2025-01-20 06:23:06,2025-01-20 15:26:15,2025-01-20 20:56:18
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,289.08,287.98,288.18,289.86,...,48,1019,999,10000,3.13,100,6,2025-01-20 22:40:00,2025-01-21 09:29:50,2025-01-21 03:57:17


#### Conversion des températures de Kelvin en °C : 

In [44]:
temperature_columns = ["temp", "feels_like", "temp_min", "tem_max"]
for col in temperature_columns:
    df_weather[col] = df_weather[col] - 273.15
    
df_weather.head()

Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,humidity,sea_level,grnd_level,visibility,speed,deg,clouds,sunrise,sunset,local_datetime
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,29.82,34.6,29.82,29.82,...,70,1014,1008,10000,7.2,100,20,2025-01-20 10:32:09,2025-01-20 22:03:39,2025-01-20 15:57:36
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,-1.41,-1.41,-2.05,0.83,...,92,1020,945,9000,0.51,0,87,2025-01-20 07:07:38,2025-01-20 16:14:29,2025-01-20 20:57:38
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,26.84,29.22,26.84,26.84,...,78,1011,1005,6000,5.14,210,0,2025-01-20 07:12:42,2025-01-20 18:54:52,2025-01-20 19:57:39
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,-1.66,-4.47,-1.78,-0.86,...,93,1026,1003,6000,2.06,110,100,2025-01-20 06:23:06,2025-01-20 15:26:15,2025-01-20 20:56:18
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,15.93,14.83,15.03,16.71,...,48,1019,999,10000,3.13,100,6,2025-01-20 22:40:00,2025-01-21 09:29:50,2025-01-21 03:57:17


#### Ajout de la durée du jour : 

In [45]:
df_weather["daylight_duration"] = (df_weather["sunset"] - df_weather["sunrise"]).dt.total_seconds() / 3600

df_weather.head()

Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,sea_level,grnd_level,visibility,speed,deg,clouds,sunrise,sunset,local_datetime,daylight_duration
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,29.82,34.6,29.82,29.82,...,1014,1008,10000,7.2,100,20,2025-01-20 10:32:09,2025-01-20 22:03:39,2025-01-20 15:57:36,11.525
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,-1.41,-1.41,-2.05,0.83,...,1020,945,9000,0.51,0,87,2025-01-20 07:07:38,2025-01-20 16:14:29,2025-01-20 20:57:38,9.114167
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,26.84,29.22,26.84,26.84,...,1011,1005,6000,5.14,210,0,2025-01-20 07:12:42,2025-01-20 18:54:52,2025-01-20 19:57:39,11.702778
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,-1.66,-4.47,-1.78,-0.86,...,1026,1003,6000,2.06,110,100,2025-01-20 06:23:06,2025-01-20 15:26:15,2025-01-20 20:56:18,9.0525
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,15.93,14.83,15.03,16.71,...,1019,999,10000,3.13,100,6,2025-01-20 22:40:00,2025-01-21 09:29:50,2025-01-21 03:57:17,10.830556


#### Calcul de la différence de température : 

In [46]:
df_weather["temperature_difference"] = (
    df_weather["tem_max"] - df_weather["temp_min"]
)

df_weather.head()

Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,grnd_level,visibility,speed,deg,clouds,sunrise,sunset,local_datetime,daylight_duration,temperature_difference
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,29.82,34.6,29.82,29.82,...,1008,10000,7.2,100,20,2025-01-20 10:32:09,2025-01-20 22:03:39,2025-01-20 15:57:36,11.525,0.0
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,-1.41,-1.41,-2.05,0.83,...,945,9000,0.51,0,87,2025-01-20 07:07:38,2025-01-20 16:14:29,2025-01-20 20:57:38,9.114167,2.88
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,26.84,29.22,26.84,26.84,...,1005,6000,5.14,210,0,2025-01-20 07:12:42,2025-01-20 18:54:52,2025-01-20 19:57:39,11.702778,0.0
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,-1.66,-4.47,-1.78,-0.86,...,1003,6000,2.06,110,100,2025-01-20 06:23:06,2025-01-20 15:26:15,2025-01-20 20:56:18,9.0525,0.92
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,15.93,14.83,15.03,16.71,...,999,10000,3.13,100,6,2025-01-20 22:40:00,2025-01-21 09:29:50,2025-01-21 03:57:17,10.830556,1.68


#### Calcul de l'indice de confort thermique (simplifié) :

In [47]:
# Calcul de l'indice de confort thermique incluant l'effet de la vitesse du vent
df_weather["thermal_comfort_index"] = (
    df_weather["temp"] -  # Température ambiante
    (0.55 * (1 - (df_weather["humidity"] / 100)) * (df_weather["temp"] - 14.5)) -  # Effet de l'humidité
    (0.2 * df_weather["speed"])  # Effet du vent
)

# Afficher un aperçu des résultats
df_weather[["temp", "humidity", "speed", "thermal_comfort_index"]].head()


Unnamed: 0,temp,humidity,speed,thermal_comfort_index
0,29.82,70,7.2,25.8522
1,-1.41,92,0.51,-0.81196
2,26.84,78,5.14,24.31886
3,-1.66,93,2.06,-1.44984
4,15.93,48,3.13,14.89502


#### Ajout de la colonne Saison : 

In [48]:
def get_season(date, lat):
    """
    Détermine la saison en fonction de la date et de la latitude.
    """
    day_of_year = date.timetuple().tm_yday  # Numéro du jour dans l'année

    if lat > 0:  # Hémisphère nord
        if 80 <= day_of_year < 172:  # 21 mars - 20 juin
            return "Spring"
        elif 172 <= day_of_year < 264:  # 21 juin - 20 septembre
            return "Summer"
        elif 264 <= day_of_year < 355:  # 21 septembre - 20 décembre
            return "Autumn"
        else:  # 21 décembre - 20 mars
            return "Winter"
    else:  # Hémisphère sud
        if 80 <= day_of_year < 172:  # 21 mars - 20 juin
            return "Autumn"
        elif 172 <= day_of_year < 264:  # 21 juin - 20 septembre
            return "Winter"
        elif 264 <= day_of_year < 355:  # 21 septembre - 20 décembre
            return "Spring"
        else:  # 21 décembre - 20 mars
            return "Summer"

# Appliquer la fonction pour créer la colonne "season"
df_weather["season"] = df_weather.apply(
    lambda row: get_season(row["local_datetime"], row["lat"]), axis=1
)

# Vérification des résultats
print(df_weather[["local_datetime", "lat", "season"]].head())

       local_datetime      lat  season
0 2025-01-20 15:57:36  12.0564  Winter
1 2025-01-20 20:57:38  46.9481  Winter
2 2025-01-20 19:57:39   8.4840  Winter
3 2025-01-20 20:56:18  47.4980  Winter
4 2025-01-21 03:57:17  25.0478  Winter


#### Ajout de catégories pour les températures : 

In [49]:
def categorize_temperature(temp):
    if temp < 0:
        return "Very Cold"
    elif temp < 10:
        return "Cold"
    elif temp < 25:
        return "Moderate"
    else:
        return "Hot"

df_weather["temperature_category"] = df_weather["temp"].apply(categorize_temperature)

df_weather.head()


Unnamed: 0,country,city,lon,lat,main,description,temp,feels_like,temp_min,tem_max,...,deg,clouds,sunrise,sunset,local_datetime,daylight_duration,temperature_difference,thermal_comfort_index,season,temperature_category
0,Grenada,St. George's,-61.7485,12.0564,Clouds,peu nuageux,29.82,34.6,29.82,29.82,...,100,20,2025-01-20 10:32:09,2025-01-20 22:03:39,2025-01-20 15:57:36,11.525,0.0,25.8522,Winter,Hot
1,Switzerland,Bern,7.4474,46.9481,Clouds,couvert,-1.41,-1.41,-2.05,0.83,...,0,87,2025-01-20 07:07:38,2025-01-20 16:14:29,2025-01-20 20:57:38,9.114167,2.88,-0.81196,Winter,Very Cold
2,Sierra Leone,Freetown,-13.2299,8.484,Haze,brume sèche,26.84,29.22,26.84,26.84,...,210,0,2025-01-20 07:12:42,2025-01-20 18:54:52,2025-01-20 19:57:39,11.702778,0.0,24.31886,Winter,Hot
3,Hungary,Budapest,19.0399,47.498,Clouds,couvert,-1.66,-4.47,-1.78,-0.86,...,110,100,2025-01-20 06:23:06,2025-01-20 15:26:15,2025-01-20 20:56:18,9.0525,0.92,-1.44984,Winter,Very Cold
4,Taiwan,Taipei,121.5319,25.0478,Clear,ciel dégagé,15.93,14.83,15.03,16.71,...,100,6,2025-01-20 22:40:00,2025-01-21 09:29:50,2025-01-21 03:57:17,10.830556,1.68,14.89502,Winter,Moderate


#### Renommer les colonnes avec leurs unités : 

In [50]:
# Dictionnaire pour renommer les colonnes avec leurs unités
rename_columns = {
    "lon": "longitude",
    "lat": "latitude",
    "main": "weather_Condition",
    "description": "weather_description",
    "temp": "temperature",
    "feels_like": "feels_like_temperature",
    "temp_min": "min_temperature",
    "tem_max": "max_temperature",
    "sea_level": "sea_level_pressure",
    "grnd_level": "ground_level_pressure",
    "speed": "wind_Speed",
    "deg": "wind_direction",
    "clouds": "cloud_cover",
    "sunrise": "sunrise_time",
    "sunset": "sunset_time",
}

# Renommer les colonnes du DataFrame
df_weather.rename(columns=rename_columns, inplace=True)

df_weather.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 26 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   country                 240 non-null    object        
 1   city                    240 non-null    object        
 2   longitude               240 non-null    float64       
 3   latitude                240 non-null    float64       
 4   weather_Condition       240 non-null    object        
 5   weather_description     240 non-null    object        
 6   temperature             240 non-null    float64       
 7   feels_like_temperature  240 non-null    float64       
 8   min_temperature         240 non-null    float64       
 9   max_temperature         240 non-null    float64       
 10  pressure                240 non-null    int64         
 11  humidity                240 non-null    int64         
 12  sea_level_pressure      240 non-null    int64     

#### Trié l'ordre des colonnes : 

In [51]:
# Liste des colonnes dans un ordre logique
column_order = [
    # Informations géographiques
    "country", "city", "longitude", "latitude",
    
    # Données météorologiques générales
    "weather_Condition", "weather_description",
    
    # Données relatives à la température
    "temperature","temperature_category", "feels_like_temperature", "min_temperature", "max_temperature",
    "temperature_difference", "thermal_comfort_index",
    
    # Données sur la pression et l'humidité
    "pressure", "sea_level_pressure", "ground_level_pressure", "humidity",
    
    # Données sur la visibilité et les vents
    "visibility", "wind_Speed", "wind_direction",
    
    # Données sur la nébulosité
    "cloud_cover",
    
    # Données temporelles
    "sunrise_time", "sunset_time", "daylight_duration", "local_datetime",
    
    # Informations dérivées
    "season"
]

# Réorganiser les colonnes
df_weather = df_weather[column_order]

df_weather.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 26 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   country                 240 non-null    object        
 1   city                    240 non-null    object        
 2   longitude               240 non-null    float64       
 3   latitude                240 non-null    float64       
 4   weather_Condition       240 non-null    object        
 5   weather_description     240 non-null    object        
 6   temperature             240 non-null    float64       
 7   temperature_category    240 non-null    object        
 8   feels_like_temperature  240 non-null    float64       
 9   min_temperature         240 non-null    float64       
 10  max_temperature         240 non-null    float64       
 11  temperature_difference  240 non-null    float64       
 12  thermal_comfort_index   240 non-null    float64   