In [19]:
import requests
import zipfile
import os
import json

# URL du fichier ZIP
url = "https://opendata.paris.fr/api/datasets/1.0/comptages-routiers-permanents-historique/attachments/opendata_txt_2020_zip/"

# Nom local du fichier ZIP
zip_filename = "comptages_routiers_2020.zip"

# Dossier où extraire les fichiers
output_folder = "extracted_data"

# Étape 1 : Télécharger le fichier ZIP
response = requests.get(url, stream=True)
if response.status_code == 200:
    with open(zip_filename, "wb") as f:
        f.write(response.content)
    print(f"Fichier téléchargé : {zip_filename}")
else:
    print(f"Erreur lors du téléchargement : {response.status_code}")
    exit()

# Étape 2 : Extraire le contenu du fichier ZIP
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
    all_files = zip_ref.namelist()[:2]  # Limiter à 2 fichiers
    for file in all_files:
        zip_ref.extract(file, output_folder)
    print(f"Deux premiers fichiers extraits : {all_files}")

# Étape 3 : Convertir les fichiers texte en JSON
for file in all_files:
    file_path = os.path.join(output_folder, file)
    if file.endswith(".txt"):  # Assurez-vous que le fichier est un fichier texte
        try:
            json_data = []
            with open(file_path, "r", encoding="utf-8") as f:
                # Lire le fichier ligne par ligne et convertir en JSON
                for line in f:
                    data = line.strip().split("\t")  # Séparer les données par tabulation
                    json_data.append(data)
            
            # Sauvegarder les données en JSON
            json_filename = file_path.replace(".txt", ".json")
            with open(json_filename, "w", encoding="utf-8") as json_file:
                json.dump(json_data, json_file, indent=4)
            print(f"Fichier converti en JSON : {json_filename}")
        except Exception as e:
            print(f"Erreur lors du traitement du fichier {file}: {e}")



Fichier téléchargé : comptages_routiers_2020.zip
Deux premiers fichiers extraits : ['trafic_capteurs_2020_W00_20200101_20200108.txt', 'trafic_capteurs_2020_W01_20200108_20200115.txt']
Fichier converti en JSON : extracted_data/trafic_capteurs_2020_W00_20200101_20200108.json
Fichier converti en JSON : extracted_data/trafic_capteurs_2020_W01_20200108_20200115.json


In [17]:
import json
import numpy as np

# Fonction pour créer la grille à partir des latitudes et longitudes
def creer_grille(lat_min, lat_max, lon_min, lon_max, step):
    grille = []
    latitudes = np.arange(lat_min, lat_max, step)
    longitudes = np.arange(lon_min, lon_max, step)
    
    for i in range(len(latitudes) - 1):
        for j in range(len(longitudes) - 1):
            carre = {
                "id": f"{i}_{j}",  # Identifiant unique pour chaque carré
                "lat_min": latitudes[i],
                "lat_max": latitudes[i + 1],
                "lon_min": longitudes[j],
                "lon_max": longitudes[j + 1]
            }
            grille.append(carre)
    return grille

# Fonction pour trouver le carré correspondant à un point
def trouver_carre(lat, lon, grille):
    for carre in grille:
        if carre["lat_min"] <= lat < carre["lat_max"] and carre["lon_min"] <= lon < carre["lon_max"]:
            return carre["id"]
    return None

# Définir les limites de la grille
lat_min, lat_max = 48.81, 48.92
lon_min, lon_max = 2.255, 2.42
step = 0.005  # Pas pour la grille, correspond à la taille d'un carré

# Créer la grille
grille = creer_grille(lat_min, lat_max, lon_min, lon_max, step)

# Fonction pour extraire les données correctement
def extraire_donnees(item):
    champs = item[0].split(";")
    
    try:
        # Vérifier si la valeur de k peut être convertie en float
        k = champs[9] if champs[9] else None
        lat = champs[5] if champs[5] else None  # Vérifier ici si lat est au bon indice
        lon = champs[4] if champs[4] else None  # Vérifier ici si lon est au bon indice
        t_1h = champs[6]
        
        # Tentative de conversion de k en float
        k = float(k) if k and k.replace('.', '', 1).isdigit() else None
        
        # Tentative de conversion de lat et lon en float
        lat = float(lat) if lat and lat.replace('.', '', 1).isdigit() else None
        lon = float(lon) if lon and lon.replace('.', '', 1).isdigit() else None
        
        # Vérification des données extraites
        print(f"Valeur k : {k}")
        print(f"Coordonnées : lat={lat}, lon={lon}")
        print(f"t_1h : {t_1h}")
        
        # Si lat, lon ou k sont invalides, retourner None
        if lat is None or lon is None or k is None:
            return None, None, None, None
        return lat, lon, k, t_1h
    except Exception as e:
        print(f"Erreur d'extraction : {e}")
        return None, None, None, None

# Charger les données JSON
with open("extracted_data/trafic_capteurs_2020_W00_20200101_20200108.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# Initialiser le regroupement par carré et t_1h
regroupement = {}

# Limiter l'exécution aux 100 premières lignes pour tester
for item in data[:100]:  # Test avec un sous-ensemble des données
    lat, lon, k, t_1h = extraire_donnees(item)
    
    if lat is not None and lon is not None and k is not None and t_1h is not None:
        carre_id = trouver_carre(lat, lon, grille)
        
        if carre_id is not None:
            # Créer une clé composée de l'ID du carré et de l'horodatage t_1h
            key = (carre_id, t_1h)
            
            if key not in regroupement:
                regroupement[key] = {"somme_k": 0, "count_k": 0}
            
            regroupement[key]["somme_k"] += k
            regroupement[key]["count_k"] += 1

# Calcul des moyennes pour chaque carré et chaque t_1h
resultats_final = []
for key, contenu in regroupement.items():
    carre_id, t_1h = key
    somme_k = contenu["somme_k"]
    count_k = contenu["count_k"]
    moyenne_k = somme_k / count_k if count_k > 0 else None
    resultats_final.append({"carre_id": carre_id, "t_1h": t_1h, "moyenne_k": moyenne_k})

# Sauvegarder les résultats dans un fichier JSON
with open("moyennes_par_carre_et_t1h.json", "w", encoding="utf-8") as f:
    json.dump(resultats_final, f, indent=4, ensure_ascii=False)

print("Moyennes calculées et sauvegardées dans 'moyennes_par_carre_et_t1h.json'")


Valeur k : None
Coordonnées : lat=None, lon=None
t_1h : t_1h
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 01:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 02:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 03:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 04:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 05:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 06:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 07:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 08:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 09:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 10:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 11:00:00
Valeur k : 0.0
Coordonnées : lat=None, lon=459.0
t_1h : 2020-01-01 12:00:00
Valeur k : 0.0
Coordonnées 

Importation de la table référentiel en csv


In [16]:
import requests

# URL du fichier CSV que vous voulez télécharger
url = 'https://parisdata.opendatasoft.com/api/explore/v2.1/catalog/datasets/referentiel-comptages-routiers/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B'

# Nom local sous lequel vous voulez sauvegarder le fichier
local_filename = 'referentiel.csv'

# Télécharger le fichier
response = requests.get(url)

# Vérifier si la demande a réussi (status_code 200)
if response.status_code == 200:
    with open(local_filename, 'wb') as f:
        f.write(response.content)
    print(f"Fichier téléchargé et sauvegardé sous : {local_filename}")
else:
    print(f"Erreur lors du téléchargement du fichier : {response.status_code}")

Fichier téléchargé et sauvegardé sous : referentiel.csv


Visualisation des tables 

In [61]:
import pandas as pd


# Charger le fichier du référentiel avec les informations géographiques
geo_df = pd.read_csv("referentiel.csv", delimiter=";")
geo_df[['lat', 'lon']] = geo_df['geo_point_2d'].str.split(',', expand=True)
geo_df = geo_df[['Identifiant arc','lat', 'lon']]
# Afficher les premières lignes pour vérifier la structure
geo_df.head(10)

Unnamed: 0,Identifiant arc,lat,lon
0,6799,48.88610804018005,2.3060170797614274
1,6839,48.88284612476736,2.309608336489109
2,6381,48.88185021600981,2.313636877615184
3,1240,48.867653082202935,2.362827833173667
4,5164,48.83748471020789,2.2572392666841106
5,6603,48.82680441725183,2.3040355371176604
6,6593,48.86194217627273,2.31342704120477
7,6813,48.85824539762091,2.314401975386383
8,4382,48.87468482154655,2.303280892510164
9,269,48.86779977023447,2.314350336430965


In [69]:
try:
    trafic_df = pd.read_csv("extracted_data/trafic_capteurs_2020_W00_20200101_20200108.txt", delimiter=";")
    print("Fichier trafic_capteurs_2020_W00_20200101_20200108.txt chargé avec succès")
    
except Exception as e:
    print(f"Erreur lors du chargement du fichier trafic_capteurs_2020_W00_20200101_20200108.txt : {e}")

trafic_df = trafic_df[['iu_ac','k','t_1h']]
trafic_df ['k'] = trafic_df ['k'].fillna(0)
print(trafic_df.head(4))


Fichier trafic_capteurs_2020_W00_20200101_20200108.txt chargé avec succès
   iu_ac    k                 t_1h
0    799  0.0  2020-01-01 01:00:00
1    799  0.0  2020-01-01 02:00:00
2    799  0.0  2020-01-01 03:00:00
3    799  0.0  2020-01-01 04:00:00


In [70]:
geo_df.rename(columns={"Identifiant arc": "iu_ac"}, inplace=True)
geo_df.head(4)

Unnamed: 0,iu_ac,lat,lon
0,6799,48.88610804018005,2.3060170797614274
1,6839,48.88284612476736,2.309608336489109
2,6381,48.88185021600981,2.313636877615184
3,1240,48.867653082202935,2.362827833173667


In [71]:
# Faire la jointure sur un identifiant commun (par exemple, 'iu_ac')
merged_df = pd.merge(trafic_df, geo_df, on='iu_ac', how='left')



In [77]:
# Afficher les premières lignes du DataFrame fusionné
merged_df.head(2)
print(merged_df.dtypes)

iu_ac      int64
k        float64
t_1h      object
lat       object
lon       object
dtype: object


In [73]:
import pandas as pd
import numpy as np

# Fonction pour créer la grille à partir des latitudes et longitudes
def creer_grille(lat_min, lat_max, lon_min, lon_max, step):
    grille = []
    latitudes = np.arange(lat_min, lat_max, step)
    longitudes = np.arange(lon_min, lon_max, step)
    
    for i in range(len(latitudes) - 1):
        for j in range(len(longitudes) - 1):
            carre = {
                "id": f"{i}_{j}",  # Identifiant unique pour chaque carré
                "lat_min": latitudes[i],
                "lat_max": latitudes[i + 1],
                "lon_min": longitudes[j],
                "lon_max": longitudes[j + 1]
            }
            grille.append(carre)
    return grille

# Fonction pour trouver le carré correspondant à un point
def trouver_carre(lat, lon, grille):
    if lat is None or lon is None:
        return None
    for carre in grille:
        if carre["lat_min"] <= lat < carre["lat_max"] and carre["lon_min"] <= lon < carre["lon_max"]:
            return carre["id"]
    return None

# Définir les limites de la grille
lat_min, lat_max = 48.81, 48.92
lon_min, lon_max = 2.255, 2.42
step = 0.005  # Pas pour la grille, correspond à la taille d'un carré

# Créer la grille
grille = creer_grille(lat_min, lat_max, lon_min, lon_max, step)



# Fonction pour associer le carré à chaque ligne du DataFrame
def associer_carres(df):
    df['carre_id'] = df.apply(lambda row: trouver_carre(row['lat'], row['lon'], grille), axis=1)
    return df



In [78]:
# Nettoyage des espaces dans lat et lon
merged_df['lat'] = merged_df['lat'].str.strip()
merged_df['lon'] = merged_df['lon'].str.strip()

# Conversion en float avec gestion des erreurs
merged_df['lat'] = pd.to_numeric(merged_df['lat'], errors='coerce')
merged_df['lon'] = pd.to_numeric(merged_df['lon'], errors='coerce')

# Supprimer les lignes avec des NaN dans lat ou lon
merged_df = merged_df.dropna(subset=['lat', 'lon'])

# Appliquer la fonction pour associer les carrés
merged_df['carre_id'] = merged_df.apply(lambda row: trouver_carre(row['lat'], row['lon'], grille), axis=1)

# Supprimer les lignes où carre_id est NaN
merged_df = merged_df.dropna(subset=['carre_id'])

print(merged_df.head())


   iu_ac    k                 t_1h        lat       lon carre_id
0    799  0.0  2020-01-01 01:00:00  48.820906  2.355258     2_20
1    799  0.0  2020-01-01 02:00:00  48.820906  2.355258     2_20
2    799  0.0  2020-01-01 03:00:00  48.820906  2.355258     2_20
3    799  0.0  2020-01-01 04:00:00  48.820906  2.355258     2_20
4    799  0.0  2020-01-01 05:00:00  48.820906  2.355258     2_20


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_df['carre_id'] = merged_df.apply(lambda row: trouver_carre(row['lat'], row['lon'], grille), axis=1)


In [80]:
# Regrouper les données par carré et t_1h, puis calculer la moyenne de k
resultats_groupes = merged_df.groupby(['carre_id', 't_1h']).agg(
    moyenne_k=('k', 'mean'),
    somme_k=('k', 'sum'),
    count_k=('k', 'count')
).reset_index()

resultats_groupes.head(10)

Unnamed: 0,carre_id,t_1h,moyenne_k,somme_k,count_k
0,0_16,2020-01-01 01:00:00,0.65,1.3,2
1,0_16,2020-01-01 02:00:00,0.725,1.45,2
2,0_16,2020-01-01 03:00:00,0.925,1.85,2
3,0_16,2020-01-01 04:00:00,1.125,2.25,2
4,0_16,2020-01-01 05:00:00,0.825,1.65,2
5,0_16,2020-01-01 06:00:00,0.875,1.75,2
6,0_16,2020-01-01 07:00:00,0.725,1.45,2
7,0_16,2020-01-01 08:00:00,0.475,0.95,2
8,0_16,2020-01-01 09:00:00,0.475,0.95,2
9,0_16,2020-01-01 10:00:00,0.7,1.4,2


In [81]:
# Sauvegarder les résultats dans un fichier CSV
resultats_groupes.to_csv('moyennes_par_carre_et_t1h.csv', index=False)

print("Moyennes calculées et sauvegardées dans 'moyennes_par_carre_et_t1h.csv'")

Moyennes calculées et sauvegardées dans 'moyennes_par_carre_et_t1h.csv'
