In [2]:
import geopandas as gpd
import pandas as pd
import json
import requests
import os
from enum import Enum
from tqdm.notebook import tqdm
import pprint
import shutil
import time
from shapely.geometry import shape
from colorama import Fore, Back, Style

In [117]:
test = gpd.read_file('/Users/Pierr/Downloads/france-20230101.geojson')

In [2]:
def missing(df,detail=True):
    total = 0
    for col in df.columns:
        miss = df[col].isnull().sum()
        pct = df[col].isna().mean() * 100
        total += miss
        if miss != 0:
            if pct>10: color=Fore.RED
            else: color=Fore.YELLOW
            print(color+'{} => {} [{}%]'.format(col, miss, round(pct, 2)))
        
        elif (total == 0) and(detail):
            print(Fore.GREEN+'{} => no missing values [{}%]'.format(col, 0))
        total=0

In [120]:
missing(test)

[32mid_local => no missing values [0%]
[32mid_osm => no missing values [0%]
[31mnum_iti => 240797 [88.12%]
[33mcode_com_d => 202 [0.07%]
[33mame_d => 7 [0.0%]
[31mregime_d => 38129 [13.95%]
[33msens_d => 59 [0.02%]
[31mlargeur_d => 261200 [95.59%]
[31mlocal_d => 189049 [69.18%]
[32mstatut_d => no missing values [0%]
[31mrevet_d => 113407 [41.5%]
[33mcode_com_g => 204 [0.07%]
[32mame_g => no missing values [0%]
[31mregime_g => 85280 [31.21%]
[31msens_g => 54376 [19.9%]
[31mlargeur_g => 262304 [95.99%]
[31mlocal_g => 189764 [69.44%]
[32mstatut_g => no missing values [0%]
[31mrevet_g => 113406 [41.5%]
[31maccess_ame => 247076 [90.42%]
[32mdate_maj => no missing values [0%]
[31mtrafic_vit => 39726 [14.54%]
[31mlumiere => 210753 [77.13%]
[31md_service => 271462 [99.34%]
[32msource => no missing values [0%]
[32mproject_c => no missing values [0%]
[32mref_geo => no missing values [0%]
[32mgeometry => no missing values [0%]


In [3]:
def get_coords(line):
    # On crée un objet géométrique à partir de la linestring
    line = shape(line)
    # On récupère les coordonnées du premier point de la linestring
    longitude_dep, latitude_dep = line.coords[0]
    longitude_fin, latitude_fin = line.coords[1]
    return latitude_dep, longitude_dep, latitude_fin, longitude_fin

def create_lat_long(df):
    df["coords"] = df["geometry"].apply(get_coords)
    df[["latitude_dep", "longitude_dep", "latitude_fin", "longitude_fin"]] = pd.DataFrame(df["coords"].tolist(), index=df.index)
    df = df.drop("coords", axis=1)
    return df

def preprocessing(df):
    #hesite to drop : regime_d, code_com_d, regime_g, code_come_g
    df = create_lat_long(df)
    df = df.drop(columns=["id_local", "id_osm", "num_iti", "sens_d", 
                                "largeur_d", "local_d", "statut_d", "revet_d", "sens_g", "largeur_g", "local_g", "statut_g", "revet_g","ref_geo", 'project_c',
                                "d_service", "lumiere", "source", "geometry", "trafic_vit", "access_ame"])
    df = df.dropna(subset=["code_com_d"])
    return df

def is_paris(code):
    # Les codes postaux de Paris vont de 75001 à 75020
    return code.startswith("75") and "0" <= code[-2:] <= "9"

def amenagement_paris(df):
    df = preprocessing(df)
    df = df[df["code_com_d"].apply(is_paris)]
    return df



In [4]:
geo_fin = amenagement_paris(test)

NameError: name 'test' is not defined

In [147]:
def progress_bar(items):
    start_time = time.time()
    for i, item in enumerate(items):
        bar_length = int(50 * (i+1) / len(items))
        bar = "#" * bar_length + "-" * (50 - bar_length)
        print(f"{i+1}/{len(items)} [{bar}]", end='\r')
        yield item

In [3]:
class AccidentData:
    def __init__(self):
        # Répertoire où se trouvent les données
        self.data_dir = "..\data"
        # Nom du fichier JSON contenant les URLs de téléchargement des données
        self.accident_corporels_urls_filename = "accident_corporels_urls.json"
        # Liste des catégories de données disponibles
        self.categories = ["usagers", "vehicules", "lieux", "caracteristiques"]
        # Lecture des URLs à partir du fichier JSON
        self.read_urls()
        # Années pour lesquelles il y a des données disponibles
        self.years = list(self.urls["usagers"].keys())
        # Vérification et contrôle des données
        self.check_and_control_data()
        self.df_final = None
    
    def read_urls(self):
        """
        Charge les URLs des données dans l'attribut self.urls.
        """
        with open(os.path.join(self.data_dir, self.accident_corporels_urls_filename),"r") as file:
            self.urls = json.load(file)
    
    def download_data(self):
        """
        Télécharge les données manquantes.
        """
        # S'il y a des fichiers manquants
        if len(self.filenames) > 0:
            print("[Check] Checking completed, some data is missing!")
            print("[Download] Downloading missing data...")
            # Pour chaque catégorie de données
            for filename in self.filenames.keys():
                filename_dir = os.path.join(self.data_dir,filename) # Répertoire où stocker les données
                print(f"\n[Download] Downloading {filename} files...")
                # Pour chaque année
                for i, year in enumerate(self.filenames[filename]):
                    # Téléchargement des données
                    data = requests.get(self.urls[filename][year]).text

                     # Création du répertoire s'il n'existe pas
                    if not os.path.exists(filename_dir):
                        os.makedirs(filename_dir)

                    # Écriture des données dans un fichier CSV
                    with open(os.path.join(filename_dir,f"{year}.csv"), 'w', encoding='utf-8') as f:
                        f.write(data)

                    # Affichage de la barre de progression
                    bar_length = int(50 * (i+1) / len(self.filenames[filename]))
                    bar = "#" * bar_length + "-" * (50 - bar_length)
                    print(f"{i+1}/{len(self.filenames[filename])} [{bar}]", end='\r')
            print("\n[Download] Download completed!")
        # S'il n'y a pas de fichiers manquants
        else:
            print("[Check] Checking completed, no data is missing!")

    def check_missing_data(self):
        """
        Vérifie les données manquantes.
        """
        print("[Check] Checking if data is in your computer...")
        # Dictionnaire des fichiers manquants par catégorie
        self.filenames = {}
        # Pour chaque catégorie de données
        for categorie in self.categories:
            # Chemin du répertoire de cette catégorie
            filename_path = os.path.join(self.data_dir,categorie)
            # Si le répertoire de cette catégorie n'existe pas, tous les fichiers de cette catégorie sont manquants
            if not os.path.exists(filename_path):
                self.filenames[categorie] = self.years
            # Si le répertoire existe, vérification des fichiers manquants
            else:
                for year in self.years:
                    # Si le fichier de cette année n'existe pas, il est considéré comme manquant
                    if not os.path.exists(os.path.join(filename_path, f"{year}.csv")):
                        # Ajout de l'année au dictionnaire des fichiers manquants
                        if categorie in self.filenames:
                            self.filenames[categorie].append(year)
                        else:
                            self.filenames[categorie] = [year]
                            
    def check_and_control_data(self):
        """
        Vérifie les données manquantes et les télécharge si nécessaire.
        """
        self.check_missing_data()
        self.download_data()
    
    def reset_db(self):
        """
        Réinitialise les données en supprimant tous les répertoires de données et en vérifiant les données manquantes.
        """
        print("[Reset] Reseting data...")
        # Suppression de tous les répertoires de données
        for categorie in self.categories:
            categorie_path = os.path.join(self.data_dir, categorie)
            if os.path.exists(categorie_path):
                shutil.rmtree(categorie_path, ignore_errors=True) 
        print("[Reset] Data have been deleted")
        # Téléchargement des données
        self.check_and_control_data()
        print("[Reset] Data have been reset")

    def get_pd_file_from_year(self, cat, begin, end=None, merge=True):
        """
        Récupère un DataFrame pandas à partir de l'année demandée.
        
        Parameters:
        cat (str) : Catégorie de données à récupérer.
        begin (int) : Année de début.
        end (int) : Année de fin (optionnel, par défaut None).
        merge (bool) : Si True, fusionne les DataFrames de chaque année en un seul DataFrame. Si False, renvoie une liste de DataFrames.
        
        Returns:
        DataFrame pandas ou liste de DataFrames
        """
        # Si la catégorie de données demandée est valide
        if cat.lower() in self.categories:
            cat_path = os.path.join(self.data_dir, cat)
            # Si une seule année est demandée
            if end == None:
                # Si l'année demandée existe dans les données
                if str(begin) in self.years:
                    # Chargement du fichier CSV en tant que DataFrame pandas
                    return pd.read_csv(os.path.join(cat_path, f"{begin}.csv"), sep=None, engine='python')
            # Si une plage d'années est demandée
            else:
                if str(begin) in self.years and str(end) in self.years:
                    list_df = []
                    for annee in range(begin,end+1):
                        list_df.append(pd.read_csv(os.path.join(cat_path, f"{str(annee)}.csv"), sep=None, engine='python'))
                    if merge:
                        return pd.concat(list_df)
                    else:
                        return list_df
        else:
            raise ValueError("La catégorie de données demandée n'est pas valide")
            
    def get_merge_df(self, begin, end, save=True, name="df_merge.csv"):
        name = os.path.join(self.data_dir ,name)
        print("[Check] Checking if the file already exists...")
        if os.path.exists(name):
            print("[Check] File already exists! loading file")
            df_final = pd.read_csv(name, index_col=0)
            return df_final
        print("[Check] File not found, merging...")
        # Pour chaque catégorie
        for cat in progress_bar(self.categories):
            # Récupération du DataFrame de la catégorie
            df = self.get_pd_file_from_year(cat=cat, begin=begin, end=end)
            # Si c'est la première catégorie, le DataFrame final est le DataFrame de la catégorie
            if cat == self.categories[0]:
                df["grav"] = df.grav.map({1:0,2:3,3:2,4:1})
                df = pd.DataFrame(df.groupby("Num_Acc")["grav"].max()).reset_index()
                df_final = df
            else:
                # Fusion du DataFrame avec le DataFrame final
                self.df_final = pd.merge(df_final, df, on="Num_Acc")
            # Enregistrement du DataFrame final dans un fichier CSV
            if save:
                self.df_final.to_csv(name)
            return self.df_final
    
    def preprocess_df(self, save=True, name="df_velo_preprocess.csv"):
        path = os.path.join(self.data_dir ,name)
        if self.df_final is not None:
            Num_Acc =  self.df_final[self.df_final["catv"] == 1]["Num_Acc"]
            df_velo_acc = df_final[df_final["Num_Acc"].isin(list(Num_Acc))]
            df_velo_acc.reset_index(drop=True, inplace=True)
            
            selected_features = ["Num_Acc","jour","mois","an","lum","agg","int","atm","col",
                     "catr","circ","nbv","vosp","prof","plan","larrout",
                     "surf","infra","situ","vma","catv","obs","obsm",
                     "choc","manv","grav","manv2","catv2","obs2","obsm2","choc2"]

            df_velo_acc_features = df_velo_acc_veh[selected_features].reset_index(drop=True)
            
            new_cols = ["manv2", "catv2", "obs2", "obsm2", "choc2"]
            cols = list(df_velo_acc.columns)+new_cols
            df_velo_acc_veh = pd.DataFrame(columns=cols)
            index = -1
            num_acc_inserted: list = []
            df_velo_acc = df_velo_acc.sort_values("Num_Acc")
            for i, row in tqdm(df_velo_acc.iterrows()):
                if row.Num_Acc in num_acc_inserted: # df_velo_acc_veh.Num_Acc.to_numpy():
                    manv2 = row["manv"]
                    catv2 = row["catv"]
                    obs2 = row["obs"]
                    obsm2 = row["obsm"]
                    choc2 = row["choc"]

                    df_velo_acc_veh.loc[index, new_cols] = [manv2, catv2, obs2, obsm2, choc2]
                else:
                    index += 1
                    df_velo_acc_veh = df_velo_acc_veh.append({col:val for col,val in zip(cols,list(row.to_numpy())+[None]*5)} , ignore_index=True)
                    num_acc_inserted.append(row.Num_Acc)
            
            if save:
                df_velo_acc_features.to_csv(path)

In [4]:
acc_data = AccidentData()

[Check] Checking if data is in your computer...
[Check] Checking completed, no data is missing!


0it [00:00, ?it/s]