# I.2 -  Récupération de l'expérience des entrepreneurs; du nombre de concurrent par secteurs et par code postal ; du nombre de personnes recensées pour chaque date de création, par code Insee :

Le but de cette partie est d'obtenir un data frame sur lequel nous travaillerons tout au long de ce projet. Nous décidons de récupérer l'ensemble des entreprises françaises crées entre 2010 et 2024, dont l'adresse principale est en Ile de France, pour les secteurs du commerce de détails, de l'hôtellerie et la restauration. 

Notre choix s'explique par le fait que récupérer des entreprises crées à des dates trop lointaines pourraient fausser les résultats de la modélisation choisie, puisque par exemple, le tissu économique français des années 80 est drastiquement différent de celui d'aujourd'hui. 
De même, récupérer trop de secteurs différents pourrait entraîner une incapacité du modèle que l'on choisira à discriminer entre les entreprises radiées et non-radiées, qui sera notre variable cible à prédire.

Le choix de l'Ile de France s'explique aussi pour les mêmes raisons.


--------------------
### Récupération de l'expérience des associés et de leur âge moyen pour chaque entreprise 

Nous donnons ici une suite de fonction permettant de récupérer ce data frame. Nous récupérons d'abord des variables concernant l'expérience potentielle des associés et des personnes physiques, qui nécessitent un traitement assez lourd. Pour simplifier les choses, on considéra qu'une personne physique est l'associé 0.

Voici la stratégie retenue pour n'obtenir qu'un seul data frame exploitable.

- La fonction `get_RNE_Exp` permet de récupérer l'expérience des associés. Cette fonction est la raison principale pour laquelle nous incluons cette partie de notre travail dans la partie récupération des données, et non dans celle de l'analyse et feature engineering.
En effet, nous voulons pour chaque entreprise d'IDF crées de 2010 à 2024 dans les secteurs visés, compter le nombre de fois où chaque associé à été enrôlé ou non dans une entreprise passé, c'est-à-dire crées avant la date de création concernant l'entreprise que nous regardons. Nous voulons aussi n'effectuer ce comptage que si l'associé à eu un rôle pertinent dans l'entreprise, le rendant le plus susceptible d'être à l'origine de la création bien que cela ne soit pas garanti. Enfin, nous voulons également compter le nombre d'entreprise radiée parmi les entreprises dans lesquelles l'associé en question à été enrôlé. Nous pensons en effet que ces variables permettront d'enrichir en information notre base de données, donnant plus de chance à un modèle de machine learning d'aboutir à des métriques satisfaisantes.
Pour effectuer cela, nous voulons travailler avec deux data frames : l'un dit de "travaille", étant celui sur lequel nous nous concentrons (idf_10_24, appelé simplement df_p dans la fonction), l'autre dit "historique" (total_p), comprenant l'ensemble des entreprises crées partout en France, pour les "grands" secteurs du commerce, artisanat et artisanat réglementé, depuis 1980 jusqu'en 2024. Pour chaque entreprise dans idf_10_24, nous regardons si le combo nom + prénom + date de naissance pour un associé donné correspond à une entreprise crées dans le passé. Si oui, nous sélectionnons seulement les entreprises dans lesquels l'associé à eu un rôle important. Nous récupérons au passage le nombre d'entreprises passées radiées. 
Comme cette tâche nécessite de travailler avec un data frame de plus de 8 000 000 de lignes (total), pandas n'est pas adapté ici. Nous utilisons alors DuckDB permettant de faire des requêtes SQL simple et rapide. 
`On récupère ainsi les variables total_expi (expérience total de l'associé i), total_radi (nombre d'entreprises passés radiées liées à l'associé i) et ape_truei (nombre d'entreprises passés ayant un lien avec le secteur d'activité de l'entreprise actuelle liée à l'associé i).`


Remarque : l'id (nom + prénom + date de naissance) est ici utilisé par défaut puisque les variables "associe_i_id" ne trouvent pas de correspondance dans le passé. Elles sont utiles simplement à l'identification interne d'un associé dans une entreprise donné.
D'autre part, il se peut que deux personnes différentes partagent cet id, même si cela est rare. Ceci sera un point d'amélioration à considérer.

- La fonction `get_RNE_MeanAge` permet de récupérer l'âge moyen des associées ainsi que le nombre d'associé.


- La fonction `get_RNE_Final` permet de récupérer les données depuis le cloud ssp cloud S3 puis les préparer pour la fonction `get_RNE_Exp` ainsi pouvoir récupérer l'expérience de chaque associé. Elle récupère ensuite l'âge moyen des associés et le nombre d'associé grâce à la fonction `get_RNE_MeanAge`. Elle renvoie un data frame pandas. Cette fonction se veux flexible pour que les lecteurs de ce projet puissent récupérer d'autres années, départements, activités...

- Finalement, nous exportons au format parquet le data frame obtenu sur le cloud, qui servira à la deuxième partie de la récupération de données.
Voire plus loin pour le lien de téléchargement de ce data frame.

In [1]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [openpyxl]1/2[0m [openpyxl]
[1A[2KSuccessfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


In [2]:
#Packages utilisés
import pandas as pd
from tqdm import tqdm
import datetime
import getpass
import os
import s3fs
import duckdb

In [None]:
#Connexion à S3


os.environ["AWS_ACCESS_KEY_ID"] = getpass.getpass()
os.environ["AWS_SECRET_ACCESS_KEY"] = getpass.getpass()
os.environ["AWS_SESSION_TOKEN"] = getpass.getpass()
os.environ["AWS_DEFAULT_REGION"] = 'us-east-1'
fs = s3fs.S3FileSystem(
    client_kwargs={'endpoint_url': 'https://'+'minio.lab.sspcloud.fr'},
    key = os.environ["AWS_ACCESS_KEY_ID"], 
    secret = os.environ["AWS_SECRET_ACCESS_KEY"], 
    token = os.environ["AWS_SESSION_TOKEN"])



'\n\nos.environ["AWS_ACCESS_KEY_ID"] = getpass.getpass()\nos.environ["AWS_SECRET_ACCESS_KEY"] = getpass.getpass()\nos.environ["AWS_SESSION_TOKEN"] = getpass.getpass()\nos.environ["AWS_DEFAULT_REGION"] = \'us-east-1\'\nfs = s3fs.S3FileSystem(\n    client_kwargs={\'endpoint_url\': \'https://\'+\'minio.lab.sspcloud.fr\'},\n    key = os.environ["AWS_ACCESS_KEY_ID"], \n    secret = os.environ["AWS_SECRET_ACCESS_KEY"], \n    token = os.environ["AWS_SESSION_TOKEN"])\n'

In [5]:

def get_RNE_Exp(numero_associe : int, df_p : pd.DataFrame, total_p : pd.DataFrame) -> pd.DataFrame:

    """
    Fonction qui permet de récupérer l'expérience d'un associée donné dont le numéro est compris en 1 et 5 ou bien celle
    d'une personne physique (0).

    
    inputs : 
            - numero_associe : int compris en entre 0 et 5 (0 == personne physique)
            - df_p : le dataframe RNE pour lequel on veut obtenir l'expérience des associés/personnes physiques
            - total_p : le dataframe RNE complet servant d'historique

    outputs :
            - res : dataframe avec 4 colonnes : siren, total_expi, total_radi, ape_truei, dont siren corresponds aux siren de 
                    df.
    
    total_exp0, total_rad0 et ape_true0 concernent les personnes physiques



    """
    if numero_associe > 0:
        ass1_nom = f"associe_{numero_associe}_nom"
        ass1_prenom = f"associe_{numero_associe}_prenom"
        ass1_naissance = f"associe_{numero_associe}_naissance"
    else:
        ass1_nom = "nom"
        ass1_prenom = "prenoms"
        ass1_naissance = "age_physique"

    df = df_p[["siren","date_creation",ass1_nom,ass1_prenom,ass1_naissance,"associe_1_role","codeAPE"]].copy()

    total = (total_p[["siren","date_creation",
    "associe_1_nom","associe_1_prenom","associe_1_naissance","associe_1_role",
    "associe_2_nom","associe_2_prenom","associe_2_naissance","associe_2_role",
    "associe_3_nom","associe_3_prenom","associe_3_naissance","associe_3_role",
    "associe_4_nom","associe_4_prenom","associe_4_naissance","associe_4_role",
    "associe_5_nom","associe_5_prenom","associe_5_naissance","associe_5_role",
    "nom","prenoms","age_physique","dateRadiation","codeAPE"]]).copy()

    df[ass1_nom] = df[ass1_nom].str.lower()
    df[ass1_prenom] = df[ass1_prenom].str.lower()
    df[ass1_naissance] = df[ass1_naissance].str.lower()


    associe_nom = [f"associe_{i}_nom" for i in range(1,6)]
    associe_prenom = [f"associe_{i}_prenom" for i in range(1,6)]
    associe_naissance = [f"associe_{i}_naissance" for i in range(1,6)]
    for i in range(len(associe_nom)):
        total[associe_nom[i]] = total[associe_nom[i]].str.lower()
        total[associe_prenom[i]] = total[associe_prenom[i]].str.lower()
        total[associe_naissance[i]] = total[associe_naissance[i]].str.lower()

    total["nom"] = total["nom"].str.lower()
    total["prenoms"] = total["prenoms"].str.lower()
    total["age_physique"] = total["age_physique"].str.lower()

    df["siren"] = df["siren"].astype(int)
    total["siren"] = total["siren"].astype(int)

    total['dateRadiation'] = pd.to_datetime(total['dateRadiation'], errors='coerce')
    

    #Connexion DuckDB
    con = duckdb.connect()

    #Enregistrement des DataFrames pandas dans DuckDB
    con.register("df", df)        
    con.register("total", total)

    con.execute("""
    CREATE OR REPLACE VIEW total_long AS
    SELECT siren, date_creation,dateRadiation,codeAPE,
        associe_1_nom AS sname,
        associe_1_prenom AS fname,
        associe_1_naissance AS birth,
        associe_1_role AS role
    FROM total
    WHERE associe_1_nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_1_prenom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_1_naissance NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_1_role IN ('28','29','30','41','53','73','74','75','101','66','205','206','201')

    UNION ALL

    SELECT siren, date_creation,dateRadiation,codeAPE,
        associe_2_nom,
        associe_2_prenom,
        associe_2_naissance,
        associe_2_role
    FROM total
    WHERE associe_2_nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_2_prenom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_2_naissance NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_2_role IN ('28','29','30','41','53','73','74','75','101','66','205','206','201')

    UNION ALL

    SELECT siren, date_creation,dateRadiation,codeAPE,
        associe_3_nom,
        associe_3_prenom,
        associe_3_naissance,
        associe_3_role
    FROM total
    WHERE associe_3_nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_3_prenom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_3_naissance NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_3_role IN ('28','29','30','41','53','73','74','75','101','66','205','206','201')

    UNION ALL

    SELECT siren, date_creation,dateRadiation,codeAPE,
        associe_4_nom,
        associe_4_prenom,
        associe_4_naissance,
        associe_4_role
    FROM total
    WHERE associe_4_nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_4_prenom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_4_naissance NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_4_role IN ('28','29','30','41','53','73','74','75','101','66','205','206','201')

    UNION ALL

    SELECT siren, date_creation,dateRadiation,codeAPE,
        associe_5_nom,
        associe_5_prenom,
        associe_5_naissance,
        associe_5_role
    FROM total
    WHERE associe_5_nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_5_prenom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_5_naissance NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND associe_5_role IN ('28','29','30','41','53','73','74','75','101','66','205','206','201')

    UNION ALL

    SELECT siren, date_creation,dateRadiation,codeAPE,
        nom,
        prenoms,
        age_physique,
        associe_5_role
    FROM total
    WHERE nom NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND prenoms NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique')
    AND age_physique NOT IN ('existence_null', 'non-disp', 'morale', 'none', 'physique');
    """)

    if numero_associe > 0:
        #Requête principale pour l'historique d'un associé
        res = con.execute(f"""
        SELECT
            df.siren,


            COUNT(DISTINCT t.siren) AS total_exp{numero_associe},


            COUNT(DISTINCT CASE
                WHEN t.dateRadiation IS NOT NULL THEN t.siren
            END) AS total_rad{numero_associe},

            COUNT(DISTINCT CASE
                WHEN SUBSTR(t.codeAPE, 1, 1) = SUBSTR(df.codeAPE, 1, 1) THEN t.siren
            END) AS ape_true{numero_associe}

        FROM df

        LEFT JOIN total_long t
        ON df.associe_{numero_associe}_nom = t.sname
        AND df.associe_{numero_associe}_prenom = t.fname
        AND df.associe_{numero_associe}_naissance = t.birth
        AND t.date_creation < df.date_creation

        GROUP BY df.siren
        ORDER BY df.siren
        """).df()


    else:
        #Requête principale pour  l'historique d'une personne physique
        res = con.execute(f"""
        SELECT
            df.siren,


            COUNT(DISTINCT t.siren) AS total_exp{numero_associe},


            COUNT(DISTINCT CASE
                WHEN t.dateRadiation IS NOT NULL THEN t.siren
            END) AS total_rad{numero_associe},

            COUNT(DISTINCT CASE
                WHEN SUBSTR(t.codeAPE, 1, 1) = SUBSTR(df.codeAPE, 1, 1) THEN t.siren
            END) AS ape_true{numero_associe}

        FROM df

        LEFT JOIN total_long t
        ON df.nom = t.sname
        AND df.prenoms = t.fname
        AND df.age_physique = t.birth
        AND t.date_creation < df.date_creation

        GROUP BY df.siren
        ORDER BY df.siren
        """).df()

    return res



In [6]:
def get_RNE_MeanAge(df : pd.DataFrame) -> pd.DataFrame:

    """
    Fonction permettant de récupérer l'âge moyen des associés ainsi que le nombre d'associé pour chaque entreprise données.

    inputs : 
            - df : data frame RNE
    
    ouputs : 
            - df : data frame enrichi de l'âge moyen des associés ainsi que le nombre d'associé.
    """
    
    #Récupération du nombre d'associés
    df["is1"] = (~df["associe_1_nom"].isin(["non-disp","MORALE","None","non-disp","physique","existence_null","morale","none"])).astype(int)
    df["is2"] = (~df["associe_2_nom"].isin(["non-disp","MORALE","None","non-disp","physique","existence_null","morale","none"])).astype(int)
    df["is3"] = (~df["associe_3_nom"].isin(["non-disp","MORALE","None","non-disp","physique","existence_null","morale","none"])).astype(int)
    df["is4"] = (~df["associe_4_nom"].isin(["non-disp","MORALE","None","non-disp","physique","existence_null","morale","none"])).astype(int)
    df["is5"] = (~df["associe_5_nom"].isin(["non-disp","MORALE","None","non-disp","physique","existence_null","morale","none"])).astype(int)
    df["personneMorale"] = df["personneMorale"].astype(int)

    df["nb_associe"] = df["is1"] + df["is2"]  + df["is3"] + df["is4"] + df["is5"] + (1-df["personneMorale"])
    
    #Récupération de l'âge moyen des associés à la création d'entreprises
    df["associe_1_naissance"] = (df["associe_1_naissance"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["associe_1_naissance"] = pd.to_datetime(df["associe_1_naissance"])

    df["associe_2_naissance"] = (df["associe_2_naissance"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["associe_2_naissance"] = pd.to_datetime(df["associe_2_naissance"])

    """
    #Corrige un bug natif
    i_error = df.loc[df["associe_3_naissance"] == "0997-08"]["associe_3_naissance"].index
    df[i_error, "associe_3_naissance"] = "1997-08"
    """

    df["associe_3_naissance"] = (df["associe_3_naissance"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["associe_3_naissance"] = pd.to_datetime(df["associe_3_naissance"],errors='coerce')


    df["associe_4_naissance"] = (df["associe_4_naissance"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["associe_4_naissance"] = pd.to_datetime(df["associe_4_naissance"])

    df["associe_5_naissance"] = (df["associe_5_naissance"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["associe_5_naissance"] = pd.to_datetime(df["associe_5_naissance"])

    df["age_physique"] = (df["age_physique"]
    .apply(lambda x : x if x not in ["MORALE","physique","existence_null","None","non-disp"] else pd.NaT))
    df["age_physique"] = pd.to_datetime(df["age_physique"])
 
    
    df["age0"] = (df["date_creation"] - df["age_physique"])
    df["age1"] = (df["date_creation"] - df["associe_1_naissance"])
    df["age2"] = (df["date_creation"] - df["associe_2_naissance"])
    df["age3"] = (df["date_creation"] - df["associe_3_naissance"])
    df["age4"] = (df["date_creation"] - df["associe_4_naissance"])
    df["age5"] = (df["date_creation"] - df["associe_5_naissance"])

   
    df["age0"] = df["age0"].dt.total_seconds() / (86400 * 365.25)
    df["age1"] = df["age1"].dt.total_seconds() / (86400 * 365.25)
    df["age2"] = df["age2"].dt.total_seconds() / (86400 * 365.25)
    df["age3"] = df["age3"].dt.total_seconds() / (86400 * 365.25)
    df["age4"] = df["age4"].dt.total_seconds() / (86400 * 365.25)
    df["age5"] = df["age5"].dt.total_seconds() / (86400 * 365.25)


    df["mean_age"] = (
        df[["age0","age1", "age2", "age3", "age4", "age5"]]
        .sum(axis=1, skipna=True)
        / (df["nb_associe"])
    )

    return df

-----------------

### Récupération du nombre de concurrent à une date donné par secteur et localité et récupération du nombre de personnes par commune :


A commenter, exposer les fonctions développées ...

In [7]:
def adapt_date(year : int) -> int:
    """
    A commenter
    """

    if year == 2010:
        res = 2011
    elif year > 2022:
        res = 2022
    else :
        res = year 
    return res



def get_RNE_Pop(df_p : pd.DataFrame,df_pop : pd.DataFrame) -> pd.DataFrame : 

    """
    A commenter
    """

    df_pop = df_pop.loc[df_pop["RP_MEASURE"] == "DWELLINGS_POPSIZE"][["GEO","TIME_PERIOD","OBS_VALUE"]]

    #renommage des noms des colonnes d'intérêts pour matching avec df_p
    df_pop = df_pop.rename(columns={"GEO": "codeInseeCommune"})
    df_pop = df_pop.rename(columns={"TIME_PERIOD": "annee_tronc"})
    df_pop = df_pop.rename(columns={"OBS_VALUE": "pop_commune"})

    #Conversion en str par sécurité
    df_pop["codeInseeCommune"] = df_pop["codeInseeCommune"].astype(str)
    df_p["codeInseeCommune"] = df_p["codeInseeCommune"].astype(str)

    df_p["annee_tronc"] = df_p["date_creation"].dt.year
    df_p["annee_tronc"] = df_p["annee_tronc"].astype(int)

    #Adaptation des dates : approximation de 2010 par 2011 et > 2022 par 2022 (voire adapt_date)
    df_p["annee_tronc"] = df_p["annee_tronc"].apply(adapt_date)
    
    df_p = df_p.merge(df_pop[["codeInseeCommune","annee_tronc","pop_commune"]], 
              on=["codeInseeCommune","annee_tronc"], 
              how='left')
    
    #On remplace par la dernière valeur connue pour une commune donnée si année absente dans df_pop
    df_p["pop_commune"] = df_p.groupby("codeInseeCommune")["pop_commune"].ffill()
    
    return df_p


In [8]:
def get_RNE_local_concurrents(df_p : pd.DataFrame, total_p : pd.DataFrame) -> pd.DataFrame :

      """
      A commenter.
      """

      total = total_p.copy()
      df = df_p.copy()

      #Filtrage de total sur les code postaux disponibles
      total = total.loc[total["code_postal"]!="non-disp"]

      #Conversion en date time de date_creation par sécurité
      total["date_creation"] = pd.to_datetime(total["date_creation"])
      df["date_creation"] = pd.to_datetime(df["date_creation"])


      #Sécurisation des types pour la jointure sur les variables d'intérêts
      df["code_postal"] = df["code_postal"].astype(str)
      total["code_postal"] = total["code_postal"].astype(str)
      df["codeAPE"] = df["codeAPE"].astype(str)
      total["codeAPE"] = total["codeAPE"].astype(str)

      #Récupération de l'indicatrice 1 si radiée 0 sinon
      total["dateRadiation"] = total["dateRadiation"].apply(lambda x : 
      x if x not in ["non-disp","None"] else pd.NaT)
      total["dateRadiation"] = pd.to_datetime(total["dateRadiation"],errors="coerce")
      total["radié"] = total["dateRadiation"].notna().astype(int)

      #Connexion DuckDB
      con = duckdb.connect()

      #Enregistrement des DataFrames pandas dans DuckDB
      con.register("df", df)        
      con.register("total", total)

      con.execute("""
      CREATE OR REPLACE VIEW total_long AS
      SELECT siren, date_creation,
            radié AS rad,
            codeAPE as ape,
            code_postal as code
      FROM total
      WHERE radié = 0;
      """)

      #Requête principale pour le nombre de concurrents encore en poste sur le marché local
      res = con.execute(f"""
      SELECT
      df.siren,

      COUNT(DISTINCT t.siren) AS nb_local_concurrents

      FROM df

      LEFT JOIN total_long t
      ON df.codeAPE = t.ape
      AND df.code_postal = t.code
      AND t.date_creation < df.date_creation

      GROUP BY df.siren
      ORDER BY df.siren
      """).df()

      con.close()

      return res
    

### Récupération du niveau de vie par commune : 

Pour cette partie, on récupère une base de donnée de l'Insee donnant le niveau de vie (en euros net annuel) pour chaque commune française sur l'année 2013 à l'adresse suivant : https://www.data.gouv.fr/api/1/datasets/r/d3ce0107-416f-42cf-a335-d71f89b00b21.

Après quelques recherches, il ne semble pas exister de series temporelles du niveau de vie par commune entre 2010 et 2024. Nous utiliserons donc cette base pour "approximer" le niveau de vie d'une commune donnée à une date comprise entre 2010 et 2024, ce qui ne permettra pas de prendre en compte la dynamique temporelle des niveaux de vie par communes, mais donnera tout de même une "idée" du niveau de vie d'une commune donnée pour une année comprise entre 2010 et 2024.

La fonction suivante permettra de récupérer ces niveaux de vie et de les inclure dans notre base données de travail.

In [9]:
def get_RNE_rev(df_p : pd.DataFrame, df_rev : pd.DataFrame) -> pd.DataFrame :
    
    """
    A commenter
    """
    #Adequation du nom de la colonne clef pour un merge
    df_rev = df_rev.rename(columns={"Code Commune": "codeInseeCommune"})
    df_rev = df_rev.rename(columns={"Niveau de vie Commune": "revCommune"})
    df_rev = df_rev.rename(columns={"Niveau de vie Département": "revDep"})

    #Conversion en str par sécurité
    df_rev["codeInseeCommune"] = df_rev["codeInseeCommune"].astype(str)
    df_p["codeInseeCommune"] = df_p["codeInseeCommune"].astype(str)

    df_p = df_p.merge(df_rev[["codeInseeCommune","revCommune","revDep"]], 
              on=["codeInseeCommune"], 
              how='left')

    return df_p


--------------------------

### Récupération du data frame de travail pour la suite du projet, et stockage sur le ssp cloud S3 :

In [10]:
def get_RNE_Final(dep : list, activites : list, date_min : list)-> pd.DataFrame:

    """
    Fonction permettant de récupérer les données du RNE sur le cloud ssp cloud S3, de récupérer les expériences passés des 
    associés,l'âge moyen des associés, le nombre de concurrents par secteurs et par code postale, ainsi que leur nombre 
    de personnes recensée par code Insee, tout cela pour une liste de département et d'activités données,
    ainsi qu'une date minimale de création.

    inputs :
            - dep : liste de département de type ["78","01",...]
            - activites : liste d'activités par "bribes" de code APE de type ["45","5610B",...]
            - date_min : date minimale de création de type [2021,1,1] == [y,month,day]
    
    outputs : 
            - df_return : data frame RNE
    """


    ##################################################################################################
    #    ETAPE 1 : Récupération des données selon dep, acitivtes et date_min + l'historique total    #
    ##################################################################################################


    #Récupération des données depuis le cloud ssp cloud S3
    dates_select = [1980,1990,2000,2005,2010,2015,2017,2018,2019,2020,2021,2022,2023,2024]

    dfs_rne = dict()
    df_names = [(f"df_{dates_select[i-1]}_{dates_select[i]}",i) for i in range(1,len(dates_select))]

    url_dataRNE = ['https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_1980_1990.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_1990_2000.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2000_2005.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2005_2010.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2010_2015.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2015_2017.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2017_2018.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2018_2019.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2019_2020.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2020_2021.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2021_2022.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2022_2023.parquet',
    'https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_RNE/RNE_2023_2024.parquet']

    for names,i in tqdm(df_names):
        print(f"Récupération depuis le cloud {i}/13")
        url = url_dataRNE[i-1]
        df = pd.read_parquet(url)
        dfs_rne[names] = df
    #------------------------------------------------------------------------------------------------#

    #Récupération des colonnes et création d'un nouveau data frame vide
    columns_rne = list(dfs_rne[df_names[0][0]].columns)
    idf_10_24 = pd.DataFrame(columns=columns_rne)

    #Filtrage par activites et département
    for names in tqdm(df_names):
        print("Filtrage par département et activités")
        data = dfs_rne[names[0]]
        data = data[data["codeAPE"].str.startswith(tuple(activites)) & data["code_postal"].str.startswith(tuple(dep))]
        idf_10_24 = pd.concat([idf_10_24,data])
        
    #Filtrage pour les dates de création après 2010-01-01 (inlcus)
    idf_10_24["date_creation"] = pd.to_datetime(idf_10_24["date_creation"])

    print(f"Récupération depuis {date_min[0]}-{date_min[1]}-{date_min[2]}")
    idf_10_24 = idf_10_24[idf_10_24["date_creation"] >= datetime.datetime(date_min[0],date_min[1],date_min[2])]

    idf_10_24["dateRadiation"] = idf_10_24["dateRadiation"].apply(lambda x : 
        x if x not in ["non-disp","None"] else pd.NaT)


    #------------------------------------------------------------------------------------------------#

    #Récupération des colonnes et création d'un nouveau data frame vide
    columns_rne = list(dfs_rne[df_names[0][0]].columns)
    total = pd.DataFrame(columns=columns_rne)

    #Récupération complète dans un data frame
    print("Récupération de l'historique total")
    for names in tqdm(df_names):
        data = dfs_rne[names[0]]
        total = pd.concat([total,data])
    

    total["date_creation"] = pd.to_datetime(total["date_creation"])
    total["dateRadiation"] = total["dateRadiation"].apply(lambda x : 
        x if x not in ["non-disp","None"] else pd.NaT)

    #########################################################################################################
    #   ETAPE 2 : Récupération de l'expérience des associés/personnes physiques + age moyen à la création   #
    #########################################################################################################


    
    #Récupération de l'expérience des associés/personnes physiques
    associe_list = [0,1,2,3,4,5]

    idf_10_24["siren"] = idf_10_24["siren"].astype(int)

    df_return = idf_10_24.copy()

    for i in associe_list:
        
        print(f"Récupération expérience associé {i}")
        res = get_RNE_Exp(numero_associe=i, df_p=idf_10_24, total_p=total)
        res["siren"] = res["siren"].astype(int)
        df_return = df_return.merge(res, on="siren", how="left")
        
    #Récupération de l'âge moyen à la création
    print("Récupération de l'âge moyen")
    df_return = get_RNE_MeanAge(df_return)

    #########################################################################################################
    # ETAPE 3 : Récupération du nombre de concurrents des entreprises et du nombre de personnes par commune #
    #########################################################################################################

    #Récupération du data frame insee recensement jusqu'en 2022 depuis le cloud ssp cloud S3
    url = "https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_supp/DS_RP_SERIE_HISTORIQUE_2022_data.csv"
    df_pop = pd.read_csv(url,sep=";")

    #Récupération du nombre de personnes par commune
    print("Récupération du nombre de personnes par commune")
    df_return = get_RNE_Pop(df_p = df_return, df_pop = df_pop)

    #Récupération du data frame insee niveau de vide à la commune 2013
    url2 = "https://www.data.gouv.fr/api/1/datasets/r/d3ce0107-416f-42cf-a335-d71f89b00b21"
    df_rev = pd.read_excel(url2)

    #Récupération du niveau de vie par commune
    print("Récupération du niveau de vie par commune")
    df_return = get_RNE_rev(df_p=df_return,df_rev=df_rev)


    #Récupération du nombre de concurrent
    print("Récupération du nombre de concurrent")
    res = get_RNE_local_concurrents(df_p=df_return,total_p=total)
    df_return = df_return.merge(res,on="siren",how="left")

    #########################################################################################################
    #  ETAPE 4 : Mise au propre du data frame principal en supprimant les colonnes n'ayants plus d'utilité  #
    #########################################################################################################
    droped_list = []
    droped_is = ["is1","is2","is3","is4","is5"]
    associe_nom = [f"associe_{i}_nom" for i in range(1,6)]
    associe_prenom = [f"associe_{i}_prenom" for i in range(1,6)]
    associe_naissance = [f"associe_{i}_naissance" for i in range(1,6)]
    associe_naissance = [f"associe_{i}_id" for i in range(1,6)]

    droped_list.extend([*droped_is,*associe_nom,*associe_prenom,*associe_naissance,*associe_naissance])
    df_return = df_return.drop(droped_list, axis=1)


    return df_return
    

Nous utilisons alors get_RNE_Final pour obtenir notre de data frame de travail, qui servira à l'analyse et servira à l'entraînement d'un modèle de machine learning. Nous l'uploadons ensuite sur le cloud ssp cloud S3.

In [11]:
#Listes des activités retenues par bribes d'APE (voire nomenclature NAF) 
""" 
Selection des secteurs d'activités pour ce projet : 

Commerces, commerces automobiles et motocycles, hors commerce de gros et grands magasins, hors electroménager.
    Restauration et hôtellerie, hors camping et terrains.
"""
activites_annotees = [
    ("4511Z","Commerce de voitures et de véhicules automobiles légers"),
    ("4519Z","Commerce d'autres véhicules automobiles"),
    ("4520A","Entretien et réparation de véhicules automobiles légers"),
    ("4520B", "Entretien et réparation d'autres véhicules automobiles"),
    ("4532Z","Commerce de détail d'équipements automobiles"),
    ("4540Z","Commerce et réparation de motocycles"),
    ("4711A", "Commerce de détail de produits surgelés"),
    ("4711B","Commerce d'alimentation générale"),
    ("4711C","Supérettes"),
    ("4711D","Supermarchés"),
    ("4711E","Magasins multi-commerces"),
    ("4719B","Autres commerces de détail en magasin non spécialisé"),
    ("4721Z","Commerce de détail de fruits et légumes en magasin spécialisé"),
    ("4722Z ","Commerce de détail de viandes et de produits à base de viande en magasin spécialisé"),
    ("4723Z","Commerce de détail de poissons, crustacés et mollusques en magasin spécialisé"),
    ("4724Z","Commerce de détail de pain, pâtisserie et confiserie en magasin spécialisé"),
    ("4725Z","Commerce de détail de boissons en magasin spécialisé"),
    ("4726Z","Commerce de détail de produits à base de tabac en magasin spécialisé"),
    ("4729Z","Autres commerces de détail alimentaires en magasin spécialisé"),
    ("4730Z","Commerce de détail de carburants en magasin spécialisé"),
    ("4741Z","Commerce de détail d'ordinateurs, d'unités périphériques et de logiciels en magasin spécialisé"),
    ("4742Z","Commerce de détail de matériels de télécommunication en magasin spécialisé"),
    ("4743Z","Commerce de détail de matériels audio et vidéo en magasin spécialisé"),
    ("4751Z","Commerce de détail de textiles en magasin spécialisé"),
    ("4752A","Commerce de détail de quincaillerie, peintures et verres en petites surfaces (moins de 400 m²)"),
    ("4759A","Commerce de détail de meubles"),
    ("4759B","Commerce de détail d'autres équipements du foyer"),
    ("4761Z","Commerce de détail de livres en magasin spécialisé"),
    ("4762Z","Commerce de détail de journaux et papeterie en magasin spécialisé"),
    ("4763Z","Commerce de détail d'enregistrements musicaux et vidéo en magasin spécialisé"),
    ("4764Z","Commerce de détail d'articles de sport en magasin spécialisé"),
    ("4765Z","Commerce de détail de jeux et jouets en magasin spécialisé"),
    ("4772A","Commerce de détail de la chaussure"),
    ("4772B","Commerce de détail de maroquinerie et d'articles de voyage"),
    ("4771Z","Commerce de détail d'habillement en magasin spécialisé"),
    ("4776Z","Commerce de détail de fleurs, plantes, graines, engrais, animaux de compagnie et aliments pour ces animaux en magasin spécialisé"),
    ("4777Z","Commerce de détail d'articles d'horlogerie et de bijouterie en magasin spécialisé"),
    ("4778C","Autres commerces de détail spécialisés divers"),
    ("4779Z","Commerce de détail de biens d'occasion en magasin"),
    ("4781Z","Commerce de détail alimentaire sur éventaires et marchés"),
    ("4782Z","Commerce de détail de textiles, d'habillement et de chaussures sur éventaires et marchés"),
    ("4789Z","Autres commerces de détail sur éventaires et marchés"),
    ("4799A","Vente à domicile"),
    ("5510Z","Hôtels et hébergement similaire"),
    ("5520Z","Hébergement touristique et autre hébergement de courte durée"),
    ("5610A","Restauration traditionnelle"),
    ("5610C","Restauration de type rapide"),
    ("5621Z","Services des traiteurs"),
    ("5630Z","Débits de boissons")
]

activites = [activites_annotees[i][0] for i in range(len(activites_annotees))]

#Départements d'IDF
dep = ["75","77","78","91","92","93","94","95"]

#Date minimale 
date_min = [2010,1,1]

data = get_RNE_Final(dep=dep, activites=activites,date_min=date_min)

  0%|          | 0/13 [00:00<?, ?it/s]

Récupération depuis le cloud 1/13


  8%|▊         | 1/13 [00:03<00:37,  3.11s/it]

Récupération depuis le cloud 2/13


 15%|█▌        | 2/13 [00:09<00:53,  4.83s/it]

Récupération depuis le cloud 3/13


 23%|██▎       | 3/13 [00:14<00:51,  5.11s/it]

Récupération depuis le cloud 4/13


 31%|███       | 4/13 [00:22<00:54,  6.04s/it]

Récupération depuis le cloud 5/13


 38%|███▊      | 5/13 [00:31<00:58,  7.37s/it]

Récupération depuis le cloud 6/13


 46%|████▌     | 6/13 [00:37<00:47,  6.73s/it]

Récupération depuis le cloud 7/13


 54%|█████▍    | 7/13 [00:40<00:34,  5.69s/it]

Récupération depuis le cloud 8/13


 62%|██████▏   | 8/13 [00:44<00:25,  5.05s/it]

Récupération depuis le cloud 9/13


 69%|██████▉   | 9/13 [00:48<00:19,  4.78s/it]

Récupération depuis le cloud 10/13


 77%|███████▋  | 10/13 [00:53<00:13,  4.64s/it]

Récupération depuis le cloud 11/13


 85%|████████▍ | 11/13 [00:58<00:09,  4.84s/it]

Récupération depuis le cloud 12/13


 92%|█████████▏| 12/13 [01:03<00:04,  4.88s/it]

Récupération depuis le cloud 13/13


100%|██████████| 13/13 [01:06<00:00,  5.10s/it]
  0%|          | 0/13 [00:00<?, ?it/s]

Filtrage par département et activités


  8%|▊         | 1/13 [00:00<00:03,  3.73it/s]

Filtrage par département et activités


 15%|█▌        | 2/13 [00:01<00:06,  1.75it/s]

Filtrage par département et activités


 23%|██▎       | 3/13 [00:01<00:05,  1.75it/s]

Filtrage par département et activités


 31%|███       | 4/13 [00:02<00:07,  1.19it/s]

Filtrage par département et activités


 38%|███▊      | 5/13 [00:04<00:09,  1.15s/it]

Filtrage par département et activités


 46%|████▌     | 6/13 [00:05<00:08,  1.16s/it]

Filtrage par département et activités


 54%|█████▍    | 7/13 [00:06<00:06,  1.02s/it]

Filtrage par département et activités


 62%|██████▏   | 8/13 [00:07<00:04,  1.07it/s]

Filtrage par département et activités


 69%|██████▉   | 9/13 [00:08<00:03,  1.11it/s]

Filtrage par département et activités


 77%|███████▋  | 10/13 [00:08<00:02,  1.11it/s]

Filtrage par département et activités


 85%|████████▍ | 11/13 [00:10<00:01,  1.02it/s]

Filtrage par département et activités


 92%|█████████▏| 12/13 [00:11<00:00,  1.02it/s]

Filtrage par département et activités


100%|██████████| 13/13 [00:11<00:00,  1.10it/s]


Récupération depuis 2010-1-1
Récupération de l'historique total


100%|██████████| 13/13 [01:55<00:00,  8.91s/it]


Récupération expérience associé 0
Récupération expérience associé 1
Récupération expérience associé 2
Récupération expérience associé 3
Récupération expérience associé 4
Récupération expérience associé 5
Récupération de l'âge moyen


  df_pop = pd.read_csv(url,sep=";")


Récupération du nombre de personnes par commune
Récupération du niveau de vie par commune
Récupération du nombre de concurrent


----------

Remarque : voici les rôles pour les associés retenus afin de selectionner les associés dans les requêtes sql effectuées :

'28' : Gérant et associé indéfiniment et solidairement responsable

'29': Gérant et associé indéfiniment responsable

"30": Gérant

'41': Associé unique (qui participe à l’activité EURL)

'53': Directeur Général

'73': Président de SAS

'74': Associé indéfiniment et solidairement responsable

'75': Associé indéfiniment responsable

'101': Entrepreneur

'66': Personne ayant le pouvoir d’engager à titre habituel la société

'205': Président

'206': Directeur 

'201' : Dirigeant

--------

In [12]:
data.head()

Unnamed: 0,siren,cessation,date_creation,etranger,micro,agricole,eirl,code_postal,codeInseeCommune,voie,...,age2,age3,age4,age5,mean_age,annee_tronc,pop_commune,revCommune,revDep,nb_local_concurrents
0,300344389,0,2011-12-13,False,False,False,False,91370,91645,DE LA NOISETTE,...,,,,,50.198494,2011,15241.99811,33476.086957,23141.927413,3
1,300553369,0,2011-11-15,False,False,False,False,78000,78646,DES CHANTIERS,...,,,,,61.456537,2011,83102.16481,30138.666667,26305.343074,1
2,301848644,0,2012-12-05,False,False,False,False,95510,95651,GRANDE RUE,...,,,,,64.678987,2012,,22710.769231,21296.219805,0
3,302342241,1,2014-09-02,False,False,False,False,95370,95424,SERGE LAUNAY,...,,,,,63.835729,2014,,19566.923077,21296.219805,0
4,304514698,1,2013-05-07,False,False,False,False,75015,75115,JEANNE HACHETTE,...,,,,,41.097878,2013,,30203.043478,27171.253619,127


In [13]:
#Stockage sur S3
MY_BUCKET = "guillaume176"

FILE_PATH_OUT_S3 = f"{MY_BUCKET}/diffusion/data_final/idf_10_24.parquet"

with fs.open(FILE_PATH_OUT_S3,"wb") as file_out:
    data.to_parquet(file_out, index=False)


Lien pour le téléchargement pour `idf_10_24`: 

In [14]:
path_data = "guillaume176/diffusion/data_final"
file_list = fs.ls(path_data)[1:]
file_list = ["https://minio.lab.sspcloud.fr/" + f for f in file_list]
print(file_list[0])

https://minio.lab.sspcloud.fr/guillaume176/diffusion/data_final/idf_10_24.parquet


Pour exporter les données grâce au module data.load_idf_10_24 : 

In [15]:
from data.load_idf_10_24 import load_base

df = load_base()

df.head()

Data Frame idf_10_24 récupéré depuis S3


Unnamed: 0,siren,cessation,date_creation,etranger,micro,agricole,eirl,code_postal,codeInseeCommune,voie,...,age2,age3,age4,age5,mean_age,annee_tronc,pop_commune,revCommune,revDep,nb_local_concurrents
0,300344389,0,2011-12-13,False,False,False,False,91370,91645,DE LA NOISETTE,...,,,,,50.198494,2011,15241.99811,33476.086957,23141.927413,3
1,300553369,0,2011-11-15,False,False,False,False,78000,78646,DES CHANTIERS,...,,,,,61.456537,2011,83102.16481,30138.666667,26305.343074,1
2,301848644,0,2012-12-05,False,False,False,False,95510,95651,GRANDE RUE,...,,,,,64.678987,2012,,22710.769231,21296.219805,0
3,302342241,1,2014-09-02,False,False,False,False,95370,95424,SERGE LAUNAY,...,,,,,63.835729,2014,,19566.923077,21296.219805,0
4,304514698,1,2013-05-07,False,False,False,False,75015,75115,JEANNE HACHETTE,...,,,,,41.097878,2013,,30203.043478,27171.253619,127
