<div style="text-align: center;">
    <h1>Registre national des entreprises (RNE)</h1>
</div>


Ce registre vient de [l'Institut National de la Propriété Industrielle](https://data.inpi.fr/) qui donne accès à de nombreuses données sur les entreprises.

Les données peuvent être consultées sur le web, sur le serveur de l'INPI ou par API. Il aurait été pratique d'utiliser l'API pour des questions de facilité de prise en main, de mise à jour des données etc ...

Néanmoins la [documentation officielle](https://www.inpi.fr/sites/default/files/documentation_technique_API_formalit%C3%A9s_v2.5.pdf) indique qu'il est impossible de filtrer géographiquement les établissements dans les méthodes GET et impose une limite de 10 Go / jour / utilisateur, ce qui est bloquant pour notre application.

On va donc utiliser les serveurs et télécharger les donnéees avec le protocole FTP.

Pour cela, il faut créer un compte INPI et faire la demande pour avoir les accès.

Une fois le compte crée, on peut accéder au serveur FTP de l'INPI (voir [ici](https://data.inpi.fr/content/editorial/Serveur_ftp_entreprises)).

Les données user_id / mdp sont retrouvables sur [ce lien](https://data.inpi.fr/espace_personnel/acces).

On télécharge le registre des Créations, modifications, cessations (CMC) d'entreprises.

# 1. Téléchargement

Pour le télécharger, on peut s'inspirer du **code suivant** :

```bash
# connexion au serveur ftp de l'inpi
sftp user_id@www.inpi.net

# accepter la connexion et rentrer le mot de passe

# création d'un dossier sur la machine locale
lmkdir rne

# navigation dans ce dossier 
llcd rne

# téléchargement des fichiers
get stock RNE formalité.zip 

# le téléchargement dure 15 min environ

# décompression des données
unzip stock RNE formalité.zip 

In [1]:
! pip install -q pyarrow fastparquet

In [8]:
import pandas as pd
import numpy as np
import json 
import os
from tqdm import tqdm
import re

# 2. Nettoyage des données

Les données obtenues sont une collection de jsons, on aimerait pouvoir les retraiter pour pouvoir les utiliser plus efficacement, il faut :

**2.1 destructurer les informations pour aller à la maille des établissements** 

On différencie ici les entreprise (identifiées par leur SIREN) des établissements (identifiées par leur SIRET = SIREN + NIC), plus d'infos [ici](https://entreprendre.service-public.fr/vosdroits/F32135#:~:text=Siret%20signifie%20Syst%C3%A8me%20d'identification,num%C3%A9ro%20interne%20de%20classement%20Insee).

**2.2 ne garder que les infos pertinentes, à savoir à la maille d'un établissement** :

- **siret** : code d'identification d'un établissement. On distingue ici les entreprises (identifiées par leur numéro SIREN) des établissements (SIRET = SIREN + NIC)
- **codeApe** : activité principale de l'établissement renseignée à l'INPI
- **codeInseeCommune** : code de la commune pour pouvoir localiser les entreprises
- **nomCommercial** : nom de l'entreprise 
- **diffusionCommerciale** : oui / non 
- **adresse** : l'adresse de l'établissement



## Conversion des json en parquet

Pour accélerer le temps de traitement des fichiers et prendre moins de stockage, on convertit tous les json en parquet

In [None]:
%%time
base_path = "../../rne/rne_deflated"


# convert json to parquet
def convert_json_to_parquet(json_path, parquet_path):

    # read json
    with open(json_path, "r") as f:
        json_data = json.load(f)

    # convert to dataframe
    df = pd.DataFrame(json_data)

    # save as parquet
    df.to_parquet(parquet_path)

# convert all json files to parquet
for root, dirs, files in os.walk(base_path):
    for file in tqdm(files):
        if file.endswith(".json"):
            json_path = os.path.join(root, file)
            parquet_path = json_path.replace(".json", ".parquet")
            convert_json_to_parquet(json_path, parquet_path)




### Vérification que la transcription s'est bien faite

In [3]:
# list of all parquet files paths
parquets = [os.path.join(base_path,f) for f in os.listdir(base_path) if f.endswith(".parquet")]

# choose a random one and read it

rand = np.random.randint(0, len(parquets))

df = pd.read_parquet(parquets[rand])

df


Unnamed: 0,updatedAt,id,formality,siren
0,2023-05-14T02:50:52+02:00,63dddf50d1ff8689bd18e053,"{'content': {'exploitation': None, 'formeExerc...",532377751
1,2023-05-14T02:50:51+02:00,63ac3caec67bc86d9f0dea9b,"{'content': {'exploitation': None, 'formeExerc...",532377595
2,2023-06-15T18:11:51+02:00,63ac3cace3573db1980ed335,"{'content': {'exploitation': None, 'formeExerc...",532377355
3,2023-07-06T11:18:54+02:00,63ac3caaf98dfe66e208d515,"{'content': {'exploitation': None, 'formeExerc...",532377090
4,2023-06-02T01:44:28+02:00,63dddf54474db94e781b2313,"{'content': {'exploitation': None, 'formeExerc...",532376811
...,...,...,...,...
99995,2023-05-14T03:10:15+02:00,63cfb0cb037fe8e60c027305,"{'content': {'exploitation': None, 'formeExerc...",533576898
99996,2023-05-14T03:10:19+02:00,63dde09fd1ff8689bd18ffe7,"{'content': {'exploitation': None, 'formeExerc...",533577292
99997,2023-05-14T03:10:21+02:00,63dde0a412889021a71a99b3,"{'content': {'exploitation': None, 'formeExerc...",533576419
99998,2023-06-01T20:24:54+02:00,63ac43fae3573db1980f0ec7,"{'content': {'exploitation': None, 'formeExerc...",533576724


## Passage de données par entreprise à des données par établissement

Pour pouvoir avoir des filtres géographiques, on a besoin d'avoir le détail par établissement.

Or les données sont regroupées pour l'instant à l'échelle d'une entreprise. 

On cherche donc la meilleure manière de faire ce filtre, on peut se référer à la [documentation de l'inpi](https://www.inpi.fr/sites/default/files/documentation_technique_API_formalit%C3%A9s_v2.5.pdf) pour voir comment sont structurées les données.

Sur le site, de l'INPI, on peut aussi consulter leur [dictionnaire des données](https://www.inpi.fr/sites/default/files/Dictionnaire_de_donnees_2023_avril.xls).

#### Fonction pour convertir les données associées à une entreprise en json pour pouvoir parser facilement

In [4]:


class NumpyEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, np.ndarray):
            if obj.dtype == object:
                # Handle NumPy array with dtype=object
                return obj.tolist()
            else:
                # Handle other NumPy arrays
                return obj.tolist()
        return json.JSONEncoder.default(self, obj)

def convert_np_to_list(obj):
    if isinstance(obj, dict):
        return {key: convert_np_to_list(value) for key, value in obj.items()}
    elif isinstance(obj, list):
        return [convert_np_to_list(item) for item in obj]
    elif isinstance(obj, np.ndarray):
        return obj.tolist()
    else:
        return obj
    


# Conversion and saving
with open("temp.json", "w") as f:

    # Choose a random row
    rand = np.random.randint(0, len(df))

    # Convert numpy arrays to lists recursively
    converted_text = convert_np_to_list(df.iloc[rand].to_dict())

    # Save output as indented JSON
    json.dump(converted_text, f, indent=4, cls=NumpyEncoder)

            

#### Fonctions pour parser

In [5]:
# pour une entrepise sans établissement secondaire, retourne les informations de l'entreprise
def parse_etablissement(etablissementPrincipal,diffusionCommerciale,nomCommercial,codeApe):

    # certaines entreprises n'ont pas de nom commercial (ex : siren 949 299 903)
    try :
        siret = etablissementPrincipal["descriptionEtablissement"]["siret"]
    except :
        return None

    # certaines entreprises n'ont pas d'adresse ex : siren 950567479
    try :
        adresse_base = etablissementPrincipal["adresse"]

        # Check for None values and handle them
        elements = [adresse_base.get(key, "") for key in ["numVoie", "typeVoie", "voie", "codePostal", "commune"]]

        # Construct the address string, skipping None values
        adresse = " ".join(elements) if None not in elements else ""
    except :
        return None

    try :
        codeInseeCommune = adresse_base["codeInseeCommune"]
    except :
        return None

    return {siret: {"nomCommercial": nomCommercial, "adresse": adresse, "codeInseeCommune": codeInseeCommune, "codeApe": codeApe, "diffusionCommerciale": diffusionCommerciale}}

# liste des codes rolePourEntreprise d'établissement fermé
rolePourEntreprise_fermes = ["11","12","13","14","15","16"]


# pour une entreprise avec établissement secondaire, retourne les informations de chaque établissement
def parse_etablissements_secondaires(autresEtablissements, diffusionCommerciale, formality):

    # one dict to store them all
    etablissements = {}

    # pour chaque établissement
    for etablissement in autresEtablissements:
        
        # si l'établissement est fermé, on ne le prend pas en compte
        if etablissement["descriptionEtablissement"]["rolePourEntreprise"] in rolePourEntreprise_fermes:
            continue

        # etablissement ouvert
        else :

            try :
    
                adresse_base = etablissement["adresse"]

                # Check for None values and handle them
                elements = [adresse_base.get(key, "") for key in ["numVoie", "typeVoie", "voie", "codePostal", "commune"]]

                # Construct the address string, skipping None values
                adresse = " ".join(elements) if None not in elements else ""


            except :

                adresse = None

            # si l'adresse n'est pas en France, on ne la prend pas en compte
            try :
                codeInseeCommune = etablissement["adresse"]["codeInseeCommune"]
            except :
                codeInseeCommune = None

            siret = etablissement["descriptionEtablissement"]["siret"]

            codeApe = formality["content"]["personneMorale"]["identite"]["entreprise"]["codeApe"]
            
            nomCommercial = etablissement["descriptionEtablissement"]["nomCommercial"]

            if nomCommercial == None:
                nomCommercial = formality["content"]["personneMorale"]["identite"]["entreprise"]["denomination"]

            diffusionCommerciale = formality["diffusionCommerciale"]
        
            etablissements[siret] = {"nomCommercial": nomCommercial, "adresse": adresse, "codeInseeCommune": codeInseeCommune, "codeApe": codeApe, "diffusionCommerciale": diffusionCommerciale}

    return etablissements

# retourne les informations de l'entreprise concernée par la cessation
def parse_formality(formality):


    # personne morale
    if formality["content"]["personneMorale"] == None:
        return None
    

    # cas 1 : entreprise sans établissement secondaire
    if (not isinstance(formality["content"]["personneMorale"]["autresEtablissements"],np.ndarray)) and formality["content"]["personneMorale"]["etablissementPrincipal"] != None:

        codeApe = formality["content"]["personneMorale"]['identite']["entreprise"]["codeApe"]
        denomination = formality["content"]["personneMorale"]["identite"]["entreprise"]["denomination"]
        diffusionCommerciale = formality["diffusionCommerciale"]

        return parse_etablissement(formality["content"]["personneMorale"]["etablissementPrincipal"],diffusionCommerciale,denomination,codeApe)
    
    
    # cas 2 : entreprise avec établissement secondaire
    elif isinstance(formality["content"]["personneMorale"]["autresEtablissements"],np.ndarray) :


        return parse_etablissements_secondaires(formality["content"]["personneMorale"]["autresEtablissements"], formality["diffusionCommerciale"],formality)


    # cas 3 : entreprise avec mauvaise saisie : ni établissement principal, ni établissement secondaire
    # ex : siren 949759906
    else :
        return None

#### Debugging 

In [6]:
# generate 10000 random numbers
rand = np.random.randint(0, len(df), 100000)

# for each random number, parse the content and create a dataframe
df_parsed = pd.DataFrame(columns=["siret", "nomCommercial", "adresse", "codeInseeCommune", "codeApe", "diffusionCommerciale","row"])

for i in tqdm(rand):

    row = df.iloc[i]

    try :
        parsed = parse_formality(row["formality"])
    except :
        print("Error on row {}".format(i))
        break

    if parsed == None:
        continue

    # concatenate the row number to the parsed data
    for key, value in parsed.items():
        value["row"] = i

    # append to the dataframe
    pd.concat([df_parsed, pd.DataFrame.from_dict(parsed, orient="index")], axis=0)


100%|██████████| 100000/100000 [00:17<00:00, 5759.25it/s]


In [7]:
error_row = 9817

# Conversion and saving
with open("temp.json", "w") as f:


    # Convert numpy arrays to lists recursively
    converted_text = convert_np_to_list(df.iloc[error_row].to_dict())

    # Save output as indented JSON
    json.dump(converted_text, f, indent=4, cls=NumpyEncoder)

parse_formality(df.iloc[error_row]["formality"])     

{'53249469700016': {'nomCommercial': 'TRISTANA',
  'adresse': '24 BD DU GENERAL LECLERC 22520 BINIC-ETABLES-SUR-MER',
  'codeInseeCommune': '22055',
  'codeApe': '9602B',
  'diffusionCommerciale': True}}

Fin du debugging : on enlève le temp

In [8]:
if os.path.exists('temp.json'):
    os.remove('temp.json')

#### Test sur un fichier

In [None]:
%%time

def parse_parquet(parquet_path):

    # lecture du parquet
    df = pd.read_parquet(parquet_path)

    # liste des résultats
    results = []

    # pour chaque entreprise 
    for i, row in df.iterrows():

        # parse the formality
        parsed = parse_formality(row["formality"])

        if parsed == None or parsed == {}:
            continue    

        else :
            # extend the dict with the parsed data
            results.append(parsed)


    # converts to dataframe
    df = pd.DataFrame([(key, *value.values()) for dct in results for key, value in dct.items()], columns=["siret", "nomCommercial", "adresse", "codeInseeCommune", "codeApe", "diffusionCommerciale"])

    return df



# choose a random parquet file
rand = np.random.randint(0, len(parquets))

# parse it
parse_parquet(parquets[rand])



#### Parsing de tous les fichiers

In [56]:
%%time

# loops over all parquet files and parse them
for parquet in tqdm(parquets):
    df = parse_parquet(parquet)
    
    # save as parquet
    df.to_parquet(parquet.replace(".parquet", "_parsed.parquet"))



100%|██████████| 241/241 [31:54<00:00,  7.94s/it]

CPU times: user 21min, sys: 7min 29s, total: 28min 29s
Wall time: 31min 54s





## Création d'un seul parquet

In [57]:
parsed_parquets = [os.path.join(base_path,f) for f in os.listdir(base_path) if f.endswith("_parsed.parquet")]

print("Nombre de parquets parsés : {}".format(len(parsed_parquets)))

Nombre de parquets parsés : 241


In [58]:
%%time 


# concat all parsed parquets into a single parquet file
df = pd.concat([pd.read_parquet(parquet) for parquet in tqdm(parsed_parquets)])

# save as parquet
df.to_parquet(os.path.join(base_path, "final_dataset_parsed.parquet"))

100%|██████████| 241/241 [00:03<00:00, 71.80it/s]


CPU times: user 6.8 s, sys: 2.14 s, total: 8.93 s
Wall time: 9.63 s


## Comparaison de la taille pris par les fichiers

In [59]:
jsons = [os.path.join(base_path,f) for f in os.listdir(base_path) if f.endswith(".json")]
parsed_parquets = [os.path.join(base_path,f) for f in os.listdir(base_path) if f.endswith("_parsed.parquet")]
parquets = [os.path.join(base_path,f) for f in os.listdir(base_path) if f.endswith(".parquet")]
original_parquets = [parquet for parquet in parquets if parquet not in parsed_parquets]

print("Poids des jsons : {} Mo".format(round(sum([os.path.getsize(json) for json in jsons]) / 1000000, 2)))

print("Poids des parquets originaux : {} Mo".format(round(sum([os.path.getsize(parquet) for parquet in original_parquets]) / 1000000, 2)))

print("Poids des parquets parsés : {} Mo".format(round(sum([os.path.getsize(parquet) for parquet in parsed_parquets]) / 1000000, 2)))

print("Poids du parquet final : {} Mo".format(round(os.path.getsize(os.path.join(base_path, "final_dataset_parsed.parquet")) / 1000000, 2)))



Poids des jsons : 108100.5 Mo
Poids des parquets originaux : 8483.95 Mo
Poids des parquets parsés : 712.89 Mo
Poids du parquet final : 346.08 Mo


In [60]:
df = pd.read_parquet(os.path.join(base_path, "final_dataset_parsed.parquet"))

df

Unnamed: 0,siret,nomCommercial,adresse,codeInseeCommune,codeApe,diffusionCommerciale
0,40825446400014,SCI GRAISSAC,8 RUE DU ROCHER 75008 PARIS 8,75108,6820B,True
1,40825448000010,LE SAINTES SCARBES,10 PL SAINTES SCARBES 31000 TOULOUSE,31555,553A,True
2,40825449800020,HELIOS PEINTURE,13 RUE DE LA VICTOIRE 93150 LE BLANC-MESNIL,93007,454J,True
3,40825480300013,SCP VETERINAIRES DUBOST F ET TARDIEUX MC,,13110,7500Z,True
4,40825387000013,IC 3A,1 RUE ROBERT FOURNERON 07400 LE TEIL,07319,742C,True
...,...,...,...,...,...,...
12799,78849706300016,COBAMET,92 RUE CAROLINE FOLLET 80160 CONTY,80211,4332B,True
12800,78849721200019,MASSAGE CHINOIS 6,6 RUE DE LANCRY 75010 PARIS 10,75110,9604Z,True
12801,78849780800014,ID'S WORKS,3 CHE DE LA POUPETTERIE 86800 SEVRES-ANXAUMONT,86261,7311Z,True
12802,78849702200012,LES BEAUX PINS,14 RUE DES BRUYERES 33450 SAINT-LOUBES,33433,6820B,True


## Clean du parquet final

In [61]:
# check for duplicates

print("Nombre de lignes : {}".format(len(df)))

print("Nombre de lignes uniques : {}".format(len(df.drop_duplicates())))

Nombre de lignes : 7831781
Nombre de lignes uniques : 7831770


In [70]:
df.drop_duplicates().to_parquet("../Données nationales/RNE.parquet",index=False)

In [69]:
# check siret 45132133500023 (Carrefour)

df[df["siret"] == "32522172900016"]

Unnamed: 0,siret,nomCommercial,adresse,codeInseeCommune,codeApe,diffusionCommerciale
57,32522172900016,SA SBME INTERMARCHE,37 RUE HERVE DE GUEBRIANT 29800 LANDERNEAU,29103,4711F,True


Ajout 24/01 : dtypes

In [6]:
df_rne = pd.read_parquet('../Données nationales/RNE.parquet')

def is_digit(x):

    try:
        return int(x)
    except:
        return False



df_rne["is_digit"] = df_rne.siret.apply(is_digit)


df_rne = df_rne[df_rne.is_digit != False].drop(["is_digit"],axis=1)
df_rne["siret"] = df_rne.siret.astype(np.int64)

df_rne.to_parquet("../Données nationales/RNE.parquet",index=False)

Ajout 2 : bons codes  naf (abandonnés)

In [8]:
# converts 6420Z to 64.20Z

df_rne = pd.read_parquet('../Données nationales/RNE.parquet')


def convert_format(x):

    x = str(x)

    return x[:2]+'.'+x[2:]


df_rne["codeApe"] = df_rne["codeApe"].apply(convert_format)

df_rne.to_parquet("../Données nationales/RNE.parquet",index=False)



In [9]:
df_rne = pd.read_parquet('../Données nationales/RNE.parquet')


In [11]:
df_rne.columns = ['siret', 'nomCommercial', 'adresse', 'codeInseeCommune', 'codeApe',
       'diffusionCommerciale']

In [12]:
df_rne.to_parquet("../Données nationales/RNE.parquet",index=False)
