# FICHIER SIREN #

Le fichier SIREN repertorie l'ensemble des établissements en France.  
Chaque établissement a une clé unique: le SIRET.  
Une entreprise peut comprendre plusieurs établissements  
On identifie une entreprise via le SIREN.

Le fichier SIREN est très volumineux (> 6 GO).  
Il peut difficilement être ouvert via un read_csv et demande un matériel informatique suffisamment puissant.

Certaines entreprises, largement minoritaires, refusent leur diffusion via ce type de fichier.  
Elle sont donc absentes (variable statutDiffusionEtablissement)

Dans le cadre du projet French Industry, Nous souhaitons :

- SIRET
- SIREN
- Avoir les entreprises actives (etatAdministratifEtablissement == 'A')
- Disposer d'informations géographiques (codeCommuneEtablissement)
- Connaître la taille de l'établissement (trancheEffectifsEtablissement & anneeEffectifsEtablissement)

# FICHIER SOURCE #

**Lien** : https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/  
**Fichier à télécharger** : StockEtablissement_utf8.csv

# SIREN : STOCK ETABLISSEMENT #

In [1]:
import pandas as pd
import numpy as np
import time
from unidecode import unidecode

In [2]:

#début de l'execution du code
start = time.time()

siret = pd.Series([], dtype='string') # 'siret'
siren = pd.Series([], dtype='string') # 'siret'
etablissementSiege = pd.Series([], dtype='boolean') # 'etablissementSiege'
codeCommuneEtablissement = pd.Series([], dtype='string') # 'codeCommuneEtablissement'
trancheEffectifsEtablissement = pd.Series([], dtype='string') # 'trancheEffectifsEtablissement'
anneeEffectifsEtablissement = pd.Series([], dtype='string') # 'anneeEffectifsEtablissement'
libelleVoieEtablissement = pd.Series([], dtype='string') # 'libelleVoieEtablissement'
codePostalEtablissement = pd.Series([], dtype='string') # 'codePostalEtablissement'
libelleCommuneEtablissement = pd.Series([], dtype='string') # 'libelleCommuneEtablissement'
etatAdministratifEtablissement = pd.Series([], dtype='string') # 'etatAdministratifEtablissement'
trancheEffectifsEtablissement = pd.Series([], dtype='string') # 'trancheEffectifsEtablissement'

for chunk in pd.read_csv("C:\\Users\\vrenouf\\Documents\\SIREN SFDC Data files\\StockEtablissement_utf8.csv", encoding='UTF-8', dtype='string', chunksize=1000000):
    siret = pd.concat([siret, chunk['siret']])
    siren = pd.concat([siren, chunk['siren']])
    etablissementSiege = pd.concat([etablissementSiege, chunk['etablissementSiege']])
    codeCommuneEtablissement = pd.concat([codeCommuneEtablissement, chunk['codeCommuneEtablissement']])
    trancheEffectifsEtablissement = pd.concat([trancheEffectifsEtablissement, chunk['trancheEffectifsEtablissement']])
    anneeEffectifsEtablissement = pd.concat([anneeEffectifsEtablissement, chunk['anneeEffectifsEtablissement']])
    codePostalEtablissement = pd.concat([codePostalEtablissement, chunk['codePostalEtablissement']])
    libelleCommuneEtablissement = pd.concat([libelleCommuneEtablissement, chunk['libelleCommuneEtablissement']])
    etatAdministratifEtablissement = pd.concat([etatAdministratifEtablissement, chunk['etatAdministratifEtablissement']])

StockEtablissement = pd.concat([siret, 
                                siren,
                                etatAdministratifEtablissement,
                                etablissementSiege, 
                                codeCommuneEtablissement,
                                trancheEffectifsEtablissement,
                                anneeEffectifsEtablissement,
                                codePostalEtablissement,
                                libelleCommuneEtablissement], axis=1)

StockEtablissement.columns = ['siret', 
                                'siren',
                                'etatAdministratifEtablissement',
                                'etablissementSiege', 
                                'codeCommuneEtablissement',
                                'trancheEffectifsEtablissement',
                                'anneeEffectifsEtablissement',
                                'codePostalEtablissement',
                                'libelleCommuneEtablissement',]


end = time.time()
execution = end - start
print('Temps d\'excution : {}'.format(np.round(execution, 2)))
StockEtablissement.head()

Temps d'excution : 348.11


Unnamed: 0,siret,siren,etatAdministratifEtablissement,etablissementSiege,codeCommuneEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,codePostalEtablissement,libelleCommuneEtablissement
0,32517500016,325175,F,False,98727,,,98770,MANIHI
1,32517500024,325175,F,False,84007,,,84140,AVIGNON
2,32517500032,325175,F,False,84007,,,84000,AVIGNON
3,32517500040,325175,F,False,13042,,,13420,GEMENOS
4,32517500057,325175,F,False,13204,,,13004,MARSEILLE 4


# EXPORT DES ETABLISSEMENTS ACTIFS AU 1ER AVRIL 2023 #

In [3]:
StockEtablissement_A = StockEtablissement[StockEtablissement['etatAdministratifEtablissement'] == 'A'].reset_index(drop=True)

In [4]:
StockEtablissement_A.to_csv("StockEtablissement_A.csv")

In [5]:
StockEtablissement_A.head()

Unnamed: 0,siret,siren,etatAdministratifEtablissement,etablissementSiege,codeCommuneEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,codePostalEtablissement,libelleCommuneEtablissement
0,32517500065,325175,A,True,13204,,,13004,MARSEILLE 4
1,542002100056,5420021,A,True,80001,NN,,80100,ABBEVILLE
2,542012000015,5420120,A,False,80688,02,2020.0,80120,RUE
3,542012000023,5420120,A,False,62688,NN,,62180,RANG-DU-FLIERS
4,542012000031,5420120,A,True,62550,03,2020.0,62140,MARCONNELLE


### COMBIEN D'ETABLISSEMENTS ACTIFS EN FRANCE ? ###

In [7]:
len(StockEtablissement_A)

14873397

Est-ce que cela correspond bien au nombre de SIRET unique ?

In [8]:
StockEtablissement_A.siret.nunique()

14873397

Combien d'entreprises ?

In [9]:
StockEtablissement_A.siren.nunique()

13399071

### ETAT DES LIEUX DES CODES COMMUNE ###

In [13]:
StockEtablissement_A[StockEtablissement_A['codeCommuneEtablissement'] == 'true'].trancheEffectifsEtablissement.isna().sum() / len(StockEtablissement_A)

0.0

Il n'y a donc aucun NaN pour les codes géographiques

### TRANCHES EFFECTIFS ETABLISSEMENTS ###

- NN : Etablissement non employeur (pas de salarié au cours de l'année de référence et pas d'effectif au
31/12)
- 00 : 0 salarié (n'ayant pas d'effectif au 31/12 mais ayant employé des salariés au cours de l'année de
référence)
- 01 : 1 ou 2 salariés
- 02 : 3 à 5 salariés
- 03 : 6 à 9 salariés
- 11 : 10 à 19 salariés
- 12 : 20 à 49 salariés
- 21 : 50 à 99 salariés
- 22 : 100 à 199 salariés
- 31 : 200 à 249 salariés
- 32 : 250 à 499 salariés
- 41 : 500 à 999 salariés
- 42 : 1 000 à 1 999 salariés
- 51 : 2 000 à 4 999 salariés
- 52 : 5 000 à 9 999 salariés
- 53 : 10 000 salariés et plus

### COMBIEN D'ETABLISSEMENTS SANS TRANCHES EFFECTIFS ? ###

In [10]:
StockEtablissement_A.trancheEffectifsEtablissement.isna().sum() / len(StockEtablissement_A)

0.6868184181461706

### COMBIEN D'ETABLISSEMENTS SIEGE SANS TRANCHES EFFECTIFS ? ###

In [12]:
StockEtablissement_A[StockEtablissement_A['etablissementSiege'] == 'true'].trancheEffectifsEtablissement.isna().sum() / len(StockEtablissement_A)

0.6330591458024014

### TABLEAU DES TAILLES D'ETABLISSEMENTS ###

In [20]:
ets_tailles = StockEtablissement_A.trancheEffectifsEtablissement.value_counts(dropna=False).to_frame()

In [21]:
ets_tailles

Unnamed: 0,trancheEffectifsEtablissement
,10215323
NN,2712108
01,772757
02,424619
03,228113
11,179493
00,152354
12,113082
21,43745
22,18948
