# Jeu de données entreprise

Voici le script pour récupérer les colonnes spécifiques siret, categorieentreprise, sectionetablissement, et geolocetablissement, tout en sélectionnant uniquement les enregistrements avec l'état administratif "Actif" dans la colonne etatadministratifetablissement :

In [3]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [19]:
url3 = "https://data.paysdelaloire.fr/api/explore/v2.1/catalog/datasets/120027016_base-sirene-v3-ss/exports/json?"

where = (
     "etatadministratifetablissement = 'Actif' AND ("
        "libellecommuneetablissement = 'DONGES' OR "
        "libellecommuneetablissement = 'FROSSAY' OR "
        "libellecommuneetablissement = 'SAINT-ETIENNE-DE-MONTLUC' OR "
        "libellecommuneetablissement = 'CHOLET' OR "
        "libellecommuneetablissement = 'NANTES' OR "
        "libellecommuneetablissement = 'SAINT-NAZAIRE' OR "
        "libellecommuneetablissement = 'ANGERS' OR "
        "libellecommuneetablissement = 'LAVAL' OR "
        "libellecommuneetablissement = 'LA TARDIERE' OR "
        "libellecommuneetablissement = 'LA ROCHE-SUR-YON' OR "
        "libellecommuneetablissement = 'LE MANS' OR "
        "libellecommuneetablissement = 'REZE' OR "
        "libellecommuneetablissement = 'BOUGUENAIS' OR "
        "libellecommuneetablissement = 'MONTOIR-DE-BRETAGNE')"
)

select = 'siret, categorieentreprise, sectionetablissement, libellecommuneetablissement ,geolocetablissement, etatadministratifetablissement'
limit = 300000



dfEtp = pd.DataFrame()

while True:
    # Paramètres de la requête
    params = {
        'select': select,
        'where': where,
        'limit': limit
    }
    

    response = requests.get(url3, params=params)
    if response.status_code != 200:
        print(f"Erreur: {response.status_code}")
        print(response.text)
    
    data = response.json()
    if isinstance(data, list):
        df_results = pd.json_normalize(data)
        dfEtp = pd.concat([dfEtp, df_results], ignore_index=True)
    
    if len(data) < limit:
        break  # Arrêter la boucle si tous les enregistrements ont été récupérés
    
print(dfEtp.shape)
print(dfEtp.head())

(213275, 8)
            siret categorieentreprise  \
0  48883215500029                 PME   
1  39331063600021                 PME   
2  84379749900012                 PME   
3  81927682500018                None   
4  49477092800047                None   

                                sectionetablissement  \
0  Commerce ; réparation d'automobiles et de moto...   
1  Activités spécialisées, scientifiques et techn...   
2                                       Construction   
3                             Activités immobilières   
4                             Activités immobilières   

  libellecommuneetablissement etatadministratifetablissement  \
0                      ANGERS                          Actif   
1                      ANGERS                          Actif   
2                      ANGERS                          Actif   
3                      CHOLET                          Actif   
4                      ANGERS                          Actif   

   geolocetablissem

In [20]:
dfEtp = dfEtp.head(40000)

In [21]:
print(dfEtp['libellecommuneetablissement'].value_counts())


libellecommuneetablissement
NANTES                      40609
ANGERS                      16267
LE MANS                     13256
SAINT-NAZAIRE                6211
LA ROCHE-SUR-YON             5599
LAVAL                        5452
CHOLET                       5079
REZE                         3928
BOUGUENAIS                   1741
SAINT-ETIENNE-DE-MONTLUC      669
MONTOIR-DE-BRETAGNE           467
DONGES                        444
FROSSAY                       278
Name: count, dtype: int64


In [6]:
dfEtp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   siret                           10000 non-null  object 
 1   categorieentreprise             6346 non-null   object 
 2   sectionetablissement            10000 non-null  object 
 3   libellecommuneetablissement     10000 non-null  object 
 4   etatadministratifetablissement  10000 non-null  object 
 5   geolocetablissement.lon         9771 non-null   float64
 6   geolocetablissement.lat         9771 non-null   float64
 7   geolocetablissement             0 non-null      float64
dtypes: float64(3), object(5)
memory usage: 625.1+ KB


In [7]:
dfEtp.info

<bound method DataFrame.info of                siret categorieentreprise  \
0     43978322600053                 PME   
1     39782326100011                None   
2     88179106500025                 PME   
3     42401388600017                None   
4     39759664400013                 PME   
...              ...                 ...   
9995  90188365200017                None   
9996  79901137400011                 PME   
9997  89059148000011                 PME   
9998  90052852200015                 PME   
9999  89424452400019                 PME   

                                   sectionetablissement  \
0                          Autres activités de services   
1                                Activités immobilières   
2     Production et distribution d'électricité, de g...   
3                          Autres activités de services   
4                                          Construction   
...                                                 ...   
9995          Arts, specta

In [8]:
dfEtp.isnull().sum()

siret                                 0
categorieentreprise                3654
sectionetablissement                  0
libellecommuneetablissement           0
etatadministratifetablissement        0
geolocetablissement.lon             229
geolocetablissement.lat             229
geolocetablissement               10000
dtype: int64

In [9]:
for col in dfEtp.select_dtypes('float64'):
    print(f'{col :-<20} {dfEtp[col].unique()}')

geolocetablissement.lon [-1.93347535 -1.962622   -1.9209     ... -1.56876    -1.584195
 -1.528458  ]
geolocetablissement.lat [47.24492702 47.205208   47.236324   ... 47.191394   47.191929
 47.173121  ]
geolocetablissement- [nan]


In [10]:
for col in dfEtp.select_dtypes('object'):
    print(f'{col :-<20} {dfEtp[col].unique()}')

siret--------------- ['43978322600053' '39782326100011' '88179106500025' ... '89059148000011'
 '90052852200015' '89424452400019']
categorieentreprise- ['PME' None 'GE' 'ETI']
sectionetablissement ['Autres activités de services' 'Activités immobilières'
 "Production et distribution d'électricité, de gaz, de vapeur et d'air conditionné"
 'Construction' 'Agriculture, sylviculture et pêche'
 'Information et communication' 'Santé humaine et action sociale'
 'Hébergement et restauration'
 'Activités de services administratifs et de soutien'
 'Transports et entreposage'
 'Activités spécialisées, scientifiques et techniques'
 'Industrie manufacturière'
 "Commerce ; réparation d'automobiles et de motocycles"
 "Production et distribution d'eau ; assainissement, gestion des déchets et dépollution"
 'Arts, spectacles et activités récréatives' 'Enseignement'
 "Activités financières et d'assurance" 'Administration publique'
 'Services collectifs, sociaux et personnels' 'Industries extractives'
 'Tra

In [11]:
# Suppression des colonnes 'geo_shape' et 'geo_point_2d' de dfPopulation
dfEtp = dfEtp.drop(columns=['geolocetablissement'], errors='ignore')

# Afficher les premières lignes du DataFrame dfPopulation pour vérifier les modifications
print(dfEtp.head())


            siret categorieentreprise  \
0  43978322600053                 PME   
1  39782326100011                None   
2  88179106500025                 PME   
3  42401388600017                None   
4  39759664400013                 PME   

                                sectionetablissement  \
0                       Autres activités de services   
1                             Activités immobilières   
2  Production et distribution d'électricité, de g...   
3                       Autres activités de services   
4                                       Construction   

  libellecommuneetablissement etatadministratifetablissement  \
0                     FROSSAY                          Actif   
1                     FROSSAY                          Actif   
2                     FROSSAY                          Actif   
3                     FROSSAY                          Actif   
4                     FROSSAY                          Actif   

   geolocetablissement.lon  geo

In [12]:
from unidecode import unidecode

# Convertir les valeurs de la colonne 'nom_commune' en minuscules et supprimer les accents
dfEtp['libellecommuneetablissement'] = dfEtp['libellecommuneetablissement'].apply(lambda x: unidecode(x).lower())


In [13]:
dfEtp.info

<bound method DataFrame.info of                siret categorieentreprise  \
0     43978322600053                 PME   
1     39782326100011                None   
2     88179106500025                 PME   
3     42401388600017                None   
4     39759664400013                 PME   
...              ...                 ...   
9995  90188365200017                None   
9996  79901137400011                 PME   
9997  89059148000011                 PME   
9998  90052852200015                 PME   
9999  89424452400019                 PME   

                                   sectionetablissement  \
0                          Autres activités de services   
1                                Activités immobilières   
2     Production et distribution d'électricité, de g...   
3                          Autres activités de services   
4                                          Construction   
...                                                 ...   
9995          Arts, specta