In [17]:
import requests
import pandas as pd
from sqlalchemy import create_engine

# --------------------
# Param√®tres API SIRENE
# --------------------
api_url = "https://api.insee.fr/api-sirene/3.11/siret"
api_key = "2c6da094-b893-415a-ada0-94b893115aea"

headers = {
    "X-INSEE-Api-Key-Integration": api_key
}

# ‚ö° Ici on filtre sur Aix-en-Provence (code postal = 13100)
params = {
    "q": "codePostalEtablissement:13100",
    "nombre": 1000,   # max par page
    "debut": 0        # offset
}

all_results = []

while True:
    response = requests.get(api_url, headers=headers, params=params)
    
    if response.status_code != 200:
        print("Erreur API :", response.status_code, response.text)
        break
    
    data = response.json()
    etablissements = data.get("etablissements", [])
    
    if not etablissements:  # stop si plus de r√©sultats
        break
    
    all_results.extend(etablissements)
    
    print(f"‚úÖ Page avec {len(etablissements)} entreprises r√©cup√©r√©e (total = {len(all_results)})")
    
    # Passer √† la page suivante
    params["debut"] += params["nombre"]

# --------------------
# Transformation en DataFrame
# --------------------
df = pd.json_normalize(all_results, sep=".")

colonnes_a_garder = [
    'siren',
    'uniteLegale.denominationUniteLegale',
    'uniteLegale.activitePrincipaleUniteLegale',
    'uniteLegale.categorieEntreprise.libelle',
    'uniteLegale.dateCreationUniteLegale',
    'uniteLegale.formeJuridiqueUniteLegale',
    'uniteLegale.trancheEffectifsUniteLegale',
    'adresseEtablissement.adresseLigne1',
    'adresseEtablissement.codePostal',
    'adresseEtablissement.libelleCommune',
    'adresseEtablissement.region'
]

df_sql = df[colonnes_a_garder].copy()

df_sql.columns = [
    'siren', 'denomination', 'naf_code', 'secteur_libelle',
    'date_creation', 'forme_juridique', 'effectif',
    'adresse', 'code_postal', 'ville', 'region'
]

print(f"üìä Total entreprises Aix r√©cup√©r√©es : {len(df_sql)}")
print(df_sql.head())


‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 1000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 2000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 3000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 4000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 5000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 6000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 7000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 8000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 9000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 10000)
‚úÖ Page avec 1000 entreprises r√©cup√©r√©e (total = 11000)
Erreur API : 400 {"header":{"statut":400,"message":"valeur maximale pour le param√®tre debut: 10000. R√©cup√©rez les fichiers exhaustifs sur https:\\www.data.gouv.fr ou utilisez la fonctionnalit√© curseur."}}


KeyError: "['uniteLegale.categorieEntreprise.libelle', 'uniteLegale.formeJuridiqueUniteLegale', 'adresseEtablissement.adresseLigne1', 'adresseEtablissement.codePostal', 'adresseEtablissement.libelleCommune', 'adresseEtablissement.region'] not in index"

In [39]:
import requests
import pandas as pd
from sqlalchemy import create_engine

# --------------------
# Param√®tres API SIRENE
# --------------------
api_url = "https://api.insee.fr/api-sirene/3.11/siret"
api_key = "2c6da094-b893-415a-ada0-94b893115aea"

headers = {
    "X-INSEE-Api-Key-Integration": api_key
}

# --------------------
# Liste des codes postaux d‚ÄôAix
# --------------------
codes_postaux = ["13100", "13290", "13540","13090","13080"]

all_results = []

# --------------------
# Boucle sur les codes postaux
# --------------------
for cp in codes_postaux:
    print(f"R√©cup√©ration des entreprises pour CP {cp}...")
    params = {
        "q": f"codePostalEtablissement:{cp}",
        "nombre": 1000
    }

    cursor = None
    while True:
        if cursor:
            params["curseur"] = cursor

        response = requests.get(api_url, headers=headers, params=params)

        if response.status_code != 200:
            print("Erreur API :", response.status_code, response.text)
            break

        data = response.json()
        etablissements = data.get("etablissements", [])
        all_results.extend(etablissements)

        print(f"Page r√©cup√©r√©e pour {cp}, total cumul√© = {len(all_results)}")

        # R√©cup√©ration du curseur suivant
        cursor = data.get("header", {}).get("curseurSuivant")
        if not cursor:
            break

# --------------------
# Conversion en DataFrame
# --------------------
df = pd.json_normalize(all_results, sep='.')

# --------------------
# S√©lection des colonnes
# --------------------
colonnes_a_garder = {
    'siret': 'siret',
    'siren': 'siren',
    'uniteLegale.denominationUniteLegale': 'denomination',
    'uniteLegale.activitePrincipaleUniteLegale': 'naf_code',
    'uniteLegale.dateCreationUniteLegale': 'date_creation',
    'uniteLegale.trancheEffectifsUniteLegale': 'effectif',
    'adresseEtablissement.libelleVoieEtablissement': 'adresse',
    'adresseEtablissement.codePostalEtablissement': 'code_postal',
    'adresseEtablissement.libelleCommuneEtablissement': 'ville'
}

colonnes_existantes = [c for c in colonnes_a_garder.keys() if c in df.columns]
df_sql = df[colonnes_existantes].rename(columns={c: colonnes_a_garder[c] for c in colonnes_existantes})

# --------------------
# Nettoyage date
# --------------------
df_sql["date_creation"] = pd.to_datetime(df_sql["date_creation"], errors="coerce")

# --------------------
# Nettoyage de la colonne effectif
# --------------------
effectif_mapping = {
    "00": "0 salari√©",
    "01": "1-2",
    "02": "3-5",
    "03": "6-9",
    "11": "10-19",
    "12": "20-49",
    "21": "50-99",
    "22": "100-199",
    "31": "200-249",
    "32": "250-499",
    "41": "500-999",
    "42": "1000-1999",
    "51": "2000-4999",
    "52": "5000-9999",
    "53": "10000+",
    "NN": None
}

df_sql["effectif"] = df_sql["effectif"].map(effectif_mapping)

# --------------------
# Supprimer les doublons sur le SIRET
# --------------------
df_sql = df_sql.drop_duplicates(subset=["siret"])

# --------------------
# Connexion MySQL
# --------------------
engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")

# --------------------
# Insertion en base
# --------------------
# IMPORTANT : S'assurer que la table MySQL a 'siret' comme PRIMARY KEY
df_sql.to_sql("sirene", con=engine, if_exists="append", index=False)

print("Donn√©es pour Aix-en-Provence ins√©r√©es en base avec succ√®s !")

R√©cup√©ration des entreprises pour CP 13100...
Page r√©cup√©r√©e pour 13100, total cumul√© = 1000
R√©cup√©ration des entreprises pour CP 13290...
Page r√©cup√©r√©e pour 13290, total cumul√© = 2000
R√©cup√©ration des entreprises pour CP 13540...
Page r√©cup√©r√©e pour 13540, total cumul√© = 3000
R√©cup√©ration des entreprises pour CP 13090...
Page r√©cup√©r√©e pour 13090, total cumul√© = 4000
R√©cup√©ration des entreprises pour CP 13080...
Page r√©cup√©r√©e pour 13080, total cumul√© = 5000
Donn√©es pour Aix-en-Provence ins√©r√©es en base avec succ√®s !


In [9]:
import sys
import os
sys.path.append(os.path.abspath("/Users/chiaramasi/defaut-entreprises-data-project/"))  # Ajoute le dossier parent, pas /scripts

from scripts.get_data_api import get_entreprises_by_city
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")

df_marseille = get_entreprises_by_city("MARSEILLE", engine=engine)
df_aix = get_entreprises_by_city("AIX-EN-PROVENCE", engine=engine)

R√©cup√©ration des entreprises pour la ville : MARSEILLE
Page r√©cup√©r√©e, total cumul√© = 1000
Colonnes apr√®s rename : Index(['siret', 'siren', 'denomination', 'naf_code', 'date_creation',
       'effectif', 'adresse', 'code_postal', 'ville'],
      dtype='object')
            siret      siren  \
0  17130111200974  171301112   
1  17130120300617  171301203   
2  17130431400494  171304314   
3  17130431400957  171304314   
4  17130431401096  171304314   

                                        denomination naf_code date_creation  \
0                     COUR D'APPEL D'AIX EN PROVENCE   84.23Z    1981-06-23   
1  DIRECTION INTERREGIONALE DES SERVICES PENITENT...   84.23Z    1981-06-23   
2  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   
3  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   
4  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   

  effectif          adresse code_postal      ville  
0       51

In [10]:
df_marseille.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   siret          1000 non-null   object        
 1   siren          1000 non-null   object        
 2   denomination   322 non-null    object        
 3   naf_code       997 non-null    object        
 4   date_creation  1000 non-null   datetime64[ns]
 5   effectif       123 non-null    object        
 6   adresse        1000 non-null   object        
 7   code_postal    1000 non-null   object        
 8   ville          1000 non-null   object        
dtypes: datetime64[ns](1), object(8)
memory usage: 70.4+ KB


In [1]:
import sys
import os
sys.path.append(os.path.abspath("/Users/chiaramasi/defaut-entreprises-data-project/"))  # Ajoute le dossier parent, pas /scripts

from scripts.get_data_api import get_entreprises_by_codes
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")
codes_aix = ["13080", "13090", "13100", "13290", "13540"]

# Codes postaux de Marseille (1er au 16e arrondissement)
codes_marseille = [
    "13001", "13002", "13003", "13004", "13005", "13006", "13007", "13008",
    "13009", "13010", "13011", "13012", "13013", "13014", "13015", "13016"
]

all_codes = codes_aix + codes_marseille


df_marseille = get_entreprises_by_codes(all_codes, engine=engine)


R√©cup√©ration des entreprises pour CP 13080...
Page r√©cup√©r√©e pour 13080, total cumul√© = 1000
R√©cup√©ration des entreprises pour CP 13090...
Page r√©cup√©r√©e pour 13090, total cumul√© = 2000
R√©cup√©ration des entreprises pour CP 13100...
Page r√©cup√©r√©e pour 13100, total cumul√© = 3000
R√©cup√©ration des entreprises pour CP 13290...
Page r√©cup√©r√©e pour 13290, total cumul√© = 4000
R√©cup√©ration des entreprises pour CP 13540...
Page r√©cup√©r√©e pour 13540, total cumul√© = 5000
R√©cup√©ration des entreprises pour CP 13001...
Page r√©cup√©r√©e pour 13001, total cumul√© = 6000
R√©cup√©ration des entreprises pour CP 13002...
Page r√©cup√©r√©e pour 13002, total cumul√© = 7000
R√©cup√©ration des entreprises pour CP 13003...
Page r√©cup√©r√©e pour 13003, total cumul√© = 8000
R√©cup√©ration des entreprises pour CP 13004...
Page r√©cup√©r√©e pour 13004, total cumul√© = 9000
R√©cup√©ration des entreprises pour CP 13005...
Page r√©cup√©r√©e pour 13005, total cumul√© = 10000
R√©cup√©r

In [8]:
import requests, time, pandas as pd
from sqlalchemy import create_engine
from requests.exceptions import RequestException

API_URL = "https://bodacc-datadila.opendatasoft.com/api/explore/v2.1/catalog/datasets/annonces-commerciales/records"

def get_existing_sirens(engine):
    try:
        return set(pd.read_sql("SELECT siren FROM sirene", engine)["siren"].astype(str))
    except Exception as e:
        print("Erreur lecture SIREN :", e)
        return set()

def fetch_bodacc(engine, date_debut="2020-01-01", use_siren_filter=True):
    sirens = get_existing_sirens(engine) if use_siren_filter else set()
    if use_siren_filter and not sirens:
        print("Aucun SIREN en base ‚Üí rien √† ins√©rer")
        return pd.DataFrame()

    params = {"limit": 100, "refine": 'departement_nom_officiel:"Bouches-du-Rh√¥ne"',
              "where": f"dateparution>='{date_debut}'"}
    offset, all_results = 0, []
    while offset <= 9900:
        params["offset"] = offset
        try:
            r = requests.get(API_URL, params=params, timeout=10)
            if r.status_code != 200:
                print("Erreur API :", r.status_code, r.text)
                break

            data = r.json()
            recs = data.get("results", [])
            if not recs:
                break

            for rec in recs:
                siren = rec.get("registre")
                if isinstance(siren, list) and siren:
                    s = siren[0].replace(" ", "")
                elif isinstance(siren, str):
                    s = siren.replace(" ", "")
                else:
                    continue

                if use_siren_filter and s not in sirens:
                    continue
                rec["siren"] = s
                all_results.append(rec)

            offset += len(recs)
            if len(recs) < params["limit"]:
                break
            time.sleep(0.5)
        except RequestException as e:
            print("Erreur r√©seau :", e)
            break

    if not all_results:
        print("Aucun enregistrement trouv√©")
        return pd.DataFrame()

    df = pd.json_normalize(all_results, sep="_")
    cols = {"siren": "siren", "familleavis_lib": "type_procedure",
            "dateparution": "date_procedure", "url_complete": "source"}
    df_sql = df[[c for c in cols if c in df.columns]].rename(columns=cols)
    df_sql["date_procedure"] = pd.to_datetime(df_sql["date_procedure"], errors="coerce")
    df_sql = df_sql.dropna(subset=["siren"]).drop_duplicates(["siren", "date_procedure"])

    try:
        df_sql.to_sql("bodacc_procedures", con=engine, if_exists="append",
                      index=False, method="multi")
        print(f"{len(df_sql)} lignes ins√©r√©es dans bodacc_procedures")
    except Exception as e:
        print("Erreur insertion :", e)
    return df_sql

if __name__ == "__main__":
    engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")
    df = fetch_bodacc(engine, date_debut="2020-01-01", use_siren_filter=True)
    print("Total r√©cup√©r√© :", len(df))


194 lignes ins√©r√©es dans bodacc_procedures
Total r√©cup√©r√© : 194
