In [17]:
import requests
import pandas as pd
from sqlalchemy import create_engine

# --------------------
# Paramètres API SIRENE
# --------------------
api_url = "https://api.insee.fr/api-sirene/3.11/siret"
api_key = "2c6da094-b893-415a-ada0-94b893115aea"

headers = {
    "X-INSEE-Api-Key-Integration": api_key
}

# ⚡ Ici on filtre sur Aix-en-Provence (code postal = 13100)
params = {
    "q": "codePostalEtablissement:13100",
    "nombre": 1000,   # max par page
    "debut": 0        # offset
}

all_results = []

while True:
    response = requests.get(api_url, headers=headers, params=params)
    
    if response.status_code != 200:
        print("Erreur API :", response.status_code, response.text)
        break
    
    data = response.json()
    etablissements = data.get("etablissements", [])
    
    if not etablissements:  # stop si plus de résultats
        break
    
    all_results.extend(etablissements)
    
    print(f"✅ Page avec {len(etablissements)} entreprises récupérée (total = {len(all_results)})")
    
    # Passer à la page suivante
    params["debut"] += params["nombre"]

# --------------------
# Transformation en DataFrame
# --------------------
df = pd.json_normalize(all_results, sep=".")

colonnes_a_garder = [
    'siren',
    'uniteLegale.denominationUniteLegale',
    'uniteLegale.activitePrincipaleUniteLegale',
    'uniteLegale.categorieEntreprise.libelle',
    'uniteLegale.dateCreationUniteLegale',
    'uniteLegale.formeJuridiqueUniteLegale',
    'uniteLegale.trancheEffectifsUniteLegale',
    'adresseEtablissement.adresseLigne1',
    'adresseEtablissement.codePostal',
    'adresseEtablissement.libelleCommune',
    'adresseEtablissement.region'
]

df_sql = df[colonnes_a_garder].copy()

df_sql.columns = [
    'siren', 'denomination', 'naf_code', 'secteur_libelle',
    'date_creation', 'forme_juridique', 'effectif',
    'adresse', 'code_postal', 'ville', 'region'
]

print(f"📊 Total entreprises Aix récupérées : {len(df_sql)}")
print(df_sql.head())


✅ Page avec 1000 entreprises récupérée (total = 1000)
✅ Page avec 1000 entreprises récupérée (total = 2000)
✅ Page avec 1000 entreprises récupérée (total = 3000)
✅ Page avec 1000 entreprises récupérée (total = 4000)
✅ Page avec 1000 entreprises récupérée (total = 5000)
✅ Page avec 1000 entreprises récupérée (total = 6000)
✅ Page avec 1000 entreprises récupérée (total = 7000)
✅ Page avec 1000 entreprises récupérée (total = 8000)
✅ Page avec 1000 entreprises récupérée (total = 9000)
✅ Page avec 1000 entreprises récupérée (total = 10000)
✅ Page avec 1000 entreprises récupérée (total = 11000)
Erreur API : 400 {"header":{"statut":400,"message":"valeur maximale pour le paramètre debut: 10000. Récupérez les fichiers exhaustifs sur https:\\www.data.gouv.fr ou utilisez la fonctionnalité curseur."}}


KeyError: "['uniteLegale.categorieEntreprise.libelle', 'uniteLegale.formeJuridiqueUniteLegale', 'adresseEtablissement.adresseLigne1', 'adresseEtablissement.codePostal', 'adresseEtablissement.libelleCommune', 'adresseEtablissement.region'] not in index"

In [39]:
import requests
import pandas as pd
from sqlalchemy import create_engine

# --------------------
# Paramètres API SIRENE
# --------------------
api_url = "https://api.insee.fr/api-sirene/3.11/siret"
api_key = "2c6da094-b893-415a-ada0-94b893115aea"

headers = {
    "X-INSEE-Api-Key-Integration": api_key
}

# --------------------
# Liste des codes postaux d’Aix
# --------------------
codes_postaux = ["13100", "13290", "13540","13090","13080"]

all_results = []

# --------------------
# Boucle sur les codes postaux
# --------------------
for cp in codes_postaux:
    print(f"Récupération des entreprises pour CP {cp}...")
    params = {
        "q": f"codePostalEtablissement:{cp}",
        "nombre": 1000
    }

    cursor = None
    while True:
        if cursor:
            params["curseur"] = cursor

        response = requests.get(api_url, headers=headers, params=params)

        if response.status_code != 200:
            print("Erreur API :", response.status_code, response.text)
            break

        data = response.json()
        etablissements = data.get("etablissements", [])
        all_results.extend(etablissements)

        print(f"Page récupérée pour {cp}, total cumulé = {len(all_results)}")

        # Récupération du curseur suivant
        cursor = data.get("header", {}).get("curseurSuivant")
        if not cursor:
            break

# --------------------
# Conversion en DataFrame
# --------------------
df = pd.json_normalize(all_results, sep='.')

# --------------------
# Sélection des colonnes
# --------------------
colonnes_a_garder = {
    'siret': 'siret',
    'siren': 'siren',
    'uniteLegale.denominationUniteLegale': 'denomination',
    'uniteLegale.activitePrincipaleUniteLegale': 'naf_code',
    'uniteLegale.dateCreationUniteLegale': 'date_creation',
    'uniteLegale.trancheEffectifsUniteLegale': 'effectif',
    'adresseEtablissement.libelleVoieEtablissement': 'adresse',
    'adresseEtablissement.codePostalEtablissement': 'code_postal',
    'adresseEtablissement.libelleCommuneEtablissement': 'ville'
}

colonnes_existantes = [c for c in colonnes_a_garder.keys() if c in df.columns]
df_sql = df[colonnes_existantes].rename(columns={c: colonnes_a_garder[c] for c in colonnes_existantes})

# --------------------
# Nettoyage date
# --------------------
df_sql["date_creation"] = pd.to_datetime(df_sql["date_creation"], errors="coerce")

# --------------------
# Nettoyage de la colonne effectif
# --------------------
effectif_mapping = {
    "00": "0 salarié",
    "01": "1-2",
    "02": "3-5",
    "03": "6-9",
    "11": "10-19",
    "12": "20-49",
    "21": "50-99",
    "22": "100-199",
    "31": "200-249",
    "32": "250-499",
    "41": "500-999",
    "42": "1000-1999",
    "51": "2000-4999",
    "52": "5000-9999",
    "53": "10000+",
    "NN": None
}

df_sql["effectif"] = df_sql["effectif"].map(effectif_mapping)

# --------------------
# Supprimer les doublons sur le SIRET
# --------------------
df_sql = df_sql.drop_duplicates(subset=["siret"])

# --------------------
# Connexion MySQL
# --------------------
engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")

# --------------------
# Insertion en base
# --------------------
# IMPORTANT : S'assurer que la table MySQL a 'siret' comme PRIMARY KEY
df_sql.to_sql("sirene", con=engine, if_exists="append", index=False)

print("Données pour Aix-en-Provence insérées en base avec succès !")

Récupération des entreprises pour CP 13100...
Page récupérée pour 13100, total cumulé = 1000
Récupération des entreprises pour CP 13290...
Page récupérée pour 13290, total cumulé = 2000
Récupération des entreprises pour CP 13540...
Page récupérée pour 13540, total cumulé = 3000
Récupération des entreprises pour CP 13090...
Page récupérée pour 13090, total cumulé = 4000
Récupération des entreprises pour CP 13080...
Page récupérée pour 13080, total cumulé = 5000
Données pour Aix-en-Provence insérées en base avec succès !


In [9]:
import sys
import os
sys.path.append(os.path.abspath("/Users/chiaramasi/defaut-entreprises-data-project/"))  # Ajoute le dossier parent, pas /scripts

from scripts.get_data_api import get_entreprises_by_city
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")

df_marseille = get_entreprises_by_city("MARSEILLE", engine=engine)
df_aix = get_entreprises_by_city("AIX-EN-PROVENCE", engine=engine)

Récupération des entreprises pour la ville : MARSEILLE
Page récupérée, total cumulé = 1000
Colonnes après rename : Index(['siret', 'siren', 'denomination', 'naf_code', 'date_creation',
       'effectif', 'adresse', 'code_postal', 'ville'],
      dtype='object')
            siret      siren  \
0  17130111200974  171301112   
1  17130120300617  171301203   
2  17130431400494  171304314   
3  17130431400957  171304314   
4  17130431401096  171304314   

                                        denomination naf_code date_creation  \
0                     COUR D'APPEL D'AIX EN PROVENCE   84.23Z    1981-06-23   
1  DIRECTION INTERREGIONALE DES SERVICES PENITENT...   84.23Z    1981-06-23   
2  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   
3  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   
4  DIRECTION DES SERVICES DEPARTEMENTAUX DE L'EDU...   84.12Z    1985-01-01   

  effectif          adresse code_postal      ville  
0       51    JUL

In [10]:
df_marseille.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   siret          1000 non-null   object        
 1   siren          1000 non-null   object        
 2   denomination   322 non-null    object        
 3   naf_code       997 non-null    object        
 4   date_creation  1000 non-null   datetime64[ns]
 5   effectif       123 non-null    object        
 6   adresse        1000 non-null   object        
 7   code_postal    1000 non-null   object        
 8   ville          1000 non-null   object        
dtypes: datetime64[ns](1), object(8)
memory usage: 70.4+ KB


In [1]:
import sys
import os
sys.path.append(os.path.abspath("/Users/chiaramasi/defaut-entreprises-data-project/"))  # Ajoute le dossier parent, pas /scripts

from scripts.get_data_api import get_entreprises_by_codes
from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")
codes_aix = ["13080", "13090", "13100", "13290", "13540"]

# Codes postaux de Marseille (1er au 16e arrondissement)
codes_marseille = [
    "13001", "13002", "13003", "13004", "13005", "13006", "13007", "13008",
    "13009", "13010", "13011", "13012", "13013", "13014", "13015", "13016"
]

all_codes = codes_aix + codes_marseille


df_marseille = get_entreprises_by_codes(all_codes, engine=engine)


Récupération des entreprises pour CP 13080...
Page récupérée pour 13080, total cumulé = 1000
Récupération des entreprises pour CP 13090...
Page récupérée pour 13090, total cumulé = 2000
Récupération des entreprises pour CP 13100...
Page récupérée pour 13100, total cumulé = 3000
Récupération des entreprises pour CP 13290...
Page récupérée pour 13290, total cumulé = 4000
Récupération des entreprises pour CP 13540...
Page récupérée pour 13540, total cumulé = 5000
Récupération des entreprises pour CP 13001...
Page récupérée pour 13001, total cumulé = 6000
Récupération des entreprises pour CP 13002...
Page récupérée pour 13002, total cumulé = 7000
Récupération des entreprises pour CP 13003...
Page récupérée pour 13003, total cumulé = 8000
Récupération des entreprises pour CP 13004...
Page récupérée pour 13004, total cumulé = 9000
Récupération des entreprises pour CP 13005...
Page récupérée pour 13005, total cumulé = 10000
Récupération des entreprises pour CP 13006...
Page récupérée pour 130

In [6]:
import requests
import pandas as pd
import time
from sqlalchemy import create_engine
from requests.exceptions import RequestException

# --------------------
# Paramètres API BODACC
# --------------------
BASE_URL = "https://bodacc-datadila.opendatasoft.com"
API_URL = f"{BASE_URL}/api/explore/v2.1/catalog/datasets/annonces-commerciales/records"

# --------------------
# Fonction pour vérifier les SIREN existants
# --------------------
def get_existing_sirens(engine):
    """
    Récupère les SIREN existants dans la table `sirene` pour éviter les violations de contrainte.
    """
    try:
        query = "SELECT siren FROM sirene"
        return set(pd.read_sql(query, engine)['siren'].astype(str))
    except Exception as e:
        print(f"Erreur lors de la récupération des SIREN : {e}")
        return set()

# --------------------
# Fonction pour récupérer et insérer les annonces BODACC
# --------------------
def fetch_bodacc_procedures(villes: list, engine, date_debut=None, max_retries=3, backoff_factor=2, use_siren_filter=True):
    """
    Récupère les annonces commerciales BODACC pour les villes spécifiées dans les Bouches-du-Rhône
    et les insère dans la table `bodacc_procedures`.

    Args:
        villes (list): Liste des villes à filtrer (ex. ["MARSEILLE", "AIX-EN-PROVENCE"]).
        engine: Connexion SQLAlchemy pour insérer les données.
        date_debut (str): Filtrer les annonces à partir de cette date (format 'YYYY-MM-DD', ex. '2020-01-01').
        max_retries (int): Nombre maximum de tentatives en cas d'erreur.
        backoff_factor (int): Facteur de backoff pour les délais entre les tentatives.
        use_siren_filter (bool): Si True, filtre les annonces par SIREN existants dans la table `sirene`.

    Returns:
        pd.DataFrame: DataFrame contenant toutes les annonces récupérées.
    """
    print(f"Récupération des annonces BODACC pour les villes : {', '.join(villes)}")
    if date_debut:
        print(f"Filtrage des annonces à partir de : {date_debut}")

    # Récupérer les SIREN existants si le filtre est activé
    existing_sirens = get_existing_sirens(engine) if use_siren_filter else set()
    if use_siren_filter and not existing_sirens:
        print("Aucun SIREN trouvé dans la table `sirene`. Arrêt.")
        return pd.DataFrame()

    all_results = []
    params = {
        "limit": 100,  # Maximum par page
        "refine": 'departement_nom_officiel:"Bouches-du-Rhône"'
    }
    if date_debut:
        params["where"] = f"dateparution>='{date_debut}'"

    offset = 0
    max_offset = 9900  # Pour respecter offset + limit <= 10000

    while offset <= max_offset:
        params["offset"] = offset

        for attempt in range(max_retries):
            try:
                response = requests.get(API_URL, params=params, timeout=10)
                
                if response.status_code == 200:
                    data = response.json()
                    records = data.get("results", [])
                    if not records:
                        print("Aucune donnée supplémentaire à récupérer.")
                        break
                    
                    # Filtrer par ville et SIREN
                    filtered_records = []
                    for record in records:
                        siren = record.get("registre", [])[0] if record.get("registre") else None
                        ville = record.get("ville")
                        if not siren or not ville:
                            print(f"Enregistrement ignoré (manque siren ou ville) : {record.get('id')}")
                            continue
                        if use_siren_filter:
                            if (ville.upper() in [v.upper() for v in villes] and
                                str(siren) in existing_sirens):
                                filtered_records.append(record)
                            else:
                                print(f"Enregistrement filtré (ville={ville}, siren={siren})")
                        else:
                            if ville.upper() in [v.upper() for v in villes]:
                                filtered_records.append(record)
                    
                    all_results.extend(filtered_records)
                    print(f"Page récupérée, offset={offset}, total cumulé = {len(all_results)}")
                    
                    offset += len(records)
                    break
                
                elif response.status_code == 429:
                    print(f"Erreur 429: Limite de quota atteinte. Attente avant nouvelle tentative...")
                    time.sleep(backoff_factor ** attempt)
                    continue
                
                else:
                    print(f"Erreur API : {response.status_code}, {response.text}")
                    return pd.DataFrame()
                    
            except RequestException as e:
                print(f"Erreur de requête : {e}. Tentative {attempt + 1}/{max_retries}")
                if attempt < max_retries - 1:
                    time.sleep(backoff_factor ** attempt)
                else:
                    print(f"Échec après {max_retries} tentatives.")
                    return pd.DataFrame()

        if len(records) < params["limit"]:
            break

        time.sleep(0.5)  # Pause pour respecter les limites de l'API

    if offset > max_offset:
        print(f"Attention : Limite de 10000 enregistrements atteinte. Utilisez des filtres (ex. date_debut) pour accéder à plus de données.")

    # --------------------
    # Conversion en DataFrame
    # --------------------
    if not all_results:
        print("Aucune donnée récupérée pour les villes spécifiées ou SIREN absents.")
        return pd.DataFrame()

    df = pd.json_normalize(all_results, sep='_')

    # --------------------
    # Sélection et renommage des colonnes pour `bodacc_procedures`
    # --------------------
    colonnes_a_garder = {
        'registre': 'siren',
        'familleavis_lib': 'type_procedure',
        'dateparution': 'date_procedure',
        'url_complete': 'source'
    }

    colonnes_existantes = [c for c in colonnes_a_garder.keys() if c in df.columns]
    df_sql = df[colonnes_existantes].rename(columns={c: colonnes_a_garder[c] for c in colonnes_existantes})

    # Extraire le premier SIREN du tableau registre
    # Extraire le premier SIREN du tableau registre et supprimer les espaces
    if 'siren' in df_sql.columns:
        df_sql['siren'] = df_sql['siren'].apply(lambda x: x[0].replace(" ", "") if isinstance(x, list) and x else None)

    # Ajouter une colonne source si absente
    if 'source' not in df_sql.columns:
        df_sql['source'] = API_URL

    print("Colonnes après renommage :", df_sql.columns.tolist())
    print(df_sql.head())

    # --------------------
    # Nettoyage des données
    # --------------------
    if 'date_procedure' in df_sql.columns:
        df_sql['date_procedure'] = pd.to_datetime(df_sql['date_procedure'], errors='coerce')

    # Supprimer les lignes avec SIREN manquant
    df_sql = df_sql.dropna(subset=['siren'])

    # Supprimer les doublons basés sur siren et date_procedure
    df_sql = df_sql.drop_duplicates(subset=['siren', 'date_procedure'])

    # --------------------
    # Insertion dans la base de données
    # --------------------
    try:
        df_sql.to_sql('bodacc_procedures', con=engine, if_exists='append', index=False, method='multi')
        print(f"{len(df_sql)} annonces pour {', '.join(villes)} insérées dans `bodacc_procedures` avec succès !")
    except Exception as e:
        print(f"Erreur lors de l'insertion en base : {e}")
        return df_sql

    return df_sql

# --------------------
# Exemple d'utilisation
# --------------------
if __name__ == "__main__":
    # Connexion à la base de données MySQL
    engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")

    # Villes à récupérer (noms officiels en majuscules)
    villes = ["MARSEILLE", "AIX-EN-PROVENCE"]

    # Appel de la fonction avec filtre de date (optionnel)
    df = fetch_bodacc_procedures(villes, engine, date_debut="2020-01-01", use_siren_filter=False)
    print(f"Nombre total d'annonces BODACC récupérées : {len(df)}")

Récupération des annonces BODACC pour les villes : MARSEILLE, AIX-EN-PROVENCE
Filtrage des annonces à partir de : 2020-01-01
Page récupérée, offset=0, total cumulé = 5
Page récupérée, offset=100, total cumulé = 12
Page récupérée, offset=200, total cumulé = 15
Page récupérée, offset=300, total cumulé = 19
Page récupérée, offset=400, total cumulé = 26
Enregistrement ignoré (manque siren ou ville) : A2021019264
Enregistrement ignoré (manque siren ou ville) : A20210193248
Enregistrement ignoré (manque siren ou ville) : A20210193291
Enregistrement ignoré (manque siren ou ville) : A20210194335
Enregistrement ignoré (manque siren ou ville) : A20210194404
Enregistrement ignoré (manque siren ou ville) : A2021024896
Enregistrement ignoré (manque siren ou ville) : A20210250131
Enregistrement ignoré (manque siren ou ville) : A20210250201
Enregistrement ignoré (manque siren ou ville) : A20210232512
Page récupérée, offset=500, total cumulé = 31
Enregistrement ignoré (manque siren ou ville) : A202102

In [8]:
import requests, time, pandas as pd
from sqlalchemy import create_engine
from requests.exceptions import RequestException

API_URL = "https://bodacc-datadila.opendatasoft.com/api/explore/v2.1/catalog/datasets/annonces-commerciales/records"

def get_existing_sirens(engine):
    try:
        return set(pd.read_sql("SELECT siren FROM sirene", engine)["siren"].astype(str))
    except Exception as e:
        print("Erreur lecture SIREN :", e)
        return set()

def fetch_bodacc(engine, date_debut="2020-01-01", use_siren_filter=True):
    sirens = get_existing_sirens(engine) if use_siren_filter else set()
    if use_siren_filter and not sirens:
        print("Aucun SIREN en base → rien à insérer")
        return pd.DataFrame()

    params = {"limit": 100, "refine": 'departement_nom_officiel:"Bouches-du-Rhône"',
              "where": f"dateparution>='{date_debut}'"}
    offset, all_results = 0, []
    while offset <= 9900:
        params["offset"] = offset
        try:
            r = requests.get(API_URL, params=params, timeout=10)
            if r.status_code != 200:
                print("Erreur API :", r.status_code, r.text)
                break

            data = r.json()
            recs = data.get("results", [])
            if not recs:
                break

            for rec in recs:
                siren = rec.get("registre")
                if isinstance(siren, list) and siren:
                    s = siren[0].replace(" ", "")
                elif isinstance(siren, str):
                    s = siren.replace(" ", "")
                else:
                    continue

                if use_siren_filter and s not in sirens:
                    continue
                rec["siren"] = s
                all_results.append(rec)

            offset += len(recs)
            if len(recs) < params["limit"]:
                break
            time.sleep(0.5)
        except RequestException as e:
            print("Erreur réseau :", e)
            break

    if not all_results:
        print("Aucun enregistrement trouvé")
        return pd.DataFrame()

    df = pd.json_normalize(all_results, sep="_")
    cols = {"siren": "siren", "familleavis_lib": "type_procedure",
            "dateparution": "date_procedure", "url_complete": "source"}
    df_sql = df[[c for c in cols if c in df.columns]].rename(columns=cols)
    df_sql["date_procedure"] = pd.to_datetime(df_sql["date_procedure"], errors="coerce")
    df_sql = df_sql.dropna(subset=["siren"]).drop_duplicates(["siren", "date_procedure"])

    try:
        df_sql.to_sql("bodacc_procedures", con=engine, if_exists="append",
                      index=False, method="multi")
        print(f"{len(df_sql)} lignes insérées dans bodacc_procedures")
    except Exception as e:
        print("Erreur insertion :", e)
    return df_sql

if __name__ == "__main__":
    engine = create_engine("mysql+mysqlconnector://root:chiaramasi@localhost/entreprises_db")
    df = fetch_bodacc(engine, date_debut="2020-01-01", use_siren_filter=True)
    print("Total récupéré :", len(df))


194 lignes insérées dans bodacc_procedures
Total récupéré : 194


In [3]:
import requests

API_URL = "https://bodacc-datadila.opendatasoft.com/api/explore/v2.1/catalog/datasets/annonces-commerciales/records"
params = {
    "limit": 10,
    "refine": 'departement_nom_officiel:"Bouches-du-Rhône"'
}

response = requests.get(API_URL, params=params)
print(response.status_code)
print(response.json())

200
{'total_count': 1761182, 'results': [{'id': 'A20090156106', 'publicationavis': 'A', 'parution': '20090156', 'dateparution': '2009-08-16', 'numeroannonce': 106, 'typeavis': 'annonce', 'typeavis_lib': 'Avis initial', 'familleavis': 'creation', 'familleavis_lib': 'Créations', 'numerodepartement': '13', 'departement_nom_officiel': 'Bouches-du-Rhône', 'region_code': 93, 'region_nom_officiel': "Provence-Alpes-Côte d'Azur", 'tribunal': 'GREFFE DU TRIBUNAL DE COMMERCE DE MARSEILLE', 'commercant': 'C. M. P. CONSTRUCTION', 'ville': 'Marseille', 'registre': ['513 994 699', '513994699'], 'cp': '13016', 'pdf_parution_subfolder': 0, 'ispdf_unitaire': 'non', 'listepersonnes': '{"personne": {"capital": {"montantCapital": "2000.00", "devise": "EUR"}, "adresseSiegeSocial": {"numeroVoie": "74", "typeVoie": "rue", "nomVoie": "Rabelais", "codePostal": "13016", "ville": "Marseille", "pays": "france"}, "typePersonne": "pm", "numeroImmatriculation": {"numeroIdentification": "513 994 699", "codeRCS": "RCS"