# Connexion_France_Travail_ADZUNA.ipynb

Ce script a pour objectif :
- d'extraire les offres d'emploi mises à disposition par :
  <br> _ l'API de **France Travail**
  <br>_ de l'API **ADZUNA**
- les stocker dans :
  <br> _ un fichier (**CSV**) en local
  <br> _ un fichier (**Parquet**) en local
  <br> _ dans une **BDD PostgreSQL** en local.

**/!\ Ajouts !** : 
- Gestion des valeurs manquantes lors des requêtes API

Comment ?
1. Sur la base de critères spécifiques (mots clés, localisation, etc...), 
    - lancement d'une requête pour obtenir les offres d'emploi correspondantes via l'API France Travail
    - lancement d'une requête pour obtenir les offres d'emploi correspondantes via l'API Adzuna
2. Une fois les offres trouvées, vérification et suppression des doublons.
3. Une sauvegarde en local des offres sont stockées dans un fichier (**CSV**).
4. Une sauvegarde en local des offres sont stockées dans un fichier (**Parquet**).
5. Une sauvegarde dans une base de données **PostgreSQL** est également effectuée en local.

Les URL (FRANCE TRAVAIL) utiles sont :
- https://francetravail.io/data/api/offres-emploi
- https://francetravail.io/data/api/offres-emploi/documentation#/

Les URL (ADZUNA) utiles sont :
- https://developer.adzuna.com/overview
- https://developer.adzuna.com/docs/search
- https://developer.adzuna.com/activedocs#!/adzuna/search
- https://developer.adzuna.com/overview
- https://www.adzuna.fr/details/5376850320?utm_medium=api&utm_source=6d1ef246

## Imports

In [65]:
import http.client
import requests
import json
import pandas as pd
import os
import logging
from datetime import datetime
import hashlib
from sqlalchemy import create_engine, text
from sqlalchemy import Table, MetaData
from sqlalchemy.dialects.postgresql import insert as pg_insert
from sqlalchemy.exc import SQLAlchemyError

## Procédure

### Configuration

In [66]:
##################  VARIABLES  ##################
# France Travail
FT_CLIENT_ID = os.environ.get("FT_CLIENT_ID")
FT_CLIENT_SECRET = os.environ.get("FT_CLIENT_SECRET")
FT_SCOPE = os.environ.get("FT_SCOPE")

# Adzuna
ADZUNA_CLIENT_ID = os.environ.get("ADZUNA_CLIENT_ID")
ADZUNA_CLIENT_SECRET = os.environ.get("ADZUNA_CLIENT_SECRET")

# Param Database PostgreSQL
DB_NAME = os.environ.get("DB_NAME", "jobsdb")
DB_USER = os.environ.get("DB_USER","jobsuser")
DB_PASS = os.environ.get("DB_PASS", "jobspass")
DB_HOST = os.environ.get("DB_HOST", "localhost")
DB_PORT = os.environ.get("DB_PORT","5432")

# Nom table
DB_TABLE_NAME = "offres"

### Configuration Logging

In [67]:
# Configuration du logger
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

### Paramètres de recherche

In [68]:
# ---------------------------
# PARAMETRES DE RECHERCHE
# ---------------------------

# Paramètres de recherche
JOB_QUERY = "data analyst"
COMMUNE = "78300"
DISTANCE = 100000

# Nombre d'annonces par page requise
BLOC_PAGINATION = 50

# Nombre de pages max
MAX_PAGES = 20   # Limiter le nombre de pages récupérées

### Paramètres de sauvegarde

In [69]:
# ---------------------------
# PARAMETRES DE SAUVEGARDE
# ---------------------------
# Répertoires
CSV_DIR = "../data/csv"
PARQUET_DIR = "../data/parquet"

### Authentification France Travail

In [70]:
# ---------------------------
# AUTH FRANCE TRAVAIL
# ---------------------------
def get_ft_token():
    url = "https://entreprise.pole-emploi.fr/connexion/oauth2/access_token?realm=/partenaire"
    data = {
        "grant_type": "client_credentials",
        "client_id": FT_CLIENT_ID,
        "client_secret": FT_CLIENT_SECRET,
        "scope": FT_SCOPE,
    }
    r = requests.post(url, data=data)
    r.raise_for_status()
    return r.json()["access_token"]

### Lancement requête API France Travail

In [71]:
# ---------------------------
# API CALL FRANCE TRAVAIL
# ---------------------------
def fetch_france_travail_jobs(token, max_pages=MAX_PAGES):
    headers = {"Authorization": f"Bearer {token}"}
    all_jobs = []
    b_stop_criteria = False
    
    for page in range(1, max_pages + 1):
        if b_stop_criteria == False:    
            url = f"https://api.francetravail.io/partenaire/offresdemploi/v2/offres/search"
            params = {
                "motsCles": JOB_QUERY,
                "commune": COMMUNE,
                "distance" : DISTANCE,
                "range": f"{(page-1)*BLOC_PAGINATION}-{page*BLOC_PAGINATION-1}"  # pagination par blocs de 50
            }
            r = requests.get(url, headers=headers, params=params)
            r.raise_for_status()
            data = r.json()
            offres = data.get("resultats", [])
                
            for o in offres:
                all_jobs.append({
                    "source": "France Travail",
                    "id":o.get("id") if o.get("id") is not None else "None",    
                    "titre": o.get("intitule") if o.get("intitule") is not None else "None",                     
                    "description": o.get("description") if o.get("description") is not None else "None", 
                    "entreprise": o.get("entreprise", {}).get("nom") if o.get("entreprise", {}).get("nom") is not None else "None", 
                    "lieu": o.get("lieuTravail", {}).get("libelle") if o.get("lieuTravail", {}).get("libelle") is not None else "None", 
                    "latitude": o.get("lieuTravail", {}).get("latitude") if o.get("lieuTravail", {}) is not None else "None", 
                    "longitude": o.get("lieuTravail", {}).get("longitude") if o.get("lieuTravail", {}) is not None else "None", 
                    "type_contrat_libelle": o.get("typeContratLibelle") if o.get("typeContratLibelle") is not None else "None", 
                    "date_publication": o.get("dateCreation") if o.get("dateCreation") is not None else "None",    
                    "url": o.get("origineOffre").get("urlOrigine") if o.get("origineOffre") is not None else "None",
                    "secteur_activites": o.get("secteurActiviteLibelle") if o.get("dateCreation") is not None else "None"
                })
            # print(len(offres))

            # Si le nombre d'offres est inférieur au nombre max d'offre par pages, c'est un signe qu'il n'y a plus d'offres à extraire après la page actuelle.
            if len(offres) < BLOC_PAGINATION:
                b_stop_criteria = True
            
    return all_jobs

### Lancement de requête Adzuna

In [72]:
# ---------------------------
# API CALL ADZUNA
# ---------------------------
def fetch_adzuna_jobs(max_pages=MAX_PAGES):
    headers = {"Accept": "application/json"}
    all_jobs = []
    b_stop_criteria = False
    
    for page in range(1, max_pages + 1):
        if b_stop_criteria == False:    
            url = f"https://api.adzuna.com/v1/api/jobs/fr/search/{page}"
            params = {
                "app_id" : ADZUNA_CLIENT_ID,
                "app_key" : ADZUNA_CLIENT_SECRET,
                "title_only": JOB_QUERY,
                "where": COMMUNE,
                "results_per_page" : BLOC_PAGINATION,
                "distance" : DISTANCE
            }
            r = requests.get(url,params=params)
            r.raise_for_status()
            data = r.json()
            offres = data.get("results")
                
            # print(len(offres))

            for o in offres:
                all_jobs.append({
                    "source": "Adzuna",
                    "id" : o.get("id") if o.get("id") is not None else "None", 
                    "titre" : o.get("title") if o.get("title") is not None else "None", 
                    "description" : o.get("description") if o.get("description") is not None else "None", 
                    "entreprise": o.get("company").get("display_name") if o.get("company") is not None else "None",
                    "lieu" : o.get("location").get("display_name") if o.get("location") is not None else "None",    
                    "latitude" : o.get("latitude") if o.get("latitude") is not None else "None", 
                    "longitude" : o.get("longitude") if o.get("longitude") is not None else "None",
                    "type_contrat_libelle" : o.get("contract_type") if o.get("contract_type") is not None else "None",                
                    "date_publication" : o.get("created") if o.get("created") is not None else "None",  
                    "url" : o.get("redirect_url") if o.get("redirect_url") is not None else "None",  
                    "secteur_activites" : o.get("category").get("label") if o.get("category") is not None else "None",
                })
                
            # Si le nombre d'offres est inférieur au nombre max d'offre par pages, c'est un signe qu'il n'y a plus d'offres à extraire après la page actuelle.
            if len(offres) < BLOC_PAGINATION:
                b_stop_criteria = True
            
    return all_jobs

### Déduplication

In [73]:
# ---------------------------
# DÉDUPLICATION
# ---------------------------
def deduplicate(jobs):
    seen = set()
    deduped = []
    for job in jobs:
        key_str = f"{job['titre']}_{job['entreprise']}_{job['latitude']}_{job['longitude']}_{job['date_publication']}"
        key = hashlib.md5(key_str.encode()).hexdigest()
        if key not in seen:
            seen.add(key)
            deduped.append(job)
    return deduped

### Initialisation database

In [74]:
# --- Initialisation DB ---
# SUPPRESSION DE Date_creation TIMESTAMP
def init_db(engine):
    with engine.begin() as conn:
        conn.execute(text("""
        CREATE TABLE IF NOT EXISTS offres (
            id TEXT PRIMARY KEY,
            source TEXT,
            titre TEXT,
            description TEXT,
            entreprise TEXT,
            lieu TEXT,
            latitude FLOAT(4),
            longitude FLOAT(4),
            type_contrat_libelle TEXT,
            date_publication DATE,
            url TEXT,
            secteur_activites TEXT,
            last_updated TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        )
        """))


### Sauvegarde en base PostgreSQL

In [75]:
def save_to_postgres_upsert(df, engine, table_name="offres"):
    """
    Sauvegarde un DataFrame pandas dans PostgreSQL avec UPSERT.
    Met à jour last_updated pour chaque ligne insérée ou modifiée.
    
    Args:
        df (pd.DataFrame): données à insérer
        engine (sqlalchemy.Engine): moteur SQLAlchemy connecté à PostgreSQL
        table_name (str): nom de la table cible
    
    Returns:
        int: nombre de lignes insérées ou mises à jour
    """
    
    if df.empty:
        logging.info("📭 DataFrame vide, rien à insérer.")
        return 0

    # Nettoyage des NaN
    df = df.where(pd.notnull(df), None)

    rows = df.to_dict(orient="records")

    metadata = MetaData()
    table = Table(table_name, metadata, autoload_with=engine)

    now = datetime.utcnow()

    # On ajoute un champ last_updated
    for row in rows:
        row["last_updated"] = now
        
    # UPSERT avec mise à jour forcée de last_updated
    stmt = pg_insert(table).values(rows)
    stmt = stmt.on_conflict_do_update(
        index_elements=['id'],
        set_={
            'source': stmt.excluded.source,
            'titre': stmt.excluded.titre,
            'description': stmt.excluded.description,
            'entreprise': stmt.excluded.entreprise,
            'lieu': stmt.excluded.lieu,
            'latitude': stmt.excluded.latitude,
            'longitude': stmt.excluded.longitude,    
            'type_contrat_libelle': stmt.excluded.type_contrat_libelle,
            'date_publication': stmt.excluded.date_publication,
            'url': stmt.excluded.url,
            'secteur_activites': stmt.excluded.secteur_activites,
            # forcé à chaque exécution, même sans changement d'autres colonnes
            'last_updated': now  
        }
    )

    try:
        with engine.begin() as conn:
            result = conn.execute(stmt)

        count = result.rowcount if result.rowcount is not None else len(rows)
        logging.info(f"✅ {count} lignes insérées ou mises à jour dans '{table_name}' (last_updated={now}).")
        return count

    except SQLAlchemyError as e:
        logging.error(f"❌ Erreur lors de l'UPSERT : {str(e)}")
        return 0


### Sauvegarde CSV

In [76]:
# --- Sauvegarde Parquet ---
def save_to_csv(df):
    if df.empty:
        return
    os.makedirs(CSV_DIR, exist_ok=True)
    today = datetime.now().strftime("%Y-%m-%d")
    path_csv = os.path.join(CSV_DIR, f"{today}_offres.csv")
    df.to_csv(path_csv, index=False,encoding="utf-8")
    print(f"✅ Sauvegardé dans {path_csv}")

### Sauvegarde Parquet

In [77]:
# --- Sauvegarde Parquet ---
def save_to_parquet(df):
    if df.empty:
        return
    os.makedirs(PARQUET_DIR, exist_ok=True)
    today = datetime.now().strftime("%Y-%m-%d")
    path_parquet = os.path.join(PARQUET_DIR, f"{today}_offres.parquet")
    df.to_parquet(path_parquet, index=False)
    print(f"✅ Sauvegardé dans {path_parquet}")

### Pipeline principal

In [78]:

def run_pipeline():
    print("Authentification France Travail...")
    token = get_ft_token()

    print("Récupération des offres France Travail...")
    ft_jobs = fetch_france_travail_jobs(token)

    print("Récupération des offres Adzuna...")
    adzuna_jobs = fetch_adzuna_jobs()

    print("Fusion et déduplication...")
    all_jobs = ft_jobs + adzuna_jobs

    if not all_jobs:
        print("⚠️ Aucune offre trouvée.")
        return

    print(f"Nombre d'offres d'emploi avant déduplication : {len(all_jobs)}")
    jobs_clean = deduplicate(all_jobs)
    print(f"Nombre d'offres d'emploi après déduplication : {len(jobs_clean)}")

    print("Affichage Extract offres France Travail...")
    df = pd.DataFrame(jobs_clean)

    # Export vers CSV
    print("💾 Sauvegarde en CSV...")
    save_to_csv(df)

    # Export vers Parquet
    print("💾 Sauvegarde en Parquet...")
    save_to_parquet(df)
    
    print(f"{len(jobs_clean)} offres uniques exportées dans {CSV_DIR} et {PARQUET_DIR} ✅")

    # Connexion DB
    print("Connexion à la base PostgreSQL...")
    engine = create_engine(f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")

    # Initier la bdd
    init_db(engine)

    print("💾 Sauvegarde en base PostgreSQL...")
    save_to_postgres_upsert(df, engine, table_name=DB_TABLE_NAME)
    print("💾 Sauvegarde en base PostgreSQL TERMINEE !!!...")

    # Affichage extract offres
    display(df.shape)
    display(df.head(3))

In [79]:
# # Chargement depuis CSV
# today = datetime.now().strftime("%Y-%m-%d")
# path_parquet = os.path.join(PARQUET_DIR, f"{today}_offres.parquet")
# df = pd.read_parquet(path_parquet)
# display(df.shape)
# display(df.head(3))

### Procédure principale

In [80]:
# ---------------------------
# MAIN
# ---------------------------
if __name__ == "__main__":
    run_pipeline()

Authentification France Travail...
Récupération des offres France Travail...
Récupération des offres Adzuna...
Fusion et déduplication...
Nombre d'offres d'emploi avant déduplication : 1190
Nombre d'offres d'emploi après déduplication : 1188
Affichage Extract offres France Travail...
💾 Sauvegarde en CSV...
✅ Sauvegardé dans ../data/csv/2025-09-17_offres.csv
💾 Sauvegarde en Parquet...
✅ Sauvegardé dans ../data/parquet/2025-09-17_offres.parquet
1188 offres uniques exportées dans ../data/csv et ../data/parquet ✅
Connexion à la base PostgreSQL...
💾 Sauvegarde en base PostgreSQL...


2025-09-17 10:09:10,272 - INFO - ✅ 1188 lignes insérées ou mises à jour dans 'offres' (last_updated=2025-09-17 08:09:09.948724).


💾 Sauvegarde en base PostgreSQL TERMINEE !!!...


(1188, 12)

Unnamed: 0,source,id,titre,description,entreprise,lieu,latitude,longitude,type_contrat_libelle,date_publication,url,secteur_activites
0,France Travail,197XKGK,Data analyst (H/F),Pourquoi a-t-on besoin de vous?\nDans le cadre...,SAINT-GOBAIN DISTRIBUTION BATIMENT FRANC,92 - Courbevoie,48.901819,2.267542,CDD - 12 Mois,2025-09-17T07:27:40.068Z,https://candidat.francetravail.fr/offres/reche...,Activités des sièges sociaux
1,France Travail,197XHCS,DATA ANALYST/SCIENTIST(H/F),"En tant que Data Analyst - Data Scientist, vou...",INFOBAM,972 - LE LAMENTIN,14.615411,-61.003361,CDI,2025-09-16T18:29:39.856Z,https://candidat.francetravail.fr/offres/reche...,Gestion d'installations informatiques
2,France Travail,197TNXM,Data Analyst ETL / SI Junior - H/F (H/F),"Empreinte est une société Française qui crée, ...",EMPREINTE SA,29 - BREST,48.414003,-4.491985,CDI,2025-09-12T17:46:57.887Z,https://candidat.francetravail.fr/offres/reche...,Fabrication de vêtements de dessous
