# Connexion_France_Travail_ADZUNA.ipynb

Ce script a pour objectif :
- d'extraire les offres d'emploi mises √† disposition par :
  <br> _ l'API de **France Travail**
  <br>_ de l'API **ADZUNA**
- les stocker dans :
  <br> _ un fichier (**CSV**) en local
  <br> _ un fichier (**Parquet**) en local
  <br> _ dans une **BDD PostgreSQL** en local.

Comment ?
1. Sur la base de crit√®res sp√©cifiques (mots cl√©s, localisation, etc...), 
    - lancement d'une requ√™te pour obtenir les offres d'emploi correspondantes via l'API France Travail
    - lancement d'une requ√™te pour obtenir les offres d'emploi correspondantes via l'API Adzuna
2. Une fois les offres trouv√©es, v√©rification et suppression des doublons.
3. Une sauvegarde en local des offres sont stock√©es dans un fichier (**CSV**).
4. Une sauvegarde en local des offres sont stock√©es dans un fichier (**Parquet**).
5. Une sauvegarde dans une base de donn√©es **PostgreSQL** est √©galement effectu√©e en local.

Les URL (FRANCE TRAVAIL) utiles sont :
- https://francetravail.io/data/api/offres-emploi
- https://francetravail.io/data/api/offres-emploi/documentation#/

Les URL (ADZUNA) utiles sont :
- https://developer.adzuna.com/overview
- https://developer.adzuna.com/docs/search
- https://developer.adzuna.com/activedocs#!/adzuna/search
- https://developer.adzuna.com/overview
- https://www.adzuna.fr/details/5376850320?utm_medium=api&utm_source=6d1ef246

## Imports

In [122]:
import http.client
import requests
import json
import pandas as pd
import os
from datetime import datetime
import hashlib
from sqlalchemy import create_engine, text

## Proc√©dure

### Configuration

In [123]:
##################  VARIABLES  ##################
# France Travail
FT_CLIENT_ID = os.environ.get("FT_CLIENT_ID")
FT_CLIENT_SECRET = os.environ.get("FT_CLIENT_SECRET")
FT_SCOPE = os.environ.get("FT_SCOPE")

# Adzuna
ADZUNA_CLIENT_ID = os.environ.get("ADZUNA_CLIENT_ID")
ADZUNA_CLIENT_SECRET = os.environ.get("ADZUNA_CLIENT_SECRET")

# Param Database PostgreSQL
DB_NAME = os.environ.get("DB_NAME", "jobsdb")
DB_USER = os.environ.get("DB_USER","jobsuser")
DB_PASS = os.environ.get("DB_PASS", "jobspass")
DB_HOST = os.environ.get("DB_HOST", "localhost")
DB_PORT = os.environ.get("DB_PORT","5432")

### Param√®tres de recherche

In [124]:
# ---------------------------
# PARAMETRES DE RECHERCHE
# ---------------------------

# Param√®tres de recherche
JOB_QUERY = "data analyst"
COMMUNE = "78300"
DISTANCE = 100000

# Nombre d'annonces par page requise
BLOC_PAGINATION = 50

# Nombre de pages max
MAX_PAGES = 20   # Limiter le nombre de pages r√©cup√©r√©es

### Param√®tres de sauvegarde

In [125]:
# ---------------------------
# PARAMETRES DE SAUVEGARDE
# ---------------------------
# R√©pertoires
CSV_DIR = "../data/csv"
PARQUET_DIR = "../data/parquet"

### Authentification France Travail

In [126]:
# ---------------------------
# AUTH FRANCE TRAVAIL
# ---------------------------
def get_ft_token():
    url = "https://entreprise.pole-emploi.fr/connexion/oauth2/access_token?realm=/partenaire"
    data = {
        "grant_type": "client_credentials",
        "client_id": FT_CLIENT_ID,
        "client_secret": FT_CLIENT_SECRET,
        "scope": FT_SCOPE,
    }
    r = requests.post(url, data=data)
    r.raise_for_status()
    return r.json()["access_token"]

### Lancement requ√™te API France Travail

In [127]:
# ---------------------------
# API CALL FRANCE TRAVAIL
# ---------------------------
def fetch_france_travail_jobs(token, max_pages=MAX_PAGES):
    headers = {"Authorization": f"Bearer {token}"}
    all_jobs = []
    b_stop_criteria = False
    
    for page in range(1, max_pages + 1):
        if b_stop_criteria == False:    
            url = f"https://api.francetravail.io/partenaire/offresdemploi/v2/offres/search"
            params = {
                "motsCles": JOB_QUERY,
                "commune": COMMUNE,
                "distance" : DISTANCE,
                "range": f"{(page-1)*BLOC_PAGINATION}-{page*BLOC_PAGINATION-1}"  # pagination par blocs de 50
            }
            r = requests.get(url, headers=headers, params=params)
            r.raise_for_status()
            data = r.json()
            offres = data.get("resultats", [])
                
            for o in offres:
                all_jobs.append({
                    "Source": "France Travail",
                    "id":o.get("id"),    
                    "Titre": o.get("intitule"),
                    "Description": o.get("description"),
                    "Entreprise": o.get("entreprise", {}).get("nom"),
                    "Lieu": o.get("lieuTravail", {}).get("libelle"),
                    "Latitude": o.get("lieuTravail", {}).get("latitude"),
                    "Longitude": o.get("lieuTravail", {}).get("longitude"),
                    "type_Contrat_Libelle": o.get("typeContratLibelle"),
                    "Date_publication": o.get("dateCreation"),
                    "URL": o.get("origineOffre").get("urlOrigine") if o.get("origineOffre") is not None else "None",
                    "Secteur_activites": o.get("secteurActiviteLibelle"),
                })
            # print(len(offres))

            # Si le nombre d'offres est inf√©rieur au nombre max d'offre par pages, c'est un signe qu'il n'y a plus d'offres √† extraire apr√®s la page actuelle.
            if len(offres) < BLOC_PAGINATION:
                b_stop_criteria = True
            
    return all_jobs

### Lancement de requ√™te Adzuna

In [128]:
# ---------------------------
# API CALL ADZUNA
# ---------------------------
def fetch_adzuna_jobs(max_pages=MAX_PAGES):
    headers = {"Accept": "application/json"}
    all_jobs = []
    b_stop_criteria = False
    
    for page in range(1, max_pages + 1):
        if b_stop_criteria == False:    
            url = f"https://api.adzuna.com/v1/api/jobs/fr/search/{page}"
            params = {
                "app_id" : ADZUNA_CLIENT_ID,
                "app_key" : ADZUNA_CLIENT_SECRET,
                "title_only": JOB_QUERY,
                "where": COMMUNE,
                "results_per_page" : BLOC_PAGINATION,
                "distance" : DISTANCE
            }
            r = requests.get(url,params=params)
            r.raise_for_status()
            data = r.json()
            offres = data.get("results")
                
            # print(len(offres))

            for o in offres:
                all_jobs.append({
                    "Source": "Adzuna",
                    "id" : o.get("id"),
                    "Titre" : o.get("title"),
                    "Description" : o.get("description"),
                    "Entreprise": o.get("company").get("display_name") if o.get("company") is not None else "None",
                    "Lieu" : o.get("location").get("display_name") if o.get("location") is not None else "None",  
                    "Latitude" : o.get("latitude"),
                    "Longitude" : o.get("longitude"),
                    "type_Contrat_Libelle" : o.get("contract_type"),                    
                    "Date_publication" : o.get("created"),
                    "URL" : o.get("redirect_url"),
                    "Secteur_activites" : o.get("category").get("label") if o.get("category") is not None else "None",
                })
                
            # Si le nombre d'offres est inf√©rieur au nombre max d'offre par pages, c'est un signe qu'il n'y a plus d'offres √† extraire apr√®s la page actuelle.
            if len(offres) < BLOC_PAGINATION:
                b_stop_criteria = True
            
    return all_jobs

### D√©duplication

In [129]:
# ---------------------------
# D√âDUPLICATION
# ---------------------------
def deduplicate(jobs):
    seen = set()
    deduped = []
    for job in jobs:
        key_str = f"{job['Titre']}_{job['Entreprise']}_{job['Latitude']}_{job['Longitude']}_{job['Date_publication']}"
        key = hashlib.md5(key_str.encode()).hexdigest()
        if key not in seen:
            seen.add(key)
            deduped.append(job)
    return deduped

### Initialisation database

In [130]:
# --- Initialisation DB ---
# SUPPRESSION DE Date_creation TIMESTAMP
def init_db(engine):
    with engine.begin() as conn:
        conn.execute(text("""
        CREATE TABLE IF NOT EXISTS offres (
            id TEXT PRIMARY KEY,
            Source TEXT,
            Titre TEXT,
            Description TEXT,
            Entreprise TEXT,
            Lieu TEXT,
            Latitude FLOAT(4),
            Longitude FLOAT(4),
            type_Contrat_Libelle TEXT,
            Date_publication DATE,
            url TEXT,
            Secteur_activites TEXT,
            inserted_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        )
        """))


### Sauvegarde en base PostgreSQL

In [131]:
# --- Sauvegarde PostgreSQL ---
def save_to_postgres(df, engine):
    if df.empty:
        return
    with engine.begin() as conn:
        for _, row in df.iterrows():
            conn.execute(text("""
            INSERT INTO offres (id, Source, Titre, Description, Entreprise, Lieu, Latitude, Longitude, type_Contrat_Libelle, Date_publication, URL, Secteur_activites)
            VALUES (:id, :Source, :Titre, :Description, :Entreprise, :Lieu, :Latitude, :Longitude, :type_Contrat_Libelle, :Date_publication, :URL, :Secteur_activites)
             ON CONFLICT (id) DO NOTHING
            """), row.to_dict())

### Sauvegarde CSV

In [132]:
# --- Sauvegarde Parquet ---
def save_to_csv(df):
    if df.empty:
        return
    os.makedirs(CSV_DIR, exist_ok=True)
    today = datetime.now().strftime("%Y-%m-%d")
    path_csv = os.path.join(CSV_DIR, f"{today}_offres.csv")
    df.to_csv(path_csv, index=False,encoding="utf-8")
    print(f"‚úÖ Sauvegard√© dans {path_csv}")

### Sauvegarde Parquet

In [133]:
# --- Sauvegarde Parquet ---
def save_to_parquet(df):
    if df.empty:
        return
    os.makedirs(PARQUET_DIR, exist_ok=True)
    today = datetime.now().strftime("%Y-%m-%d")
    path_parquet = os.path.join(PARQUET_DIR, f"{today}_offres.parquet")
    df.to_parquet(path_parquet, index=False)
    print(f"‚úÖ Sauvegard√© dans {path_parquet}")

### Pipeline principal

In [134]:

def run_pipeline():
    print("Authentification France Travail...")
    token = get_ft_token()

    print("R√©cup√©ration des offres France Travail...")
    ft_jobs = fetch_france_travail_jobs(token)

    print("R√©cup√©ration des offres Adzuna...")
    adzuna_jobs = fetch_adzuna_jobs()

    print("Fusion et d√©duplication...")
    all_jobs = ft_jobs + adzuna_jobs

    if not all_jobs:
        print("‚ö†Ô∏è Aucune offre trouv√©e.")
        return

    print(f"Nombre d'offres d'emploi avant d√©duplication : {len(all_jobs)}")
    jobs_clean = deduplicate(all_jobs)
    print(f"Nombre d'offres d'emploi apr√®s d√©duplication : {len(jobs_clean)}")

    print("Affichage Extract offres France Travail...")
    df = pd.DataFrame(jobs_clean)

    # Export vers CSV
    print("üíæ Sauvegarde en CSV...")
    save_to_csv(df)

    # Export vers Parquet
    print("üíæ Sauvegarde en Parquet...")
    save_to_parquet(df)
    
    print(f"{len(jobs_clean)} offres uniques export√©es dans {CSV_DIR} et {PARQUET_DIR} ‚úÖ")

    # Connexion DB
    print("Connexion √† la base PostgreSQL...")
    engine = create_engine(f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}")

    # Initier la bdd
    init_db(engine)

    print("üíæ Sauvegarde en base PostgreSQL...")
    save_to_postgres(df, engine)
    print("üíæ Sauvegarde en base PostgreSQL TERMINEE !!!...")

    # Affichage extract offres
    display(df.shape)
    display(df.head(3))

In [135]:
# # Chargement depuis CSV
# today = datetime.now().strftime("%Y-%m-%d")
# path_parquet = os.path.join(PARQUET_DIR, f"{today}_offres.parquet")
# df = pd.read_parquet(path_parquet)
# df.head()

### Proc√©dure principale

In [136]:
# ---------------------------
# MAIN
# ---------------------------
if __name__ == "__main__":
    run_pipeline()

Authentification France Travail...
R√©cup√©ration des offres France Travail...
R√©cup√©ration des offres Adzuna...
Fusion et d√©duplication...
Nombre d'offres d'emploi avant d√©duplication : 1183
Nombre d'offres d'emploi apr√®s d√©duplication : 1181
Affichage Extract offres France Travail...
üíæ Sauvegarde en CSV...
‚úÖ Sauvegard√© dans ../data/csv/2025-09-17_offres.csv
üíæ Sauvegarde en Parquet...
‚úÖ Sauvegard√© dans ../data/parquet/2025-09-17_offres.parquet
1181 offres uniques export√©es dans ../data/csv et ../data/parquet ‚úÖ
Connexion √† la base PostgreSQL...
üíæ Sauvegarde en base PostgreSQL...
üíæ Sauvegarde en base PostgreSQL TERMINEE !!!...


(1181, 12)

Unnamed: 0,Source,id,Titre,Description,Entreprise,Lieu,Latitude,Longitude,type_Contrat_Libelle,Date_publication,URL,Secteur_activites
0,France Travail,197XHCS,DATA ANALYST/SCIENTIST(H/F),"En tant que Data Analyst - Data Scientist, vou...",INFOBAM,972 - LE LAMENTIN,14.615411,-61.003361,CDI,2025-09-16T18:29:39.856Z,https://candidat.francetravail.fr/offres/reche...,Gestion d'installations informatiques
1,France Travail,197TNXM,Data Analyst ETL / SI Junior - H/F (H/F),"Empreinte est une soci√©t√© Fran√ßaise qui cr√©e, ...",EMPREINTE SA,29 - BREST,48.414003,-4.491985,CDI,2025-09-12T17:46:57.887Z,https://candidat.francetravail.fr/offres/reche...,Fabrication de v√™tements de dessous
2,France Travail,197NKZD,Consultant Data confirm√© - Data Analyst H/F,Nous recherchons un(e) Consultant(e) Data conf...,EFFIDIC,49 - TRELAZE,47.445931,-0.466974,CDI,2025-09-09T09:24:40.097Z,https://candidat.francetravail.fr/offres/reche...,Conseil en syst√®mes et logiciels informatiques
