# 1. Data collection - Pole Emploi API

### Imports

In [1]:
import requests as r
import pandas as pd
import numpy as np
import json
import re
import time
import os
from datetime import datetime, timedelta
from tqdm.auto import tqdm
from collections import Counter

### Load domain data
Get list of domains of French masters to query PE API.

In [2]:
domains = pd.read_csv('./master_domains.tsv', sep='\t')
domains = domains['DOMAIN'].tolist()
print(len(domains))
domains[:3]

73


['achats', 'logistique', 'qualité']

### Pull data from PE API
Run multiple queries based on each master domain to get related job postings.

In [3]:
def gen_access_token():
    url = 'https://entreprise.pole-emploi.fr/connexion/oauth2/access_token'
    url += '?realm=%2Fpartenaire'
    data = {
        'grant_type':    'client_credentials',
        'client_id':     'PAR_jobsearchapp_5a63edbe429e5210801dc8f115285a94b5909fe24ba9b5cfd956c2ed7b40824a',
        'client_secret': 'bd900cc2accfba406876700e13300d26b23e27485902b32de55d04e4a10c727a',
        'scope':         'api_offresdemploiv2 o2dsoffre',
    }
    res = r.post(url, data=data)
    try:
        return res.json()['access_token']
    except:
        print(res.__dict__)
        raise res.json()

def search_jobs(min_date, max_date, keywords=None):
    token = gen_access_token()
    url = "https://api.emploi-store.fr"
    url += "/partenaire/offresdemploi/v2/offres/search"
    headers = {"Authorization": f"Bearer {token}"}
    data = {
        'typeContrat': 'CDI',
        'sort': '0',
        'minCreationDate': min_date,
        'maxCreationDate': max_date,
    }
    if keywords:
        data['motsCles'] = keywords
    res = r.get(url, headers=headers, params=data)
    if res.status_code not in [200, 206]:
        print(f'Error: {res.status_code}')
        return None
    else:
        return res.json()

def get_job_by_id(job_id):
    token = gen_access_token()
    url = "https://api.emploi-store.fr"
    url += f"/partenaire/offresdemploi/v2/offres/{job_id}"
    headers = {"Authorization": f"Bearer {token}"}
    res = r.get(url, headers=headers)
    if res.status_code != 200:
        print(f'Error: {res.status_code}')
        return None
    else:
        try:
            return res.json()
        except:
            print(res.__dict__)
            raise res
    
def search_student_street_jobs(n_results):
    results = []
    stored_job_ids = []
    last_f_name = None
    max_date = (datetime.now() - timedelta(days=1)).replace(microsecond=0).isoformat() + 'Z'
    min_date = (datetime.now() - timedelta(days=31)).replace(microsecond=0).isoformat() + 'Z'
    min_date = '2022-09-15T07:39:28Z'
    max_date = '2022-10-15T07:39:28Z'
    
    # Loop over jobs
    while len(results) < n_results:
        print(min_date, max_date)
        try:
            jobs = search_jobs(min_date=min_date, max_date=max_date)
            if jobs:
                jobs = jobs['resultats']
                print(f'Jobs: {len(jobs)}')
                for job in tqdm(jobs):
                    time.sleep(1)
                    if job['id'] not in stored_job_ids:
                        j = get_job_by_id(job['id'])
                        if j:
                            results.append(j)
                        stored_job_ids.append(job['id'])
        except Exception as e:
            print(e)
            time.sleep(3600)
                    
        # Save batch
        print(f'Total stored results: {len(results)}')
        f_name = f'./pole_emploi/PE_jobs_{datetime.now().strftime("%Y-%m-%dT%H-%M-%S")}_{len(results)}.json'
        with open(f_name, 'w', encoding='utf-8') as f:
            json.dump(results, f, ensure_ascii=False, indent=4)
        if last_f_name:
            os.remove(last_f_name)
        last_f_name = f_name
        
        # Update datetimes 2022-10-10T23:54:27.000Z
        max_date = jobs[-1]['dateCreation'][:-5] + 'Z'
        min_date = (datetime.strptime(max_date, '%Y-%m-%dT%H:%M:%SZ') - timedelta(days=31)) \
                   .replace(microsecond=0).isoformat() + 'Z'
        
        # Wait 1h if no jobs
        time.sleep(1)
        if not jobs:
            time.sleep(3600)
        
    return results

# data = search_student_street_jobs(n_results=50_000)

domain_jobs = {}

for domain in tqdm(domains[:]):
    print(domain)
    
    combs = []
    templates = ['{} ET bac+5', '{} ET bac+4', '{} ET bac+3']
    combs += [t.format(domain) for t in templates]
    if ', ' in domain:
        sub_combs = [[t.format(x) for x in domain.split(', ')] for t in templates]
        sub_combs = [a for b in sub_combs for a in b]
        combs += sub_combs
    combs += [domain]
    if ', ' in domain:
        combs += domain.split(', ')
    
    print(combs)
    jobs = []
    while len(jobs) < 5 and combs:
        try:
            comb = combs.pop(0)
            print(f'   -> {comb}')
            data = search_jobs(min_date='2020-10-30T00:00:00Z',
                               max_date='2022-10-30T00:00:00Z',
                               keywords=comb)
            if data:
                results = [x['appellationlibelle'] for x in data['resultats']]
                results = Counter(results)
                results = results.most_common(5)
                results = [x[0] for x in results if x[-1] > 1]
                jobs.extend(results)
                jobs = list(set(jobs))

            time.sleep(1)
        except:
            print('Error')
            combs = [comb] + combs
            time.sleep(2)
            
    domain_jobs[domain] = jobs
    
with open('./domain_jobs_top5.json', 'w', encoding='utf-8') as f:
    json.dump(domain_jobs, f, ensure_ascii=False, indent=4)

  0%|          | 0/73 [00:00<?, ?it/s]

achats
['achats ET bac+5', 'achats ET bac+4', 'achats ET bac+3', 'achats']
   -> achats ET bac+5
   -> achats ET bac+4
   -> achats ET bac+3
   -> achats
logistique
['logistique ET bac+5', 'logistique ET bac+4', 'logistique ET bac+3', 'logistique']
   -> logistique ET bac+5
qualité
['qualité ET bac+5', 'qualité ET bac+4', 'qualité ET bac+3', 'qualité']
   -> qualité ET bac+5
assurance, actuariat
['assurance, actuariat ET bac+5', 'assurance, actuariat ET bac+4', 'assurance, actuariat ET bac+3', 'assurance ET bac+5', 'actuariat ET bac+5', 'assurance ET bac+4', 'actuariat ET bac+4', 'assurance ET bac+3', 'actuariat ET bac+3', 'assurance, actuariat', 'assurance', 'actuariat']
   -> assurance, actuariat ET bac+5
Error: 204
   -> assurance, actuariat ET bac+4
Error: 204
   -> assurance, actuariat ET bac+3
Error: 204
   -> assurance ET bac+5
   -> actuariat ET bac+5
Error: 204
   -> assurance ET bac+4
audit, conseil
['audit, conseil ET bac+5', 'audit, conseil ET bac+4', 'audit, conseil ET bac

   -> communication événementielle ET bac+4
   -> communication événementielle ET bac+3
   -> communication événementielle
communication publique
['communication publique ET bac+5', 'communication publique ET bac+4', 'communication publique ET bac+3', 'communication publique']
   -> communication publique ET bac+5
   -> communication publique ET bac+4
direction artistique, graphisme, design
['direction artistique, graphisme, design ET bac+5', 'direction artistique, graphisme, design ET bac+4', 'direction artistique, graphisme, design ET bac+3', 'direction artistique ET bac+5', 'graphisme ET bac+5', 'design ET bac+5', 'direction artistique ET bac+4', 'graphisme ET bac+4', 'design ET bac+4', 'direction artistique ET bac+3', 'graphisme ET bac+3', 'design ET bac+3', 'direction artistique, graphisme, design', 'direction artistique', 'graphisme', 'design']
   -> direction artistique, graphisme, design ET bac+5
Error: 204
   -> direction artistique, graphisme, design ET bac+4
Error: 204
   ->

Error: 204
   -> fiscalité, droit fiscal ET bac+4
Error: 204
   -> fiscalité, droit fiscal ET bac+3
Error: 204
   -> fiscalité ET bac+5
entrepreneuriat
['entrepreneuriat ET bac+5', 'entrepreneuriat ET bac+4', 'entrepreneuriat ET bac+3', 'entrepreneuriat']
   -> entrepreneuriat ET bac+5
   -> entrepreneuriat ET bac+4
   -> entrepreneuriat ET bac+3
   -> entrepreneuriat
management de projets
['management de projets ET bac+5', 'management de projets ET bac+4', 'management de projets ET bac+3', 'management de projets']
   -> management de projets ET bac+5
gestion de la production industrielle
['gestion de la production industrielle ET bac+5', 'gestion de la production industrielle ET bac+4', 'gestion de la production industrielle ET bac+3', 'gestion de la production industrielle']
   -> gestion de la production industrielle ET bac+5
   -> gestion de la production industrielle ET bac+4
   -> gestion de la production industrielle ET bac+3
   -> gestion de la production industrielle
innovatio

   -> data science, machine learning, big data ET bac+3
Error: 204
   -> data science ET bac+5
Error: 204
   -> machine learning ET bac+5
   -> big data ET bac+5
   -> data science ET bac+4
Error: 204
   -> machine learning ET bac+4
Error: 204
   -> big data ET bac+4
Error: 204
   -> data science ET bac+3
Error: 204
   -> machine learning ET bac+3
Error: 204
   -> big data ET bac+3
Error: 204
   -> data science, machine learning, big data
Error: 204
   -> data science
   -> machine learning
   -> big data
business intelligence, informatique décisionnelle
['business intelligence, informatique décisionnelle ET bac+5', 'business intelligence, informatique décisionnelle ET bac+4', 'business intelligence, informatique décisionnelle ET bac+3', 'business intelligence ET bac+5', 'informatique décisionnelle ET bac+5', 'business intelligence ET bac+4', 'informatique décisionnelle ET bac+4', 'business intelligence ET bac+3', 'informatique décisionnelle ET bac+3', 'business intelligence, informati