# **Scraper les offres d'emploi sur Hellowork**

## **1. Introduction**

- Ce notebook vise à scraper les offres d'emploi depuis l'API Hellowork.

- L'objectif est de récupérer un échantillon d'annonces pour analyser et travailler sur les données.

## **2. Chargement des bibliothèques nécessaires**

In [1]:
import requests
import pandas as pd
import json

## **3. Configuration et Envoi de la requête API**

In [2]:
# - Définir l'endpoint principal de l'API Hellowork et de l'user agent pour "contourner la protection"
endpoint = "https://www.hellowork.com/searchoffers/getsearchfacets"
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'

# Définition des mots-clés pour les recherches
mots_cles = ["Data Ingenieur", "Data Engineer", "Data Analyst", "Data Analyste", "Data Scientist"]
all_offres = []

# Boucle sur les mots-clés
for mot_cle in mots_cles:
    page = 1  # Réinitialisation de la page pour chaque mot-clé
    params = {
        "k": mot_cle,  # Mot-clé pour le poste
        "l": "france",  # Localisation : France
        "d": "all",  # Toutes les annonces disponibles
        "p": page
    }
    
    # Boucle pour récupérer toutes les pages pour le mot-clé en cours
    while True:
        response = requests.get(endpoint, params=params, headers={"User-Agent": user_agent})
        
        if response.status_code == 200:
            data = response.json()
            if 'Results' in data and data['Results']:
                all_offres.extend(data['Results'])  # Ajoute les offres récupérées à la liste
                print(f"Page {page} récupérée avec succès pour le mot-clé {mot_cle}.")
                page += 1  # Passe à la page suivante
                params["p"] = page  # Met à jour le # de page
            else:
                print(f"Aucune offre supplémentaire trouvée pour le mot-clé {mot_cle}.")
                break
        else:
            print(f"Erreur lors de la requête à la page {page} pour le mot-clé {mot_cle} : {response.status_code}")
            break 

# Affichage du nombre total d'offres collectées
print(f"Nombre total d'offres collectées : {len(all_offres)}")

Page 1 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 2 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 3 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 4 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 5 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 6 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 7 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 8 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 9 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 10 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 11 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 12 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 13 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 14 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 15 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 16 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 17 récupérée

## **5. Exploration des données**

- Inspection des données brutes retournées par l'API pour identifier les champs pertinents.

In [3]:
# Transformation des données en dataframe
df_offres = pd.DataFrame(all_offres)

In [4]:
df_offres.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6115 entries, 0 to 6114
Data columns (total 64 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   AddressGeoloc                  6115 non-null   object 
 1   ContractDurationFromNumber     531 non-null    object 
 2   ContractBeginDate              5 non-null      object 
 3   ContractEndDate                0 non-null      object 
 4   Shift                          5 non-null      float64
 5   AltCompanyName                 0 non-null      object 
 6   ContractType                   6115 non-null   object 
 7   Telework                       3538 non-null   object 
 8   Criterions                     6115 non-null   object 
 9   Description                    6115 non-null   object 
 10  Domaine                        5919 non-null   object 
 11  HighLights                     6115 non-null   object 
 12  Id                             6115 non-null   o

In [6]:
df_offres.head()

Unnamed: 0,AddressGeoloc,ContractDurationFromNumber,ContractBeginDate,ContractEndDate,Shift,AltCompanyName,ContractType,Telework,Criterions,Description,...,IsLowQuality,IsManagement,IsNonClient,IsPremium,IsSalaryDisplayable,ReferencingSummary,ResponseUrl,ResponseEmail,TypeResponse,UrlBookmark
0,"[{'relevance': 0.0, 'matchLevel': 0, 'distance...",,,,,,CDI,Télétravail partiel,"[{'Domaine': 'Commun', 'Label': 'Ingénieur big...","À ton arrivée, nous te présenterons le projet ...",...,False,False,False,False,True,,,,3,/fr-fr/candidat/saveoffernewserp?idOffre=61043870
1,"[{'relevance': 0.0, 'matchLevel': 0, 'distance...",,,,,,CDI,Télétravail occasionnel,"[{'Domaine': 'Commun', 'Label': 'Ingénieur big...","Dans le cadre de notre développement, nous rec...",...,False,False,False,False,True,,,,3,/fr-fr/candidat/saveoffernewserp?idOffre=60843130
2,"[{'relevance': 0.0, 'matchLevel': 0, 'distance...",,,,,,CDI,Télétravail partiel,"[{'Domaine': 'Commun', 'Label': 'Ingénieur big...","Dans un souci d'accessibilité et de clarté, le...",...,False,False,False,False,False,,https://jobs.smartrecruiters.com/ASIFR/7440000...,,3,/fr-fr/candidat/saveoffernewserp?idOffre=60680157
3,"[{'relevance': 0.0, 'matchLevel': 0, 'distance...",,,,,,CDI,Télétravail partiel,"[{'Domaine': 'Commun', 'Label': 'Ingénieur big...",Data Ingénieur(e) F/H\n\nDescription de poste\...,...,False,False,False,False,False,,https://cgi.njoyn.com/corp/xweb/xweb.asp?clid=...,,6,/fr-fr/candidat/saveoffernewserp?idOffre=60682934
4,"[{'relevance': 0.0, 'matchLevel': 0, 'distance...",,,,,,CDI,Télétravail partiel,"[{'Domaine': 'Commun', 'Label': 'Ingénieur big...",En coordination avec les équipes d'un de nos c...,...,False,False,False,False,False,,https://alteca.nous-recrutons.fr/poste/cqr1ltt...,,2,/fr-fr/candidat/saveoffernewserp?idOffre=60659766


In [8]:
df_offres['Telework'].value_counts()

Telework
Télétravail partiel        2801
Télétravail occasionnel     668
Télétravail complet          69
Name: count, dtype: int64

In [12]:
df_offres['ContractDurationFromNumber'].value_counts()

ContractDurationFromNumber
6 mois         231
24 mois         76
1 an            38
2 ans           29
18 mois         28
12 mois         28
3 mois          25
4 mois          17
16 mois         13
15 mois          9
8 mois           6
5 mois           5
9 mois           5
22 jours         4
7 mois           2
3 ans            2
36 mois          2
180 jours        2
10 semaines      2
179 jours        2
11 mois          2
30 mois          1
44 jours         1
1 mois           1
Name: count, dtype: int64

In [23]:
df_offres['Domaine'].value_counts()

Domaine
informatique           4440
audit                   264
marketing               169
ingenierie              130
recherche               116
commerce                 97
finance                  83
gestion                  67
comptabilite             65
production               55
logistique               54
industrie                47
btp                      34
graphisme                32
qualite                  29
securite                 28
ressources-humaines      19
banque                   15
secretariat              14
achat                    14
environnement            14
architecture             13
telecom                  13
immobilier               10
edition                  10
electronique              9
biotechnologie            8
administratif             8
automobile                7
sav                       6
juridique                 5
direction                 5
sante                     5
hotellerie                5
chimie                    4
hospitalier 

In [24]:
df_offres['HighLights'].value_counts()

HighLights
{}                                                                                                                                                       4886
{'Description': ['de business intelligence pour se préparer aux métiers (post facture électronique) de data contrôleur&#x2F;<strong>data</strong>']}       15
{'Profil': ['Français, Anglais            
 
          Catégories            
          <strong>Data</strong>']}                                        15
{'Description': ['Depuis 2015, DSTI a formé + de 1000 étudiants sur les métiers de la donnée (Data Analyst&#x2F;<strong>Data Engineer</strong>']}          14
{'Description': ['Depuis 2015, DSTI a formé + de 1000 étudiants sur les métiers de la donnée (<strong>Data Analyst</strong>&#x2F;Data Engineer']}          14
                                                                                                                                                         ... 
{'Description': ['intervenez dans une practi

In [9]:
df_offres.columns

Index(['AddressGeoloc', 'ContractDurationFromNumber', 'ContractBeginDate',
       'ContractEndDate', 'Shift', 'AltCompanyName', 'ContractType',
       'Telework', 'Criterions', 'Description', 'Domaine', 'HighLights', 'Id',
       'IdOrRef', 'IdCategory', 'IdApplication', 'LinkedOffers',
       'Localisation', 'Localisations', 'OfferPosition', 'OfferTitle',
       'Profile', 'PublishDate', 'RandomId', 'Ref', 'DisplayedSalary',
       'SearchSlug', 'SkinHeaderPicture', 'SkinHeaderPictureFullUrl', 'Tags',
       'SeoTags', 'TypeResponseFront', 'TypeListeOffres', 'Variant',
       'UrlOffre', 'UrlSlug', 'CompanyId', 'CompanyLogo', 'CompanyLogoFullUrl',
       'CompanyName', 'CompanyNameSlug', 'IsResponsiveRecruiter',
       'IsAnnonceAugmentee', 'IsAnonymous', 'IsApplicationSecondaire',
       'IsClient', 'IsClientSecondaire', 'IsClientSecondaireNonBoost',
       'IsPartenairePrioritaire', 'IsPartenairePremium', 'IsPartenaire',
       'IsPartenaireGroupe', 'IsFulltime', 'CompanyIsTranspare

In [22]:
df_offres['Criterions'].value_counts() # à supprimer, dico des colonnes

Criterions
[{'Domaine': 'Commun', 'Label': 'Ingénieur big data', 'Type': 'Metier', 'ShortUri': 'Ingenieur_big_data', 'Uri': '/Commun/Post/Ingenieur_big_data'}, {'Domaine': 'RJ', 'Label': 'Partiel', 'Type': 'Teletravail', 'ShortUri': 'Partiel', 'Uri': '/Commun/Teletravail/Partiel'}, {'Domaine': 'RJ', 'Label': 'Informatique - Systèmes d'Information', 'Type': 'Fonction', 'ShortUri': 'Informatique_syst_info', 'Uri': '/RJ/Offre/Fonct/Informatique_syst_info'}, {'Domaine': 'RJ', 'Label': 'Secteur informatique/ESN', 'Type': 'Secteur', 'ShortUri': 'Inform_SSII', 'Uri': '/RJ/Offre/Sect/Inform_SSII'}, {'Domaine': 'RJ', 'Label': 'Ingénieur/Cadre/Bac +5', 'Type': 'Niveau', 'ShortUri': 'Ingenieur_B5', 'Uri': '/RJ/Qualif/Ingenieur_B5'}, {'Domaine': 'RJ', 'Label': 'CDI', 'Type': 'Contrat', 'ShortUri': 'CDI', 'Uri': '/RJ/Contr/CDI'}, {'Domaine': 'RJ', 'Label': 'À convenir', 'Type': 'Salaire', 'ShortUri': 'A_convenir', 'Uri': '/RJ/Cand/Salaire/A_convenir'}, {'Domaine': 'RJ', 'Label': 'Informatique', 'Ty

In [21]:
df_offres['ContractType'].value_counts()

ContractType
CDI                      4705
Stage                     773
Alternance                288
Indépendant/Freelance     144
CDD                       132
Intérim                    71
Franchise                   2
Name: count, dtype: int64

## **6. Nettoyage des données**

In [None]:
# suppression des colonnes inutiles
df_offres = df_offres.drop(columns=['AddressGeoloc', 'ContractBeginDate', 'ContractEndDate', 'Shift', 
                                    'AltCompanyName'])

## **7. Sauvegarde des données**

In [None]:
# Exportation des données nettoyées au format CSV.
output_file = "../data/datasets/brut/offres_data_engineer.csv"
df_clean.to_csv(output_file, index=False)
print(f"Données sauvegardées dans le fichier {output_file}.")