# **Scraper les offres d'emploi sur Hellowork**

## **1. Introduction**

- Ce notebook vise à scraper les offres d'emploi depuis l'API Hellowork.

- L'objectif est de récupérer un échantillon d'annonces pour analyser et travailler sur les données.

## **2. Chargement des bibliothèques nécessaires**

In [3]:
import requests
import pandas as pd
import json

## **3. Configuration et Envoi de la requête API**

In [25]:
# - Définir l'endpoint principal de l'API Hellowork et de l'user agent pour "contourner la protection"
endpoint = "https://www.hellowork.com/searchoffers/getsearchfacets"
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'

# Définition des mots-clés pour les recherches
mots_cles = ["Data Ingenieur", "Data Engineer"]
all_offres = []

# Boucle sur les mots-clés
for mot_cle in mots_cles:
    page = 1  # Réinitialisation de la page pour chaque mot-clé
    params = {
        "k": mot_cle,  # Mot-clé pour le poste
        "l": "france",  # Localisation : France
        "d": "all",  # Toutes les annonces disponibles
        "p": page
    }
    
    # Boucle pour récupérer toutes les pages pour le mot-clé en cours
    while True:
        response = requests.get(endpoint, params=params, headers={"User-Agent": user_agent})
        
        if response.status_code == 200:
            data = response.json()
            if 'Results' in data and data['Results']:
                all_offres.extend(data['Results'])  # Ajoute les offres récupérées à la liste
                print(f"Page {page} récupérée avec succès pour le mot-clé {mot_cle}.")
                page += 1  # Passe à la page suivante
                params["p"] = page  # Met à jour le # de page
            else:
                print(f"Aucune offre supplémentaire trouvée pour le mot-clé {mot_cle}.")
                break
        else:
            print(f"Erreur lors de la requête à la page {page} pour le mot-clé {mot_cle} : {response.status_code}")
            break 

# Affichage du nombre total d'offres collectées
print(f"Nombre total d'offres collectées : {len(all_offres)}")

Page 1 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 2 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 3 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 4 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 5 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 6 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 7 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 8 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 9 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 10 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 11 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 12 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 13 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 14 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 15 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 16 récupérée avec succès pour le mot-clé Data Ingenieur.
Page 17 récupérée

## **5. Exploration des données**

- Inspection des données brutes retournées par l'API pour identifier les champs pertinents.

In [26]:
# Transformation des données en dataframe
df_offres = pd.DataFrame(all_offres)

In [27]:
df_offres.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3738 entries, 0 to 3737
Data columns (total 64 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   AddressGeoloc                  3738 non-null   object 
 1   ContractDurationFromNumber     249 non-null    object 
 2   ContractBeginDate              4 non-null      object 
 3   ContractEndDate                0 non-null      object 
 4   Shift                          3 non-null      float64
 5   AltCompanyName                 0 non-null      object 
 6   ContractType                   3738 non-null   object 
 7   Telework                       2233 non-null   object 
 8   Criterions                     3738 non-null   object 
 9   Description                    3738 non-null   object 
 10  Domaine                        3593 non-null   object 
 11  HighLights                     3738 non-null   object 
 12  Id                             3738 non-null   o

In [28]:
df.head()

## **6. Nettoyage des données**

## **7. Sauvegarde des données**

In [None]:
# Exportation des données nettoyées au format CSV.
output_file = "../data/datasets/brut/offres_data_engineer.csv"
df_clean.to_csv(output_file, index=False)
print(f"Données sauvegardées dans le fichier {output_file}.")