**SCRAPPING**

Dans cette première étape, nous allons effectuer du scrapping sur le site Monster.fr

Celui-ci référence les emplois, le salaires, les zones sur une seule et même page.

Il n'est pas nécéssaire de changer de page pour afficher plus d'offres, les emplois s'actualisent automatiquement en scrollant en bas de page.

**Ce code a donc pour but de :**
- Se rendre sur le site Monster.fr, section Data scientist
- Scroller automatiquement en bas de page pendant X secondes (modifiable dans le code)
- Collecter les données et les ranger dans un tableau via pandas (Nom des posts, zones, salaires, mois en cours, années en cours)
- Créer un fichier Excel avec les données collectées

Vous pouvez run all directement

In [53]:
%pip install selenium

Collecting selenium
  Downloading selenium-4.16.0-py3-none-any.whl.metadata (6.9 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.23.2-py3-none-any.whl.metadata (4.9 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting sniffio>=1.3.0 (from trio~=0.17->selenium)
  Downloading sniffio-1.3.0-py3-none-any.whl (10 kB)
Collecting cffi>=1.14 (from trio~=0.17->selenium)
  Downloading cffi-1.16.0-cp312-cp312-win_amd64.whl.metadata (1.5 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting pysocks!=1.5.7,<2.0,>=1.5.6 (from urllib3[socks]<3,>=1.26->selenium)
  Downloading PySocks-1.7.1-py3-no


[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [67]:
%pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl.metadata (12 kB)
Collecting python-dotenv (from webdriver-manager)
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl (27 kB)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.0.0 webdriver-manager-4.0.1
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [72]:
%pip install pandas openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import pandas as pd
import time
import re
from datetime import datetime

def extract_salary(salary_str):
    numbers = re.findall(r'\d+', salary_str)
    return int(''.join(numbers)) if numbers else 0

# Initialisation du pilote Selenium. La page étant sous JS, nous ne pouvons pas utiliser Beautifulsoup qui s'orriente sur du html uniquement 
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Accès à la page de Monster.fr
# Monster, n'est pas un site protégé et est donc scrappable
url = "https://www.monster.fr/emploi/recherche?q=data+scientist&where=france&page=3&so=m.h.s"
driver.get(url)

# Scroll pendant 10 secondes jusqu'en bas de page pour charger plus d'offres afin de récupérer la data
# Possibilité d'augmenter le temps de scroll avec range pour avoir plus de données
for _ in range(60):
    driver.find_element(By.TAG_NAME, 'body').send_keys(Keys.PAGE_DOWN)
    time.sleep(1)

# Attente supplémentaire pour le chargement du contenu au cas où
time.sleep(5)

# Collecte des données
data = []
today = datetime.today()

# Ajout des date afin de faire de l'analyse et pour tirer la donnée
# Mois actuel
current_month = today.strftime('%m') 

# Année actuelle 
current_year = today.strftime('%Y')
  
job_listings = driver.find_elements(By.CSS_SELECTOR, 'article[data-testid="svx_jobCard"]')
for job in job_listings:
    job_title_elements = job.find_elements(By.CSS_SELECTOR, 'a[data-testid="jobTitle"]')
    location_elements = job.find_elements(By.CSS_SELECTOR, 'span[data-testid="jobDetailLocation"]')
    salary_elements = job.find_elements(By.CSS_SELECTOR, 'span.sc-fKMpNL.dasswI.ds-tag-label')

    job_title = job_title_elements[0].text if job_title_elements else 'N/A'
    location = location_elements[0].text if location_elements else 'N/A'
    salary = extract_salary(salary_elements[0].text) if salary_elements else 0

    data.append([job_title, location, salary, current_month, current_year])

# Fermeture du navigateur
driver.quit()

# Création d'un DataFrame avec pandas
df = pd.DataFrame(data, columns=["Job Title", "Location", "Salary", "Month", "Year"])

# Suppression des lignes où le salaire est 0
df = df[df['Salary'] > 0]

# Enregistrement dans un fichier Excel
df.to_excel("DataJobs.xlsx", index=False)
