# Analyse du March√© des Emplois Tech
## Projet  - Session 1

Ce notebook vous guide √† travers le processus de scraping et d'analyse du march√© de l'emploi tech.

**Objectifs :**
- Scraper des donn√©es d'emplois tech depuis des sites sp√©cialis√©s
- Extraire des informations cl√©s : titre, entreprise, localisation, type de contrat, niveau d'exp√©rience
- Analyser les technologies recherch√©es et les tendances du march√©
- Sauvegarder les donn√©es pour visualisation

**Focus de ce projet :**
- Analyse des types de contrats (Remote/Hybrid/On-site)
- Niveau d'exp√©rience requis
- Stack technique recherch√©e
- Tendances g√©ographiques


## 1. Imports et Configuration


In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import re
from datetime import datetime
from collections import Counter


In [5]:
# Configuration
REQUEST_DELAY = 2  # D√©lai en secondes entre les requ√™tes
MAX_JOBS_TO_SCRAPE = 50  # Limite pour la d√©monstration

# Headers pour simuler un navigateur
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7'
}


# Recup√©rer la liste de l'URL des emploies

## 3. Fonctions Utilitaires pour l'Extraction

Ces fonctions extraient des informations sp√©cifiques depuis les descriptions d'emploi.


In [6]:
def detect_work_mode(text):
    """
    D√©tecte le type de contrat (Remote/Hybrid/On-site) depuis le texte
    """
    if not text:
        return "Non sp√©cifi√©"
    
    text_lower = text.lower()
    
    # Mots-cl√©s pour remote
    remote_keywords = ['remote', 't√©l√©travail', 'work from home', 'wfh', 'fully remote', '100% remote']
    # Mots-cl√©s pour hybrid
    hybrid_keywords = ['hybrid', 'hybride', 'partially remote', 'flexible', '2-3 days']
    # Mots-cl√©s pour on-site
    onsite_keywords = ['on-site', 'on site', 'onsite', 'office', 'bureau', 'pr√©sentiel']
    
    remote_count = sum(1 for keyword in remote_keywords if keyword in text_lower)
    hybrid_count = sum(1 for keyword in hybrid_keywords if keyword in text_lower)
    onsite_count = sum(1 for keyword in onsite_keywords if keyword in text_lower)
    
    if remote_count > 0 and remote_count >= hybrid_count:
        return "Remote"
    elif hybrid_count > 0:
        return "Hybrid"
    elif onsite_count > 0:
        return "On-site"
    else:
        return "Non sp√©cifi√©"

def extract_experience_level(text):
    """
    Extrait le niveau d'exp√©rience requis depuis le texte
    """
    if not text:
        return "Non sp√©cifi√©"
    
    text_lower = text.lower()
    
    # Patterns pour diff√©rents niveaux
    patterns = {
        "Junior": [r'junior', r'entry level', r'0-2 years', r'1-2 years', r'debutant'],
        "Mid-level": [r'mid-level', r'mid level', r'2-5 years', r'3-5 years', r'intermediate'],
        "Senior": [r'senior', r'5\+ years', r'5+ years', r'experienced', r'exp√©riment√©'],
        "Lead/Principal": [r'lead', r'principal', r'staff', r'architect', r'10\+ years']
    }
    
    for level, pattern_list in patterns.items():
        for pattern in pattern_list:
            if re.search(pattern, text_lower):
                return level
    
    return "Non sp√©cifi√©"

def extract_tech_stack(text):
    """
    Extrait les technologies mentionn√©es dans la description
    """
    if not text:
        return []
    
    # Liste de technologies courantes
    tech_keywords = {
        'Python', 'JavaScript', 'Java', 'TypeScript', 'Go', 'Rust', 'C++', 'C#',
        'React', 'Vue', 'Angular', 'Node.js', 'Django', 'Flask', 'FastAPI',
        'AWS', 'Azure', 'GCP', 'Docker', 'Kubernetes', 'Terraform',
        'PostgreSQL', 'MongoDB', 'MySQL', 'Redis', 'Elasticsearch',
        'Git', 'CI/CD', 'Jenkins', 'GitHub Actions',
        'Machine Learning', 'TensorFlow', 'PyTorch', 'Scikit-learn',
        'GraphQL', 'REST API', 'Microservices', 'Kafka', 'RabbitMQ'
    }
    
    found_techs = []
    text_lower = text.lower()
    
    for tech in tech_keywords:
        # Recherche insensible √† la casse avec word boundaries
        pattern = r'\b' + re.escape(tech.lower()) + r'\b'
        if re.search(pattern, text_lower, re.IGNORECASE):
            found_techs.append(tech)
    
    return found_techs

def extract_salary_range(text):
    """
    Extrait la fourchette salariale depuis le texte
    """
    if not text:
        return None, None
    
    # Patterns pour trouver les salaires (ex: $80k-$120k, ‚Ç¨50,000-‚Ç¨70,000)
    patterns = [
        r'\$?(\d+)[kK]?\s*-\s*\$?(\d+)[kK]?',  # $80k-$120k ou 80k-120k
        r'‚Ç¨?(\d+)[,.]?\d*\s*-\s*‚Ç¨?(\d+)[,.]?\d*',  # ‚Ç¨50,000-‚Ç¨70,000
        r'(\d+)\s*to\s*(\d+)\s*k',  # 80 to 120k
    ]
    
    for pattern in patterns:
        match = re.search(pattern, text)
        if match:
            try:
                min_sal = int(match.group(1).replace(',', '').replace('.', ''))
                max_sal = int(match.group(2).replace(',', '').replace('.', ''))
                # Convertir en milliers si n√©cessaire
                if min_sal < 1000:
                    min_sal *= 1000
                if max_sal < 1000:
                    max_sal *= 1000
                return min_sal, max_sal
            except:
                continue
    
    return None, None


## 4. Fonction Principale d'Extraction

Cette fonction extrait toutes les donn√©es d'une page d'emploi.


In [7]:
def extract_job_details_from_aijobs(url, soup=None):
    """
    Extrait les d√©tails complets d'une offre d'emploi depuis aijobs.ai
    
    Cette fonction utilise nos fonctions utilitaires pour d√©tecter automatiquement
    le type de contrat, le niveau d'exp√©rience et les technologies recherch√©es.
    """
    if soup is None:
        try:
            response = requests.get(url, headers=HEADERS, timeout=10)
            response.raise_for_status()
            soup = BeautifulSoup(response.text, 'html.parser')
        except Exception as e:
            print(f"Erreur lors de la r√©cup√©ration de {url}: {e}")
            return None
    
    job_data = {
        'job_title': None,
        'company_name': None,
        'location': None,
        'work_mode': None,  # Remote/Hybrid/On-site (d√©tect√© automatiquement)
        'experience_level': None,  # Junior/Mid/Senior (d√©tect√© automatiquement)
        'salary_min': None,
        'salary_max': None,
        'tech_stack': [],  # Liste des technologies (d√©tect√©es automatiquement)
        'job_description': None,
        'job_type': None,  # Full Time, Part Time, etc.
        'job_url': url
    }
    
    # Extraction du titre depuis aijobs.ai
    title_elem = soup.find("div", class_="post-main-title2")
    if title_elem:
        job_data['job_title'] = title_elem.get_text(strip=True)
    
    # Extraction de l'entreprise depuis aijobs.ai
    # M√©thode 1 : Chercher le span avec "at"
    company_elem = soup.find("span", string=lambda x: x and "at" in str(x).lower())
    if company_elem:
        company_span = company_elem.find_next_sibling("span")
        if company_span:
            job_data['company_name'] = company_span.get_text(strip=True)
    
    # M√©thode 2 : Chercher le lien de l'entreprise
    if not job_data['company_name']:
        company_link = soup.find("a", href=re.compile(r"/company/"))
        if company_link:
            company_name_elem = company_link.find("span", class_="tw-card-title")
            if company_name_elem:
                job_data['company_name'] = company_name_elem.get_text(strip=True)
    
    # Extraction du type d'emploi (Full Time, etc.)
    job_type_elem = soup.find("span", class_=re.compile(r"tw-bg-\[#0BA02C\]"))
    if job_type_elem:
        job_data['job_type'] = job_type_elem.get_text(strip=True)
    
    # Extraction de la localisation depuis aijobs.ai
    location_elem = soup.find("div", class_="remote")
    if location_elem:
        location_p = location_elem.find("p", class_="tw-mb-0")
        if location_p:
            job_data['location'] = location_p.get_text(strip=True)
    
    # Extraction de la description compl√®te
    desc_container = soup.find("div", class_="job-description-container")
    if desc_container:
        description_text = desc_container.get_text(separator=' ', strip=True)
    else:
        # Fallback : prendre tout le body
        body = soup.find('body')
        if body:
            description_text = body.get_text(separator=' ', strip=True)
        else:
            description_text = ""
    
    job_data['job_description'] = description_text[:5000]  # Limiter la taille
    
    # üéØ UTILISER NOS FONCTIONS UTILITAIRES pour d√©tecter automatiquement :
    # C'est ce qui diff√©rencie ce projet - nous analysons le texte pour extraire des infos
    
    # D√©tecter le type de contrat (Remote/Hybrid/On-site)
    job_data['work_mode'] = detect_work_mode(description_text)
    
    # D√©tecter le niveau d'exp√©rience requis
    job_data['experience_level'] = extract_experience_level(description_text)
    
    # Extraire les technologies recherch√©es
    job_data['tech_stack'] = extract_tech_stack(description_text)
    
    # Extraire la fourchette salariale
    min_sal, max_sal = extract_salary_range(description_text)
    job_data['salary_min'] = min_sal
    job_data['salary_max'] = max_sal
    
    # Si pas de salaire trouv√© dans la description, chercher dans les √©l√©ments sp√©cifiques
    if not min_sal and not max_sal:
        # Chercher dans les sections de salaire
        salary_section = soup.find("div", string=re.compile(r"Salary", re.IGNORECASE))
        if salary_section:
            salary_text = salary_section.get_text()
            min_sal, max_sal = extract_salary_range(salary_text)
            job_data['salary_min'] = min_sal
            job_data['salary_max'] = max_sal
    
    return job_data


## 5. Scraping des URLs d'Emplois depuis Plusieurs Pays

Nous allons scraper depuis aijobs.ai pour plusieurs pays :
- üá∫üá∏ √âtats-Unis
- üá¨üáß Royaume-Uni  
- üá®üá¶ Canada

Les r√©sultats de tous les pays seront combin√©s pour une analyse globale du march√©.

**Note :** Cette section montre comment collecter les URLs d'emplois depuis plusieurs localisations.
Vous devrez adapter les s√©lecteurs CSS selon le site que vous utilisez.


In [8]:
def collect_job_urls_from_aijobs(max_pages=5, location="United%20States"):
    """
    Collecte les URLs des offres d'emploi depuis aijobs.ai
    
    Cette fonction utilise les s√©lecteurs sp√©cifiques d'aijobs.ai
    """
    BASE_URL = "https://aijobs.ai"
    job_urls = []
    
    for page_num in range(1, max_pages + 1):
        try:
            # Construire l'URL de la page
            url = f"{BASE_URL}/engineer?location={location}&page={page_num}"
            
            print(f"üìÑ Scraping page {page_num}...")
            response = requests.get(url, headers=HEADERS, timeout=10)
            response.raise_for_status()
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # Trouver toutes les cartes d'emploi (s√©lecteur sp√©cifique d'aijobs.ai)
            job_cards = soup.find_all("a", class_="jobcardStyle1")
            
            # Extraire les URLs
            page_job_urls = []
            for card in job_cards:
                href = card.get("href")
                if href:
                    # Convertir en URL absolue si n√©cessaire
                    if href.startswith('/'):
                        from urllib.parse import urljoin
                        href = urljoin(BASE_URL, href)
                    if href not in page_job_urls:
                        page_job_urls.append(href)
            
            job_urls.extend(page_job_urls)
            print(f"  ‚úÖ {len(page_job_urls)} emplois trouv√©s sur cette page")
            
            # D√©lai entre les requ√™tes pour respecter le serveur
            time.sleep(REQUEST_DELAY)
            
        except Exception as e:
            print(f"‚ùå Erreur sur la page {page_num}: {e}")
            continue
    
    # Supprimer les doublons
    unique_urls = list(set(job_urls))
    print(f"\n‚úÖ Total: {len(unique_urls)} URLs d'emplois uniques collect√©es")
    return unique_urls

# Configuration des pays √† scraper
COUNTRIES_TO_SCRAPE = {
    "üá∫üá∏ √âtats-Unis": "United%20States",
    "üá¨üáß Royaume-Uni": "United%20Kingdom",
    "üá®üá¶ Canada": "Canada"
}

# Collecter les URLs d'emplois depuis tous les pays
print("üîç Collecte des URLs d'emplois depuis plusieurs pays...\n")
print(f"Pays √† scraper: {', '.join(COUNTRIES_TO_SCRAPE.keys())}\n")

all_job_urls = {}
total_urls = 0

for country_name, location_code in COUNTRIES_TO_SCRAPE.items():
    print(f"\n{'='*60}")
    print(f"üåç {country_name}")
    print(f"{'='*60}")
    
    job_urls = collect_job_urls_from_aijobs(max_pages=2, location=location_code)
    all_job_urls[country_name] = job_urls
    total_urls += len(job_urls)
    print(f"‚úÖ {len(job_urls)} URLs collect√©es pour {country_name}")

print(f"\n{'='*60}")
print(f"‚úÖ TOTAL: {total_urls} URLs d'emplois collect√©es depuis {len(COUNTRIES_TO_SCRAPE)} pays")
print(f"{'='*60}")

# Combiner toutes les URLs en une seule liste
job_urls = []
for country_name, urls in all_job_urls.items():
    job_urls.extend(urls)

# Supprimer les doublons (au cas o√π un m√™me emploi appara√Ætrait dans plusieurs pays)
job_urls = list(set(job_urls))
print(f"\nüìä Apr√®s suppression des doublons: {len(job_urls)} URLs uniques")


üîç Collecte des URLs d'emplois depuis plusieurs pays...

Pays √† scraper: üá∫üá∏ √âtats-Unis, üá¨üáß Royaume-Uni, üá®üá¶ Canada


üåç üá∫üá∏ √âtats-Unis
üìÑ Scraping page 1...
  ‚úÖ 20 emplois trouv√©s sur cette page
üìÑ Scraping page 2...
  ‚úÖ 20 emplois trouv√©s sur cette page

‚úÖ Total: 40 URLs d'emplois uniques collect√©es
‚úÖ 40 URLs collect√©es pour üá∫üá∏ √âtats-Unis

üåç üá¨üáß Royaume-Uni
üìÑ Scraping page 1...
  ‚úÖ 20 emplois trouv√©s sur cette page
üìÑ Scraping page 2...
  ‚úÖ 11 emplois trouv√©s sur cette page

‚úÖ Total: 31 URLs d'emplois uniques collect√©es
‚úÖ 31 URLs collect√©es pour üá¨üáß Royaume-Uni

üåç üá®üá¶ Canada
üìÑ Scraping page 1...
  ‚úÖ 20 emplois trouv√©s sur cette page
üìÑ Scraping page 2...
  ‚úÖ 16 emplois trouv√©s sur cette page

‚úÖ Total: 36 URLs d'emplois uniques collect√©es
‚úÖ 36 URLs collect√©es pour üá®üá¶ Canada

‚úÖ TOTAL: 107 URLs d'emplois collect√©es depuis 3 pays

üìä Apr√®s suppression des doublons: 107 UR

## 6. Extraction des D√©tails de Chaque Emploi

Maintenant, nous extrayons les d√©tails complets de chaque emploi.


In [9]:
# Extraire les d√©tails de chaque emploi
print("\nüìã Extraction des d√©tails des emplois...\n")

all_jobs = []

for i, job_url in enumerate(job_urls[:MAX_JOBS_TO_SCRAPE], 1):
    print(f"  [{i}/{min(MAX_JOBS_TO_SCRAPE, len(job_urls))}] {job_url[:60]}...")
    
    try:
        job_data = extract_job_details_from_aijobs(job_url)
        if job_data and job_data.get('job_title'):
            all_jobs.append(job_data)
            print(f"      ‚úÖ {job_data.get('job_title', 'N/A')[:50]}")
        else:
            print(f"      ‚ö†Ô∏è Donn√©es incompl√®tes")
    except Exception as e:
        print(f"      ‚ùå Erreur: {e}")
    
    # D√©lai entre les requ√™tes
    time.sleep(REQUEST_DELAY)

print(f"\n‚úÖ {len(all_jobs)} emplois extraits avec succ√®s")



üìã Extraction des d√©tails des emplois...

  [1/50] https://aijobs.ai/job/machine-learning-engineer-intern-8...
      ‚úÖ Machine Learning Engineer Intern
  [2/50] https://aijobs.ai/job/ai-software-engineer-2...
      ‚úÖ AI Software Engineer
  [3/50] https://aijobs.ai/job/senior-ai-engineer-ai-labs...
      ‚úÖ Senior AI Engineer, AI Labs
  [4/50] https://aijobs.ai/job/aiml-engineer-solution-designer-toront...
      ‚úÖ AI/ML Engineer / Solution Designer ‚Äì Toronto - Hyb
  [5/50] https://aijobs.ai/job/machine-learning-engineer-2462...
      ‚úÖ Machine Learning Engineer
  [6/50] https://aijobs.ai/job/sr-machine-learning-engineer-1...
      ‚úÖ Sr. Machine Learning Engineer
  [7/50] https://aijobs.ai/job/backend-software-engineer-python...
      ‚úÖ Backend Software Engineer - Python
  [8/50] https://aijobs.ai/job/senior-applied-ai-engineer-fmd...
      ‚úÖ Senior Applied AI Engineer (f/m/d)
  [9/50] https://aijobs.ai/job/staff-post-silicon-validation-engineer...
      ‚úÖ Staff Po

## 7. Traitement et Nettoyage des Donn√©es


In [10]:
# Convertir en DataFrame
df = pd.DataFrame(all_jobs)

# Nettoyer les donn√©es
if not df.empty:
    # Convertir tech_stack en string pour le CSV (on peut le r√©analyser plus tard)
    df['tech_stack_str'] = df['tech_stack'].apply(lambda x: ', '.join(x) if isinstance(x, list) else '')
    
    # Calculer le salaire moyen si min et max sont disponibles
    df['avg_salary'] = df.apply(
        lambda row: (row['salary_min'] + row['salary_max']) / 2 
        if pd.notna(row['salary_min']) and pd.notna(row['salary_max']) 
        else None, axis=1
    )
    
    # Nettoyer les localisations
    df['location'] = df['location'].fillna('Non sp√©cifi√©e')
    
    print("üìä Aper√ßu des donn√©es:")
    print(df.head())
    print(f"\nüìà Statistiques:")
    print(f"  - Total d'emplois: {len(df)}")
    print(f"  - Types de contrats: {df['work_mode'].value_counts().to_dict()}")
    print(f"  - Niveaux d'exp√©rience: {df['experience_level'].value_counts().to_dict()}")
    
    if 'avg_salary' in df.columns:
        avg_sal = df['avg_salary'].dropna()
        if len(avg_sal) > 0:
            print(f"  - Salaire moyen: ‚Ç¨{avg_sal.mean():,.0f}")
else:
    print("‚ö†Ô∏è Aucune donn√©e disponible")


üìä Aper√ßu des donn√©es:
                                           job_title  company_name  \
0                   Machine Learning Engineer Intern        Moloco   
1                               AI Software Engineer       Anaplan   
2                        Senior AI Engineer, AI Labs           NPR   
3  AI/ML Engineer / Solution Designer ‚Äì Toronto -...         Capco   
4                          Machine Learning Engineer  Speechmatics   

                                            location work_mode  \
0                  London,  England,  United Kingdom   On-site   
1                        Manchester,  United Kingdom    Hybrid   
2  Washington,  District of Columbia,  United States    Hybrid   
3                                   Canada - Toronto    Hybrid   
4               Cambridge,  England,  United Kingdom    Hybrid   

  experience_level  salary_min  salary_max  \
0           Junior         NaN         NaN   
1           Senior         NaN         NaN   
2           Sen

## 8. Analyse des Technologies les Plus Demand√©es


In [11]:
# Analyser les technologies les plus recherch√©es
if not df.empty and 'tech_stack' in df.columns:
    all_techs = []
    for tech_list in df['tech_stack']:
        if isinstance(tech_list, list):
            all_techs.extend(tech_list)
    
    tech_counter = Counter(all_techs)
    top_techs = tech_counter.most_common(10)
    
    print("üîß Top 10 Technologies les Plus Demand√©es:")
    for tech, count in top_techs:
        print(f"  {tech}: {count} offres")
    
    # Ajouter cette info au DataFrame
    df['top_tech_count'] = df['tech_stack'].apply(
        lambda x: len([t for t in x if t in dict(top_techs[:5])]) if isinstance(x, list) else 0
    )


üîß Top 10 Technologies les Plus Demand√©es:
  Python: 34 offres
  Machine Learning: 27 offres
  PyTorch: 17 offres
  TensorFlow: 15 offres
  Go: 11 offres
  AWS: 9 offres
  Java: 8 offres
  Kubernetes: 7 offres
  CI/CD: 7 offres
  Docker: 7 offres


## 9. Sauvegarde des Donn√©es


In [12]:
# Pr√©parer le DataFrame pour la sauvegarde
if not df.empty:
    # S√©lectionner les colonnes √† sauvegarder (inclure country_origin si disponible)
    columns_to_save = [
        'job_title', 'company_name', 'location', 'work_mode', 
        'experience_level', 'salary_min', 'salary_max', 'avg_salary',
        'tech_stack_str', 'job_description', 'job_url'
    ]
    
    # Ajouter country_origin si disponible
    if 'country_origin' in df.columns:
        columns_to_save.insert(3, 'country_origin')  # Apr√®s location
    
    # Garder seulement les colonnes qui existent
    save_df = df[[col for col in columns_to_save if col in df.columns]].copy()
    
    # Sauvegarder en CSV
    output_file = 'data/donnees_marche_emploi.csv'
    save_df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"\nüíæ Donn√©es sauvegard√©es dans {output_file}")
    print(f"   - {len(save_df)} lignes")
    print(f"   - {len(save_df.columns)} colonnes")
    
    # Afficher la r√©partition finale par pays
    if 'country_origin' in save_df.columns:
        print(f"\nüåç R√©partition finale par pays:")
        country_final = save_df['country_origin'].value_counts()
        for country, count in country_final.items():
            percentage = (count / len(save_df)) * 100
            print(f"   {country}: {count} offres ({percentage:.1f}%)")
else:
    print("‚ö†Ô∏è Aucune donn√©e √† sauvegarder")



üíæ Donn√©es sauvegard√©es dans data/donnees_marche_emploi.csv
   - 50 lignes
   - 11 colonnes
