In [21]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import requests
import pandas as pd

In [22]:
def job_offers_wtj(
        job_title: str = "data analyst",
        pages: int = 1
):
    """
    ---
    Web scraping WTJ
    ---
    Lance un navigateur et créée un dataframe contenant les informations de
    chaque offre d'emploi pour un nombre de pages définis sur le site
    Welcome To The Jungle.
    ---
    Paramètres :
    - job_title: str : Le nom du métier pour lequel rechercher des offres.
    - pages: int : Le nombre de pages sur lesquels rechercher les offres.
    ---
    Retourne :
    - Le df contenant les informations de toute les offres récupérées.
    """
    # Instanciation de la liste contenant les liens pour les requêtes APIs.
    api_links = []
    # Lien de l'API de Welcome To The Jungle pour récupérer les données.
    api_link = f"https://api.welcometothejungle.com/api/v1/organizations"
    job = job_title.lower().replace(" ", "+")
    # Instanciation du driver Firefox.
    driver = webdriver.Firefox()
    # Instanciation du dataframe final.
    full_df = pd.DataFrame()
    # Nom des colonnes à garder dans le dataframe final.
    cols_to_keep = [
        "name",
        "salary_period",
        "experience_level",
        "apply_url",
        "contract_duration_min",
        "office.city",
        "office.address",
        "office.district",
        "office.latitude",
        "office.longitude",
        "office.zip_code",
        "profession.category.fr",
        "profession.name.fr"
        "name",
        "education_level",
        "application_fields.mode",
        "application_fields.name",
        "description",
        "organization.average_age",
        "organization.creation_year",
        "organization.default_language",
        "organization.description",
        "organization.industry",
        "organization.nb_employee",
        "contract_type",
        "salary_min",
        "salary_max",
        "education_level",
        "remote"
    ]
    try:
        for i in range(1, pages+1):
            url = f"https://www.welcometothejungle.com/fr/jobs?refinementList%5Boffices.country_code%5D%5B%5D=FR&query={job}&page={i}"
            # Ouvre chaque page sur le navigateur.
            driver.get(url)
            try:
                # Récupère le lien de chaque offre d'emploi sur la page.
                contents = WebDriverWait(driver, 20).until(
                    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".sc-6i2fyx-0.gIvJqh"))
                )
                for content in contents:
                    link = content.get_attribute("href")
                    end_link = re.findall(r"/companies(.+)", link)[0]
                    full_link = api_link + end_link
                    # Rajoute le lien de chaque offre à la liste.
                    api_links.append(full_link)
            except Exception as e:
                print(f"Error scraping page {i} : {e}")
    finally:
        driver.quit()
    # Pour chaque lien de la liste, fait une requête API et stocke les informations dans un dataframe.
    for link_ in api_links:
        r = requests.get(link_)
        df = pd.json_normalize(
            r.json()["job"]
        )
        full_df = pd.concat([full_df, df], ignore_index=True)
    # Instanciation de la liste des colonnes à drop.
    cols_to_drop = [col for col in full_df.columns if col not in cols_to_keep]
    df = full_df.drop(columns=cols_to_drop)
    return df

In [23]:
df = job_offers_wtj("data analyst", 1)

In [10]:
from bs4 import BeautifulSoup
import pandas as pd
def clean_html(text):
    soup = BeautifulSoup(text, "html.parser")
    cleaned_text = soup.get_text(separator=" ")
    cleaned_text = cleaned_text.replace("\xa0", " ")
    return cleaned_text

df["description"] = df["description"].apply(clean_html)
df["organization.description"] = df["organization.description"].apply(clean_html)

In [None]:
df.head()

In [26]:
test = df.iloc[0]["description"]

In [29]:
test

'<p><b>Margo Analytics est l&#39;entité experte</b><span> de Margo Group des problématiques </span><b>Data, Cloud et DevOps</b><span> créée en 2020 par leurs fondateurs Raphaël et Mounir. Aujourd’hui </span><b>60 consultants</b><span> ont intégré l&#39;entité et nous avons commencé à travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, Énergie, E commerce, Santé). A leurs côtés, vous pourrez évoluer rapidement et développer de nouvelles compétences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et spécifiques à Margo Analytics à l’origine de l’entité :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions à fortes valeurs ajoutées</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionnés</b><span> et </span><b>curieux</b><span> qui cherchent à être </span><b>challengés </b></p><p><span>Aujourd’hui, Margo Analytics possède </span><b>4 communautés</b><s

In [30]:
huggingfacehub_api_token="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"

In [31]:
from langchain import HuggingFaceHub

repo_id = "tiiuae/falcon-7b-instruct"
llm = HuggingFaceHub(huggingfacehub_api_token=huggingfacehub_api_token,
                     repo_id=repo_id,
                     model_kwargs={"temperature":0.6, "max_new_tokens":500})



In [32]:
from langchain import PromptTemplate, LLMChain

template = """
You are an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.

{question}
"""
prompt = PromptTemplate(template=template, input_variables=["question"])
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [39]:
question =  """
what are the hard skills in this text, please store them as keywords in a list 
<p><b>Margo Analytics est l&#39;entité experte</b><span> de Margo Group des problématiques </span><b>Data, Cloud et DevOps</b><span> créée en 2020 par leurs fondateurs Raphaël et Mounir. Aujourd’hui </span><b>60 consultants</b><span> ont intégré l&#39;entité et nous avons commencé à travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, Énergie, E commerce, Santé). A leurs côtés, vous pourrez évoluer rapidement et développer de nouvelles compétences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et spécifiques à Margo Analytics à l’origine de l’entité :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions à fortes valeurs ajoutées</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionnés</b><span> et </span><b>curieux</b><span> qui cherchent à être </span><b>challengés </b></p><p><span>Aujourd’hui, Margo Analytics possède </span><b>4 communautés</b><span> de compétences :\xa0</span></p><p><b>- Data engineer\xa0 </b></p><p><b>- Data Science/ IA\xa0</b></p><p><b>- Galaxy OPS (devOps, dataOps, cloudOps)</b></p><p><b>- Architecte Big Data\xa0</b></p><p><span>Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous serez accompagné par les deux fondateurs ainsi que par le leader de votre communauté, dont les rôles sont de rechercher le projet qui correspondra le plus à vos attentes et de vous accompagner dans votre carrière.</span></p><p><span>🎯</span><b>Les missions Margo Analytics\xa0</b><b>:\xa0</b></p><p><span>Au sein de la communauté Data Engineer </span><b>vos missions</b><span>\xa0</span><b>seront</b><span> :\xa0</span></p><p><span>- </span><b>Développer en mode agile</b><span> les cas d’usages métier\xa0</span></p><p><span>- Mettre en place des </span><b>processus de collecte, d’organisation, de stockage et de modélisation des données</b><span>\xa0</span></p><p><span>- Développer des traitements de transformation et de production de données </span></p><p><span>- Assurer la </span><b>mise en production des modèles de prédiction</b><span> créés par les Data Scientists </span></p><p><span>- Participer à l’</span><b>amélioration continue</b><span> et au refactoring de code</span></p><p><b>Besoin de projection ? Voici un exemple de mission :\xa0</b></p><p><span>Camille accompagne un grand compte dans le domaine de l’industrie sur son projet de mise en place d’un nouveau datalake en Azure databricks. L’objectif de cette mission est d’assurer la distribution de la donnée de manière optimisée pour créer une couche de distribution et permettre aux Data Scientists d’implémenter les use cases. Camille apporte son expertise sur les technologies suivantes : Spark, Scala, Azure, Databricks.</span></p><p><b>Nos stack Technique :\xa0</b></p><p><span>- Langage : Python/Scala/Java</span></p><p><span>- Framework : Spark/Hadoop </span></p><p><span>- Cloud: Azure/ AWS/ GCP\xa0</span></p><p><b>🙌 Les avantages\xa0:\xa0</b></p><p>- Tickets restaurants Swile </p><p>- Mutuelle Alan prise en charge à 100%</p><p>- Pass Navigo pris en charge à 100%</p><p>- Télétravail</p><p>- Formations illimitées</p><p>- Locaux en plein coeur de Paris</p><p>- Places en crèches </p><p><b>🤝Notre processus de recrutement :</b>\xa0</p><p>Notre processus de recrutement se fait en 3 étapes, réparties sur 7 à 15 jours maximum : </p><p><b>- Première rencontre ! </b><span>Vous échangez avec un RH et un dirigeant sur votre parcours, vos aspirations professionnelles ainsi que sur Margo Analytics et les opportunités que nous proposons</span></p><p><b>-</b><span>\xa0</span><b>Challengez-vous </b><span>dans le cadre d’un entretien technique avec l’un de nos experts. C’est également l’occasion pour vous d’avoir son retour d’expérience</span></p><p><b>- Dernier entretien de motivation</b><span> : pour finir, vous rencontrez un membre du board de Margo Analytics pour un entretien final </span></p><p><b>🔍 Vous êtes un(e) futur(e) Margo Analytics si :</b><span>\xa0</span></p><p><b>Must-Have</b></p><p><span>Vous êtes issu(e) d’une école d’ingénieur ou d’un cursus universitaire équivalent niveau </span><b>Bac + 5</b><span> / Master</span></p><p><span>Vous aimez coder et vous êtes passionné(e) d’informatique et de Data</span></p><p><span>Vous êtes curieux(se) et vous vous intéressez aux dernières technologies du marché</span></p><p><span>Vous justifiez d’une première expérience en tant que Data Engineer</span></p><p><b>Nice to Have</b></p><p><span>Vous êtes ambitieux(se) et n’avez pas peur de travailler sur des projets challengeants dans des environnements à fortes contraintes techniques . Vous parlez et comprenez l’anglais.</span>\xa0</p
"""

print(llm_chain.run(question))
resume = llm_chain.run(question)

<p>Pour plus d'informations, n'hésitez pas à rejoindre le groupe "Data Engineers" sur LinkedIn, pour découvrir les dernières missions et les dernières offres d'emploi : <a href="https://www.linkedin.com/groups/data-engineers-fr/">https://www.linkedin.com/groups/data-engineers-fr/</a></p>
